You are on page 1of 527
STATISTIQUE THEORIQUE ET APPLIQUEE INFERENCE STATISTIQUE A UNE ET A DEUX DIMENSIONS Pierre DAGNELIE Cet ouvrage est publié avec le soutien du Fonds d'aide 4 l’édition. © De Boeck & Larcier s.a., 1998 Département De Boeck Université, Paris, Bruxelles Toute reproduction d'un extrait quelconque de ce livre, par quelque procédé que ce soit, et notamment par photocopie ou microfilm, est strictement interdite. Imprimé en Belgique ISSN 0779-9241 D 1999/0074/39 ISBN 2-8041-2802-4 Avant-propos Ce deuxiéme tome de la série Statistique théorique et appliquée a pour objet la présentation des principales méthodes d’inférence statistique @ une et & deux dimensions. En le préparant, nous nous sommes efforeé d’at- teindre simultanément plusieurs objectifs différents, qui peuvent paraitre difficilement conciliables premiére vue. Nous voudrions en effet, non seu- Jement, que le lecteur puisse apprendre & utiliser correctement les méthodes inference statistique, mais aussi, s'il le soubaite, qu'il puisse en saisir les fondements et les justifications, et qu’il puisse «aller plus loin ». * Utiliser correctement les méthodes d’inférence statistique, c'est tout @abord effectuer un choix judicieux, dans ensemble des méthodes dis- ponibles. C'est aussi connaitre les limites et les conditions d’application de ces méthodes, et savoir comment procéder, en conséquence, un premier examen des données & analyser. C’est encore savoir effectuer les contrdles qui s'imposent en ce qui concerne les conditions d’application, et le cas échéant, étre capable de procéder A certaines transformations des variables considérées. Tel est l'objet des quatre premiers chapitres, qui sont regroupés au sein de la premire partie, sous le titre de notions préliminaires. Les trois parties suivantes sont alors consacrées respectivement aux mé- thodes d'inférence statistique relatives & l'étude des données qualitatives (chapitres 5 et 6), aux méthodes relatives A l'étude des moyennes et de la dispersion, y compris analyse de la variance (chapitres 7 A 12), et aux méthodes relatives & la corrélation et la régression, y compris l’analyse de la covariance (chapitres 13 @ 17). Occasionnellement, nous introduisons aussi quelques extensions a plus de deux dimensions. « Mais utiliser correctement les méthodes d’inférence statistique, c'est éga- lement: savoir interpréter de maniére adéquate les résultats que ces méthodes fournissent. De nombreux exemples concrets, basés sur des données réelles, sont. présentés dans ce but. Ces exemples proviennent pour la plupart du sec- teur agronomique, au sens large, mais ils sont toujours introduits en termes tris généraux, ot aussi simples quo possible. Le caractére agronomique de la. majorité des exemples ne limite bien siir aucunement le champ d’application des méthodes considérées. Avant-propos Des exercices complémentaires sont aussi présentés & la fin des princi paux chapitres. Leurs solutions, accompagnées de nombreux commentaires, sont réunies en fin d’ouvrage. Saisir les fondements et les justifications des meéthodes d’inférence statistique, c'est pouvoir prendre connaissance d'informations suffisantes & ce sujet, et disposer des renvois nécessaires aux notions théoriques sous- jacentes. Le plus souvent, les justifications ne sont présentées qu’aprés les méthodes, de telle sorte que attention reste centrée sur les méthodes elles- mémes. Quant aux renvois, ils concernent principalement. le tome 1 de Sta- tistique théorique et appliquée [DAGNELIE, 1998], et figurent sous la forme « (STATI, .. De plus, les exemples et les exercices que nous présentons sont en général us limités quant au volume de leurs données. Nous pensons en effet qu'une des meilleures approches des méthodes statistiques, en vue d’en saisir cor- rectement les principes et les fondements, reste le traitement pas A pas de petits ensembles de données, & l'aide seulement d'une caleulette ou d'un tableur, sans aucun recours a l'un ou lautre systme élaboré de program- mation. La plupact des exemples et des exercices envisagés permettent une telle approche didactique. Enfin, aller plus loin, c'est donner le moyen d’aborder, le cas échéant, certains problémes qui ne peuvent pas étre tous inclus dans un seul volume. Dans cette optique, nous mentionnons un nombre important de références bibliographiques. Quelques 780 références devraient permettre & chacun de compléter son information en fonction de ses propres besoins. Ces références ont été choi- sies en privilégiant, d’une part, celles qui ont un caractére relativement classique ou général (revues bibliographiques, discussions, ete.), et d’autre part, celles qui, parmi les plus récentes, apportent le plus dinformations utiles au point de vue des applications. Ces références récentes permettent de remonter éventuellement & d'autres sources, plus anciennes, en fonction des nécessités, Encore faut-il, ponr atteindre les divers objectifs énoneés, pouvoir distin- guer les différents degrés d’importance et de difficulté des mativres pr tées. Comme dans le tome 1, nous définissons a cette fin différents « plans de lecture » ou « niveanx d’étude », présentés dans le mode demploi qui suit cet avant-propos. Avant-propos Ce tome 2 de Statistique théorique et appliquée est appelé & remplacer le volume 2 de Théorie et méthodes statistiques : applications agronomiques, largement diffusé depuis 1970 {DAGNELIE, 1970] Les lectenrs et les utilisateurs de ce demier ouvrage tronveront ici un texte entigrement remanié, et presque entitrement réécrit, L’évolution des moyens informatiques, et en particulier des logiciels statistiques, qui offrent 4 chacun de multiples possibilités, nous a en effet amené A modifier fonda- mentalement notre fagon de présenter les méthodes statistiques. En terminant ce travail, nous tenons 4 remercier trés sincérement toutes les personnes qui nous ont aidé dans sa réalisation, notamment en nous faisant part de commentaires relatifs A une premiere version de certains chapitres. Nous pensons tout spécialement & Jean-Jacques CLAUSTRIAUX, Guy- laine DELAPLACE-MELON, Anne DELVAUX, Jacques HEBERT, Philip- pe LEJEUNE, Robert OGER, Rudy PALM, Viviane PLANCHON, Hughes PREVOT, Alain RIBOUX, Jacques RONDEUX et Laurent VAN BELLE, tous collaborateurs ou anciens collaborateurs de la Faculté universitaire des Sciences agronomiques, du Centre de Recherches agronomiques et de la Station de Recherches foresti¢res de Gembloux (Belgique). Mai 1998. Mode d’emploi Selon le méme principe que pour le tome 1, Statistique théorique et ap- pliquée ~ tome 2 («STAT2») est congu de manidre & pouvoir étre utilisé & la fois comme manuel et comme ouvrage de référence Comme manuel, STAT2 peut étre considéré a différents niveaux d’étu- de: un premicr niveau, relativement élémentaire (environ 120 pages), peut con- sister en l'étude des seuls paragraphes dont le numéro est précédé ou suivi du signe ®, et l'erclusion, dans ces paragraphes, des alinéas et des exemples marqués en marge des symboles [ et | ; différentes variantes d’un deusiéme niveau, intermédiaire, peuvent étre con- stituées en ajoutant au niveau précédent divers paragraphes relatifs & Tun ou autre sujet, tel que étude des données qualitatives, analyse de la variance, ou la corrélation et la régression simples, mais toujours & Veaclusion des alinéas et des exemples marqués des symboles [ et |; un froisiéme niveau, plus avancé, peut consister en étude de ensemble du texte, sans lectures complémentaires. Au niveau intermédiaire, on peut prendre en considération, par exemple, en fonetion de V'intérét qu'on a pour un ou Vantre ensemble de méthodes : en ce qui conceme l'étude des données qualitatives (proportions, poureen- tages, etc.), les paragraphes 5.2.3, 5.3, 5.4.1 A 5.4.6, 6.2.4, 6.2.5 et 6.3.1 (environ 20 pages): en ce qui concerne V'analyse de la variance, les paragraphes 9.2.3, 9.3.3, 9 10.2.1 10.2.5, 10.3.1 a 10. 10.4.1, et 10.5.1 & 10.5.3 (environ 40, pages): en ce qui concerne la corrélation et la régression simples, les paragraphes 13.2.1, 13.3, 13.4, 14.2.1, 14.9.3, 14.3.5, 14.4.1 a 14.4.3, 14.5.1, 14.5.2, et 14.7.1 A 14.7.3 (environ 20 pages) On pourrait aussi envisager d'autres niveaur, plus avancés encore que ceux décrits ci-dessus, en complétant étude du présent ouvrage par la lec~ ture d’autres documents, qui peuvent étre choisis parmi les références citées au début de chacun des chapitres et a la fin de certains paragraphe Toujours dans optique d'un manuel, les ezercices qui sont présentés la fin de certains chapitres, et dont les solutions sont réunies en fin de 10 Mode d'emploi volume, concernent essentiellement les notions qui correspondent au niveau @émentaire, et dans une certaine mesure, au niveau intermédiaire définis ci-dessus. Les symboles ©, [ et | possedent, pour les exercices, la meme signification que pour le texte principal. En outre, afin de permettre au lecteur de traiter lui-méme facilement les exemples et les exercices, les données numériques des uns et des antres seront disponibles sur Internet, & adresse www. fsagx.ac.be/aides_pedagogiques/livres.dagnelie/index.htm On notera aussi que nous signalons, au début des différents chapitres, les exemples qui nous paraissent les plus représentatifs de la matiére traitée dans chacun des chapitres. Les personnes qui le souhaitent peuvent ainsi commencer la lecture, d’une manitre tout a fait conerdte, par les énoncés des problémes qui seront étudiés. Comme ouvrage de référence, STAT? peut étre abordé par Vinter- médiaire de Vindex des matiéres, et sa lecture peut étre complétée par la consultation d'autres travaux, cités dans l'index bibliographique, en faisant éventuellement appel & Pinder des traductions anglaises. Certaines références sont données au début des différents chapitres, mais la plupart d’entre elles figurent dans le texte proprement dit. Avant de re- chercher les travaux particulier cités dans le texte, le lecteur aura cependant intérét, le plus souvent, & consulter auiant que possible les ouvruges de base mentionnés en début de chapitre, voire méme certains autres livres. On peut en effet citer aussi les ouvrages encyclopédiques d’ARMITAGE et COLTON [1998], KOTZ et. JOHNSON (1982-1988, 1989], et KOTZ et al. [1997]; des livres généraur, tels ceux de DIXON et MASSEY (1983), KOOPMANS {1987], OSTLE et MALONE [1988], SNEDECOR et COCHRAN (1971, 1989], et STEEL et al. [1996] certains livres relatifs & des thimes particulicrs, mais pouvant otre utiles dans de nombreuses situations différentes, tels le livre de HAHN et MEE- KER [1991] en matigre d’intervalles de confiance et de tolérance, les livres de KREAMER et THIEMANN [1987], MACE [1964], et ODEH et FOX. [1991] en ce qui concerne les nombres d’observations & effectuer, et les livres de CONOVER [1980], GIBBONS [1997], et SPRENT [1992, 1993] pour les méthodes non paramétriques. Rappelons également, & ce propos, que le paragraphe 1.4 de STATI est entigrement consacré aux problémes de documentation en statistique. D'autres informations complémentaires pourront éventuellement étre trouvées ultérieurement sur Internet, & d’adresse figurant ci-dessus. Mode d'emploi " En outre, des tables et des abagues, et un index des symboles sont donnés en fin de volume. Le nombre de tables ct d’abaques est toutefois volontaire- ment limité, la consultation de tels documents devenant de moins en moins fréquente, au fur et A mesure du développement d’algorithmes et de logiciels spécialisés. En matiére de calcul, on notera que nous abordons volontairement les différents sujets considérés sans nous référer particulrement & tel ou tel logiciel statistique. Nous pensons en effet qu'un exposé général des méthodes inférence statistique a intérét rester indépendant de tout logiciel. Cette attitude ne s’oppose bien sir aucunement au fait que utilisation des méthodes implique, le plus souvent, le recours & l'un ow l'autre ensem- ble de programmes ou de procédures informatiques. Nous donnons d’ailleurs assez fréquemment, d titre d’ezemple, des indications relatives au logiciel Mi- nitab, et la plupart des figures ont été préparées A l'aide de ce logiciel [ZEH- NA et al, 1992; X, 1995, 1996]. Nous avons mentionné aussi, dans STAT1, les possibilités offertes, entre autres, par des logiciels tels que SAS (Sta~ tistical Analysis System) [CODY et PASS, 1995; CODY et SMITH, 1991; ELLIOTT, 1995; JAFFE, 1994], et S-Plus [EVERITT, 1994, VENABLES et RIPLEY, 1998), et par des tableurs tels qu’Excel [BERK et CAREY, 1995; MIDDLETON, 1995}. * Sur un plan plus technique, ajoutons que, sauf indications contraires, les intervalles de confiance sont toujours déterminés pour un degré de confiance égal 8 0,95 (ou 95 %), et les niveaur de signification qui interviennent dans les tests d’hypotheses sont toujours les niveaux conventionnels 0,05 (ou 5%), 0,01 (ou 1 %), et 0,001 (ou 0,1 %) [STATI, paragraphes 9.4.1.2° et 10.3.1.4°). De mame, sauf indications contraires, chaque fois qu’un test unilatéral et un test bilatéral peuvent étre considérés & propos d'une méme hypothése nulle, par exemple en matiére de comparaisons de moyennes [STAT1, pa- ragraphe 10.3.3,6°], nous ne donnons que les informations relatives au test J, la transposition au test unilatéral pouvant étre réalisée sans diffi- cultés majeures. bilateé Tonjours en ce qui concerne les tests d’hypothéses, au cours des premiers chapitres, nous présentons systématiquement la réalisation des tests, a la fois, par la comparaison de la probabilité ou valeur P avec le niveau de signification (STATI, paragraphe 10.3.2.2°], e’est-d-dire par exemple : P({U| > 1,08) = 0,28 et a=0,05, et par la comparaison de la valeur de la variable considérée elle-meme avec In valour théorique correspondante (STAT, paragraphe 10.3.2.3°], par exemple Uohs = 1,08 et uo.975 = 1,96 Ultérieurement, nous ne considérons en général que la premiére approche, comme il est actuellement de pratique relativement courante [STAT1, pa- ragraphe 10.3.3.4°] 12 Mode d'emploi Toutefois, dans les tableaux d’analyse de la variance, nous faisons fign- rer le plus souvent, & la fois, les probabilités et les astérisques qui indiquent conventionnellement le degré de signification des tests [STAT1, paragtaphe 10.3.1.4°}, méme si ces mentions sont redondantes, et ne s‘imposent. pas en réalité, Rappelons aussi, & ce propos, que les résultats des tests d’hypotheses sont conventionnellement qualifiés de significatifs au niveau de probabilité 0,05, hautement significatifs au niveau de probabilité 0,01, et trés haute- ment significatifs au niveau de probabilité 0,001 . D'autre part, nous sommes assez fréquemment amené A faire une dis- tinction entre les « petits échantillons» et les «grands échantillons », des méthodes exactes étant présentées dans le premier cas, et des méthodes ap- prochées élant introduites dans le deuxitme cas. L’effectif 30 est souvent considéré, d'une maniére générale, comme devant étre la limite entre ces deux situations. Cette facon de faire est relativement arbitraire, et nous nous efforgons de donner autant que possible des indications plus précises & ce sujet. Sommaire NOTIONS PRELIMINAIRES. 1. Le choix d'une méthode d’analyse statistique . 2. Les conditions d’application des méthodes statistiques et examen initial des données 3. Les tests d’ajustement et de normalité et les observations aberrantes ............ 4. Les transformations de variables ....0..0..006. L'ETUDE DES DONNEES QUALITATIVES 5. Les méthodes relatives & une ou deux proportions ou un ou deux pourcentages ..........115 6. Les tableaux de contingence ... a easel? METHODES RELATIVES AUX MOYENNES ET A LA DISPERSION 7. Les méthodes relatives a la dispersion ......0..000cc0ceeeereeeeee cette 163 8. Les méthodes relati une ou deux moyenne: 189 217 9. L'analyse de la variance & un critére de classification . 10. L’analyse de la variance & denx eritares de classification wepemyeaes 11. L’analyse de la variance & trois et plus de trois critéres de classification ......6...00.+...917 12. Les comparaiso particuliéres et multiples de moyennes cnraswansensensnneed 353 ERE! NCE STATISTIQUE A DEUX DIMENSIONS 13. Les méthodes relative - 387 407 - 459 - 507 - 547 A la corrélation simple 14, Les méthodes relatives & la régression linéaire simple 15. La régression non linéaire simple et la modélisation .. 16. La régression multiple et le modele linéaire général 17. L’analyse de la covariance EN GUISE DE CONCLUSION . 569 14 Sommaire ANNEXES Solutions des exercices Tables abaques . Index bibliographique Index des traductions anglaises .............. Index des matidres ..... Index des symboles .....60..c00teccceeeeees sake on La table des matiéres détaillée figure en fin de volume. PREMIERE PARTIE NOTIONS PRELIMINAIRES Le choix d’une méthode d’analyse statistique Les conditions d'application des méthodes statistiques et l’examen initial des données Les tests d’ajustement et de normalité et les observations aberrantes Les transformations de variables Chapitre 1 Le choix d’une méthode d’analyse statistique 1.1 Introduction 1.2 Les facteurs de choix d'une méthode d’analyse statistique 1.3 Uncanevas général de choix d'une méthode d’analyse statistique 18 Le choix d'une méthode d’analyse statistique e141 Introduction Comme nous l'avons signalé dans l’avant-propos, le choix d'une méthode analyse statistique bien adaptée A une situation donnée est un probleme dautant plus délicat et d’autant plus important que les logiciels statisti- ques offrent a leurs utilisateurs des solutions et des options toujours plus nombreuses et plus diversifi¢es. C'est. aussi un t difficile & traiter d'une maniére générale, et d’ailleurs trés peu développé dans la plupart des ou- vrages de statistique appliquée. Nous nous efforcerons cependant de fournir & ce propos un certain nom- bre d’indications utiles, en passant en revue les principaux facteurs de choir (paragraphe 1.2), et en présentant un canevas général de choix des méthodes (paragraphe 1.3). | Ontrouvera des informations complémentaires i ce sujet dans les livres @ ANDREWS et al. [1981], CHATFIELD [1995], COX et SNELL [1981]. et | dans les articles d’EHRENBERG [1996] et HAND [1994]. 1.2 Les facteurs de choix d’une méthode d’analyse statistique © 1.2.1 Principes généraux 1° Le probléme que nous abordons ici est celui da choix dune méthode danalyse statistique, soit au moment de la préparation d'une enquéte ou dune expérience, dans le cadre de l’élaboration du plan denquéte ou d'expé- rience, soit au moment oit les données & soumettre a analyse ont deja été récoltées et sont immédiatement disponibles. Nous n’envisagerons pas de fagon particuliére les divers éléments con- stitutifs de tout plan d’enquéte on d'expérience, que sont notamment la définition de la ou des populations-parents, la définition des unités de ba- se de l'enquéte ou de lexpérience, la définition des observations a réaliser, le choix d'une méthode d’échantillonnage ou d’un dispositif expérimental, etc, Nous supposerons que ces éléments, an sujet desquels nous avons fourni antérieurement un certain nombre d’indications générales [STATI, para- graphes 2.2 et 2.3], ont été préalablement définis, ou au moins, que toutes les informations nécessaires & leur définition sont disponibles. 2° Le plan adopté pour lenquéte on lexpérience confére aux observa- tions, qui doivent étre réalisées ou qui le sont deja, une certaine structure, en termes notamment de nombre de populations et de nombre de variables on de caractares considérés. Cette structure des données est éviderament un des éléments de base du choix de la ou des méthodes d'analyse statistique A utiliser (paragraphe 1.2.2). D’autres facteurs essentiels de ce choix sont lobjectif ou les objectifs poursuivis (paragraphe 1.2.3), la nature des données i analyser (paragraphe 1.2 Les facteurs de choix d'une méthode d'analyse statistique 19 1.2.4), et les propriétés des méthodes statistiques elles-mémes (paragraphe 3° En parlant de populations-parents, d’échantillonnage et d’expérience, nous nous placons volontairement dans le cadre de I’ inférence statistique, et non pas de la statistique descriptive. Nous considérons en effet que la tres grande majorité des problémes étudiés dans le domaine agronomiqne ou biologique sont, comme dans de nombreux autres domaines d’ailleurs, des problemes de nature inférentielle. Iimporte, dans ces conditions, d’étre toujours particuligrement. attentif au caractere représentatif des individus qui ont été ou qui seront observés. Nous reviendrons sur ce point au paragraphe 2.2.2. 4° Avant d’examiner de maniére plus détaillée les différents facteurs de choix que nous venons de citer, il n’est pas inutile de souligner aussi le fait, qwaucune analyse statistique élaborée ne mérite d’étre réalisée pour des données de qualité défectueuse. L’analyse statistique ne peut pas fournir aux données des propriétés, de représentativité par exemple, qu’elles ne possédleraient pas elles-mémes au départ. La structure des données 1.2.2® 1° La structure des données est bien sir fonction, en tout premier lieu, du nombre de variables on de caractéres et du nombre de populations ou d’échantillons qui sont pris en considération. En ce qui conceme le nombre de variables ou de caractéres, comme nous avons signalé dans l'avant-propos, nous nous limiterons dans ce volume, le plus souvent, aux cas d'une variable ou un caractére considéré isolément, et de deux variables ou deux caractires considérés simultanément. 2° Quant au nombre de populations, nous envisagerons les problémes plusieurs populations. Dans le cas de plusieurs populations, nous devrons faire une distinction entre les situations pour lesquelles toutes les populations sont considérées sur pied d’égalité, en fonction d'un seul facteur, et les situations oft les populations sont liées deur ou plusieurs facteurs, associés l'un & l'autre ou les uns aux autres [STAT1, paragraphe 2.3.3]. Nous désignerons en général le nombre de populations par p, quand un seul facteur intervient, et par Pq, pqr, etc., quand deux ou plusicurs facteurs sont pris en considération, les valeurs p, q. rete. étant les nombres de modalités, de variantes ou de niveaux des différents facteurs. En outre, les nombres de populations sont parfois considérés comme infinis ou quasi infinis, des observations n’étant toutefois effectuées que dans un nombre fini d’entre elles. Ainsi, dans le cas de l’échantillonnage & deux degrés [STAT1, paragraphe 2.2.4.4°], les unités du premier degré sont trs souvent considérées comme une infinité ou une quasi-infinité de populations, dont un certain nombre seulement sont sélectionnées en vue dobserver des unités du deuxiéme degré. 20 Le choix d'une méthode d’analyse statistique On peut illustrer ces différentes situations en se référant a certains des exemples qui seront traités ultérieurement. L'exemple 8.3.1 (teneurs en ri trates d’eaux de sources) concerne une seule population. Les exemples 8.4.1 et 9.2.1, qui sont basés sur les mémes données (hauteurs des arbres de différents types de hétraies), ont trait respectivement & deux et a trois po- pulations (deux et trois types de hétraies), qui ne different qu’en fonction d'un seul facteur. L’exemple 10.2.1 (teneurs du sol en P2O5) fait intervenir six populations, qui sont liées & l'association de deux facteurs, l'un A deux modalités (deux types de sols), et autre a trois modalités (trois types de sondes). L’exemple 9.3.3 (rendements fourragers de prairies) concerne, pour un seul facteur, une infinité ou un trés grand nombre de populations (un grand nombre de prairies), dont trois seulement sont objet d’observations 3° La nature des facteurs est aussi un élément déterminant, pour le choix de certaines méthodes. Les facteurs considérés peuvent en effet étre soit qualitatifs, c’est-A-dire constitués de modalités ou de variantes non or données (plusieurs engrais de natures différentes, par exemple), soit quan titatifs, ¢’est-a-dire constitués de modalités ou de niveaux ordonnés selon leurs valeurs numériques (différentes doses dun méme engrais, par exemple) [STATI, paragraphe 2.3.3.1°). Dans exemple 10.2.1, auquel nous venons de faire allusion, les deux fac- teurs sont qualitatifs, alors que l’exemple 10.2.4 (croissance en hauteur de mousses) fait intervenir deux facteurs quantitatifs (deux durées d’éc ment, associées & trois doses différentes d'une méme substance de croissan- ce). 4° Enfin, un autre élément important, en ce qui concerne la structure des données, est le fait que les échantillons peuvent étre prélevés soit tout a fait indépendamment les uns des autres, soit au contraire en introduisant certaines relations de dépendance entre eux. Une telle relation de dépendance existe notamment quand deux ou phi- sieurs méthodes de mesure sont comparées A partir d'observations effec- tuées sur les mémes individus, choisis dans une population donnée. Les échantillons sont alors dits non indépendants on corrélés. En particulier, pour deux populations, on parle d’échantillons associés par paires|"), et de comparaisons par paires), Tel est le cas pour les exemples 8.5.1 et 10.3.6 (teneurs en lutécium de matiéres fécales, déterminées respectivement par deux et par trois méthodes analyse chimique). Une relation de dépendance existe également quand on effectue des ob- as sur des couples ou des groupes d'individus liés les uns aux autres, tels que des ensembles de fréres ou de demi-fréres. C’est le cas, par exemple. quand on choisit dans une population donnée un certain nombre de nichées de porcelets, et qu’on soumet un porcelet de chaque nichée & chacun des traitements considérés, servat () Matched samples. ®) Paired comparison. 1.2 Les facteurs de choix d'une méthode d’analyse statistique De méme, les observations successives, qui sont effectuées a différents moments sur les mémes individus, ne doivent pas étre considérées comme indépendantes les unes des autres. Les objectifs poursuivis 1.2.3 ® 1° D’une fagon générale, on peut considérer que les deux objectifs princi- paux de linférence statistique sont I’estimation, y compris la détermination de limites de confiance (STATI, chapitre 9], et la prise de décisions, par Vintermédiaire de tests d’hypothéses [STATI, chapitre 10). L’estimation peut évidemment concerner des paramétres individuels (es- timation d’une moyenne, dune variance, d’un écart-type, d’une proportion, un coeificient de corrélation ou de régression, etc.). Mais elle peut aussi avoir trait des fonctions de deux ou plusieurs paramétres (estimation de différences de moyennes ou de différences de coefficients de régression, cor- respondant. & des différences de rendements ou A des différences de vitesses de croissance, par exemple). Quant aux tests "hypotheses, ils concernent, comme nous l'avons signalé antéricurment (STATI, paragraphe 10.2], des problémes d’ajustement, de conformité, d’égalité, d’indépendance, ete. Au sujet de ces deux approches, en termes d’estimations d’une part, et de tests d’hypothéses d’autre part, ily a lieu d’étre attentif & ne pas privilégier abusivement l'une par rapport 4 Vautre, dans un sens comme dans Yautre. Au contraire, dans de nombreux cas, les deux approches doivent étre considérées comme complémentaires l'une de l'autre 2° Au-dela de cette premiere distinction, des objectifs plus particuliers peuvent étre définis dans certaines situations. En matiére de comparaisons de plus de deux moyennes par exemple, mais en ne considérant tout d’abord qu’un seul facteur, ces objectifs particulier peuvent étre la recherche de la ou des populations de moyennes maximums ou minimums (rendements maximums ou optimums, dégéts minimums dus Aun ou l'autre agent pathogene, etc.), ou la comparaison dune série d’ob- Jets avec un témoin (comparaison d'un ensemble de variéiés nouvelles avec une variété témoin, par exemple), ete. En présence de deux ou plusieurs fac- teurs, des objectifs particuliers peuvent étre aussi de mesurer importance de chacun des facteurs, considérés individuellement, ou de chiffrer 'impor- tance des interférences ou des interactions qui existent éventuellement entre les différents facteurs, ou encore de rechercher des conditions optimales (de fabrication, par exemple). De méme, dans le cas de deux variables étudiées simultanément, il y a lieu de distinguer clairement ce qui reléve des notions de corrélation et de régression au sens des moindres rectangles, en ce qui concerne deux variables interdépendantes, et ce qui releve des notions de régression au sens des moindres carrés, en ce qui concerne une variable dépendante exprimée en fonction d’une variable explicative [STAT1, paragraphe 4.8.1.1°), et de méme, ce qui a trait ala recherche d’une relation linéaire, ou au contraire, une relation non linéaire ou d’un modéle plus complexe, ete. Le choix d'une méthode d’analyse statistique 2124 © 1.25 La nature des données 1° Quant A la nature des données, il importe d’avoir en permanence en mémoire, au moment du choix d’une méthode d’analyse statistique, les différents types fondamentanx que nous avons introduits antérieurement, STATI, paragraphe 2.4.1). En allant du cas oit les données sont les plus riches en information, au cas oit elles sont les plus pauvres, ces différents types peuvent @tre présentés comme suit : données quantitatives : de nature continue (inesures vu mensurations), de nature discontinue (dénombrements ou comptages) ; données qualitatives (caractieres ou attributs) : données ordinales, données nominales & plus de deux niveau, données binaires ou alternatives ou indicatrices. La distinction entre ces différents types de données peut étre fondamen- tale dans certains cas. Ainsi, l'étude de Vindépendance de deux earactéres qualitatifss et étude de rindépendance de deux variables quantitatives font appel A des méthodes tout A fait différentes (paragraphes 6.2 d’une part, et 13.4 d’autre part) Dans certains cas, d’antres types de donnée également étre pris en considération. tels que des rangs, doivent 2° En outre, la conversion ou le codage dun type de données en un autre type peut parfois étre envisagé. Ainsi, des données quantitatives con- tinues peuvent presque toujours étre facilement transformées en rangs, et éventuellement aussi en données alternatives ou ordinales. par codage en deux ou plus de deux catégories. Tl en résulte cependant, en général, une certaine perte d'information. De méme, des données ordinales, voire méme nominales ou binaires, pen- vent étre codées de fagon numérique. Toutefois, V'interprétation des valeurs numériques ainsi obtenues doit toujours étre réalisée avec la plus grande circonspection, Les propriétés des méthodes statistiques Comme nous l'avons déji signalé, et comme nous le préciserons encore au cours des paragraphes 2.2.3 et 2.2.4, certaines méthodes d’inférence sta- tistique sont plus sensibles que d'aute elles anomalies présentes dans les données, et certaines méthodes sont. aussi plus efficaces on plus puissantes que d’autres. En relation avec la nature des données, ces propriétés des méthodes statistiques elles-mémes peuvent évidemment influencer le choix de telle ou telle méthode d'analyse. sa d’éventu 1.3 Un canevas général de choix d'une méthode d'analyse statistique Un canevas général de choix d’une méthode d’analyse statistique Principes généraux 1° Nous présentons aux paragraphes 1.3.2 et 1.3.3 un canevas général de choix d'une méthode d'analyse statistique, relatif aux différents cas qui concernent, tout dabord, une variable ou un caractére, puis deur variables ou deux caracte: Ce canevas consiste en une énumération, sous forme de tableaux, des principaux problémes qui sont considérés dans ce volume. Les différents tableaux renvoient chaque fois aux paragraphes ou aux chapitres correspondants. Nous recommandons vivement de ne pas utiliser ce canevas sans avoir une bonne connaissance préalable des facteurs de choix, tels qu’ils viennent détre présentés au paragraphe 1.2. [2° Une tendance relativement récente consiste essayer de résoudre le probleme du choix d’une méthode d’analyse statistique par ordinateur, évontuellement a l'aide de programmes de type systémes-experts®), 1 faut cependant considérer que ces programmes sont, en général, uniquement expérimentanx ou limités A des domaines particuliers [HAND, 1991; HAUX, 1986; HERRMANN et al., 1994; RYDER et BRENT, 1990; SILVERS et al., | 1994; STREITBERG, 1988]. Le cas d'une variable ou un caractére 1° Pour une variable on un caractire, le tableau 1.3.1 concerne un certain nombre de considérations générales, tandis que les tableaux 1.3.2 & 1.3.4 traitent successivement le cas d’ une population (tableau 1.3.2), le cas de deur populations (tableau 1.3.3), et le cas de plus de deux populations (tableau 1.3.4) Quelques remarques complémentaires, relatives i ces différents tableaux, figurent. en ontre dans les lignes snivantes, Tableau 1.3.1. Chox dune méthode d'analyse statistique : considérations générales relatives au cas dune variable ou un caractére. ontrale due: re aléatoire et simple d'une série dobservations (tests du | toire et simple) paragraphe 24 | Contrale de la conformité des observations avec un modéle théorique butions normale, distributions de POISSON, distributions exponentilles, ete. (tests d'ajustement et de normalité) + paragraphes 3.2 03.4 | Identification d’éventuelles observations aberrantes 5 « paragraphe 3. @) Bapert system 1.3 1.3.12 1.3.22 24 Le choix d'une méthode d’analyse statistique Tableau 1.3.2, Choix d'une méthode danalyse statistique cas d'une variable ou un caractére et une population. Estimation et détermination des limites de confiance d'une proportion - 3 paragraphe 5.2 Contrble dela conformité d'une proportion avec une valeur théorique (tests de conformité) . paragraphe 5.3 Estimation et détermination deg limites, de confiance d'une variance, dy écart-type ou d'un coefficient de variation .. paragraphe 7.2 ‘Contre de la conformité d'une variance, d'un écart-type ou d'un covfficient de variation avec une valeur théorique ‘(tests de conformité).... retinas paragraphe Estimation et détermination des limites de confiance d'une moyenne - + paragraphe 8.2 Contzle de i cunformité d'une moyenne ou dune méiane ave une valeur théorique (tests de conformité) paregraphe 8.3 2° En ce qui concerne le tableau 1.3.3 (une variable ou un caractére et deux populations), il y a lieu d’étre toujours attentif & la distinction en- tre échantillons indépendants et échantillons non indépendants (paragraphe 1.2.2.4°), et cela pour tous les paramitres considérés (proportions, variances, Gearts-types, coefiicients de variation, moyennes et médianes). Tableau 1.3.3. Choix d'une méthode danalyse statistique: cas d'une variabie ou un caractare et deux populations. Comparaison de proportions relatives & deux populations (tests d'égalité des proportions, estimation et détermination des limites de confiance de differences et dé rapports de proportions) ....... paragraphes 5.4 et 0 Comparaison des variances, des écarts-types ou des coefficients de variation de deux populations (tests d’égalité des variances, des éarts-types ou des coefficients de variation, estimation et détermination des limites de confian- ce de rapports de variances, décarts-types on de coeficients de variation) | HEGSe 3 ecTees ses paragraphe 7.4 Comparaison des moyennes ou des médianes de deux populations (tests d’éxa- Wed ats eaoau od tees: qecanion cx dtcerciaatien aes Timites de confiance de différences de moyennes) + paragraphes 8.4 et 8.5 3° Quant au tableau 1.3.4 (une variable ou un caractére et plus de deux populations), la méme distinction doit également étre faite, de la meme maniére, pour les parambtres de dispersion (variances, écar ficients de variation) et pour les médianes, ypes et coef Pour les moyennes, par contre, cette distinction intervient d’une maniére sensiblement différente : elle conduit en effet & ajouter chaque fois un critére de classification & l’analyse de la variance. Ainsi, dans le cas d’échantillons non indépendants, la comparaison de p moyennes, qui se distinguent par effet d'un seul facteur, met en ceuvre Panalyse de la variance & deux critéres de classification, et non pas A un seul eritare de classification En ce qui concerne les proportions, nous n’envisagerons pas de fagon explicite le cas des échantillons non indépendants, pour plus de deux popu lations. Ce probléme peut toutefois étre rattaché dans une certaine mesure aux tableaux de contingence a trois dimensions (paragraphe 6.3). 1.3 Un canevas général de choix d'une méthode d’analyse statistique Tableau 1.3.4. Choix d'une méthode c'analyse statistique :cas, d'une variable ou un caractére et plus de deux populations. Comparaison de proportions relatives & p populations (tests @égalité, des proportions) . + paragraphe 6.2.4 Comparaison des variances, des écarts-types ou des coefficients de variation de P.populations (tests d’égalité des variances, des 6arts-types ou des coef cients de variation) . paragraphe 7.5 Comparaison des moyennes ou des médianes de p ot Jations (analyse une infinité de popu- e de la variance & un critere de classification) z chapitre 9 et paragraphe 16.4 copy des moyennes ou des médianes de pq ou d'une infinité de po- tions (analyvo de la varianco & deux exttees do elasification) aia = chapitre 10 et paragraphe 16.4 Comparaison des moyennes de pqr ou d’une infinité de populations (analyse de la variance & trois eriteres de classification) .. iapitre 11 et paragraphe 16.5 D’autre part, on notera que la mention analyse de la variance doit tou- jours étre interprétée comme offrant, simultanément, des possibilités de tests (tests d’égalité de moyennes), et des possibilités d'estimation et de determination de limites de confiance (pour des moyennes, des différences de moyennes, des composantes de variances, et des rapports de compo- santes de variances). En outre, analyse de la variance doit tris souvent: étre complétée par la réalisation de comparaisons particulitres ow multi- ples de moyennes, qui permettent de répondre a des questions spécifiques (chapitre 12). Le cas de deux variables ou deux caractéres 1° Selon une présentation semblable & celle qui a été adoptée an para- graphe précédent, mais cette fois pour deux variables ou deux caractéres, le tableau 1.3.5 concerne quelques considérations générales, tandis que les tableaux 1.3.6 4 1.3.8 traitent successivement le cas d'une population (ta- bleau 1.3.6), le cas de deur populations (tableau 1.3.7), et le cas de plus de deux populations (tableau 1.38). Tableau 1.3.5. Choix dune méthode générales relatives au cas de deux variables ou deux caractéres. Contréle de la conformité des observations avec un modéle théorique : distri- bhations normnales & deux dimensions par exemple (tests dajustement et de normalité) + paragraphe 3.6 Identification d’éventuelles observations aberrantes ......... paragraphe 3.6 2° En complément au tableau 1.3.6 (deux variables ou deux caractéres et une population), on notera que l'analyse de la variance A un critére de classification, dont il est question dans le tableau 1.3.4, peut étre considérée aussi comme une méthode permettant de controler lindépendance d’une variable quantitative, en Voceurrence la variable soumise A lanalyse de la 13.3 Le choix d'une méthode d'analyse statistique variance, vis-2-vis d'un caractéve qualitatif, en occurrence le facteur con- sidéré, D'autres situations sont également évoquées au paragraphe 15.5.1. Tableau 1.3.6. Choix dune méthode danalyse statistique cas de deux variables ou deux caractéres et une population, ‘Controle de l'indépendance de deux séries d’observations, pour des données qualitatives (tests d’indépendance) paragraphe 6.2 Estimation et détermination des limites de confiance du degré de dépendance entre deux séries observations, pour des données qualitatives...- paragraphe 6.9.5 Contre de independance de deus sities observations, pour des donnes quantitatives ou es Tangs (tests de signification de eneliients de core lation) paragraphe 19.4 Estimation et détermination des limites de confiance dun coefficient de corré- lation .... cecseese paragraphe 13.3 Contrdle de la conformité d’un coefficient de corrélation avec une valeur théorique (tests de conformité) . + paragraphe 13.4 Contdte de la lingarité de la relation pouvant exister entre deux séries dob servations (tests de linéarité) = paragraphe 14.5.4 Estimation et, détermination des limites de confiance d'un coefficient de ré- gression linéaire au sens des moindres carrés .. + paragraphe 14.3 Contréle de la conformité d’un coefficient de régression linéaire au sens des ‘moindtes carrés avec une valeur théorique (tests de conformité)..... . paragraphe 14.5 Estimation et détermination des limites de confiance de lordonnée & Vorigine dune droite de régression au sens des moindres carrés .. paragraphe 14.3 Contréle de la conformité de Vordoanée & Vorigine d’une droite de régression ‘alt sens des moindres earres avec ine valeur théorique (tests de eonformite) > paragraphe 14.5 Estimation et détermination des limites de confiance de la variance résiduelle ou de I éeart-type résiduel lied une droite de régression au sens des moindres carrés + paragraphe 14.3 Détermination d'une moyenne conditionnelle ou d’une valeur estimée & Vaide aime droite de régression au sens des moindres carrés et des limites: de confiance correspondantes os seees paragraphe 14.4 Controle de la conformité d’une moyenne conditionnelle ou d'une valeur es- timée a aide d'une droite de régression au sens des moindres carrés avec une valeur théorique (tests de conformite) + paragraphe 14.4 Estimation et détermination des limites de confiance d'un coefficient de ré- gression linéaire au sens des moindres rectangles ...... paragraphe 14.7.2 Contréle de la conformité d’un coefficient de régression linéaire au sens des moindres rectangles avec une valeur théorique (tests de conformité) » paragraphe 14.7.3 Problemes de négresion cuvilinéaire (y compris ia modétsation, Vcd des séries chronologiques, etc.) .. we chapitre 15 3° D’autre part, les remarques qui ont été formulées au paragraphe 1.3.2, en ce qui concerne les tableaux 1.3.3 et 1.3.4, s’appliquent aussi dans une large mesure aux tableaux 1.3.7 et 1.3.8 (deux variables ou deux caraetéres et deux ou plus de deux populations). Crest_ainsi qu’en analyse de la covariance, la prise en considération Véchantillons non indépendants augmente d'une unité le nombre de critdres 1.3 Un canevas général de choix d'une méthode d’analyse statistique de classification, comme en analyse de la variance. De méme, |'analyse de la covariance doit étre considérée aussi, 4 la fois, comme une procédure de tests et une procédure d'estimation et de détermination de limites de confiance. Et enfin, l'analyse de la covariance doit également étre suivie fréquemment de comparaisons particuliéres ou multiples de moyennes (chapitre 12). Tableau 1.37. Choix d'une méthode d'analyso statistique : cas de deux variables ou deux caractéres et deux populations. ‘Comparaison des coe lent de corrlation de deux populations (rests dea lité des coefficients de corrélation) + paragraphe 13.5 Comparaison des coefficients de régression linéaire au sens des moindres carrés relatifs & deux populations (tests d'égalité des coefficients de régression ou tests de parallélisme, estimation et détermination des limites de confiance de differences de coefficients de régression) paragrophe 14.6 ‘Comparaison des moyennes de deux populations, pour une des deux variables, apres ajustement en fonction des valeurs de autre variable (analyse de In covariance A un eritére de classification) secseesss paragrophe 172 Tableau 1.3.8. Choix diune méthode d'analyse statistique : cas de deux variables ou deux caractéres et plus de deux populations. Comparaison des coefficients de corrélation de p populations (tests d’ igalité des coefficients de corrélation) paragrophe 13.5 Comparaison des coefficients de régression linéaire au sens des moindres carrés Telatfs & p populations (vests d'egalité des coeficients de régression ou vets de parallélisme) ..... paragraphe 14.6.3 Comparaison des movennes dep. de pq et. ou d'une infinité de populations, pune des deax varices, apres ajusteient en fonction des valeurs de autre variable (onatyes de la covariance 4 un ou pneiiiaa critéres de clas- sification) - ane +» chapitre 17 Chapitre 2 Les conditions d’application des méthodes statistiques et ’examen initial des données 2.1 Introduction 2.2 Les conditions d’application des méthodes statistiques 2.3 Lexamen initial des données 2.4 Quelques tests du caractére aléatoire et simple d'une série d'observations Exercices 30 Les conditions d’application des méthodes statistiques et 'examen initial des données S21 2.2 ® 221 Introduction 1° Les méthodes d'inférence statistique ne sont applicables que dans des conditions plus ou moins restrictives, qui concernent notamment les modalités de collecte des données, et la forme de la ou des distributions des populations-parents. Telle est la premi@re question que nous aborderons au cours de ce chapitre (paragraphe 2.2). D’autre part, avant toute analyse statistique quelque peu élaborée, il est en général souhaitable de procéder A un premier examen des données disponibles, en tenant compte A la fois du ou des objectifs poursuivis, et des exigences des méthodes d’analyse dont Vutilisation est envisagée. Nous consacrerons également un paragraphe & ce sujet (paragraphe 2.3). [ Des informations complémentaires générales sont données notamment par CHATFIELD [1995], COX et SNELL 1981], HAHN et MEEKER [1993), | et MADANSKY [1985). 2° En outre, nous présenterons de fagon plus particuliére quelques tests du caractére aléatoire et simple Mune série W’observations, qui peuvent servir & compléter l’examen initial des données (paragraphe 2.4). 3° Les exemples 2.3.1 et 2.3.2 illustrent les questions que soulve lexa- men des données, a une et & deux dimensions, tandis que les exemples 2.4.1 ct 2.4.2 sont relatifs aux tests du caractére aléatoire et simple. Les conditions d’application des méthodes statistiques Principes généraux 1° Les problémes d’estimation et les tests d’hypothéses que nous avons envisagés pour illustrer les notions de base de l'inférence statistique [STAT1, chapitres 9 et 10] nous ont montré que différentes conditions d’application devaient: étre prises en considération. Ces conditions ont trait au caractére aléatoire et simple, et éventuellement indépendant, des échantillons, a la normalité des populations-parents, et parfois aussi, a l"égalité des variances de ces populations. En outre, dans les problémes relatifs A des données bidimensionnelles, des restrictions peuvent intervenir également en ce qui concerne la linéarité ou la non-linéarité de la ou des relations étudiées. Notre but est de compléter ici les informations que nous avons données antérieurement a ce sujet. 2° D’une maniére générale, toute analyse statistique de données ob- servées peut étre considérée comme appartenant & l'un ou l'autre des trois types suivants: l'analyse purement descriptive, l’analyse inférentielle proba- biliste, et l'analyse inférentielle non probabiliste. 2.2 Les conditions d'application des méthodes statistiques 31 L’analyse purement descriptive peut étre réalisée en toutes circonstances, sans aucune restriction. Ce type d’analyse suppose toutefois qu’on n’effec- tue alors aucune généralisation ou extension, ni explicite, ni implicite, des conclusions obtenues, a un ensemble ou & une population plus vaste que Vensemble des individus réellement observés. A Vopposé, l'inférence statistique classique, réalisée en termes d’inter- valles de confiance et de tests d’hypothéses, et donc basée sur le calcul de probabilités, fait intervenir des conditions qui concernent A la fois la re- présentativité des individus observés, et dans une mesure plus ou moins importante, la ou les distributions des populations-parents. 3° Entre ces deux extrémes, se situe une forme non probabiliste d’infé- rence statistique, qui peut étre fort utile pour obtenir des estimations, éven- tuellement assorties d’erreurs-standards, mais sans limites de confiance et sans tests d’hypothéses. Les conditions de représentativité des observations réalisées restent alors essentielles, tandis que les restrictions relatives aux populations-parents s’estompent dans une large mesure, ou disparaissent meme complétement. Nous tenons a souligner ainsi le fait que les conditions relatives é la collecte des données, qui sont souvent négligées en pratique, revétent en réalité plus d’importance que les conditions relatives aux distributions des populations-parents. Les premitres sont abordées au paragraphe 2.2.2, et les secondes aux paragraphes 2.2.3 2.2.5, Les conditions relatives aux modalités 2.2.2 © de collecte des données 1° Dans le cas le plus simple, relatif A un échantillon extrait d'une po- pulation, la situation la plus classique est celle qui conduit & supposer le caractére complétement aléatoire, ou aléatoire et simple, de cet éhantillon, Rappelons que cette condition implique, d’une part, que tous les indivi- dus de la population-parent ont une meme probabilité de faire partie de Féchantillon, et d’autre part, que les choix successifs des différents individus qui doivent constituer !’échantillon sont réalisés indépendamment. les uns des autres [STAT!, paragraphe 8.2.2.1°]. Rappelons aussi que le prélevement de tels échantillons peut étre effectué notamment & l'aide de nombres aléatoires ou pseudo-aléatoires [STAT1, paragraphes 8.2.2 et 8.2.3]. 2° Dans la pratique, cette situation théorique se présente en fait relati- vement rarement, soit parce qu’une autre méthode d’échantillonnage bien définie a été utilisée, soit le plus souvent, parce que la procédure adoptée pour choisir les individus observés ne correspond & aucune régle stricte d’échantillonnage. Si une procédure d’échantillonnage rigoureuse, tel qu’un échantillonnage stratifié on un échantillonnage a deux degrés (STATI, paragraphe 2.2.4), a 6t6 suivie, il y a évidemment lieu d’en tenir compte lors de analyse statistique des résultats. Cela peut conduire notamment & l'emploi de l'un ou l'autre modéle d'analyse de la variance (paragraphe 9.3.4). Les conditions d’application des méthodes statistiques et l'examen initial des données Quand, par contre, aucune procédure d’échantillonnage parfaitement définie n’a été adoptée, l'ensemble des individus observés est souvent as- similé, en pratique, a un échantillon aléatoire et simple. Dans ce cas, les risques inhérents a une telle assimilation ne doivent pas étre sous-estimés, e les conclusions finales de Vanalyse statistique doivent. éventuellement men- tionner explicitement ces risques. Quelle que soit la procédure adoptée, il y a lieu en tout cas de définir en toutes circonstances, de fagon aussi précise que possible, la population- parent dont l’échantillon peut. étre considéré comme extrait, ainsi que les restrictions qui auraient éventuellement été imposées 4 I’échantillonnage, par comparaison avec une procédure strictement aléatoire et simple. 3° Quand deur ou plusieurs échantillons sont. pris en considération si- multanément, on suppose généralement que les individus qui constituent les divers échantillons ont éé choisis indépendamment les uns des autres, ow au contraire, qu’il existe entre eux certaines relations. Nous reviendrons fréquemment sur cette distinction, qui est fondamentale, et que nous avons déja évoquée au cours du chapitre préeédent (paragraphe 1.2.2.4°). D’une facon plus générale, chaque fois qu'un dispositif expérimental, fai- sant intervenir un ou plusieurs facteurs, a été pris en considération [STATI, paragraphe 2.3.5], il s'impose évidernment, lors de analyse statistique des résultats, de tenir compte des contraintes liées & ce dispositif (répartition des unités expérimentales en blocs, complets ou incomplets, en lignes et colonnes, etc.). 4° Tl faut signaler aussi que, dans de nombreux probltmes, & deux dimensions notamment, I’hypothése du caractére aléatoire et échantillons ne concerne pas les observations elles-mémes, mais bien les écarts ou les résidus par rapport & un modile théorique (par exemple les éearts ou les résidus par rapport a une droite ou une courbe de régression) Le controle du caractére aléatoire et simple, qui peut tre réalisé & l'aide des méthodes que nous présentons au paragraphe 2.4, doit alors étre effects en partant de ces écarts ou résidus, et non pas directement A partir des données initiales. ® 2.2.3 La condition de normalité : les méthodes paramétriques classiques 1° Nous avons envisagé antérieurement la détermination des limites de confiance d’une moyenne et la réalisation du test d’égalité de deux moyennes dans le cas de populations-parents normales [STAT], paragraphes 9.4.2 et 10.3.2). Un nombre important de méthodes classiques d’inférence statistique ont 6Lé établies sous cette condition, en ce qui concerne les problémes relatifs faux moyennes, aux variances et aux écarts-types, ainsi qu'aux coefficients de corrélation et de régression, notamment. Ces méthodes peuvent étre qua- lifiges de paramétriques, par opposition aux méthodes non parameétriques ou indépendantes des distributions, dont il est question au paragraphe suivant. 2.2 Les contitions d’application des méthades statistiques 2° Nous avons aussi signalé qu’en raison de la propriété de normaltité asymptotique de la distribution d’échantillonnage de la moyenne, la con- dition de normalité des distributions des populations-parents n'est. pas es- sentielle, en pratique, dans le cas des intervalles de confiance et des tests d’égalité de moyennes [STAT1, paragraphes 9.4.3.2° et 10.3.3.2°]. Mais un tel principe est loin d’étre d’application générale. Ainsi, on peut constater notamment que les méthodes relatives aux variances et aux Gearts-types (détermination de limites de confiance et tests d’égalité de va- riances ou d’écarts-types) sont nettement plus sensibles & la non-normalité des populations-parents, que les méthodes correspondantes relatives aux moyennes. 3° Chaque fois que la condition de normalité posséde une réelle impor- tance pratique, il s‘impose de vérifier si cette condition est effectivement satisfaite, et s'il n’en est pas ainsi, d’essayer d’adapter les données en con- séquence, par exemple par la réalisation de transformations de variables. Nous consacrons précisément le chapitre 3 A la présentation dun certain nombre de tests d’ajustement et de normalité, et le chapitre 4 A diverses informations relatives aux transformations de variables. 4° Comme pour les modalités de collecte des données (paragraphe 2.2.2.4°), la condition de normalité peut concerner, non pas les observations initiales, mais les écarts ou les résidus par rapport & un modéle théorique. Ici aussi, il y a donc lieu, le cas échéant, de controler la normalité en partant de ces écarts ou résidus, et non pas des données initiales, et. éven- tuellement de choisir 'une ou l'autre transformation de variable en fonction de ces écarts ou résidus. [5° Il fant noter que certaines méthodes paramétriques d’inférence sta- tistique sont basées sur d'autres hypothéses que Vhypothése de normalité, Il peut s‘agir par exemple de méthodes destinées & comparer entre elles les moyennes de populations qui possédent, non pas des distributions normales, des distributions de POISSON, des distributions exponentielles, ete. Nous donnerons occasionnellement des références bibliographiques rela- +s A ce sujet, mais sans présenter aucune méthode particuliére. Les méthodes non paramétriques et robustes 2.2.4® 1° D’autres méthodes d’inférence statistique ne sont, au contraire, basées sur aucune hypothése particuliére relative aux distributions des populations- parents. Ces méthodes, dites non paramétriques ou indépendantes des dis- tributions, sont. soit applicables d'une maniére tout a fait générale, soit applicables pour une tr’s grande variété de distributions (l'ensemble des distributions discontinues, ou l'ensemble des distributions continues, par exemple). 11 faut noter toutefois qu’en ce qui concerne les comparaisons de deux ou plusieurs populations, certaines méthodes non paramétriques, qui peuvent effectivement étre appliquées 4 n’importe quelles distributions, supposent Les conditions d’application des méthodes statistiques et l'examen initial des données cependant que les différentes distributions comparées appartiennent toutes A une méme famille. Ainsi, les méthodes de comparaison des moyennes ou des médianes, on d’une manire plus générale, des positions de deux ou plusieurs distributions, qui sont basées sur l'étude des rangs, supposent que les distributions considérées ne différent que par leurs positions, l’exclusion de toute différence de dispersion ou de forme (paragraphe 8.4.3.5°). De telles restrictions, qui sont souvent négligées A tort en pratique, constituent en fait des limitations importantes a l'utilisation de certaines méthodes non paramétriques. 2° Une caractéristique essentielle des méthodes non paramétriques est leur relative simplicité. Celle-ci résulte souvent du remplacement des valeurs observées par des rangs ou par des variables binaire La médiane est alors parfois préférée A la moyenne, comme parameétre de position, et amplitude est souvent utilisée a la place de Pécart-type ou de la variance, comme paramétre de dispersion. 3° Le remplacement des valeurs observées par des rangs ou par des variables binaires provoque cependant une certaine perte d'information, et de ce fait, les méthodes non paramétriques sont généralement moins efficaces ou moins puissantes que les méthodes paramétriques correspondantes, dans les conditions oit ces demniéres sont applicables: Quand un méme probléme peut étre traité soit par une méthode pa- ramétrique, soit par une méthode non paramétrique, les deux approches peuvent étre comparées en termes d’efficacité relative [STAT1, paragraphe 10.4.3.3°] 4° L’emploi des méthodes non paramétriques se justifie évidemment quand les conditions d’application des autres méthodes ne sont pas satis- faites, méme aprés d’éventuelles transformations de variables. D’autre part, emploi de ces méthodes se justifie également quand les inconvénients dus aux pertes d’efficacité ou de puissance sont compensés par les avantages de simplicité et: de rapidité de calculs. Il faut pour cela que le cofit ou le temps relatif A la collecte des données soit suffisamment réduit, par comparaison avec le cout ott la durée des ealculs. Tel n’est généralement pas le cas en matiére biologique, et plus particuligrement en matidre agro- nomique. Nous présenterons néanmoins, pour un certain nombre de problémes, & la fois des méthodes paramétriques et des méthodes non paramétriques. 5° Il faut également citer les méthodes robustes («jackknife», « boot strap», rerandomisation ou permutation, etc.), dont on peut considérer qu’elles occupent, en pratique, une position intermédiaire entre les méthodes paramétriques classiques et les méthodes non paramétriques. Les méthodes robustes ont en effet, comme principale caractéristique, d’étre peu dépen- dantes d’éventuels écarts par rapport aux hypothéses sous-jacontes, et no- tamment d’étre peu influencées par la présence d’éventuelles observations aberrantes [STAT1, paragraphes 9.3.4 et 10.3.4.2°]. Les méthodes robustes sont parfois trés nombreuses et tres diversifiées, pour un méme probléme. Il en est ainsi, par exemple, en ce qui concerne 2.2 Les conditions d'application des méthades statistiques la régression linéaire simple (paragraphe 14.3.6). Il faut alors tenir compte, Je cas échéant, du fait qu’A une plus grande robustesse correspond souvent une moindre efficacité des méthodes. Nous donnerons aussi assez fréquemment des indications bibliographi- ques au sujet des méthodes robustes. [ 6° D'une maniére générale, on trouvera des informations complémentai- res relatives aux méthodes non paramétriques et robustes dans les livres de CONOVER (1980), GIBBONS [1997], LECOUTRE et ‘TASSI [1987], MAN- | LY [1997], SPRENT (1992, 1993], et STAUDTE et SHEATHER [1990]. Quelques autres conditions d’application des méthodes statistiques 1° L'égalité des variances est une autre condition d’application, que nous avons déjA rencontrée dans le cas du test d’égalité de deux moyennes (STATI, paragraphe 10.3.2) Cette condition, aussi connue sous le nom de condition d’homoscédasticité, est asse2 générale en ce qui concerne les méthodes paramétriques de comparaison des moyennes, tout particuligre- ment lorsque les effectifs des échantillons sont inégaux. Quand cette condition n'est pas satisfaite, il est parfois possible de remédier A la situation, en procédant: a l'une ou Vautre des transformations de variables dont il est question au chapitre 4. On notera que la condition d’égalité des variances peut concerner égale- ment des variances résiduelles, notamment en matiére de comparaisons de droites de régression (paragraphe 14.6). 2° Tonjours dans le cas de l'étude d'une seule variable, nous citerons aussi, sans en préciser ici le sens, la condition d’additivité on d’absence @interaction, qui peut intervenir en analyse de la variance (paragraphes 10.3.6 et 11.2.4). 3° En matidre de régression an sens des moindres carrés (une variable dépendante exprimée en fonction d’une variable explicative), on suppose souvent que la relation étudiée est: linéaire, les écarts par rapport a la droite de régression étant supposés de distribution normale (paragraphe 14.1.2°). Dans ce cas également, des transformations de variables permettent parfois @’améliorer la situation. Dans les problemes de corrélation et de régression an sens des moindres rectangles (deux variables interdépendantes), le modéle théorique dont: on suppose l'existence est par contre, tres souvent, celui de la distribution nor- male @ deux dimensions (paragraphes 13.1.3° et 14.1.4°). On notera que ce modéle implique également la linéarité des régressions et la normalité des distributions des écarts par rapport aux droites de régression (STATI, paragraphe 7.4.3]. Ici encore, des transformations de variables peuvent con- tribuer A redresser la situation 2.2.58 Les conditions d’application des méthodes statistiques et 'examen initial des données 2.3 Lexamen initial des données © 2.3.1 Principes généraux 1° L'ezamen initial ou préliminaire) des données est un élément fond: mental de tout processus d’analyse statistique. Cet examen peut étre réalis dans certains cas en méme temps que le choix des méthodes d’inférence & utiliser (paragraphe 1.3). L’examen initial est basé essentiellement sur une étude visuelle des don- nées (paragraphe 2.3.2), et sur la réalisation de certaines opérations élémen- taires de statistique descriptive : établissement de distributions de fréquences et de graphiques, et calcul de paramétres (paragraphes 2.3.3 et 2.3.4) Le premier examen des données peut aussi étre complété parfois par Vemploi de méthodes statistiques plus élaborées, que nous présenterons att paragraphe 2.4 (tests du caractdre aléatoire et simple des abservations), ot au cours des chapitres 3 et 4 (tests d’ajustement et de normalité, identifica- tion d’éventuelles observations aberrantes, et transformations de variables) 2° L’examen initial des données ne peut étre effectué valablement. que si on a une bonne connaissance du ou des objectifs de Vétude qui a 6cé entreprise, dela maniére dont les données ont été récoltées, et des méthodes analyse dont on envisage utilisation. Dans la mesure du possible, le premier examen des données doit étre réalisé A partir des observations initiales brutes, avant tout. traiter toute transformation, voire méme avant toute transcription. Cet examen peut aussi porter, a la fois, sur des données initiales et des données trans- formées. eat OW 3° La conclusion de 'examen initial des données pent étre, dans certains cas, quaucune étude statistique plus élaborée n'est: nécessaire ou réalisable, soit parce que les conclusions recherchées sont mises en évidence de mani suflisamment nette par l'étude descriptive, soit parce que la qualité des données ne permet pas Femploi de méthodes statistiques plus sophistiquées. [| 4° Les différentes questions relatives l’examen initial des données sont | envisagées de fagon détaillée par CHATFIELD [1985, 1995). ® 2.3.2 Lexamen visuel 1° Un examen visuel de l'ensemble des données s'imposi emment quand celles-ci sont peu nombreuses. Mais un tel examen se justifie égal ment quand les données sont au contraire fort nombreuses, observation visuelle pouvant alors étre limitée éventuellement A un sous-ensemble de (Initial examination. 2.3 Llexamen initial des données 7 données, choisi par exemple selon un processus d’échantillonnage aléatoire ‘ou systématique. Lroxamen visuel des données porte tout d'abord sur lour plausibilité, par comparaison avec des ordres de grandeur connus, dans le cas de données quantitatives, ou avec les codes admissibles, dans le cas de données quali- tatives. A ce stade, toute anomalie ou valeur suspecte doit étre notée, sans qu’aucune donnée ne soit cependant modifiée ou éliminée, si ce n'est en présence d’une explication objective de 'anomalie (erreur de transcription, par rapport aux documents originaux d’enregistrement des données, par exemple) 2° Quand le volume des données n’est pas trop important, l'examen vi- suel doit également permettre la recherche des valeurs extrémes (minimums et maximums), ce qui peut contribuer A la mise en évidence de valeurs aberrantes ou suspectes. D’autres indices d’anomalies peuvent étre aussi existence d’une ten- donce générale dans une série d’observations non classées au préalable par ordre croissant ou décroissant (valeurs enregistrées plus faibles dans l'en- semble en début de période d'observation, et plus élevées en fin de période d’observation, par exemple), la fréquence excessive de certains chiffres par rapport a d'autres (fréquences élevées de 0 et de 5, par exemple, a la fin des nombres enregistrés), et des disparités dans les nombres de décimales (résultats enregistrés les uns avec une décimale et les autres avec deux ou plusieurs décimales, par exemple) (PREECE, 1981]. Dans les tableaux 3.6.1 et 7.4.1, par exemple, le fait que, si on supprime les virgules, tons les nombres sont. pairs, voire méme multiples de 4, sauf Tun d’entre eux dans le tableau 3.6.1, montre bien que les données soumises & analyse ont été l'objet de certains calculs préliminaires. 3° En outre, ’examen visuel des données doit permettre de détecter Vexistence d’éventuelles observations manquantes, et d’étudier le cas échéant la fréquence de telles observations. Quand plusieurs données sont manquantes, il y a lien de s'interroger aussi sur les raisons pour lesquelles, ou les situations dans lesquelles ces anomalies se présentent le plus souvent (nombreuses données manquantes pour un traitement particulier, par exemple). L’6tude descriptive a une dimension 1° L%tude descriptive & une dimension peut consister, dans un pre- mier temps, en un simple classement des observations par ordre croissant, sous forme de séries statistiques [STAT1, paragraphe 3.2.1], tout en conser- vant cependant, autant que possible, une version originale des données non classées. Comme Texamen visuel, cette mise par ordre croissant doit permettre identifier les valeurs extrémes, peut-éire aberrantes ou suspectes, et les éventuelles observations manquantes. 23.32 Les conditions d'application des méthodes statistiques et I'examen initial des données 2° Une deuxidme étape de l'étude descriptive peut étre la représentation graphique des données, par exemple sous forme de « boxplots » [STATI, pa- ragraphe 3.6.4.4°], et, pour des données suffisamment nombreuses, sement de distributions de fréquences [STAT1, paragraphes 3.2.2 complétées par des diagrammes en batons ou des histogrammes |STATI, paragraphe 3.3.1] Ces types de présentation des données peuvent aussi contribuer & la mise en évidence d’observations anormales ou suspectes, et peuvent fournir des indications utiles au sujet de la forme de la ou des distributions des variables ou des caractéres considérés (symétrie ou plus ov moins forte dissymétrie, dans un sens ou dans l'autre, notamment). 3° Quel que soit le volume des observations, l'étude descriptive & une dimension peut englober, pour des données quantitatives, le calenl de paramétres, tels que des moyeunes, des écarts-types et des coefficients de variation [STAT 1, paragraphes 3.5.1 et 3.6.1). Les écarts-types ot les coefficients de variation peuvent étre particn- ligrement utiles, dans de nombreux cas, pour vérifier si les ordres de grandeur des fluctuations observées sont admissibles, par comparaison avec d’éven- tuelles situations semblables, rencontrées antérieurement. 4° Enfin, & partir des moyennes et des écarts-types, observés ou estimés, il est possible de calculer les écarts() par rapport aux moyennes et les écarts réduits ou standardisés® : &=a-F] ot [a Trés souvent, ces écarts permettent d’identifier facilement d’éventuelles: valeurs aberrantes ou suspectes. di/se ou di/ex | Dans la mesure oft on suppose que les observations proviennent de po- pulations normales ou approximativement normales, les écarts réduits sont en effet des valeurs observées de variables normales ou approximativement, normales réduites. Ces écarts ne peuvent done dépasser que rarement. (dans 5 cas sur 100 environ) les valenrs — 2 et +2, et exceptionnellement (dans 3 cas sur 1,000 environ) les valeurs — 3 et +3 (STATI, paragraphe 6.6.1.4°). [ 5° En ce qui concerne le logiciel Minitab, étude descriptive & une di mension peut étre réalisée A Vaide des commandes « sort» (mise par or dre croissant), «bozplot» (préparation de «borplots »), «histogram» ou « ghistogram » (préparation de distributions de fréquences et d’histogram- mes), et « describe » (recherche d’extremums et calcul de parametres). En outre, la détermination des écarts et des écarts réduits peut étre effectuée | par les commandes « mean », «stdev » et: « let » Exemple 2.3.1. Comparaison des hauteurs moyennes des arbres de trois types de hétraies: examen initial des donné En vue d’estimer les différences de productivité qui peuvent exister entre plusieurs types de foréts de hétre (Fagus sylvatica L.) de !Ardenne belge, 2) Deviate © Reduced deviate, standardized deviate 2.3 Lexamen initial des données on a mesuré, en différents endroits, la hauteur des arbres les plus gros [DA- GNELIE, 1956-1957]. La hauteur de ces arbres, qui est étroitement liée & la production en volume, peut en effet étre considérée comme une mesure simple, mais fiable, du niveau de productivité des foréts. Nous n’envisageons ici que trois types de hétraies, au sein desquels on a observé les hauteurs des arbres respectivement en 13 endroits, en 14 en- droits, et en 10 endroits différents, choisis au hasard et indépendamment les uns des autres. En chaque endroit, les cing arbres les plus gros situés au sein d’une par- celle circulaire d'environ 15 m de rayon (soit environ 7 ares) ont été mesurés, chacun deux fois, et pour chaque lieu, la moyenne des dix observations a été calculée. Pour éviter la présentation de données trop nombreuses, nous ne conehifrons ‘que ces moyennes, qui figurent dans la partie gauche du tableau 2.3.1 Tableau 23.1. Hauteurs des arbres observées en 37 endroits différents, appartenent & trois types de hétraies : données initiales, moyennes et écarts-types des hauteurs, en métres, et écarts réduits. Données initiales Bearts réduits Type1 Type2 ‘Type3 |Typel Type2 ‘Type 3 4225189 | 197-169 — 1,83 M4 22,9 1,20 -145 - 0,88 M6 23,7 212 | 1,05 -099 -084 49 240 = 22,1} -0,82 -081 -0,45 25,0 244-225 | - 0,74 - 0,58 - 0,28 262 245-236 018 -052 0,20 263 253 4,5 025-005 0,59 WS 260-246 0.64 0,36 0,68 268 26,2 26,2 064 048 1,82 269 6A 26.7 O71 059 1.54 270 26,7 0790 O77 76 (26,9 - 1.250 0890 = 7 ld : 133° 118 - = 28,5 = = 182. - Moyennes | 26,0 25,4 23,1 Ecarts-types | 1,3 17, 23 On envisage de comparer les trois types de hétraies par Vanalyse de la variance & un critdre de classification (chapitre 9). L’examen visuel des données initiales ne met en évidence aucune anoma- lie flagrante. Tout au plus, peut-on remarquer que la valeur 18,9 est. assez éloignée des autres valeurs relatives au méme type de foréts. D’autre part, un rapide examen de la premitre partie du tableau 2.3.1 montre aussi que les deux premiers types de hétraies présentent des valeurs (4) Lrétude de ensemble des observations initiales est présentée dans le travail original, et est abordée dans le cadre de Vexemple 11.3.1. Les conditions d'application des méthodes statistiques et I'examen initial des données assez proches les unes des autres, tandis que le troisitme type est caractérisé par des valeurs sensiblement par les valeurs des moyennes relatives anx trois types de foréts La figure 2.3.1 fournit une représentation graphique des donné forme de « boxplots ». Cette figure conduit aux mémes remarques, et met en outre en évidence une variabilité apparemment plus grande pour le troisieme type de foréts, par comparaison avec les deux premiers (ce que montraient déji, mais dans une moindre mesure, les éearts-types du tableau 2.3.1) férieures. Cette constatation est confirmée * | Hautours (m) 2 “Typos de fordte Figure 2.3.1. Comparaison des hauteurs moyennes des arbres de trois types de hétraies :représentation graphique des données sous forme de « boxpiots». La deuxitme partie du tableau 2.3.1 présente en outre les écarts réduit calculés séparément pour les trois types de foréts, a partir des moyennes et des écarts-types observés. Comme les données initiales, ces éearts ne font apparaitre aucune anomalie, toutes les valeurs étant comprises entre — 2 et +2. Méme l’éeart relatif observation 18,9 semble tout a fait normal. a a i , od — nam Figure 2.3.2. Comparaison des hauteurs moyennes des arbres de trois types de hétraies :histogramme des écarts réduits. La figure 2.3.2 présente, sous forme d’histogramme, la distribution de fréquences de l'ensemble des 37 écarts réduits, Cette figure met en évidence une certaine bimodalité (deux maximums de fréquences) de la distribu- tion. Aucune importance particuliére ne doit cependant étre accordée & ce phénoméne, le volume des données disponibles étant fort limité. 2.3 examen initial des données. a En résumé, 'examen préliminaire des données ne fait apparaitre aucune anomalie au sein des observations considérées. [On notera que l'étude des écarts qui est effectuée ici est tout & fait comparable, mais pas identique, A l'étude des résidus qui peut étre réalisée | en analyse de la variance (exemple 9.3.2). L’étude descriptive 4 deux dimensions 1° Dans le cas de deux variables ou deux caractéres, il est. également possible de préseuter les données sous forme de séries statistiques et/ou de distributions de fréquences (STATI, paragraphes 4.2.1 et 4.2.2]. Mais est sans doute la présentation sous forme de diagrammes de dispersion [STAT], paragraphe 4.3.1] qui s'avére, en général, la plus intéressante, pour des données quantitatives et éventuellement: des données ordinales. L’examen des diagrammes de dispersion permet en effet de se rendre compte de l’allure de la relation, par exemple linéaire ou non linéaire, qui lie les deux variables considérées, et de la forme de leurs distributions. Mais cet examen permet aussi, assez. fréquemment, d’identifier des valeurs aberrantes ‘ou suspectes, qui ne sont pas mises en évidence par I’étude unidimension- nelle. Comme dans l'étude descriptive A une dimension, examen des distri- butions de fréquences et des diagrammes de dispersion peut étre réalisé éventuellement A partir des écarts réduits (paragraphe 2.3.3.4°). Cet exa- men peut parfois étre complété aussi par le calcul de divers paramétres, de nrélation et de régression STAT, paragraphes 4.6, 4.7 et 4.8]. On notera que l'étude descriptive & deux dimensions doit normalement étre associée A une étude préalable dune dimension, réalisée pour chacune des variables ou chacun des caractéres, considéré séparément. [2° Dans certains cas, l'étude descriptive & deux dimensions peut étre utile également quand on ne dispose que d’une seule variable ou un seul caractére observé, en mettant alors cette variable ou ce caractre en relation avee Vordre dans lequel les observations ont été réalisées. Cette fagon de faire peut notamment contribuer a la recherche des éventuelles tendances générales auxquelles nous avons fait allusion au paragraphe 2.3.2.2°, ou & la mise en évidence d'autres anomalies relatives au caractére aléatoire et | simple de la série d’observations. [3° En outre, quand on dispose de plus de deux variables ou caractéres, et méme sans aucun objectif d’analyse multidimensionnelle, il peut étre intéressant de procéder un examen initial des données en considérant, & une dimension, chacune des variables ou chacun des caractéres, et & deux dimensions, chaque couple de variables ou caractéres, ou un certain nombre de ces couples. Le caleul de matrices de corrélation (STATI, paragraphe 4.11.1.3°], rela- tives & l'ensemble des observations ou & certains sous-ensembles, peut alors étre un outil particuligrement performant, en faisant intervenir non seule- 2.3.42 Les conditions d'application des méthodes statistiques et I'examen initial des données ment des données quantitatives, mais aussi dans une premiére approche, le cas échéant, des rangs et des données qualitatives ordinales et binaires. On peut y inclure en outre les numéros des observations, dans l'ordre oii elles, ont été collectées. Nous avons en effet vu antérieurement qu'une matrice de corrélation peut réunir & la fois des coefficients de corrélation au sens classique (coefficients de corrélation de BRAVAIS-PEARSON) et des coefficients de corrélation, de rang, bisériaux, et de point [STAT1, paragraphe 4.11.1.3°]. Nous ver- rons ultérieurement que ces derniers coefficients sont liés, dans certains cas, aux tests d’indépendance et d’égalité de proportions et de moyennes (para- | sraphes 6.2.3.1°, 6.2.5.1° et 13.4.5°). [4° Les commandes « plot » et « gplot » (établissement de diagrammes de dispersion) du logiciel Minitab peuvent étre utiles ici, en plus de celles qui ont été énumérées au paragraphe 2.3.3.5°. Le ealeul éventuel des paramétres pent nécessiter aussi 'emploi des commandes « covariance », « correlation » et «regress », cette derniére commande ayant trait A la régression | au sens des moindres carrés Exemple 2.3.2. Etude biométrique d'une population de poi initial des données. Au cours d’une étude relative la population piscicole d'une rivigre (Vise, dans sa partie belge), on a observé les nombres de poissous péchés pour différentes espdces, ainsi que les longueurs et les poids de en distinguant différents troncons de la rivigre, correspondant a différents milieux ou biotopes [NAMECHE, 1991]. Le but poursuivi était d’estimer importance de la population piscicole, de comparer les différents biotopes, et d’étudier les relations entre les Iongueurs et les poids des po sons : examen poissons, Nous ne considérons ici que les données relatives & une seule espic le chevesne (Leuciscus cephalus L.), et um seul biotope. Le tableau 2.3. présente les caractéristiques des 99 individus observés. La premidre remarque A formuler a trait au mode de collecte des données. Tl s‘agit en effet. d'une péche électrique, quia tendance & provoquer la capture d'une proportion plus élevée des poisons de grande taille que des poisons de petite taille. Les observations disponibles ne permettent done pas d’obtenir des estimations non biaisées des caractéristiques des populations piscicoles des différents biotopes considérés, mais elles permettent néanmoins de com- parer ces différents biotopes, et d’étudier les relations entre les longueurs et les poids. L’examen visuel des données du tableau 2.3.2 ne fait apparaitre aucu- ne anomalie importante. Seuls deux individus semblent étre de taille, et surtout, de poids nettement inférieurs aux autres. A une dimension tout d’abord, la figure 2.3.3 présente les histogrammes relatifs aux deux caractéristiques des poisons, I] en ressort principalement une dissymétrie assez prononcée de la distribution des poids. 2.3 Lexamen initial des données Tableau 2.3.2. Etude biométrique dune population de poisons: longueurs, en millimétres, et poids, en grammes, de 99 chevesnes. Tong. Poids | Long. Poids | Long. Poids | Long. Poids | Long. Poids BS 6 | 6 52 | 19 7 | 216 im | 237 150 89 6 | 67 59 | 190 «74 | 219115 | 238155, 10506 us| 70 ats] 19176] «<220.— 102'| 238158 uy | 706s 9) | 220 ATs | 240145, var | amt oa | ton | penta | oka 126 = 19 | 172 ot | i928 | m1 9 | 24359 145 29-' | 72, os | i957 | en taa | 2a 78 155 36 | 173° «56 | 195 76 | 221 125 | 248 139 i739 | 747 | 19674 | 2225S] 249 ATL 1st 40s] 1753 | 97 = 96 | 223122} 250 120 15748] «175 66S] 200,88 | 24a} 250157 158879 «| «177~—63_s| 202, 93-'| Bea 9 | 250 163, 159 45.—«| asi 70.—«| - 202 ton | 2258 | 252159 wo = 4a.«|sts2— oT | 203, 8 | 225 tat | 260199 16342] asa 66 | 207-108 | 228 a7 | 281 st 16448] «186073 | 210 aon *| 23132 | 290 274 161 56] 186 = 78 | 211102 | 232 134 | 208 309 165 43 (| «187 6G | -D1—std_ | 232136 | 301-339 165 54 | 18768 | 213, tons*| 23454 | B12 345, 165 40 | 18866 | 15120 | 235 La 180 200 00 5 100 20 ‘900 {Longueurs (nm) Poids (9) Figure 2.3.3. Etude biométrique d'une population de poisons histogrammes des longueurs et des poids de 99 chevesnes. De plus, les premieres colonnes du tableau 2.3.3 donnent les valeurs ex- trémes des écarts réduits par rapport aux moyennes. Les valeurs 3, 25 , 3,72 et 381 paraissent nettement excessives, dans optique d'une distribution normale. Ces valeurs sont en fait liées au caractére dissymétrique de la dis- tribution des poids Les conditions d'application des méthodes statistiques et I'examen initial des données Tableau 2.3.3. Elude biométtique d'une population de poisson valeurs extrdmes des écarts réduits, pour les longueurs ot les poids de 99 chevesnes, dans le cas des données initiales et dans le cas des données transtormees (logarithmes décimaux). Données init. | Données transh Long. Poids | Long. _ Poids 1,48 | 348 3,60 ~ 148 ~ 3,60 ~ 1,40 - 2,76 - 134 2.34 -1,31 ~ 2,16 2.35 | 158 2,70 | 171 183 188 381 | 204 A deux dimensions ensuite, la partie gauche de la figure 2.3.4 présente le diagramme de dispersion des longueurs et des poids. Celni-ci est caractérisé surtout par une courbure nettement marquée de la relation entre les deux variables. [I ne met en évidence aucun point trés anormal. 2s seo : : Jao 8 Bis / we oda a Longer (r) Logi orgies) Figure 2.3.4. Etude biométrique dune population de poissons : diagrammes de dispersion des iongueurs et des poids de 98 chevesnes, pour les données iritiales et pour les données transtormées (logarithmes décimaux) On peut envisager de remédier A la dissymétrie de la di ibution des poids en remplacant les valeurs observées par leurs logarithmes. En out Pétude de la liaison entre les deux variables est envisagée dans optique d'une relation d’allométrie [STAT1, paragraphe 4.10.2.4°), du typ ea L’ajustement d'une telle relation est généralement réalisé en remplagant, les deux variables par leurs logarithmes (STATI, paragraphe 4.10.3.1°), 2.4 Quelques tests du caractére aléatoire et simple d'une série d'observations a relation devenant alors linéaire. I se justifie done d’examiner les con- séquences d'une éventuelle transformation logarithmique, non seulement pour les poids, mais aussi pour les longueurs. La figure 2.3.5 donne les histogrammes relatifs aux logarithmes décimaux des observations, tandis que le tableau 2.3.3 et la figure 2.3.4 mettent en paralléle des informations relatives aux données initiales et aux données transformées Frequoncee Fréquences oH oft S SS Se top 7) ts aoa Loot forge) Lear ot Figure 2.3.5. Etude biométrique d'une population de poisons: histogrammes des logarithmes décimaux des longueurs et des poids de 99 chevesnes. I ressort de ces différents éléments que la transformation logarithmique ne résout pas tous les problémes. Si elle permet en effet de rendre la distribu- tion des poids quelque peu plus symeétrique, et le diagramme de dispersion quasi linéaire, elle accentue par contre le caractére apparemment, anormal des valeurs observées les plus petites, et cela pour les deux variables. Nous poursuivrons cette étude ultérieurement, en mettant en ceuvre des méthodes plus élaborées (exemples 3.3.2, 3.5.1 et 3.6.2). Quelques tests du caractére aléatoire et simple 2.4 d'une série d’observations Principes généraux 2.4.1 ® 1° Comme nous avons signalé an paragraphe 2.2.1, la condition déchantillonnage aléatoire et simple est, d'une maniére générale, une des plus importantes auxquelles sont soumises les méthodes d’inférence statisti- que. Divers tests permettent de contrdler dans une certaine mesure si cette condition est véri Ces tests ont été congus initialement en vue de l'étude des séries chrono- logiques, c'est-A-dire de séries dobservations réalisées & intervalle ow presque régulier, dans le temps. Cependant, ils peuvent aussi Gtre uti- lisés parfois dans le cas de données qu’on ne souhaite pas mettre en relation Les conditions d'application des méthodes statistiques et l'examen initial des données avec un facteur temps, mais qui sont néanmoins caractérisées par un certain ordre (ordre de collecte des données, par exemple). Selon les circonstances, les tests du caractére aléatoire et simple doi- vent étre appliqués aux données initiales elles-mémes, telles qu’elles ont 61é récoltées, ou aux écarts ou résidus par rapport au modéle théorique dont, on suppose existence (modéle d’analyse de la variance ou de régression, linéaire ou non linéaire, par exemple). 2° Certains de ces tests sont subordonnés & Phypothése de normalité de la distribution de la variable considérée, ou de la distribution des écarts par rapport au modéle théorique, tandis que d'autres sont non paramétriques. Parmi les premiers, on peut citer le test du quotient de VON NEUMANN ou test de DURBIN et WATSON (paragraphe 24.2), et parmi les seconds, différents tests liés & la notion de séquence homogéne (paragraphe 2.4.3). [ 8° Les tests du caractire aléatoire ot simple sont en relation également, d'une part, avec la recherche de points de changement, tels qu’ils sont définis au paragraphe 15.3.2.3°, dans le cas de modéles présentant, une ou plusieurs discontinnités, et d’autre part, avec la maitrise ou le contréle de la qualité en cours de fabrication, dont un des objectifs principaux est. précisément la | détection de modifications éventuelles des conditions de fabrication. 2.4.2 Le test du quotient de VON NEUMANN: ou de DURBIN et WATSON 1° Pour toute série d’observations, on appelle quotient de VON NEU- MANN®) Ie rapport entre la somme des carrés des différences entre les observations consscutives, et la somme des carrés des écarts par rapport A la moyenne = a= Dein - 2)?/ Vw - Quand les observations consécutives sont indépendantes les unes des au- tres, l'espérance mathématique de ce quotient est égale & 2, et pour une population-parent normale, la variance de ce quotient est approximative- ment égale 4 (n— 2)/(n? - 1). On démontre en outre que, dans les mémes conditions, la distribution d’échantillonnage de g est asymptotiquement normale). [2° La propriété qui concerne l'espérance mathématique du quotient est une conséquence quasi immédiate des propriétés relatives aux variances des sommes ou des différences de variables aléatoires. L’indépendance des obse vations implique en effet que la variance des différences entre les observations (©) Von NEUMANN’ ratio (8) Le quotient de VON NEUMANN os non pas q, de telle sorte que son espérance mathématique, dans l'hypothise d’indépes dance des observations, soit égale & 1. La variance du quotient est alors (n—2)/(n® ~ 1) parfois défini aussi comme étant la quantité 4/2, et 2.4 Quelques tests du caractére aléatoire et simple d'une série d'observations 47 est égale A deux fois la variance des observations elles-némes [STAT1, pa~ 3°]. Il en résulte que l’espérance mathématique de la somme ragraphe 5. des carrés des écarts des différences, qui figure au numérateur, est égale A deux fois Pespérance mathématique de la somme des carrés des écarts par | rapport & la moyenne, qui figure au dénominateur. 3° On peut done tester hypothése du caractére aléatoire et simple de la série d’observations en calculant la quantité tors = 19-2 yf/(n? = 1)/[4(n—2)] | et en rejetant cette hypothése, pour un test bilatéral de niveau a et par référence A la distribution normale réduite, quand P(U| 2 tons) SA OU tops 2 Uy -g/2- L’approzimation normale est satisfaisante des que le nombre d’observa- tions dépasse 20, des tables particulitres existant pour des effectifs inférieurs ou égaux A 20 [OWEN, 1962]. L’approximation normale reste meme satis- faisante, au niveau 0,05, pour des effectifs allant de 10 & 20. Dans loptique de l'étude des séries chronologiques et de la régression, le test du quotient de VON NEUMANN est souvent connu sous le nom de test de DURBIN et WATSON). En matiére de régression, ce test peut étre réalisé par la sous-commande «dw», associée & la commande «regress» du logiciel Minitab. 4° Les valeurs observées du quotient de VON NEUMANN peuvent four- nir des indications au sujet de la maniére dont la série d’observations s’écarte de hypothése du caract?re completement. aléatoire Des valeurs anormalement faibles, par rapport A la moyenne théorique 2, sont un indice de V'existence de fluctuations trop réduites entre les ob- servations consécutives, par comparaison avec ce que ces fluctuations de- vraient étre par le simple fait du hasard. Une telle situation peut étre le résultat notamment de l’existence, dans la série d’observations, d’une ten- dance générale croissante ou décroissante. Au contraire, des valeurs anormalement élevées du quotient de VON NEUMANN, toujours par rapport & la moyenne théorique 2, indiquent Vexistence de fluctuations trop importantes entre les observations consécuti- Ten est ainsi notamment quand la série présente, de fagon excessive, des alternances de valeurs faibles et élevées. 5° On peut aussi montrer facilement que le quotient de VON NEUMANN est li¢ & la notion d’autocorrélation ou de corrélation sérielle®, c’est-A-dire de corrélation de la série d’observations avec elle-méme, Pour un ensemble d’observations 21, ..., @i,... 42m, le coefficient dautocorrélation®) d'ordre k peut étre défini comme étant le coefficient (7) DURBIN-WATSON’'s test Autocorrelation, serial correlation. (9) Autocorrelation coefficient. Les conditions d'application des méthodes statistiques et l'examen initial des données. de corrélation des deux sous-ensembles suivants : Bye ine Taek et There le premier étant la série initiale amputée des k dernitres observations, et le deuxidine Ia série initiale amputée des & premieres observations. I Svagit done du coefficient de corrélation relatif aux couples d'observations (2, 2144), ou sous Pangle théorique, du coefficient de corrélation relatif aux variables aléatoires associées A ces valeurs observées. Les coefficients d’au- tocorrélation sont généralement désignés par rj, pour les valeurs observées, | et par pp pour les valeurs théoriques.. [6° En considérant en particulier le coefficient d’autacorrélation d’ordre 1, on peut écrire: q~2(l-r1) et m~1-q/2. Ces relations peuvent étre obtenues par analogie avec la propriété [STATI, paragraphe 7.3.5.3°] : Ok, Xigy = OR, + OR ey ~ 2PLON, OX, = BOR (1 Ar) ou Xia /OR)2- Le caractére approché des relations qui lient les valeurs observées q et m1 | Provient du fait que la série considérée est toujours finie, et non pas infinie. [7° Men découle qu’aux valeurs du quotient de VON NEUMANN qui sont inférieures 4 Vespérance mathématique 2, correspondent des valeurs positives der), tandis qu’aux valeurs de q supérieures & Vespérance ma- thématique, correspondent des valeurs négatives de ry - Il en résulte aussi que le test du quotient de VON NEUMANN, ou de DURBIN et WATSON, peut étre remplacé par un test de signification du coefficient d’autocorrélation d’ordre 1. Ce test peut étre réalisé comme pour le coefficient de corrélation classique (paragraphe 13.4), mais en utilisant les distributions t de STUDENT avec n +1, et non pas n ~ 2 degrés de liberté | [BINGHAM et NELSON, 1981). [ 8° Des informations complémentaires sont données par BARTELS (1982), BHARGAVA [1989], GASTWIRTH et SELWYN [1980], HALLIN et MBLARD [1988], et RAYNER [1994], en ce qui concerne notamment la robustesse et. la puissance di test de DURBIN et WATSON, et l'utilisation de ce test en présence de données manquantes, ou sur base des rangs des | observations. (19) 2.4 Quelques tests du caractére aléatoire et simple d'une série d’observations 49 Exemple 2.4.1, Etude du phénomene dalternance des productions an- nuelles chez le pommier : test du quotient de VON NEUMANN, ou de DUR- BIN et WATSON. Il est communément admis que les productions de certaines espéces ou certaines variétés d’arbres fruitiers sont caractérisées par un phénomene alternance, les années & fortes productions étant souvent suivies d’années & faibles productions, et vice versa. La question posée est de savoir si cette hypothése s'applique, ou non, aux données du tableau 2.4.1. Tableau 2.4.1. Productions ennuelles de sept types de pommiers, moyennes et écarts-ypes, en kilogrammes par arbre, et coefficients de variation. Années_[PG1_PG2__PG3__PG4__PG5__PG6__PG7 1973 417 375° 508 481 50.2 741 68,1 1974 433° 45.1 883 78,2 84,1 1011 1213, 1975 265 1ST 420 414 58,9 704 1976 957 45.1 96,6 86,7 93,2 88,5 1977 28 524 63,6 712 65,9 1978 541 686 113.3 98,0 78,6 102,2 90,7 1979 56.2 733 93,7 100.0 120.6 120.4 142.8 1980 63.2 891 147.8 1195 1368 1333 157.2 1981 28.0 331 53,0 618 50.2 60,6 66.9 1982 SIL 715 1194 1161 133,38 157,2 1482 1983 433 390 40.3 513 46,2 63,4 704 1984 446 733 82 HZ 95,9 94,4 1006 Moyennes | 428 526 79,9 78,6 94,2 99,2 Ecarts-types | 11,6 20.7 254 35,8 29,7 33,1 Coeff. de var. [272393 40,3 318 45,6 31,5 33,3, Ces données proviennent d’un verger d'expérience établi dans Je Tren- tin (Italie), en vue de comparer sept types d'arbres de la variété Golden Delicious (sept types de porte-greffe, désignés par les sigles PG1 & PG7) [BRUNELLI, 1985). Les valeurs observées sont des productions moyennes par arbre, calculées dans chaque cas & partir de 10 & 13 arbres("), La tres grande variabilité des observations est le premier élément. qui apparait & l'examen de ce tableau. Pour un méme type de porte-greffe, les productions varient toujours au moins du simple au double d’une année & autre, et parfois méme dans un rapport qui dépasse 1 4 (PG2 et PGS) Les quelques paramétres qui complétent le tableau confirment trés largement cette impression, D’auire part, la représentation graphique des observations semble effectivement montrer des alternances de faibles productions et de productions importantes (figure 2.4.1). ‘Treize arbres avaient été plantés initialement pour chacun des porte-greffe, mais quelques- luns sont morts en cours d’expérience. Les conditions d'application des méthodes statistiques et l'examen initial des données 8 a FReencements(kgarbre) g Figure 2.4.1. Evolution des productions annuelles de sept types de pommiers. En vue de vérifier la condition de normalité des distributions, les éearts réduits par rapport aux moyennes ont été calculés séparément pour chacune des sept colonnes du tableau 2.4.1, puis regroupés. La distribution obtenue de cette maniére montre une certaine dissymétrie (partie gauche de la figure 2.4.2), qui n'est pas surprenante, si on tient compte des valeurs élevées des coefficients de variation. » 's ‘0 i * i e, ° ° ES feat ats ear ts 0) Figure 2.4.2. Productions annuclles do sept typos de pommiors histogrammes des écarts réduts, pour les données initiales et pour les données transformées (logarithmes décimaux). Pour remédier & cette situation, on peut envisager de remplacer les va- leurs initiales par leurs logarithmes, la distribution des productions étant sans doute plutot de type log-normal que de type normal |STAT1, par graphe 6.6.6.4°]. La distribution des écaris calculés de la méme manitre a partir des logarithmes est effectivement plus symétrique, tout en présentant cependant un aplatissement quelque peu excessif (partie droite de la figure 2.4.2), L'examen des coefficients de PEARSON et de FISHER (paragraphe 3.4.2) confirme cette appréciation, sans mettre en cause cependant Vu! (ay 2.4 Quelques tests du caractére aléatoire et simple d'une série d'observations 51 tion du test du quotient de VON NEUMANN, ou de DURBIN et WATSON, qui cst relativement robuste(!), Les résultats des tests, réalisés & partir des logarithmes décimaux des données initiales, arrondis & trois décimales, sont. présentés dans le tableau 2.4.2. Il s'agit, pour les différents porte-greffe (PG), des valeurs du quotient de VON NEUMANN (q), des valeurs correspondantes de la variable normale réduite (gps), et des probabilités relatives A ces valeurs. Tableau 2.4.2. Etude du phénoméne dalternance des Productions annuelies chez le pommier :résutats des tests du quotient de VON NEUMANN, ou de DURBIN et WATSON. PG | @ obs _| P(U 2 tots) 1 [2,06 | 0,12 05 2 1,97 0,06 0,52 3 | 2,94 1 te% 0,038 4 |242] 0,79 0,22 5 | 258 1,09 0,14 6 | 2,95 1,80* 0,036, 7 1254 1,02 0, ‘Tenant compte du fait que Ia question posée au départ est de savoir s'il existe, ou non, un phénoméne d’alternance des productions, les tests du caractére aléatoire et simple des suites d’observations ont été réalisés de maniére unilatérale. L’hypothese nulle est bien Ho: «=2, si on désigne par & la valeur théorique du quotient de VON NEUMANN, mais les seules alternatives auxquelles on s’intéresse sont : H:x>2. Les quantités uo,5 et les probabilités correspondantes ont done été caleulées A partir des valeurs algébriques des écarts q —2, et non a partir de leurs valeurs absolues. Ainsi, pour le premier type d’arbres (PGI), les logarithmes des produc- tions sont : 1,620, 1,636, 1,423, 1,553, 1,412, 1,733, 1,750, 1,801, 1,447, 1,708, 1,636, 1,649. La somme des carrés des différences entre les valeurs successives, la somme des carrés des écarts par rapport & la moyenne, et la valeur du quotient de VON NEUMANN sont telles que q = 0,387127/0, 187586 = 2, 0637. Les coefficients de symétrie et d’aplatissement : vbr =0,13 et by = 1,87, se situent en effet a Ia limite des valeurs admissibles, au niveau de probabilité 0,05 et pour 81 observations, selon les abaques de BOWMAN et SHENTON (abaques V)- Les conditions d'application des méthodes statistiques et I'examen initial des données La valeur de la variable normale réduite et sa probabilité sont doue (table Lb): tobs = (2,0637 — 2) 143/40 = 0,12 et P(U > 0,12) =0,45. Deux tests sur sept donnent des résultats significatifs au niveau 0,05. Ce fait conduit, globalement, au rejet de 'hypothese d’indépendance des obser- vations suecessives, Cest--dire & la conclusion que les données considérées présentent bien un certain degré d’alternance des productions. On notera toutefois que cette conclusion est loin d’étre établie de fagon trés nette- [ On pourrait se poser la question de savoir si une conclusion plus formelle ne découlerait pas de la prise en considération des résidus par rapport & des droites ou des courbes de régression, la place des données initiales. Aucune tendance générale bien définie n’apparaissant, au vu de la figure 2.4.1, nous nous sommes contenté d'essayer d’obtenir une réponse par Pajustement. de droites de régression. Les résultats obtenus de cette maniére confirment la conclusion préeéden- te, on étant toutefois trés Iégerement, plus significatifs. Les probabilités ob- tenues & partir des régressions linéaires vont en effet de 0,026 & 0,40, au Liew de 0,036 0,52. D’autre part, on pourrait étre tenté aussi d'appliquer 'une ou autre procédure de regroupement ou de combinaison des résultats des tests rela tifs aux différents types de pommiers [STAT1, paragraphe 10.3.5.4°]. Cos procédures impliquent. toutefois que les tests concernent des ensembles de données indépendants les uns des autres, ce qui n’est unllement le eas, puis- que les mémes années sont prises en considération pour les différent: (arbres, avec d’ailleurs certains parallélismes évidents entre les div évolutions (figure 2.4.1). Enfin, on peut noter que les coefficients d’autocorrélation d’ordre | cor- respondant aux résultats présentés ci-dessus varient de —0,03 et — 0,04 (PG1 et PG2) a —0,50 et — 0,53 (PG3 et PGB), pour des valeurs du quo- tient de VON NEUMANN allant de 1,97 et 2,06 & 2,94 et 2.95 (tableau | 2-42). 2.4.3 Le test du nombre de séquences homogénes 1° Quand on considére une suite de réalisations de deux événements totalement exclusifs A et B, telle que: AABAAAABBAAABBBBABBB, on appelle séquence homogene"®) toute sequence d’événements identiques. La série de 20 événements qui vient d’étre présentée comprend, par exemple, 8 séquences homogenes (4 séquences de A et 4 séquences de B). 2° Le nombre de séquences homogines est un indice du caractére com- plétement aléatoire de la suite d’événements. Un nombre réduit de séquences (2) Run, 2.4 Quelques tests du caractére aléatoire et simple d'une série d’observations homogenes correspond en effet & un regroupement trop important des événe- ments A d’une part et B d'autre part, tandis qu’un nombre élevé de séquen- ces homogenes correspond A une alternance trop fréquente des événements Act B. Plus conerétement, si on désigne par ng et ng, respectivement, le nom- bre de réalisations de l'événement A et le nombre de réalisations de 'événe- ment B, on peut démontrer que lespérance mathématique du nombre de séquences homogdnes est, dans le cas d’une suite complétement aléatoire : Qnanp/(na +np) +1. En outre, toujours dans I’hypothése d’une suite complétement aléatoire, on démontre que la variance du nombre de séquences homogdnes est ap- proximativement : 2nanp (27, np - nA —np)/[(ra +B)? (na +nB - 1], et que la distribution de ce nombre est asymptotiquement normale. 3° Si on désigne par nj le nombre observé de séquences homogenes, un test du caractare complétement aléatoire de la série d’événements peut done étre réalisé en calculant la quantité : 2nany jn, - —“A"B. 1) 40,5 je ma tag 1 —— /2na np (2m, NB — 2A — NB) (eq +g)? (nq mB —1) Le rejet de l'hypothése du caractére complétement aléatoire doit intervenir, pour un test bilatéral de niveau a et par référence a la distribution normale réduite, quand : P(U| > wors) SA OU Moke > Uy —a/2+ Le test peut étre réalisé de cette maniére quand les effectifs ny et np sont supérieurs & 10, et que, simultanément, au moins un de ces deux effectifs est supérieur & 20. Des tables particulitres sont disponibles pour des effectifis inférieurs A ces limites [OWEN, 1962; SWED et EISENHART, 1943)(19), [La valeur +0,5 est une correction de continuité semblable & celle qui intervient notamment dans utilisation des distributions normales comme | approximation des distributions binomiales [STAT1, paragraphe 6.6.4.3"). 4° Le test du nombre de séquences homogenes, que nous avons présenté pour une suite d’événements aléatoires, peut étre appliqué également, sans (13) Ges tables doivent cependant étre utilisées avec prudence, car elles sont susceptiblas d’induire le lecteur en erreur. Les valeurs qui y sont présentées comme valeurs critiques supéricures doivent en effet tre toujours majorées d'une unité, pour qu’elles correspon- dent bien aux valeurs & partir desquelles "hypothése du caractire aléatoire et simple doit etre rejetée. Les conditions d’application des méthodes statistiques et I’examen initial des données difficulté, & une série quelconque de valeurs observées dune variable aléat re, Il suffit, pour cela, de considérer une valeur centrale de référence (moyen- ne ou médiane par exemple), et d’associer A l’événement A les valeurs ob- servées qui sont inférieures a cette valeur de référence, et a I'événement B. les valeurs observées qui sont supérieures a cette valeur de référence. En particulier, pour une variable aléatoire continue et en considérant la médiane comme valeur de référence, on a n, ny n/2, n désignant le nombre d'observations, quand ce nombre est pair, et le nom- bre d’observations diminué d’une wnité, quand ce nombre est impair. La moyenne et la variance du nombre de séquences homogénes sont alors : n/2+1 et n(n—2)/[A(n—1)], ct In valeur tpg devient : tons = [[2m, — 2 — 2 + 1]/Vnin—2)/(n— 1), n désignant, comme ci-dessus, l'effectif pair ou leffectif impair diminué d'une unité. [ Le test du nombre de séquences homogenes peut étre réalisé par V'inter- | médiaire de la commande «runs » du logiciel Minitab. [5° D’autres tests répondant au méme objectif, mais parfois plus puissants, ont été proposés. Ils font intervenir notamment la longueur des séquences homogenes, et pour des valeurs d’une variable aléatoire, le nombre de maxi- mums et de minimums, le nombre et la longuenr des phases croissantes ot | déctoissantes, ete. [MORICE, 1956; O'BRIEN et DYCK, 1985]. Exemple 2.4.2. Etude du phénomene dalternance des productions an- nuelles chez le pomunier: test du nombre de séquences homogeues. Pour illustrer utilisation du test du nombre de séquences homogenes, nous reprenons les données de l'exemple 2.4.1, méme s'il ne faut attondre aucune information supplémentaire de l'analyse qui peut étre réalisée de cette maniére. Nous envisageons plus particuligrement: le cas de la derniére colonne du tableau 2.4.1 et le cas, plus particulier, de la premiere colonne de ce tableau. Pour la deriére colonne du tableau 2.4.1, la médiane est égale & 89,6, et Ia série d’observations pent étre schématisée de la maniére suivante -+---+4+4-4-+4, si on désigne par — les observations inférieures la médiane, et par + les observations supérieures & la médiane. Le nombre de séuences homogenes est done égal & 8 Les tables de SWED et EISENHART [1943] indiquent que les probabi- lités de voir apparaitre 12, 11 et 10 séquences homogenes, dans Phypothese Exercices du caractére complétement aléatoire de la suite des observations, sont égales respectivement & 0,0022 , 0,0108 et 0,0541 . Ces probabilités, cumulées A par- tir de 12, sont égales & 0,002, 0,0130 et: 0,0671. Au nivean 0,05, et cela pour le test unilatéral comme pour le test bilatéral, il faudrait donc que le nombre de séquences homogenes soit supérieur ou égal 4 11, pour que le résultat soit significatif. Tel n'est pas le cas. Pour la premiere colonne du tableau 2.4.1, la médiane est égale & 43,3, ot elle se confond avec deux valeurs observées. La série d’observations peut. en conséquence étre schématisée comme suit : -0---+++4+-+04, si on représente en outre par 0 les valeurs observées égales & le médiane. Abstraction faite de ces valeurs, le nombre de séquences homogenes est donc égal A 4. Cette valeur n’est bien sir pas significative. Aucune des sept séries d’observations ne conduit d’ailleurs & un résultat significatif, le nombre le plus élevé de séquences homogenes étant égal A 10, pour le porte-greffe PG5 . Le test du nombre de séquences homogenes ne met. done en évidence aucune divergence significative par rapport & I'hypothése du caractére complétement aléatoire des observations. Cette conclusion, qui va A Lencontre de celle du test du quotient de VON NEUMANN (exemple 2.4.1), résulte de la faible puissance du test du nombre de séquences ho- mogenes, qui est basé uniquement sur les signes des écarts par rapport aux médianes, et qui ne tient aucun compte de importance de ces écarts. Exercices('4) ® 2.1, Procédez a l'examen initial des données présentées dans le tableau 17.2.2, en ce qui concerne les poids & la naissance, dans optique d'une comparaison des Poids moyens observés au cours des différentes années, par analyse de la variance un critére de classification (chapitre 9) 2.2. Procédez a examen initial des données présentées dans le méme tableau, ‘en ce qui concerne les poids 4 un an, égelement dans l'eptique d’une comparaison des poids moyens observés au cours des différentes années, par l'analyse de la variance & un critére de classification (chapitre 9). 2.3. Complétez. les exercices 2.1 et 2.2, en considérant, A denx dimensions, Ten semble des données du tableau 17.2.2, dans optique d'une étude de corrélation (chapitre 13). (14) Nous rappelons que le signe ©, qui précéde certains numéros d’exercices, et les symboles [ et |, possédent la méme signification que dans le texte. Chapitre 3 Les tests d’ajustement et de normalité et les observations aberrantes 3.1 Introduction 3.2 Le test y? d’ajustement de PEARSON 3.3. Les diagrammes de probabilité et quelques tests associés 3.4 Les tests de conformité de quelques paramétres particuliers 3.5 Lidentification des observations aberrantes 3.6 Lecas des données a deux dimensions Exercices aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 3.2 Le test x? d'ajustement de PEARSON la régression multiple [PFAFFENBERGER et DIELMAN, 1991; PIERCE. et GRAY, 1982; WHITE et MACDONALD, 1980} Les méthodes proposées restent cependant applicables A titre indicatif dans tous les cas. 5° Le probléme du controle de la normalité se pose fréquemment aus si, non pas pour un seul échantillon suffisamment important, mais pour un ensemble d’échantillons d’effectifs trés limités. La question peut alors étre résolue notamment en calculant les écarts réduits par rapport aux moyennes (paragraphe 2.3.3.4°), et en établissant des diagrammes de pro- babilité, dune part, séparément pour chacun des échantillons, et d’autre part, globalement pour l'ensemble des échantillons, [ D’autres solutions, dont l'utilisation de la méthode de regroupement des résultats de plusieurs tests de signification, que nous avons présentée antérieurement (STATI, paragraphe 10.3.5.4°], peuvent également étre en- | visagées (QUESENBERRY et al., 1983; WILK et SHAPIRO, 1968). [6° De nombreux autres tests d'ajustement et de normalité ont posés, Nous en mentionnerons occasionnellement cer pro- Parmi les multiples publications consacrées & ce sujet, on peut recom- mander la consultation des travaux de D'AGOSTINO et al. [1990], MORI- CE [1972], SANIGA et MILES [1979], SHAPIRO [1990], et SHAPIRO et al. [1968] En outre, on peut peut signaler Particle de LINNET [1988], relatif & Vapplication des tests de normalité dans le cas de transformations de va- riables nécessitant l’estimation d'un ou plusieurs paramétres, telle que la | transformation de BOX et COX (paragraphe 4.3.3) Le test x? d’ajustement de PEARSON Principes généraux 1° Le test x? d’ajustement de PEARSON® a pour principe de compa- rer les fréquences absolues n; d’une distribution observée, aux probabilités pondantes P; de la distribution théorique dont on souhaite vérifier la vali 6. Dans le cas d'une distribution discontinue, il s'agit des probabilit de la distribution elles-mémes, tandis que, pour les distributions continues, il s'agit de probabilités obtenues par intégration, pour des intervalles cor- respondant aux classes de la distribution observée. Dans un cas comme dans l'autre, |"hypothése nulle peut étre définie com- me suit, en termes de fonctions de répartition : cor Ho : F(z) = Fo(z), (2) PEARSON ’s goodness-of-fit test 3.2 3.2.12 aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. ” 3.2 Le test y? d’ajustement de PEARSON Exemple 3.2.1. Euude de la descendance d'un bybride de pols: vst ed Considérons A titre d’exemple un ensemble de données étudiées par MENDEL (1866), et relatives & la descendance d’un dihybride de pois (Pi- sum sativum L.). Parmi 556 plantes, MENDEL a observé 315 individus & graines rondes et albumen jaune, 108 individus a graines rondes et albumen vert, 101 in vidus & graines anguleuses et albumen jaune, et 32 individus A graines an- guleuses et albumen vert. On peut se demander si ces fréquences observées sont compatibles avec hypothése d'une répartition 9/16, 3/16, 3/16 et 1/16. De fagon plus formelle, il s’agit de tester |’adéquation d’une distribution polynomiale STATI, paragraphe 6.2.3], UVhypothése nulle étant : Ho :P1=9/16, P2=P3=3/16 et Pa=1/16, ou en termes de fonction de répartition : Ho: Fi=9/16, Fo 12/16, F3= 15/16 et Fa Les fréquences attendues sont : nP, = 556 (9/16) = 312,75, nP2 =nP3 = 556 (3/16) = 104,25 et nP4 = 556 (1/16) On constate immédiatement que ces fréquences ne different guére des fré- quences observées 315, 108, 101 et 32. La valeur x2), est: 34,75. 2 15? 108? +101? | _ 32? Xobs = 312,75 104,25 * 34,75 — 556 = 556,470 — 55¢ 0,47, et pour 3 degrés de liberté, on a (table III) : P(x? > 0,47) =0,93 et x35 = 7,81. L'utilisation de la formule initiale de définition de y2,, conduirait & un résultat identique, mais par l'intermédiaire de calculs un peu plus longs. Pour autant qu’on puisse supposer que les 556 plantes observées consti- tuent un échantillon aléatoire et simple extrait dune population donnée, on est donc amené & accepter 'hypothése nulle, c’est-a-dire 'hypothése d'une répartition 9/16, 3/16 3/16 et 1/16 , pour la forme des graines et la couleur de Valbumen”), L'utilisation du test x? de PEARSON a permis de montrer que les résultats publiés par MENDEL sont abusivement conformes aux théories qu'il proposait, ou encore « trop beaux pour étre vrais». On peut donc sc demander si MENDEL n'a pas privilésié, consciemment ou inconsciemment, la publication des résultats les plus favorables a ses théories [BROAD et WADE, 1987] aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 3.3 Les diagrammes de probabilité et quelques tests associés les valeurs de la fonction de répartition de la distribution normale réduite relatives & ces points (table ILb) : (— 2, 7057) = 0,003408, (—2, 5049) = 0,006124, ete. les probabilités estimées relatives aux différentes valeurs observées : B(3) = 0,003408, P(4) = 0, 006124 — 0,003408 = 0, 002716, ete. et par multiplication par l'effectif 816, les fréquences attendues nB; , qui figurent dans le tableau 3.2.1. On peut noter aussi que la principale discordance entre les fréquences observées et les fréquences attendues apparait a la derniére ligne du tableau (contribution A la valeur y2,, égale 4 4,898). Cette discordance s’explique dans une large mesure par le fait que, d'une part, la distribution observée est relative a un domaine fini (nombres mensuels de jours de précipitations pouvant aller de 0 A 28, 29, 30 ou 31, selon les mois), alors que les distribu- tions normales concernent, le domaine (—o0 , + 00), et d’antre part, la limite supérieure du domaine de variation relatif a la variable observée différe d’un | mois & autre (28, 29, 30 ou 31 jours). Les diagrammes de probabilité 3.3 et quelques tests associés Principes généraux 3.3.1 ® 1° Le contréle de la normalité, ou de la forme de toute autre distribu- tion, par examen de diagrammes de probabilité est une méthode purement visuelle, qui s’avére trés utile en pratique (paragraphe 3.3.2). Cette approche peut éventuellement étre complétée, ou remplacée, par la réalisation de différents tests d’hypothéses, dont le test de SHAPIRO et WILK (paragraphe 3.3.3). [ 2° Notre présentation de ces différentes méthodes sera limitée au cas des distributions normales. Ces méthodes peuvent cependant étre utilisées aussi pour d’autres distributions [GAN et KOEHLER, 1990;GAN et al., 1991; l HOAGLIN, 1980; METZ et ai, 1994; OZTURK, 1986] Les diagrammes de probabilité 3.3.2 1° Les diagrammes de probabilité®) sont des diagrammes de fonctions de répartition [STAT1, paragraphes 5.5.1.2° et 5.5.2.1°], ou de fréquences cumulées [STAT1, paragraphe 3.3.2.1°], dans lesquels les ordonnées sont: déterminées de telle sorte que les fonctions de répartition F(x) apparaissent ©) Probabitity plot. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 3.3 Les diagrammes de probabilité et quelques tests associés n dent & Vordounée 0 , sont proches respectivement de 26, 25 et 23 metres, et los écarts-types vont croissant du premier type au dernier type de foréts. 2 +e Cy gt te E : gs 5 + ee $0 ° 2 : z Se é te * oe * oe a a a a) auteurs () Figure 3.3.2. Comparaison des hauteurs moyennes des arbres de trois types de hétraies: diagrammes de probabilité individuels, relatiis aux trois types de foréts. D'antre part, la figure 3.3.3 présente le diagramme de probabilité global, établi a partir des écarts réduits par rapport aux moyennes, qui sont donnés dans la partie droite du tableau 2.3.1. Ce diagramme confirme la conclusion positive formulée ci-dessus, en ce qui concerne I'hypothese de normalité des populations-parents. ‘Quaattos normaux carts rect Figure 3.3.9. Comparaison des hauteurs moyennes des arbres de trois types de hétraies :diagamme de probabilté obal, relatit a Fensemble des trois types de fordts, [ Le tableau 3.3.1 permet en outre de voir de facon précise comment sont construits les diagrammes de probabilité présentés ci-dessus, en ne prenant toutefois en considération que le troisiéme type de foréts. Les trois premiéres colonnes de ce tableau contiennent les valeurs de Vindice i, les valeurs observées 2, et les valeurs (i — 1/2}/n. Ce sont ces dernidres valeurs qui doivent étre portées en ordonnées, en regard des 2; , quand on utilise une échelle de probabilités. La quatriéme colonne du tableau présente les quantiles u; de la variable normale réduite, qui correspondent aux valeurs (i — 1/2)/n. Ces quantiles, qui peuvent étre caleulés a l'aide de la table de la distribution normale aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 3.3 Les diagrammes de probebilité et quelques tests associés 5 Tableau 3.3.2. Comparaison des nauteurs moyennes des arbres de trois types de hétraies -test de SHAPIRO et WILK relatif au type 3. a Ci G er 18,9 [05739 |—0,5545 | —0,5483 21,1 |—0,3291 | —0,3494 | —0,3547 21,2 | -0,2141 | -0,2274 | ~ 0,2323 22,1 |-0,1224 | —0,1299 | — 0,1331 — 0,0399 | — 0,0424 | — 0,0435 0,0399 | 0,0124 | 0,0435 0.1224 | 0.1299 | 0,1331 o2i41 | 0,2274 | 0,2323 0.3201 | 0.3494 | 0,3547 0.5739 | 0.5545 | 0.5483 Des résultats tout a fait semblables peuvent étre obtenus pour les denx autres types de foréts (Voy. = 0,922 et Woos = 0,866 d'une part, Wops = 0,973 et Wo,os = 0,874 d’autre part). Un examen plus attentif des tables de SHAPIRO et WILK montre méme que, pour les effectifs respectifs 13, 14 et 10, les probabilités d’observer des valeurs W,, inférieures ou égales a 0,922 , 0,973 et 0,972 sont proches de 0,3 dans le premier cas, et de 0,9 dans les deux derniers cas. Ces valeurs sont. trés supérieures ati niveau de probabilité 0,05, et tout confirme done les conclusions de V'exemple 3.3.1, & savoir le caractire trés proche de la normalité des distributions des trois populations-parents. [ En ce qui concerne l'interprétation du test de SHAPIRO et WILK, on peut vérifier facilement, a partir du tableau 3.3.2, que la valeur Wy, est bien le carré du coefficient de corrélation des valeurs ¢; et 2; . D’autre part, le tableau 3.3.2 contient aussi deux colonnes intitulées cj et cf. Il s'agit des colonnes uj et ui du tableau 3.3.1, aprés standardisation de telle sorte que les sommes des carrés des écarts soient unitaires('4), La comparaison des trois derniéres colonnes du tableau 3.3.2 souligne l'analogie étroite entre les valeurs utilisées dans la construction des diagrammes de probabilité et les coefficients de SHAPIRO et WILK. Pour le troisitme type de foréts, en se référant aux quantités cj et c/ , au lieu des coefficients cj , on obtiendrait dailleurs des valeurs Wy. égales respectivement 4 0,977 et { 0,978 , au liew de 0,972 (14) 11 sagit plus exactement des valeurs u; et u! non arrondies comme dans le tableau 3.3.1, et standardisées. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 3.5 Liidentfication des observations aberrantes. Exemple 3.4.2. Nombres de pieds d’asphodeles observés dans 512 carrés de 1 m? : test de conformité de indice de dispersion. Nous avons présenté antéricurement les résultats du comptage du nom- bre de pieds d’asphodéles (Asphodelus cerasifer GAY) observés dans 512 carrés contigus de 1 m*, au cours d’une étude relative a la structure d’une végétation méditerranéenne [CALLEJA et GOUNOT, 1962; STAT!, exem- ple 3.2.2). Si les 512 carrés étaient indépendants les uns des autres, et si toutes les plantos dénombrées étaient réparties de fagon entigrement indé- pendante, les unes par rapport aux autres, la distribution théorique sous- jacente devrait étre une distribution de POISSON [STAT1, paragraphe 6.4.1.5°]. Le test de Vindice de dispersion permet de vérifier cette hypo- these. La moyenne et la variance observées sont (STATI, exemple 3.8.4] : F=3,207 et s?=11,79, ce qui montre un écart important entre les deux paramétres, qui devraient en principe avoir des valeurs proches Pune de l'autre, dans le cas d’une population de POISSON. Lindice de dispersion est X25 = 512 (11, 79) /3, 297 = 1.831. On peut en déduire 'approximation normale : Ugts = V2 (L831) — 2 (512) — 3 = 28, 6. Cette valeur est extrémement significative, et I’hypothése d’une distribu- tion de POISSON doit done étre rejetée de facon tout & fait catégorique. Des alternatives qui mériteraient d’étre prises en considération, si on souhaitait approfondir la question, pourraient étre Phypothése d'une distribution bi- nomiale négative, et I’hypothise d’une distribution POISSON de POISSON [STAT1, paragraphes 6.5.2.6° et 6.5.3). Lidentification des observations aberrantes 3.5 Principes généraux 3.5.1 © 1° On peut définir les observations aberrantes"”) comme étant des ob- servations qui sécartent de fagon anormale de l'ensemble des autres ob- servations du groupe auquel elles appartiennent. De plus, nous entendrons par identification des observations aberrantes, & la fois, la mesure du degré d'anomalie d’observations qui, visuellement, paraissent suspectes, et. la re- cherche ou la détection de telles observations, dans des ensembles de données qu'il n'est pas possible d’examiner en détail de maniére visuelle. (1) ‘Spurious observation, outlier aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 3.5 Lidentification des observations aberrantes au lieu de (tableat 2.3.3) : —2,76, —2,34, -2,16, ..., 1,84, 1,97, 2,00 Aucune des nouvelles valeurs obtemues ne doit done étre considérée comme excessive, par comparaison avec la limite 3,39, relative A 97 observations (table VI: k = 96). Le cas de deux ou plusieurs séries d’observations 3.5.3 1° L’étude simultanée de deux ou plusieurs séries d’observations concer- ne principalement le test t de STUDENT et l’analyse de la variance, pour deux ou plusieurs échantillons, mais peut aussi étre envisagée sans aucune référence & de telles méthodes. On pent alors appliquer une procédure semblable & celle du paragraphe précédent, en se basant sur ensemble des écarts réduits par rapport aux différentes moyennes, tels que nous les avons caleulés notamment dans le cadre de exemple 2.3.1. Dans ces conditions, et pour autant que les effectifis individuels ne soient pas inférieurs & 3 ou 4, les écarts réduits peuvent étre comparés aux valeurs limites de la table VI, le paramitre k étant égal & V'effectif total des différents échantillons, moins le nombre ¢’échantillons. [2° Le cas échéant, les écarts réduits peuvent aussi etre calculés globa- lement, en appliquant le modéle d’analyse de la variance qui est pris en considération. Ainsi, par exemple, pour l'analyse de la variance & deux critéres de classification, avec une seule observation par échantillon, les écarts résiduels sont les quantités aj; -7;, -%j+Z., (paragraphe 10.2.5.1°). Ces écarts peuvent étre réduits en les divisant par leur écart-type. Le paramitre k de la table VI est alors le nombre de degrés de liberté de la somme des carrés des écarts résiduelle, ou de la somme des carrés des | écarts qui en tient lieu. 3° Les mémes restrictions qu’an paragraphe 3.5.2 peuvent étre formnlées, en ce qui concerne tant V'identification de deur ou plusieurs observations aberrantes, que la normalité des populations-parents. En outre, dans optique de utilisation de lun ou l'autre modéle d’analy- se de la variance, il faut étre attentif au fait que cette approche du probleme suppose aussi l'égalité des variances des différentes populations considérées. [4° La méthode que nous proposons n'est toutefois qu'approximative. Une solution plus correcte peut étre déduite de la généralisation suivante de la relation du paragraphe 3.5.2.5° : (dlnaw)t—o/2 = br-a/(an) [0 = n= P14 Bg eayy)s p désignant le nombre de parametres estimés, et la variable ¢ étant une variable de STUDENT & n ~ p —1 degrés de liberté. L’emploi de cette aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 3.6 Le cas des données a deux dimensions 1 longueurs et les poids, et aussi en fonction de Vobjectif poursuivi (exemple 2.3.2). Tableau 3.6.2. Etude biométrique d'une population de poissons : valeurs extrémes des distances réduites "par rapport au point mayen, et numéros dordre des individus eoneidéris, pour les longuours et les poids de 99 chevesnes, dans le cas des données initiales, et dans le cas des données transformées (logarithmes décimaux), avant et aprés éli ition d'individus considérés comme aberrants. Donn. init, Données transformées a) i¢ [d®) ¢]d® «a? 3 377 2 |277 3 | 257 23 88 383 1 |349 90/275 3 3 384 97 |363 1/361 1 23 461 99 [368 2/369 2 1 48298 | 564 12 [414 90 [368 2 Si on se référe aux données transformées, c'est au contraire l'individu n° 12, dune longueur de 158 millimetres et d’un poids de 79 grammes (tableau 2.3.2), qui s’avere aberrant. On remarquera que cette anomalie, qui se présente au coour de la distribution des longueurs et des poids, n'a pas 6té mise en évidence antérieurement, par l'étude & une dimension (exemple 3.5.1). Elle parait cependant relativement flagrante, a posteriori, quand on re attentivement le tableau 2.3.2, ou la partie droite de la figure Si on élimine cette observation, on doit recalculer, pour les 98 individus restants, les distances réduites par rapport aux moyennes. Les valeurs les plus élevées ainsi obtenues sont présentées dans la cinquitme colonne du tableau 3.6.2. Elles doivent étre comparées A une limite égale cette fois A 3,78. L'individu n° 90, d’une longueur de 250 millimetres et d’un poids de 120 grammes, apparait alors aberrant, dans une mesure toutefois nettement inférieure A celle de l’individu n° 12. La procédure peut étre répétée A nouveau, mais elle ne met en évidence aucune anomalie supplémentaire, bien que les distances relatives aux in- dividus n° 1 et n° 2 soient encore fort élevées (avant-demiére colonne du tableau 3.6.2). L’étude a deux dimensions suggére done d’éliminer les individus n° 12 ct n° 90. La figure 3.6.3 donne le diagramme de probabilité obtenu pour les données transformées, aprés cette double élimination. Ce diagramme est nettement plus satisfaisant, tout en mettant encore bien en évidence les points relatifs aux individus n° 1 et n° 2. Pour des raisons didactiques, nous avons ainsi « décortiqué» ’étude d’un méme ensemble de données, en considérant séparément l'examen préliminai- re (exemple 2.3.2), étude de la normalité et lidentification des observations aberrantes A une dimension (exemples 3.3.2 et 3.5.1), et enfin l'étude de la normalité et I'identification des observations aberrantes deux dimensions. Ici également, i est bien évident que, dans la pratique courante, de telles aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 4.2 Les principes de base et la transformation logarithmique 2° En outre, toujours dans optique des comparaisons de moyennes, la condition d’égalité des variances est, d'une fagon générale, plus contrai- smante que la condition de normalité, en raison notamment des propriétés limites telles que le théor’me de LINDEBERG-LEVY [STATI, paragraphe 6.6.5.24], et du caraciére asymptotiquement normal qui en résulte pour les distributions d’échantillounage des moyennes (STATI, paragraphe 8.3.1.5") Dans le choix d'une transformation, on mettra donc généralement I'ac- cent surtout sur la condition d’égalité des variances. Le principe est alors de chercher une transformation: ¥ =¥(X) qui soit telle que la variance de Y est constante ou approximativement constante, méme si la variance de X est variable, et fonction de la moyenne de X. [ Ace propos, on se souviendra du fait que, pour des fonctions croissantes, ces différents parametres sont liés par la relation suivante {STATI, para- graphe 5.8.3.2") : Bend ei acanl L oy = ox [y(mx))". 3° Apres transformation, les calculs de limites de confiance et les tests Whypotheses peuvent étre réalisés tout & fait normalement, et il est possible de revenir dans une certaine mesure aux variables initiales En ce qui concerne les intervalles de confiance par exemple, la trans- formation inverse de celle qui a été utilisée au départ: permet de calenler des limites de confiance pour les données initiales, & partir des limites de confiance obtenues pour Jes données transformées. On notera toutefois que, d'une fagon générale, les limites de confiance relatives aux données initiales ne sont. pas symétriques par rapport aux valeurs estimées, lorsqu’elles sont symétriques pour les données transformées. A cet égard, la question de savoir si les estimations, de moyennes ou de différences de moyennes par exemple, doivent étre réalisées ou non par Vintermédiaire des données transformées doit toujours ¢tre examinée atten- tivement, en fonction notamment de Vobjectif poursui Enfin, les fests d’kypothéses, et notamment les tests d’égalité de moyen- nes, ne soulevent guére de difficultés particuliéres. D'une maniére générale, les hypotheses d’égalité relatives aux données initiales sont en effet. trans- posables aux données transformées, et vice versa. [ Des informations complémentaires relatives au calcul des limites de con- fiance, & la réalisation des tests dhypotheses, et au retour aux données initiales sont fournies notamment par DOKSUM et WONG [1983], et VES- | SEREAU (1973). 4° Afin de lever toute équivoque, précisons encore que nous n’envis geons pas ici le cas des transformations linéaires, et notamment les chan- gements d'unités. De telles transformations sont parfois réalisées en vue de faciliter V'encodage des données, ou la présentation des résultats, mais elles n’apportent aucun changement & la forme des distributions, et aucun reméde aux éventuelles non-normalités et inégalités de variances. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 4.2 Les principes de base et la transformation logarithmique ~ ea « * go * aie i i an : 5 ‘ ‘ Foo of 0 J ° i $m ame ’ 2 8 Nombre ae poo Figure 4.2.1. Nombres diles observes au cours dune experience de piégeage :histogramme relatit fensembie des observations et « boxplots» établis séprément pour chacune des quatre substances étudiées. 20 Friquencos Log10 (nombres aiutes) [I 1s 20 28 1 2 3 Log10 (nombres eiules) Aopats Figure 4.2.2. Nombres ules observes au cours d'une experience de piégeage :histogramme relat & Tensembie des observations et « boxplots» étabis séparément pour chacune des quatre substances étudiées, en ce qui concerne les données transtormees (logarithmes decimaux). Une fois la transformation effectuée, aucune difficulté ne se présente & propos du test d’égalité des moyennes relatives aux quatre substances. Ce test peut étre réalisé par l'analyse de la variance deux critéres de classifi- cation (paragraphes 10.2 et 10.3), éventuellement complétée par des compa- raisons multiples de moyennes (paragraphe 12.4), et le rejet ou l'aceeptation de toute hypothese d’égalité qui a trait aux logarithmes implique le rejet ou Vacceptation de l'hypothése équivalente relative aux données initiales. Des difficultés, ou des doutes, surgissent par contre au sujet des estima- tions de moyennes, et de la manitre d’exprimer leurs différences ou leurs rapports. En fonction des données initiales, les nombres moyens d’inles eap- a Vaide des différentes substances sont respectivement ; 75, 93, 121 et 106. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 4.3 Les principales transformations 103 entre les moyennes et les écarts-types, puisque les coefficients de variation varient nettement. en sens opposé aux moyennes et aux écarts-types. On pourrait encore vérifier qu'il y a, dans une large mesure, proportion- nalité entre les moyennes et les variances. Enfin, on pourrait aussi procéder A diverses représentations graphiques, semblables notamment a celles de Vexemple 4.2.1. Les différents éléments ainsi constatés justifient de tenter l'emploi d’une transformation racine carrée, ce choix étant également réexaminé ultérieu- rement (exemple 44.2). edu tableau 4.3.1 donne les résultats obtenus & l'aide y=Vr+3/8, les valeurs étant arrondies a la premiére décimale. Les moyennes et les écarts- types de ces valeurs, qui figurent dans les deux dernigres colonnes du tableau 4.3.1, montre que la relation qui liait ces paramétres, pour les données ini- tiales, est trés nettement estompée, et que les différences entre écarts-types sont fortement réduites. La deuxidme parti de la transformation : [ La réalisation des analyses de la variance relatives aux données initiales et aux données transformées montre que les valeurs de la variable F de FISHER-SNEDECOR ne different guere d'un cas & l'autre (Fi4, = 2,46 pour les données initiales, et 2,70 pour les données transformées). La trans- formation de variable ne modifie done pas sensiblement les conclusions de Vanalyse de la variance. La transformation garde cependant toute son im- portance, dans l’optique des comparaisons particuligres ou multiples qui peuvent faire suite a l'analyse de la variance (paragraphe 12.1.6°). La réalisation de l'analyse de la variance, sur les données initiales ou sur les données transformeées, confirme également que les différences entre blocs sont négligeables, et qu'il n'y avait done effectivement pas d’inconvénient. 4 calculer les moyennes, les écarts-types et les coefficients de variation en négligeant ce facteur. En présence de différences importantes entre les blocs, on pourrait suivre la méme procédure, en considérant pour les différents traitements, d’une part, les inoyennes des données initiales, et d’autre part, les éarts-types | des résidus de Vanalyse de la variance réalisée sur ces données. La transformation puissance et la transformation de BOX et COX 1° La transformation puissance s’écrit : Y=xX 1], 2 étant une constante quelconque, différente de zéro. Elle englobe, comme cas particulier, la transformation racine carrée, pour laquelle la constante A est égale & 1/2. ©) Power transformation. 43.3 aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 4.4 Le choix d'une transformation 107 intervient dans de nombreux problémes relatifs aux valeurs extremes, n0- tamment en relation avec les distributions de GUMBEL [STAT1, para- graphe 8.3.4), Le choix d’une transformation Principes généraux 1° Le choix d'une transformation peut se faire soit en fonction de con sidérations théoriques, soit sur des bases purement empiriques. Nous avons formulé un certain nombre de considérations théoriques au cours des paragraphes précédents, notamment en nous référant & diverses distributions de probabilité : distributions de POISSON (transformation ra- cine carrée), distributions binomiales et proportions (transformation an- gulaire), etc. De méme, nous avons dit que l'emploi de la transformation logarithmique se justifie assez fréquemment pour des poids d’organismes vivants, des rendements, ete. 2° Il serait cependant dangereux d’appliquer ces quelques principes sans discernement. Dans cette optique, Ia procédure que nous présentons au cours du para- graphe suivant permet non seulement d’effectuer le choix d'une transforma- tion de meniére empirique, en Pabsence de toute considération théorique, i de vérifier si le choix d’une transformation réalisé, ne serait-ce qne partiellement, sur la base de considérations théoriques est judicienx. mais aus Le choix empirique d’une transformation 1° En absence de raisons théoriques justifiant l'emploi de telle ou telle transformation, et dans la mesure ot on dispose d'un ensemble de moyennes et de variances caleulées & partir de différents échantillons, on peut orienter Je choix dune transformation en construisant des diagrammes de dispersion a échelles logarithmiques, pour les couples moyennes-variances. Ces diagrammes permettent de voir si les relations entre les moyennes et les variances sont relativement étroites, En outre, les pentes éventuelles de ces diagrammes peuvent donner des indications utiles quant aux trans- formations & employer. 2° Deux cas particulitrement. typiques peuvent se présenter. D’une part, Ja pente du nnage de points pent correspondre A un coefficient angulai- re proche de 1, Cest-A-dire aussi & une relation entre les moyennes ot les variances du type: logo} =logmy tlogk ou of =kmy 44 4.4.12 4.4.2 aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. Exercices 1m blocs étaient importantes. En particulier, on obtient ainsi un coefficient de corrélation égal i 0,961, au lieu de 0,021 , et. un coefficient de régression égal 41,36, au lieu de 1,14. De plus, en vue d’améliorer encore la transformation, on pourrait: en- visager aussi l'emploi de la transformation de BOX et COX (paragraphe 4.3.3). Exercices 4.1. Au cours d'une étude préiminaire, relative & la lutte contre les limnées, on a observé le nombre d’individus présents dans quatre prairies différentes, en considérant chaque fois 15 petites parcelles de méme surface. En fonction des informations données ci-dessous, quelle transformation de variable devrait-on ap- pliquer a des données de ce type, en vue de les étudier par l'analyse de la variance 4 un critare de classification (chapitre 9) ? Prairie 1:2mint =0.2mazi = 18,71 = prairie 2: 0, tmaz2 2,3 et G2 prairie 3:ming = 0, Zmax3 = 1,8 et G3 = 1,45 prairie 4: 0, Imax 2,3 et G4 © 4.2. Un méme traitement a éé appliqué & des graines de sapin de Douglas au cours de périodes de durées différentes, allant de 1 & 12 jours, quatre groupes de 25 graines étant observés pour chaque durée d’application du traitement. En outre, quatre groupes de 25 graines non traitées ont également été observés. Le tableau suivant indique les nombres de germinations qui ont été obtenues pour chacun des 52 groupes de graines. Quelle transformation de variable devrait-on appliquer & ces données, en vue notamment de comparer les différentes durées de traitement par l'analyse de la variance A un critare de classification (chapitre 9) ? Durées de traitement (jours) o 12 3 4 5 6 7 8 9 ON BD 9 6 11 M 18 18 17 0 16 18 13 12 9 5 16 M15 M 15 % 18 17 17 18 9 7 10 16 «17 4 15 20 20 16 9 MM 10 9 6 Wu 2113 9 20 60 4 6 Bb 9 W@W B ® 4.3. Examinez 'opportunité d'appliquer des transformations de variables aux données étudiges dans le cadre des exercices 2.1, 2.2 et 3.1 4.4. Dans quatre types de foréts, on a choisi au hasard, chaque fois, 20 emplace- ments différents, et on a déterminé, en chacun des 80 emplacements, le rapport C/N (rapport de la teneur en carbone & la teneur en azote), pour la couche superficielle du sol. En fonction des informations données ci-dessous, quelle trans- formation de variable devrait-on appliquer aux rapports C/N, en vue de com- parer leurs moyennes par 'analyse de la variance A un critére de classification (chapitre 9)? Type 1:2mint = 7.2, mart = 12,5, 7) = 10,84 et #1 = 1,53; type 2: tmin2 = 10,8, tmax2 = 14,6, F2 = 12,91 et G2 = 1,32; type 8:2 min 8,0, Zs = 16,39 et 6s = 2,66; type 4:2ming = 13,9, tmozd = 18,3, Fa = 16,80 et 54 = 2,43. 11,5, 2mex3 aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 5.2 estimation et lintervalle de confiance d'une proportion 117 En outre, en ce qui concerne la comparaison de deux proportions, nous ferons la distinction entre le cas des échantillons prélevés indépendamment Vun de UVautre, et le cas des échantillons non indépendants. [4° Des informations complémentaires peuvent étre trouvées notamment dans les ouvrages spécialisés d’EVERITT [1992] ot FLEISS [1981] On notera également l'existence de logiciels statistiques particuliers, tels que StatXact, qui sont spécialement adaptés a l'étude des données qualita | tives. Lestimation et l’intervalle de confiance d’une proportion Principes généraux 5.2.1 ® 1° Si on considére une population infinie d’individus possédant l'un ou Pantre de deux earactores opposés, et si on y préléve un échantillon aléatoire et simple d'effectif n, le nombre X d'individus qui possédent le premier caract?re est une variable binomiale de moyenne et d’écart-type (STATI, paragraphe 6.2.2.1°] : mx =np et ox = ynpg= Vnp(1—p) La proportion d’individus possédant, dans V'échantillon, le caractére con- sidéré est en conséquence une variable aléatoire : X'=X/n, de moyenne et d’écart-type [STAT 1, paragraphes 5.8.2.1° et 5.8.3.1°]: mx =p et ox: = pain = Vp P)/n. 2° Les distributions d’échantillonnage de la. fréquence absolue X, et de la fréquence relative on de la proportion X’ dépendent done des deur pa- ramétres net p. Le premier est connu, et le second, qui n'est autre que la proportion théorique a laquelle on s‘intéresse, peut étre estimé sans biais, et avec une variance minimum, de la maniére suivante [STAT1, exemple 9.3.4) : p=aj/n=z'|, x étant le nombre d’individus qui possédent, dans l’échantillon, le caractére considéré, 8° Pour des petits échantillons, la détermination des limites de confiance peut étre effectuée a l'aide de tables ou d’abaques, tandis que pour des échantillons d'effectifs suffisamment élevés, cette détermination se fait de maniére approchée, le plus souvent par diverses approximations normales. 5.2 aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 5.2 Lestimation et ntervalle de confiance dune proportion 124 ott aussi : n=ul ap? (1 - pid? En particulier, pour un degré de confiance égal A 0,95, on obtient : [»=4p(- pi/d et d pouvant éventuellement étre exprimés en pourcentages. La figure 5.2.1 donne une représentation graphique de cette derniére relation, les indications relatives aux faibles valeurs de n ne constituant cependant que des ordres de grandeur approximatifs. P 50 40 + 60 30-+-70 p20 + 80 5+ 85 0 10490 Figure 5.2.1. Relation entre la marge derreur dle nombre ‘observations n, et fa proportion attendue p, pour un degre de confiance égal A 0.95, dans le cas de la determination des limites de confiance d'une proportion (d et p étant exprimés en %). 2° L'utilisation des formules données ci-dessus et de la figure 5.2.1 im- plique qu’on ait au départ une idée, au moins approchée, de la proportion recherchée p. Dans certaines limites cependant, la valeur de p n°influence pas sensiblement. le résultat. En outre, ces formules et cette figure supposent que les échantillons con sidérés sont. suffisamment grands, x etn ~ 2 devant étre au moins égaux aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 5.4 La comparaison de deux proportions 125 Exemple 5.3.2. Etude de la descendance d’un hybride de pois: test de conformité d'une proportion. Nos pouvons aussi reprendre les données de Vexemple 3.2.1, c'est-A-dire les observations de MENDEL [1866], relatives & 556 plantes de pois. Nous ne considérons toutefois ici qu’un seul caractére, & savoir la forme des graines, en nous demandant si la proportion théorique d’individus qui possédent ce caractire est bien égale A 3/4: Hg: p= 3/4. Les 556 plantes se répartissent en 423 plantes & graines rondes et 133 plantes & graines anguleuses. Pour des fréquences aussi élevées, les tables de HALD [1952], et dans une moindre mesure, de MAINLAND et al. {1956| sont. d’un usage assez peu commode, car elles nécessitent diverses interpolations, et certains pro- grammes de calcul ne permettent pas une détermination aisée des proba- bilités. Les méthodes approchées sont toutefois applicables, et entitrement satisfaisantes. Par la méthode de Verrenr-standard, sans transformation de variable, on obtient (table I.b) : Wobs = (423 — (556) 3/4| //556 (3/4) (1/4) = 0,59 P(\U| > 0,59) = 0,56. On accepte donc l’hypothése nulle, au niveau de probabilité 0,05, c'est-a-dire aussi I'hypothése que la proportion de plantes a graines rondes est bien égale 3/4, pour autant qu’on puisse considérer que les 556 plantes observées par MENDEL constituent un échantillon aléatoire et simple. [ Un résultat identique pourrait étre obtenu A Paide du test d’ajustement, qui ferait intervenir les deux fréquences observées 423 et 133, et les proba~ bilités correspondantes 0,75 et 0,25 (x3, = 0, 35 et P = 0,56). En outre, un résultat équivalent pourrait également étre obtenu par l’intermédiaire de la | transformation angulaire). La comparaison de deux proportions Principes généraux 5.4.1 1° La comparaison de deux proportions peut étre envisagée sous diffé- rents aspects. Il s'agit principalement, d’une part, du test de Vhypothése dégalité de deux proportions : Ho: pi =a, () Le problome considéré ici correspond aussi & objet de Vexercice 10.3 de « STATI ». 5.4 aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 5.4 La comparaison de deux proportions 129 Les niveaux de signification réels de ces tests sont donc 0,04 et 0,007, au liew de 0,05 et 0,01 Un test approché dans le cas des échantillons indépendants 1° La procédure la plus simple, pour tester Fégalité de deux proportions dans le cas des échantillons indépendants d’effectife suffisamment élevés, est basée sur l'approximation normale et la méthode de l'erreur-standard. Comme l'indiquent plusieurs références citées au paragraphe 5.4.1.3°, cette procédure assure un bon équilibre entre les différentes qualités souhaitables, par comparaison avec les nombreuses autres méthodes qui ont été proposées. 2° Nous désignerons par py , p2 et p les proportions abservées, séparé- ment, pour chacun des deux échantillons, et globalement, pour l'ensemble des denx échantillons : Pr=xilny, py=sme/nz et P= (ax +22)/(m +n). Les deux premiéres valeurs sont des estimations non biaisées et de variance minimum des probabilités inconnues py et pz, tandis que la troisiéme est une estimation conjointe, également non biaisée et de variance minimum, de la valeur commune, quand les deux probabilités sont effectivement égales. Le test de lhypothése d’égalité des deux proportions nécessite alors le calcul de la quantité: obs = |i — Pl/ VPC =P) Am + 1/n2) cette expression pouvant étre simplifie quand les deux effectifs sont égaux. Dans le cas du test bilatéral de niveau a, on doit rejeter ’hypothése nulle quand: PU] > ose) SA OU tobe 2 My -a/2+ par référence A la distribution normale réduite. 3° On peut facilement démontrer que ce test est strictement équivalent au test x? d’indépendance, appliqué au cas des tableaux de contingence 2x2 (paragraphe 6.2.3.1°). Comme pour ce test, l’'approximation normale peut étre considérée ici comme satisfaisante quand le produit des deux effectifis marginaux les plus petits (ny ou ng d'une part, et 21 +22 oun +n2—21~z2 autre part) est au moins cing fois plus grand que 'effectif total (n4 +12). [ len résulte aussi que le test d’égalité de deux proportions peut étre réalisé a l'aide de la commande « chisquare » du logiciel Minitab, le résultat | fourni par cette commande étant le carré de la valeur Ugh - [ 4° Une autre possibilité, que nous ne développerons pas, consisterait en utilisation de approximation normale par l'intermédiaire de la transfor- mation angulaire. D’autre part, diverses variantes ont éé proposées pour la méthode pré- sentée ci-dessus, comme (ailleurs pour le test de FISHER, notamment par Vintroduction de corrections de continuité(®). Des informations peuvent étre © Continuity correction. 5.4.3 aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 5.4 La comparaison de deux proportions 133 qui est appelé rapport des chances ou rapport des risques, ou pour le logarithme de ce quotient, par l’intermédiaire des publications de MANTEL (1986, 1992], WALTER et COOK [1991], et WALTERS [1997]. On notera que le rapport des chances ou des risques correspond, pour les observations, aux quotients : fei/(m1 ~21)]/[22/(n2-22)] et (a/e)/(b/d), respectiverent dans loptique des notations du tableau 5.4.1 et du tableau [ 5.43. Exemple 5.4.4, Comparaison de la sensibilité de deux races bovines a la trypanosomiase : détermination des limites de confiance de la différence de ilité. Par les exemples 5.4.1 et 5.4.2, nous avons mis en évidence Pexistence d'une différence tres hautement significative de sensibilité de deux races bovines & la trypanosomiase. Cette conclusion peut avantageusement ére complétée par la recherche des limites de confiance de cette différence. Pour un degré de confiance égal & 0,95 , on obtient : 0, 737 — 0| + 1,960 /(0, 737) (0,263) /19 = La difiérence de sensibilité est donc estimée 74 %, et les limites de confiance correspondantes sont approximativement 54 et 94%. Ce casest toutefois un cas limite utilisation de la formule générale, dans la mesure oii, d’une part, les effectifs des deux échantillons sont relativement, réduits, et d’autre part, une des deux proportions observées est strictement, nulle, de telle sorte qu’un terme disparait complétement de expression & caleuler. |, 737 + 0,198. La détermination du nombre d’observations 1° Nous ne considérons le probleme de la détermination du nombre d’ob- servations que dans le cas des méthodes approchées relatives aux échantil- lons indépendants (paragraphes 5.4.3 et 5.4.5.1°), et pour des effectifs égau. Pour la facilité, nous désignerons dans cette optique par n, les effectifs qui étaient désignés antérieurement pas m1 et np. 2° En ce qui concerme le test d’égalité des proportions, on pent aboutir A Lexpression suivante, par une procédure analogue A celle que nous avons adoptée dans le cas des moyennes (STATI, paragraphe 10.4.4]: n= 2 (ty a2 + 1-9)" (1—p)/# |, p étant un ordre de grandeur de la moyenne des deux proportions a com- parer, et 6 étant la différence qu’on souhaite mettre en évidence, avec un risque de premiére espéce a, et: un risque de deuxiéme espece 3. (YD Odds ratio. 5.4.6 aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 6.2 © 6.21 Les tableaux de contingence Introduction 1° D'une manidre générale, les tableaur de contingence, nous avons déja fait allusion en ce qui concerne le cas particulier 2 x 2 (para- graphe 5.4.1.2°), sont des distributions de fréquences qui ont trait A deus ou plusieurs caractdres qualitatifs, considérés simultanément. Les caractéres envisagés peuvent étre binaires, nominaux ou ordinaux [STATI, paragraphe 2.4.1.2°]. auxquel 2° Quand deux caractéres seulement sont pris en considération, les ta- bleaux de contingence se présentent comme des distributions de fréquences a deux dimensions tout a fait classiques (STATI, paragraphe 4.2.2.1°), les différentes lignes correspondant, aux différentes modalités d'un des deux caractéres, et les différentes colonnes aux différentes modalités de l'autre caractére. Nous envisagerons cette situation au cours du paragraphe Nous considérerons ensuite briévement le cas des tableaux de contin- gence @ trois dimensions, qui peuvent intervenir dans l'étude simultanée de plusieurs tableaux deux dimensions (paragraphe 6.3) Des illustrations de ces questions sont données par les eremples 6.2.1, 6.2.2 et 6.3.1. 3° Comme au chapitre 5, sauf mentions particuliéres, nous supposerons. toujours que les échantillons considérés sont aléatoires et simples, et qu'ils proviennent, de populations infinies ou pratiquement infinies (populations dont les effectifs sont au moins dix fois plus importants que les effectits des échantillons). [4° La bibliographic relative aux tableaux de contingence, et d'une ma- nidre plus générale, A analyse des données qualitatives, est particuliérement abondante. Les livres d’AGRESTI [1996], EVERITT [1992], FLEISS [1981], et PLACKETT [1981], parmi d'autres, et la revue bibliographique, déja fort | ancienne, de KILLION et ZAHN [1976] en témoignent Les tableaux de con igence a deux dimensions Principes généraux 1° Le probléme qui est abordé le plus souvent, en ce qui concerne les tableaux de contingence A deux dimensions, est le controle de lindépendance des deux caractéres. Nous envisagerons cette question en présentant le test x2 d’indépendance, au sens de PEARSON, tout d’abord dans le cas général Pun tableau de contingence quelconque (paragraphe 6.2.2), puis dans le ous particulier d’un tableau 2 x 2 (paragraphe 6.2.3), puis encore en exposant diverses notions complémentaires (paragraphe 6.2.4) aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 142 @) Les tableaux de contingence savoir si la répartition des couleurs différe ou non, de maniére significative, dune famille A autre. Tableau 6.2.1. Répartition des plantes de huit familles de haricot colon la couleur de lours flours («BI.» = blanc, «Vic.» = violet clair, «Vim.» = violet moyen, et « VI.» = violet foncé). Couleurs des fleurs— [ Nb. de Familles | Bl. Vic. Vim. Vf | plantes 1 . 6 8s Oo u 2 0 7 9 41 7 3 0 4 Ww 7 30, 4 oon 1 0 2 5 0 7 8 2 v7 6 3 4 5 6 18 7 o 6 7 41 “4 s 41 5 1 20 Totaux | 7 64 6218 | Ist Tl apparait immédiatement que Ia premidre colonne (fleurs blanches) ne peut étre d’aucune utilité, en vue de la réalisation du test \2, les fréquences observées, et done aussi les fréquences attendues, étant beaucoup trop rédui- tes. Cette colonne doit done étre soit supprimée, soit fusionnée avec la co- lonne suivante (violet clair). Nous avons choisi cette deuxitme option, Le test x? donne alors le résultat suivant Voy, = 48,6 avec MM degrés de liberté. Toutefois, on observe encore neuf fréquences at- tendues inférioures & 5, les plus petites d'entre elles étant : nP4y3 =1,43, nPjg=1,67 et nP 1,67, la valeur 3 du deuxitme indice désignant en fait la quatritme colonne du tableau 6.2.1, aprés le regroupement des deux premidres colonnes. De nouveaux regroupements s’imposent donc. Dans 1a sure od on ne. souhaite pas fusionner les lignes, qui correspondent A des familles différentes, la meilleure solution consiste A regrouper les deux derniéres colonnes (violet moyen et violet foncé). On obtient ainsi un tableau a deux colonnes (tableau 6.2.2), la caractéristique observée devenant binaire (fleurs « claires » ou fleurs « foncées ») (2), Le résultat du test est alors Yous = 36,5 et P(y? > 36,5) = 0,0000, Une solution alternative aurait pu étre, surtout si les nombres de plantes par famille avaient été plus différents encore, de supprimer de l'analyse les familles les moins bien représentées, aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. Les tableaux de contingence et généralisant le test de MCNEMAR (paragraphe 5.4.4) [BHAPKAR et | SOMES, 1977). [ 2° Une différence de principe subsiste cependant entre les diverses si- tuations que nous venoas d’évoquer et le test d'indépendance 2 propre- ment parler, Dans le cas du test d'indépendance, on dispose d'un seul échantillon, deux caractéres étant observés sur chacun des individus de eet Schantillon, et toutes les fréquences marginales (nj, et n,j) étant aléatoires. Par contre, dans les différents cas de tests d’égalité de proportions, on con- sidére deux ou plusiours échantillons, pour lesquels un seul caractére est observé, les fréquences marginales relatives aux échantillons étant fixées a priori, et seules les fréquences marginales relatives au caractére observe étant aléatoires. Ainsi, Vexemple 6.2.2 est un eas réel de test d'indépendance, relatif A un seul échantillon, tandis que exemple 6.2.1 est un cas de test d’égalité de proportions, qui concerne hnit échantillons distincts, On notera également. que, dans le cas p = 2 et pour des fréquences marginales nj constantes (de méme que dans le cas ¢ = 2 et pour des fréquences marginales nj, constantes), le test d'indépendance se confound, [ avec un test d’ajustement une distribution uniforme discontinue. 3° Quand une hypothese d’indépendance ou d’égalité de proportions est, rejetée, dans toute situation autre que le cas 2x 2, se pose la question identifier lorigine de la non-indépendance. Ce probleme est semblable & celui, beaucoup plus classique, des comparaisons particuliéres et multiples de moyennes a l’issue d’une analyse de la variance (chapitre 12). Différentes solutions, comparables 4 celles envisagées en ce qui concerne les moyennes, ont été proposées : comparaisons multiples relatives & toutes les cellules du tableau, comparaisons particulidres avec un témoin, subdivi- sion dela valeur x3, & (p—1) (q~1) degrés de liberté en (p—1) (q~ 1) compo- santes individuelles 4 un degré de liberté, etc. [HIROTSU, 1983; LAUTSCH et al., 1992; PASSING, 1984; ROYEN, 1984. 4° Nous ne considérerons ici que l'étude des écarts ou des résidus, dont le principe est le suivant. Quand I’hypothése d’indépendance (ou d’égalité des proportions) est vérifiée, les racines carrées des contributions a la valeur 12,,,, c’est-a-dire les quantités (njj—nB,)//mB,; sont approximativement des valems ob- servées de variables normales réduites (paragraphe 3.2.2.3°). On pent mon- trer qu'une meilleure approximation de la distribution normale réduite est obtenue en divisant ces quantités par les valeurs ya = nl) (1=n',), qui sont des estimations des écarts-types correspondants [HABERMAN, 1973]. Les écarts réduits ainsi obtenns: iy = (rj — By) / nig — nf.) (=n peuvent alors étre objet d’un examen semblable a celui de tout ensem- ble d’écarts ou de résidus:controle des ordres de grandeur (paragraphie aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 150 Les tableaux de contingence Nous supposerons & ce sujet que les tableaux en question ont été obte- nus tout A fait indépendamment Vun de Vauire. I peut s'agir par exemple observations effectuées, A différents endroits ou A différents moments, sur des groupes d'individus distinets. Différents problémes peuvent étre envisagés dans ces conditions. Nous les présenterons rapidement ici, en signalant toutefois qu’ils peuvent étre traités, également comme des problémes relatifs & des tableaux de contingence a trois dimensions (paragraphe 6.3) 2° Le premier probleme est de tester, globalement, l'indépendance des deux caractéres. Un test trés simple peut étre réalisé en sommant les valeurs X2p_ Telatives aux différents tableanx, et en comparant le résultat ainsi ob- tenw A la distribution y? correspondante, a (p—1) (q—1) rr degrés de liberté, pour r tableaux de dimensions p x q. Cette possibilité résulte de la propriété dadditivité des variables x? [STAT1, paragraphe 6.8.1.3°). On notera cependant que ce test ne tient pas compte du fait que les relations de dépendance peuvent se marquer de fagon différente d’un tableau A Vautre. 3° Dans le cas particulier 2x2, il est possible de surmonter cette derniére difficulté en sommant, non pas les valeurs x3), elles-mémes, mais bien leurs racines carrées, affectées chacime du signe + on du signe —, en fonction du sens de Ia relation existant entre les deux caract?res considérés. Les propriétés des distributions x? et normales permettent en effet de montrer que la quantité : te ye ue Xanacuy )* est alors une valeur observée d'une variable normale réduite [STAT1, para- graphes 6.8.2.1° et 6.6.3). [Des informations complémentaires sont données notamment par HIRJL | [1996] ot LUT [1996]. 4° Un deuxidme probléme peut étre de comparer les différents tableaux, afin de voir s'il y a entre eux des différences de degré de dépendance. Dans la mesure oit le coefficient de corrélation peut étre utilisé (paragraphe 6.2.5.2°), cet objectif peut étre atteint en calculant les différents coefficients de corréla- tion individuels, et en testant la signification de leurs différences éventuelles (paragraphe 13.5.2). Dans les cas px 2, 2xq,et 2X2, ils’agit en particulier du coefficient de corrélation bisérial, ou du coefficient de corrélation de point, (paragraphe 6.2.5.1°). [ Différentes méthodes ont aussi été proposées, en vue de traiter le méme probléme par l'intermédiaire d'autres paramétres, tel que le rapport des chances ou des risques (paragraphe 5.4.5.3°) [LIANG ct SELF, 1985; LIE- | NERT et al., 1979]. 5° Un troisiéme objectif peut étre de chiffrer. globalement, importance de la relation de dépendance. Dans les mémes limites, le probleme peut étre résolu par le calcul des différents coefficients de corrélation, et la recherche de aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 154 Les tableaux de contingence supposition au sujet des proportions de rameaux des différents types, et des proportions de rameaux fleuris ou non fleuris, relatives aux deux variétés En particulier, en considérant l’indépendance conditionnelle des types de rameaux et de la floraison, on n’émet aucune hypoth?se au sujet de Vindépendance des variétés et des types de rameaux, on des variétés et de la floraison. On notera aussi que l'indépendance conditionnelle des types de rameaux et de la floraison n’entraine pas Vindépendance marginale de ces deux caractares, Ltindépendance partielle: Pijk = Pi. Pix impliquerait que la répartition des rameaux on trois types, ct en rameaus fleuris et non fleuris est la méme pour les deux variétés, sans émettre ancune hypothése quant au fait qu'il y a, ou non, indépendance entre les types de rameaux et la floraison, Enfin, |'indépendance totale supposerait qu’il n'y aucune relation entre les trois caractéres considérés. Cette absence totale de relation impliquerait notamment qu'il n’y a pas de relation entre les variétés et la floraison, ni globalement (indépendance marginale), ni séparément pour les différents types de rameaux (indépendance conditionnelle), et de méme, qu'il n'y a pas de relation entre les types de rameaux et la floraison, ni globalement, ni séparément pour les différentes variétés. 6.3.3 Le modéle log-linéaire 1° Le modele log-linéaire), appliqué aux tableaux de contingence, a pour principe d’exprimer le logarithme des fréquences attendues en fonction de différentes composantes additives, semblables @ celles de l'analyse de la variance (paragraphes 10.3 ct 11.2.3). Pour les tableaux a deux dimensions, ce modele s’écrit : log (n Piz m-+a; +b; + (ab)i;, les quantités aj et 0) étant de sommes nulles, et les quantités (ab);; étant également de sommes nulles, non seulement globalement, mais aussi pour toute valeur de i, et pour toute valeur de j. Pour les tableaux 4 trois dimensions, le modéle log-linéaire est : log (1 Pig) =m + aj +d; + Cy + (ab)ij + (Ac)ize + (be) jx + (abC)ijt 5 tous les termes autres que m étant de sommes null mations possibles, sur un, deux, ou trois indices. pour toutes les som- 2° Il est relativement facile de préciser l'analogie avec Venalyse de la variance, par exemple pour les tableaux de contingence 4 deux dimensions. (14) Log-tinear model. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 158 Les tableaux de contingence de classification, tandis que le dernier modéle est le modéle complet, qui tient compte en outre de linteraction des trois eritares. On notera que les informations données & propos de ce dernier modéle sont tout & fait redon- dantes avec celles qui concement le modele précédent. On constate tout d’abord qu’aucun des modéles considérés, & exclusion bien sir du modéle complet, n'est satisfaisant, les différentes probabilités correspondantes étant toutes quasi nulles. On peut aussi remarquer que les composantes V-R et V-F sont toujours non significatives, seules les compo- santes R-F et V-R-F étant significatives (et méme hautement significative pour la premiere, et trés hautement significative pour la seconde) On pourrait en conclure a premiére vue qu'il y a indépendance entre, une part, les critéres variétés et types de rameaux, et d’autre part, les critdres variétés et floraison. De telles conclusions sont toute: ment contestables, en raison du caractére significatif de la compesante V-R-F. Comme en analyse de la variance (paragraphes 10.3.2.6° et exemple 10.3.3, notamment), on doit éviter d’émettre un jugement relatif A une com- posante donnée, quand une composante ¢’ordre supérieur est significative. Comme en analyse de la variance également, une solution peut étre, dans de telles circonstances, de subdiviser le probléme en fonction des différents éléments d'un des critéres de classification. Dans le cas présent, Ia solution la plus appropriée est sans doute de prendre en considération séparément les deux variétés. Toujours 4 l'aide du modéle log-linéaire, on obtient alors les résultats suivants, pour Vinteraction entre les types de rameanx et la floraison, en ce qui conceme d’une part la premiére, et d’autre part la deuxidme variétés G3, = 11,31 et PQ? > 11,31) =0,0035, G3,,= 19,51 et P(x? > 19,51) =0,0001, avec, dans chaque cas, deux degrés de liberté. Il existe done bien, pour chacune des deux variétés, une relation étroite entre les types de rameaux et la floraison. En retournant aux données initiales (tableau 6.3.1), on peut constater que cette relation est fondamentalement différente d’une variété a l'autre, ce qu'indiquait déja, ci-dessus, le caractére trés hautement significatif de Vinteraction des trois eritéres de classification. Pour la premiére variété, les deux premiers types de rameaux sont caractérisés par des pourcentages de floraison pratiquement égaux (36 et 35 %), et le troisiéme type de rameaux est caractérisé par un pourcentage de floraison significativement supérieur a celui des deux premiers (52 %). Pour le deuxitme variété, par contre, la tendance est a la fois inversée et plus marquée, le pourcentage de floraison étant significativement supérieur pour le premier type de rameaux (84%), par comparaison avec le deuxitme et le troisiéme (40 et 29 %), ces deux types ne différant pas significativement l'un de autre, bien que la tendance décroissante se poursuive. L’ensemble des résultats peut étre résumé de fagon schématique, comme le montre la figure 6.3.1. Le fait que les lignes brisées qui apparaissent dans cette figure se croisent correspond également au caractéte significatif de Vinteraction des trois critéres de classification. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. Chapitre 1 Les méthodes relatives a la dispersion Introduction Les estimations et les intervalles de confiance des paramétres de dispersion Les tests de conformité des paramétres de dispersion La comparaison de deux populations La comparaison de plus de deux populations Exercices aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 7.2 Les estimations et es intervalles de confiance des paramétres de dispersion 167 [ 3° Du fait de la dissymétrie des distributions x?, les intervalles de con- fiance définis de cette maniére ne sont pas les plus courts possibles. Des intervalles de longueur minimum ont aussi été recherchés, rant simultanément le minimum de la différence $3 — $? et la condition assu- P(S} <0? < 53) Le risque d’erzeur attaché & de tels intervalles n’est pas divisé en deux parties égales [STAT 1, paragraphe 9.4.3.6"). On a en effet, dans ces conditions P(o? S3)=a2, a1+aj=a et ai tots) $4 OU Moby 2 thay par référence a la distribution normale réduite. 3° Le test x? et approximation normale peuvent étre appliqués égale- ment au cas d’un écart-type, et un test semblable peut éventuellement étre concu pour le coefficient de variation. [4° Les conditions de rejet présentées ci-dessus sont en fait définies de telle sorte qu’elles correspondent aux cas oit la valeur supposée 02 n’appartient pas a l'intervalle de confiance, c’est-A-dire : B}< SCENE ga 00 08 >SCE/x2 a ‘ou encore: t SCE/o5 > x}_a/2 ou SCE/o§ < x2 /9- [ 5° Il faut remarquer cependant que le test de conformité ainsi réalisé est biaisé, en ce sens que le minimum de la fonction de puissance, c’est-i-dire le minimum de la probabilité de rejeter Fhypothése nulle, ne correspond pas au cas ot Phypothése nulle est vraie, mais bien a une valeur de c? légerement supérioure & of. Co défaut ost d’autant moins marqué que le nombre de degrés de liberté est plus élevé. Des tables modifiées des distributions x? permettent d’effectuer un test non biaisé [CHARTIER, 1960; PACHARES, 1961]. Le test est alors bilatéral | dissymétrique (STATI, paragraphe 10.3.3. Exemple 7.3.1. Etude de la variabilité des résultats en spectromeétrie in- frarouge : test de conformité de l’écart-type. Quinze mesures de teneurs en protéines, relatives A des échantillons de blé, ont été réalisées en double, par spectrométric dans le proche infrarouge [DARDENNE, 1990|"). Les résultats obtenus, exprimés en pourcentages de la matiére séche, sont donnés dans les colonnes centrales du tableau 7.3.1, les, différences entre les couples d’observations figurant dans la dermiére colonne de ce tableau. On se demande si, en termes ’écart-type, erreur analytique ne dépasse pas 0,2. (1) On sera attentif au fait que, comme dans de nonibreuses autres situations, le terme <éhantillon » peut préter A confusion. Dans Je cas présent, le chimiste aura en effet tendance A désignor chacun des 15 prélevements de blé par le mot « échantillon», alors aque le statisticien considére que c'est l'ensemble de ves 15 prélevements qui constitue en fait un « échantillon > aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 7.5 La comparaison de plus de deux populations 183 [4° Le numérateur de l’expression y2,, peut étre obtenu par la méthode du rapport de vraisemblance (STATI, paragraphe 10.3.4.1°], et le dénominateur a pour seule raison d’étre d’améliorer la qualité de l'approximation x, par rapport a ce qu’elle serait dans le cas d'une application simple du principe du rapport de vraisemblance. Le numérateur, divisé par n,—p , est aussi la différence entre le logarithme de la moyenne arithmeétique et le logarithme de la moyenne géométrique des, variances estimées, pondérées par les nombres de degrés de liberté nj — 1. Il résulte des propriétés de ces moyennes que le numérateur est toujours nul ou positif, la valeur zéro correspondant au cas de stricte égalité de toutes les variances estimées, et la différence entre les deux moyennes étant d’antant plus élevée que les variances sont plus différentes les unes des autres [STAT1, | paragraphe 3.5.2.2°]. Il est donc normal que le test soit unilatéral. 5° Le test de HARTLEY? est basé sur la comparaison du rapport des deux variances estimées extrémes : Finaz!Fmin | + How avee des valeurs critiques particuliéres Hy , qui sont présentées dans la table IX. Dans les conditions définies au paragraphe 7.1.3°, Vhypothése nulle doit étre rejetée, au niveau de signification a, quand Hox 2 Ha, les valeurs Hq étant exprimées en fonction du nombre de populations p, et du nombre de degrés de liberté des différentes variances estimées (k = n—1). Quand les effectifs des différents échantillons sont inégaux, sans étre trop différents les uns des autres, il est possible d'utiliser ce test de fagon approchée, en prenant comme valeur critique la valeur Hq qui correspond ala moyenne des nombres de degrés de liberté, Sauf pour deux populations, le test de HARTLEY est bien sir moins puissant que le test de BARTLETT, puisqu'll ne tient compte explicitement que des valeurs observées de deux échantillons. En outre, pour deux populations, le test de HARTLEY est strictement équivalent au test F (paragraphe 7.4.2.1°). 6° La méthode ou le test de LEVENE®) a pour principe de calcu- ler, séparément pour les différents échantillons, les écarts par rapport aux moyennes, et de soumettre les valeurs absolues de ces écarts & l'analyse de la variance & un critére de classification (paragraphes 9.2.2 et 9.3.2). Lhypothése d’égalité des moyennes des valeurs absolues des écarts, qui est testée par l'analyse de la variance, est alors considérée comme équivalent & Vhypothése d’égalité des variances. Cette méthode, qui est a différents égards approchée, a l'avantage d’étre en pratique plus robuste que les tests de BARTLETT et de HARTLEY. Le caractére approché de la méthode provient du fait que, d’une part, les écarts par rapport aux moyennes ne sont pas indépendants les uns des autres, en particulier dans le cas de trés petits échantillons, et d’autre part, les (5) HARTLEY ’s test. (©) LEVENE'’ test aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 192 Les méthodes relatives & une ou deux moyennes: 2 3.23 2° L’intervalle ainsi défini, pour une population de variance inconnue, est plus large que V'intervalle qui peut étre obtenu quand la variance est connue. La différence entre les deux situations diminue cependant au fur et & mesure que l'effectif de I’échantillon, et done le nombre de degrés de liberté augmentent. Pour des effectifs de ordre de 30 ou supérieurs 4 30, on peut considérer que les deux solutions se confondent. Pour un degré de confiance égal & 0,95, il est alors de pratique assez courante d’utiliser, de maniére approchée, la valeur 2 & la place de tog7s : F+2G/Vn ou F+2,/SCE/[n(n-1)} Exemple 8.2.1. Longueur du corps de 22 vaches laitiéres : estimation et détermination des limites de confiance de la moyenne. Les 22 mesures de longueur du corps de vaches laitiéres qui ont été objet de exemple 7.2.1 permettent d’estimer la moyenne, et d’en déterminer les limites de confiance, pour la population dont proviennent les mesures. On obtient : i = 157,41 ou 157,4 ou encore 157 cm, ainsi que, pour un degré de confiance égal A 0,95 (table II) : 197,41 + 2, 080 (8,50)/v’ 157, 41 + 2, 080 y/1.517/ [(22) (21)] = 157,414 3,77. Les limites de confiance de la moyenne sont done : ou 153,6 et 161,2 ou 154 et 161 cm. La détermination du nombre d’observations 1° Quand la variance de la population-parent est connue, la détermina- tion du nombre d’observations nécessaires pour atteindre une précision don- née peut étre réalisée & l'aide de la relation : 2 ata n=ub gp o/d, dans laquelle la marge d’erreur d est la demi-longueur de Vintervalle de confiance [STAT1, paragraphe 9.4.5.2°. En pratique, la variance et I’écart-type sont. généralement inconnus, mais, dans de nombreux cas, le coefficient de variation peut stre considéré com- me connu, au moins de fagon approximative. Tl en est fréquemment ainsi dans le domaine biologique par exemple, car les éearts-types de nombreuses variables sont approximativement. proportionnels aux moyennes de ces va- riables, de telle sorte que leurs coefficients de variation sont pratiquement constants, aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. Les méthodes relatives & une ou deux moyennes fait que la premitre puisse alors étre utilisée également pour des variances inégales. La méthode de WELCH peut étre considérée comme un cas particulier de la méthode de SATTERTHWAITE, dont nous parlerons notamment au_ | Paragraphe 11.2.3.10°. 5° La procédure relative au cas des variances inégales (test de WELCH) peut étre considérée, dans une certaine mesure, comme plus générale que la procédure relative au cas des variances égales (test de STUDENT). Certains logiciels statistiques font d'ailleurs intervenir le test de WELCH comme la procédure habituelle, le reconrs au test de STUDENT nécessitant une instruction supplémentaire. [ Ainsi, les commandes « twosample» et « twot » du logiciel Minitab con- duisent & la réalisation du test de WELCH, et non pas, comme on pourrait le penser, du test de STUDENT. La réalisation de ce dernier test nécessite pe fait l'adjonction de la sous-commande « pooled ». 6° Les limites de confiance de la différence de deux moyennes peuvent tre déduites facilement des relations données ci-dessus. Elles sont définies de la manigre suivante, d’une part quand Vhypothése d’égalité des deux variances peut étre admise, ou que les échantillons sont de méme effectif: SCE1+SCE2 (1, 1 ) Yom+ne=2 mn (Fi -%2)ttoap et d’autre part d’une maniére approchée quand, pour des échantillons d’ef- fectifs inégaux, 'hypothése d’égalité des deux variances ne peut pas étre admise, ou éventuellement quand cette hypothese n'est pas envisagée: SCE, (1-2) ta oy Dans un cas comme dans l'autre, les nombres de degrés de liberté sont ceux qui ont été présentés ci-dessus. | Les commandes «twosample» et « twot» du logiciel Minitab donnent également ces limites de confiance, respectivement avec et sans la sous- | commande « pooled ». [7° De nombreuses autres solutions que la méthode de WELCH ont été proposées pour traiter la question des populations de variances inégales, qui est connue sous le nom de probleme de BEHRENS-FISHER®) [BEST et RAYNER, 1987; BHOJ, 1993; BRADSTREET, 1997; COX et JABER, 1990; DUONG et SHORROCK, 1996; KIM et COHEN, 1996; WILCOX, | 1990]. (9) BEHRENS-FISHER’s problem. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. Les méthodes relatives @ une ou deux moyennes On en déduit facilement qu’abstraction faite des barres de valeur absolue, la quantité 19,4 est une valeur observée d'une variable de moyenne nulle et d'écart-type unitaire De plus, la somme Xj, étant une valeur observée d’une variable asymp- totiquement normale [STAT1, paragraphe 6.6.5.2°), la variable réduite cor- | respondante est bien une variable asymptotiquement normale réduite 4° Une correction doit étre apportée chaque fois que se présentent des ex acquo communs aux deux échantillons. Ces ex aequo sont alors affectés chacun d’un rang égal Ala moyenne des rangs qui reviennent normalement aux différentes valeurs, et il en résulte toujours une certaine réduetion de variance. Cette réduction peut étre compensée en soustrayant. la quantité suivante de la variance de Xy,: ny ng Os [ke (a? - n}}/pe (m +n2) (m1 +n2 - 1), la sommation s’étendant aux différentes séries d’ex aequo communs aux deux échantillons, et & désignant le nombre de termes de ces différentes séries, L’importance de cette correction est en général relativement secon- daire. 5° Bien que le test des rangs soit essentiellement une méthode de com- paraison de la position des distributions, et bien que ce test puisse étre appliqué & toute distribution continue, il n’est pas insensible A la fo distributions qui sont comparées. Il ne s'agit strictement d’un test d’ de moyennes ou de médianes que pour des distributions de méme disper- sion et de méme forme, qui ne different que par leurs positions. La sensibi- lité de ce test & des différences de dispersion (inégalité des variances) n’est que légérement inférieure A celle du test t, tandis que sa sensibilité & des différences de symétrie ou d’aplatissement est supérieure a celle du test t [STONEHOUSE et FORRESTER, 1998; WETHERILL, 1960). 6° Dans les conditions d’application du test # (paragraphe 8.1.2°), Peffi- cacité asymptotique du test des rangs, par rapport au test t, est égale a 3/n ou 95,5 %. L'eflicacité réelle reste proche de cette valeur, méme pour des effectifs relativement réduits, et elle peut dépasser cette valeur, voire méme la valeur 1, quand les conditions d’application du test ¢ ne sont pas remplies [VAN DER LAAN et WEIMA, 1978]. [ Diverses modifications du test des rangs ont été propasées, notamment: en | vue d’en augmenter lefficacité [LEMMER, 1987; SHORACK et LE, 1989]. [ 7° Dautres tests non parumétriques relatifs & la comparaison de deux po- pulations & partir d’échantillons indépendants existent également. On peut citer notamment le test des médianes®, qui a pour principe de comparer en- tre elles les proportions des valeurs des deux échantillons qui sont inférieures ou supérieures & la médiane de l'ensemble des observations (paragraphe (©) Median test aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. Les méthodes relatives & une ou deux moyennes 8.5 ® 65.1 D’autres approches ont. également été considérées. Outre celle de HAR- RIS ct al. [1948], & laquelle nous avons déja fait allusion au paragraphe 8.2.3.3°, et d'autres méthodes apparentées [KIESER et WASSMER, 1996), on peut citer la détermination du nombre d’observations dans le cas de variances inégales et/on de coiits inégaux des observations pour les deux échantillons (LEE et GURLAND, 1975; TRAJSTMAN, 1999], et la détermi- nation du nombre d’observations pour les méthodes non paramétriques [HA- MILTON et COLLINGS, 1991; NOETHER, 1987; VOLLANDT et HORN, 1997]. Exemple 8.4.4. Comparaison des poids moyens de deux populations de poulets : détermination du nombre d’observations. Supposons que, dans les conditions de l'exemple 8.2.2, on désire compa- rer deux populations de poulets, dans Yespoir de mettre en évidence une éventuelle différence de poids de 10 %, avec des risques d’erreur de premitre et de deuxitme espéces a et J égaux respectivement A 0,05 et 0,1. On doit alors disposer de deux lots d’effectif : n= 21 (13)?/10? = De méme, on devrait disposer de deux lots de 140 poulet: mettre en évidence, dans les mémes conditions, une éventuelle différence de poids de 5 %. Ces résultats peuvent étre obtenus également en utilisant la figure 8.4.1. Inversement, cette figure permet de constater facilement qu’avec des lots de 50 poulets, la différence minimum qu’on peut espérer identifier, au niveau 0,05 , et avec une probabilité égale A 0,9, est de lordre de 8,4 %. La comparaison de deux moyennes dans le cas des échantillons non indépendants Principes généraux 1° En ce qui concerne les échantillons non indépendants, nous envi- sagerons successivement le test t par paires et la détermination des li- mites de confiance de la différence des moyennes (paragraphe 85.2), quuel- ques méthodes non paramétriques (paragraphe 8.5.3), et le probleme de la détermination des nombres d observations (paragraphe 8.5.4). 2° D'une fagon générale, les tests relatifs aux échantillons non indépen- dants, ou associés par paires ou par couples, sont basés sur le caleul des différences entre les couples d’observations, Dans la mesure oit tester légalité des moyennes des deux populations est alors strictement. équivalent a tes- ter la nullité de la moyenne des différences, ces tests sont évidemment étroitement associés aux tests de conformité (paragraphe 8.3) aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 212 Les méthodes relatives & une ou deux moyennes. Les moyennes & prendre en considération sont : B= 120,83, F2= 119,33 et d=1,50 ng/g; et le test ¢ par paires donne les résultats suivants tobe = 1, 50/ y/187,5/[(30) (29)] = 3,23 et P(|t] > avec 29 degrés de liberté. 23) = 0,0031, La différence entre les deux premitres méthodes d’analyse s’avere done hautement significative, bien que les écarts observés d; soient relativement peu importants. Les limites de confiance de la différence des moyennes sont, pour un degré de confiance égal a 0,95 (table II) 1, 50 + (2,045) (0, 464) = 1, 50 + 0,95 = 0,55 et 2,45 ps/g. On notera que le fait d’appliquer, a tort, le test ¢ classique aurait conduit A une toute autre conclusion (og = 0,44 et P = 0,66, avec 58 degrés de liberté). Cette différence considérable entre les résultats fournis par les deux tests est liée a la corrélation particuliérement étroite qui existe entre les deux séries d’observations (7 = 0,982). 8.5.3 Les méthodes non paramétriques 1° Le test non paramétrique le plus courant, en ce qui concerne la com- paraison de deux échantillons non indépendants, dans le cas des données continues, est également un test des rangs, di a WILCOXON, et parfois appelé test des rangs par paires ou test des rungs et des signes®, La réalisation de ce test nécessite le calcul des différences entre couples d’observations, la détermination des rangs de ces différences, considé1 en valeur absolue, et le calcul de la somme des rangs relatifs aux différences négatives, ou aux différences positives. 2° Si on désigne par X_ la somme des rangs correspondant aux différen- ces négatives, et pour des effectifs suffisamment élevés (n > 25). on peut montrer que la quantité: Uobs = |X— —n (n+ 1)/4| //n(n +1) 2nt 17d est approximativement, en valeur absolue, une valeur observée d'une va~ riable normale réduite. Le rejet de Vhypothése nulle intervient alors dans les mémes conditions que pour les échantillons indépendants (paragraphe 8.43.2"). (9) Signed rank test, WILCOXON 's matched pair signed rank test. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 220 Lanalyse de la variance a un eritére de classification 3° En fonction de ces différents éléments, il est possible de subdiviser les écarts par rapport & la moyenne générale en deux composantes additives: + (in Cette décomposition constitue le modéle observé de Vanalyse de la v: riance. Elle implique simplement, sans faire aucune hypothése, que les écarts entre les observations individuelles et la moyenne générale peuvent étre con- sidérés comme constitués de fagon additive, d'une part, des écarts entre les moyennes des différents échantillons et la moyenne générale, et d’autre part, des écarts entre les observations elles-mémes et; les moyennes respectives des échantillons anxquels les observations appartiennent. La composante globale est appelée variation totale, et les deux com- posantes partielles sont appelées, une part, variation factorielle ow liée au facteur contralé, ou encore entre échantillons, ot d’antre part, variation résiduelle ou dans les échantillons. 4° En élovant au carré les deux membres de la relation précédente, et en sommant pour toute les valeurs observées, on obtient I'équation d’analyse de la variance: ow ist ket 1 On constate ainsi que la somme des carrés des éearts par rapport & la moyenne générale, également appelée somme des carrés des écarts tota- Je®), peut elle aussi étre divisée en deux composantes additives: une seme des carrés des écarts factorielle ou enire échantillons'4), et une somme des carrés des écarts résiduelle ou dans les échantillons). En désignant la som- me totale par SCE; , et ses deux composantes respectivement: par SCEa et SCE, , on peut résumer Péquation d’analyse de la variance sous la forme condensée SCE; = SCE, + SCE, Les trois sommes des carrés des écarts sont des mesures globales des va- riations existant, d'une part, entre ensemble des observations indépendam- ment des échantillons auxquels elles appartiennent, d’autre part, entre les différents échantillons, et enfin, entre les observations a l'intérieur des diffé- rents échantillons. [On notera qu’aucun double produit n’apparait dans l'équation d’analy- se de la variance, la somme des doubles produits étant nulle, en vertu de (8) Total sum of squares Factorial sum of squares, between-group sum of squares. Residual sum of squares, within-group sum of squares, error sum of squares. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 224 Uanalyse de la variance a un critére de classification une suite de déterminations de sommes de carrés d’écaris, semblables & cellos qui peuvent étre effectuées pour toute série d’observations [STATL paragraphe 3.8.1.2°] 2° En ce qui concerne la somme des carrés des écarts résiduelle, on peat calculer séparément. les sommes des carrés des écarts relatives aux différents 6chantillons ou séries d’observations, et sommer ensuite les résultats ainsi obtenus. Si on désigne par Xj, et SCE; , respectivement, les sommes et les sommes des carrés des écarts relatives aux différentes séries d’observations, ona: X= Sor et SCE = S02}, —XP/n; (pour tout 5), ainsi que: p SCE, = > SCE; = En réalité, la détermination des sommes des carrés des éearts indivi- duelles SCE; n’est pas indispensable, en vue de calculer a somme des carrés des écarts résiduelle, mais cette détermination permet d’obtenir facilement les variances des différentes séries observations, et donc, de comparer ces variances, préalablement & toute inférence statistique. 3° Quant A la somme des carrés des éearts totale, on a, toujours par analogie avec le cas d’une seule série d’observations: pom SCE = 0) 2}, — X2/n. Je symbole X_ désignant la somme de l'ensemble des n_ observations Doms 2 Lewd il On remarquera que le premier terme qui intervient dans la relation relative la somme des carrés des écarts totale SCEy n’est autre que la somme des premiers termes qui se présentent dans l’expression relative aux sommes des carrés des écarts individuelles SCE; - 4° Enfin, la somme des carrés des écarts factorielle peut étre obtenne soit par différence : SCEq = SCE ~ SCE, soit par la relation : p SCEa = )7(X?/nj) ~ X?/n, Diverses simplifications peuvent étre apportées & certaines de ces for- mules, quand les effectifs nj sont égaux. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. analyse de la variance a un critére de classification De méme, pour les différents échantillons considérés individuellement, et cette fois indépendamment du fait que les moyennes m,; sont égales ou non, les sommes des carrés des écarts SCE; permettent de définir p variables y? An; —1 degrés de liberté : x7 =SCE;/o?. Ces variables étant. indépendantes les uns des autres, puisque les échantillons sont eux-mémes indépendants les uns des autres, leur somme, c’est-i-dire aussi la somme des carrés des écarts résiduelle divisée par a”, est une variable x2 n. — p degrés de liberté [STAT1, paragraphe 6.8.1.3°]. Enfin, par une procédure analogue A celle qui intervient dans la re- cherche de la distribution ¢’échantillonnage de la variance [STAT1, para~ graphe 8.3.2.5°], on peut démontrer que la différence entre y et x2, c'est- A-dire la somme des carrés des écarts factorielle divisée par 7”, est elle aussi une variable x”, a p— 1 degrés de liberté, A condition 4 nouveau que toutes les moyennes mj, soient égales. 7° Les variables x2 et x2 étant indépendantes, leur rapport, apres divi- sion par leurs nombres de degrés de liberté : [x2/( - 1)]/[x#/(n. — »)] = CMa/CMr. est une variable F de FISHER-SNEDECOR, dont les nombres de degrés de liberté sont p—1 et n, —p [STATI, paragraphe 6.9.2.1°]. L’examen des espérances mathématiques montre en outre que, quand V’hypothése d'égalité des moyennes n'est pas vérifiée, le rapport CMg/CM, fournit, en moyenne, des valeurs plus élevées que colles des distributions de FISHER- SNEDECOR. On peut alors procéder facilement: au test et aux estimations, en fonction des espérances mathématiques et des distributions d’échantillonnage. 8° Le test de Phypothase nulle émise ci-dessi quantité : s nécessite le caleul de la Fobg = CMa/CMy. Le rejet de ’hypothése, au niveau de probabilité a , intervient quand cette quantité est trop élevée, c’est-2-dire quand : P(F > Fos) Sa ou Fog > Fi-ay avec p—1et n, —p degrés de liberté. Le caractére unilatéral du test résulte de ce que, dans tous les cas oit I’hypothése nulle est fausse, les valeurs Fry. dépassent, en moyenne, les valeurs que donnent normalement les distribu- tions F de FISHER-SNEDECOR. Le rejet de Vhypothise nulle, relative A un ensemble de p moyennes, souléve la question de savoir quelles sont les moyennes qui different signifi- cativement les unes des autres. Nous envisagerons cette question subsidiaire au cours du chapitre 12. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. analyse de la variance a un critére de classification Tableau 9.3.1. Hauteurs des arbres observées dans trois types de hétraies et résidus de tanalyse de la variance, en métres, et résidus réduis. auteurs Résidus Résidus réduits Typel Type 2 Type3| Type Type2 Type3| Type1 Type2 Type 3 234 225 18,9 287 289 ~424 |-145 -103 —2,39 44 22,0 AL 187 -249 2,01 | -088 -1,40 - 1,15 246 3,702 | -1,87 = 1,69 = 1,94 | - 0,77 0,95 - 1,09 24,9 240 = 221 | -1,07 -139 -1,04 | - 0,60 -0,78 - 0,59 250 A 22,5 0,97 -099 0,64 | -055 -0,56 ~0,36 262 U5 23,6 0,23 -089 0,46 | 013 -050 0,26 263 (253 2A 0,38 -009 1,36 | 019-005 0,77 268 26,0 246 083 061 1,46 | O47 0,35 0,82 268 © 26,2 26,2 083 081 3,06 | OAT 046172 26,9 26,4 26,7 093 101 3,56 | 052 087 2,00 27,0 26,7 - 103131 0.58 0,74 276 © 269 - 163151 - 092 088 7 (Td - 1,73 201 O97 ANB = - 28,5 - - 31 - i Tableau 9.3.2. Comparaison des hauteurs moyennes des arbres de trois types de hétraies ‘tableau d'analyse de la variance relaiit aux valeurs absolues des résidus, Sources Degr& | Sommes des carrés | Carrés de variation de liberté des écarts moyens | F Différences entre types de hétraies 2 3,8003 1,9002 | 2,23, Différences entre observations (dans les types de hétraies) 34 29,0206 0.8535 Totaux 36 32,8209 9.3.3 Le modéle aléatoire 1° Au cours du paragraphe 9.3.2, nous avons volontairement exposé en détail le raisonnement relatif au modéle fixe d’analyse de la variance @ un crittre de classification. Cela devrait nous permettre aller sensiblement plus vite pour le modéle aléatoire, et. aussi ultérieurement, pour lanalyse de la variance & deux et plus de deux critdres de classification. Nous nous contenterons en effet, & l'avenir, de mettre en évidence les différences par rapport au modéle le plus simple et le plus classique, en exposant seulement les principaux résultats. 2° Comme nous l’avons signalé au paragraphe 9.3.1.1°, dans le cas du modéle aléatoire, les populations pour lesquelles des observations sont réalisées sont choisies au hasard, au sein d’un ensemble trés vaste, infini ou aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. Uanalyse de la variance a un critare de classification Exemple 9.3.3. Etude de Phomogénéité des rendemeats fourragers d'un ensemble de prairies: analyse de la variance On s‘intéresse A l'ensemble des prairies d’une région donnée, et on sou- haite identifier "importance, absolue ou relative, de la variabilité de la pro- duction fourragere, d’une part, d’une prairie a autre, et d’autre part, d’un endroit & l'autre, & l'intérieur des différentes prairies. Dans ce but, on a tout d’abord choisi au hasard trois prairies, dans l'ensemble du territoire considéré, puis au sein de chacune de ces trois prairies, cinq petites par- celles, de deux métres carrés [CALEMBERT, 1962]. Dans optique d'un échantillonnage a deux degrés (STATI, paragraphe 2.2.4.4°], les trois prai- ries constituent trois unités du premier degré, et les quinze petites parcelles quinze unités du deuxiéme degré. Dans chacune des quinze parcelles, on a mesuré les rendements en ma- tidre séche A une date donnée. Les valeurs observées, exprimées en tonnes par hectare, figurent dans le tableau 9.3.3, et les résultats de l’analyse de la variance dans le tableau 9.3.4. Tableau 9.3.3. Etude de homogénéits des rendements fourragers d'un ensemble de prairies: rendemenis observés, on tonnes de matiére séche par hectare. Parcelles [Prairie1 Prairie2 Prairie 3 1 2,06 159 1,92 2 2,99 2.63 185 3 1,98 1,98 214 4 2.95 2.25 1,33 5 2,70 2.09 183 Tableau 9.3.4. Elude de thomogénéité des rendements fourragers ‘dun ensemble de prairies :tableau d'analyse de la variance. Sources Desré | Sommes des carré | Carrés de variation de liberté des écarts moyens | F Différences entre prairies 2 1,3182 0,6591 | 423" Différences entre parcelles (dans les prairies) 12 4,871 0.1559 Totaux 4 3,1893, La probabilité de dépasser la valeur 4,23 étant égale & 0,041 , pour une va- riable F de FISHER-SNEDECOR, a 2 et 12 degrés de liberté, les différences entre prairies doivent étre considérées comme juste significatives. C’est. ce quiindique dailleurs Pastérisque qui est associée, conventionnellement, & la valeur Foyjy - On peut alors procéder comme suit aux estimations des composantes de Ja variance : @4 = (0, 6591 — 0,1559)/5 = 0, 1006 et 3? = 0, 1809. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 240 Uanalyse de la variance a un critare de classification Lefficacité relative de cet échantillonnage, par rapport &l’échantillonna- ge complétement aléatoire, est égale A (exemple 9.2.1): 4,598/3,431 = 134%. Cette valeur signifie que l’échantillonnage stratifié apporte dans ce cas un supplément d'information d'environ 34 %, par comparaison avec l’échantil- lonnage complétement. aléatoire. En d’autres termes, le recours A l'échantillonnage stratifié donne une in- formation complémentaire équivalente A celle que fourniraient des observa- tions réalisées en 12 ou 13 endroits supplémentaires sur le (errain, ou encore, les 37 points d’observation de l’échantillonnage stratifié sont équivalents 4 49 ou 50 points d’observation d’un échantillonnage complétement aléatoire. Exemple 9.3.5. Estimation de la production fourragére moyenne d'un en- semble de prairies : échantillonnage deux degrés. De méme, nous reprenons les données de l’exemple 9.3.3, pour illustrer la question de estimation d’une moyenne générale par échantillonnage & deux degrés Tl peut en effet se justifier, ici également, de vouloir estimer la moyenne générale de la production fourragére d’un vaste ensemble de prairies, et & cette fin, pour des raisons de facilité, on peut étre tenté de concentrer la col- lecte des observations dans un petit nombre de prairies, par échantillonnage & deux degrés. Cet échantillonnage a deux degrés donne, comme estimation de la moyen- ne générale : m = 2,153 ou 2,15 T/ha comme erreur-standard de cette moyenne (tableau 9.3.4) : V0, 6591/15 = 0, 210 ou 0,21 T/ha, et comme limites de confiance de cette moyenne, toujours pour un degré de confiance égal A 0,95, et avec ici 2 degrés de liberté (table II) 2,153 + 4,303 /0, 6591/15 = La perte de précision, par comparaison avec un échantillonnage com- plétement aléatoire, est: considérable. En effet, si on avait effectné 15 obser- vations entiérement indépendantes les unes des autres, dans l'ensemble de toutes les prairies envisagées, et si on avait observé les mémes rendements, on aurait eu, comme erreur-standard de la moyenne générale : 153+ 0,902 ou 1,25 et 3.05 T/ha. V0, 2278/15 = 0, 123 ou 0,12 T/ha, et comme limites de confiance de cette moyenne , 153 +2, 145 /0, 2278/15 = 2, 153+ 0,264 ou 1,89 et 2.42 T/ha, soit done un intervalle de confiance plus de trois fort plus court. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. analyse de la variance & un critare de classification 9.3.6 Les méthodes non paramétriques et robustes 1° Comme dans le cas de deux populations (paragraphe 8.4.3.1°), le test non paramétrique utilisé le plus couramment pour comparer p populations est un test basé sur les rangs. Ce test est connn sous le nom de test de KRUSKAL et WALLIS, et il constitue une généralisation du test de MANN et WHITNEY, ou de WILCOXON. 2° Le test de KRUSKAL et WALLIS(22) nécessite le classement de l'en- semble des n, observations par ordre croissant, la détermination des rangs des différentes observations, le calcul des sommes des rangs Xj, , relatives aux p échantillons, et la détermination de la quantité: 2a = egy SUR) —900, 41 Xoo = tn py Aye) —3(, 4) Quand Ihypothése d’égalité des moyennes, ou des médianes, est: vraie, cette quantité est approximativement une valeur observée d'une variable x2 de PEARSON A p— 1 degrés de liberté, et Vhypothdse didentité des distributions des p populations-parents doit en conséquence étre rejetée, au niveau de probabilité a, si: P(X? = x35) Sa on XH, > le test étant unilatéral. Lapprozimation est satisfaisante ds qu'on dispose d'un total de 15 & 20 observations au moins, et des tables particuliéres sont disponibles pour des effectifs plus limités. De telles tables peuvent étre trouvées dans les princi- paux ouvrages relatifs aux méthodes non paramétriques, dans le recueil de tables de OWEN [1962], et dans le travail de IMAN et al. [1975] [Le test de KRUSKAL et WALLIS peut étre réalisé A l'aide de la com- | mande « kruskal-wallis » du logiciel Minitab. [ 3° On notera que la quantité y2,, est, a un facteur pres, le carré moyen factoriel qu’on obtiendrait en soumettant les rangs A l’analyse de la variance. La somme des carrés des écarts factorielle serait en effet, pour les rangs (paragraphe 9.2.3.4°) P P SCEa = S>(X?/m) - [n. (n, + 1)/2]?/n, = S(KP ma) — n, (n, +1)2/4. i ial D’autre part, dans le cas de deux populations, la valeur x2,, du test de KRUSKAL et WALLIS est aussi le carré de la quantité uygy relative au test de MANN et WHITNEY, ou de WILCOXON, ce qui rend les deux tests | Strictement équivalents. (22) KRUSKAL-WALLIS’ test aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 248 Lanalyse de la variance a un critére de classification échantillons et du risque de premitre espéce, et une fonction décroissante de la variance résiduelle o? [4° D'une maniére générale, la détermination de la puissance du test F est baste sur les distributions F non centrales [STAT1, paragraphe 6.10.3.2°) Pour le modile fixe de analyse de la variance & un critére de classi- fication, le paramétre de décentrage ou de non-centralité \, relatif A ces distributions, est : 1d. 2 a at (mad), et est done étroitement lié & la mesure du degré de fausseté de I'hypothése | nulle que nous avons présentée ci-dessus. Exemple 9.4.1. Comparaison des hauteurs moyennes des arbres de trai types de hétraies: puissance du test. Nous repartons ici des conclusions de l’exemple 9.3.1 pour déterminer, dans ce cas, la puissance du test d’égalité des moyennes. Nous simplifions toutefois quelque peu le probléme, en considérant. que les échantillons sont tous trois d’effectif 12, et non pas, respectivement, d'effectifs 13, 14, et 10. L’alternative a laquelle conduit exemple 9.3.1 est du type: Him, =m #m3, avec une différence de moyennes qui est approximativement : 6 =m —mg = m2 — m3 =2,5. On a dans ces conditions : a, = a2 = 0,833, ag3=—1,667 et s2 = 1,389. En considérant en outre la valeur observée du carré moyen résiduel com- me valeur de la variance résiduelle, les tables de TIKU [1967] par exemple donnent, comme puissance du test : 1 — A(2,5) = P(RHp|6 = ,5) = 0,91 De méme, on obtiendrait: une puissance égale a 0,75 pour une différence de deux metres, et une puissance égale & 0,24 pour une différence d'un metre. Ces valeurs montrent qu’en fonction des observations dont on dispose, et pour les effectifs considérés, on ne peut raisonnablement espérer mettre en évidence des différences de hauteur que si ces différences sont: de Vordre de 2 ou 3 métres au moins. [La distribution non centrale qui est & la base de la détermination de la puissance est ici la distribution F a 2 et 33 degrés de liberté, dont le paramétre de décentrage est : L = (12) (3) (1,389)/3, 431 = 14,57. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 252 analyse de la variance & un critére de classification sont inégales, la solution la plus favorable consiste 4 adopter des fractions sondées qui sont proportionnelles aux produits des effectifs ou des tailles des strates par leurs écarts-types [DEROO et DUSSAIX, 1980; GROSBRAS, 1987]. Exemple 9.4.2. Comparaison des poids moyens de quatre populations de poulets: détermination du nombre d’observations. Nous poursuivons la discussion des exemples 8.2.2 et 8.4.4, relatifs & lestimation et A la comparaison de poids de poulets, en supposant que, dans les mémes conditions, on souhaite comparer quatre populations de poulets, qui pourraient étre liges par exemple 4 quatre alimentations différentes. Pour un coefficient de variation égal & 13 %, et si on souhaite mettre en évidence ¢’éventuelles différences de poids égales a 10 %, avec des risques d'erreur de premitre et de deuxiéme espice a et # égaux respectis 0,05 et 0,1, la solution la plus simple est celle qui est donnée par 'exemple 8.44. Elle conduit A prélever quatre échantillons d’environ 35 poulets. [ _ Pour disposer d’informations plus précises, il y a liew de tenir compte du nombre de populations comparées, et de la répartition supposée des moyennes. Le tableau 9.4.1 donne, pour les quatre répartitions théoriques envisagées (La IV), les valeurs suivantes du paramétre : ment a x , 500 (10)/13= 0,38,’ = 0,433 (10)/13 = 0,33, N = 0,373 (10)/13 = 0,29 et A = 0,354 (10)/13 = 0,27 Ces valeurs peuvent également étre trouvées, de maniére approchée, sur axe 1’ de la figure 9.4.1, en joignant par des segments de droite le point : 6,/ev = 10/13 = 0,77, et les points 14, 11.4, IIL.4 et IV.4 La figure 9.4.1 permet ensuite de déterminer les effectifs nécessaires en. vne datteindre Vobjectif poursuivi, en lisant sur Paxe des ordonnées tes valeurs n qui correspondent, pour la courbe 3 = 0,1 et p = 4, aux différentes valeurs de’. On obtient ainsi, approximativement, un eifectif égal A 25 dans le cas le plus favorable (1), 8 50 dans le cas le plus défavorable (IV), et & 35 et 45 dans les cas intermédiaires (II et II). L’observation de quatre lots constitués chacun d’une quarantaine de pou- lets serait done une solution vraisemblablement satisfaisante. On remarque- ra aussi que ces résultats confirment le fait que la solution simple déduite du cas de deux moyennes (n = 35) est bien une solution approximative intermédiaire, Utilisée en sens inverse, la figure 9.4.1 permet également de déterminer des valeurs de 6, (ou 6), en fonction des effectifs n. Pour des lots de 20 poulets par exemple, ct toujours avec un risque de deuxitme spice égal i. 0,1, la valeur du paramitre A’ serait égale 4 0.43, et le rapport 8, /cv s situerait approximativement entre 0,86 et 1,22. A ces deux valeurs extremes, correspondraient des différences 5, égales respectivement & 11 et 16%. On aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. analyse de la variance a deux critéres de classification ® 10.1 Introduction 1° L’analyse de la variance a deux critéres de classification'") peut étre considérée comme une généralisation de analyse A un critere, qui permet de tenir compte de deux facteurs sous-jacents, et non plus d’un seul facteur. Les deux facteurs considérés peuvent étre soit placés sur pied d’égalité, soit au contraire subordonnés l'un a l'autre. Dans le premier cas, les modéles d’analyse de la variance sont dits croisés®, alors que dans le deuxiéme cas, ils sont dits hiérarchisés'9), Dans un cas comme dans Vantre, on doit également faire Ia distinction entre les modéles fixes, les modéles aléatoires, et les modéles mixtes). Enfin, une distinetion importante intervient entre le cas des effectifs égaur, parfois qualifié d’équilibré ou orthogonal, et le cas des effectifs inégauz, partoi qualifié de non équilibré ou non orthogonal. Les exemples 10.2.1, 10.3.4 et 10.5.1 sont des illustrations de quelques- unes de ces situations, 2° Comme pour I'analyse de la variance a un critére de classification, nous considérerons tout d’abord les aspects descriptifs (paragraphe 10.2), puis les aspects inférentiels (paragraphe 10.3) de l'analyse & deux criteres, en nous limitant dans un premier temps aux modéles croisés & effectifs égaux. Nous envisagerons ensuite les modéles croisés a effectifs inégauz (pa- ragraphe 10.4), et les modéles hiérarchisés (paragraphe 10.5). Nous termi- nerons par quelques informations relatives & la notion de puissance et & la détermination des nombres d’observations (paragraphe 10.6). Nous travaillerons toujours par analogie avec l'analyse de la variance un critére, ce qui devrait nous permettre de ne pas étre trop long. C'est ainsi que nous éviterons au maximum de donner des démonstrations, en matiére d’espérances mathématiques et de distributions d’échantillonnage notamment. 3° Globalement, les conditions d’application sont, en analyse de la va- riance & deux critéres de classification, de la méme nature qu’ populations normales et de méme variance, et échantillons aléatoires, sim- ples, et indépendants. Les mémes remarques que précédemment peuvent toujours étre formulées ici (paragraphes 8.1.2° et 9.1.3°) A ces conditions de base, s’ajoute parfois une condition d’additivité, que nous définirons ultérieurement (paragraphe 10.2.4.2°). un critére : Comme en analyse de la variance 4 un crittre de classification (exemple 9.3.2), nous illustrerons par un exemple le controle des conditions d’appli- cation (exemple 10.3.2). [4° Les références bibliographiques mentionnées au paragraphe 9.1.4° peu- vent étre utiles également pour compléter l'information relative & l'analyse ) Two-way analysis of variance. 2) Cross classification. ©) Hierarchical classification. (9 Mixed model aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. Lanalyse de la variance & deux critéres de classification 10.2.3 les données initiales .7j3x,, et les moyennes par type de sols et type de sondes ij.) par type de sols F;,, par type de sondes Fj, , et générale __, toutes les moyennes étant volontairement calculées avec une précision quelque peu abusive. Le tableau 10.2.3 donne les résultats de l'analyse de la variance. Ce tableau met immédiatement en évidence une composante particulierement importante liée aux types de sols, et basée sur les éearts : 2,75 et Z2,- 2,75. De méme, la composante, moins importante, relative aux types de sondes fait intervenir les écarts : =-175 et Fa, = 0,00 On pourrait vérifier les valeurs des sommes des carrés des écarts, en fone- tion de ces différences, & aide des formules de définition données ci-dessus. Il est bon de savoir, cependant, que cette procédure de calcul n'est pas nécessairement la plus adéquate, comme le montre le paragraphe suivant. Nous compléterons ultérieurement Vinterprétation du tableau d’analyse de la variance (exemple 10.3.1). Tableau 10.2.3. Comparaison de trois types de sondes. dans deux types de sols :tableau d'analyse de la variance. Sources Degrés | Sommes des carré | Carrés de variation _| de liberté des écarts moyens ‘Types de sols 1 1815 1815 ‘Types de sondes 2 49,0 25 Interaction 2 30 15 Variation résiduelle | 18 112.5 6.25 Totaux 23 346.0 La réalisation de l’analyse de la variance 1° Comme pour les sommes des carrés des écarts les plus simples [STAT1, paragraphe 3.8.1.2°], et comme en analyse de la variance a un critére de classification (paragraphe 9.2.3), la détermination «manuelle » des sommes des carrés des écarts peut étre basée sur le calcul de sommes de carrés, dont on soustrait des termes correctifs. Dans cette optique, nous désignerons par Xjj, et SCEj; , respectivement, les sommes et les sommes des carrés des écarts relatives aux différent séries d’observations, et aussi, par X;,, X,j,, et X__, les sommes relatives aux différentes modalités des deux critéres de classification, et la somme générale de toutes les observations, 2° Les différentes sommes des carrés des écarts peuvent alors étre obte- nues & l'aide des relations suivantes, qui généralisent celles que nous avons aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. analyse de la variance a deux critares de classification 10.2.5 Les différences entre les lignes «8 h» et «16 h» du tableau 10.24, de méme que la représentation graphique, et les termes d’interaction qui pour- raient: étre calculés comme dans l'exemple précédent, tout concourt & met- tre en évidence une interaction tres marquée entre les deux facteurs. La différence de croissance en hauteur, due a la difiérence de durée d’éclaire- ment, est en effet positive, et de Vordre de 12 mm, en labsence de gibbérel- line, alors qu’elle est négative, et de l’ordre de 8 mm en moyenne, en présence de gibbérelline, pour les deux doses envisagées. On remarquera aussi que ces différences positive et négative se compen- sent trés largement, puisque la difiérence marginale liée au facteur durées d’éclairement est quasi nulle (1.4 mm). Il s‘agit d’un exemple typique d’antagonisme entre les deux facteurs con- sidérés (augmentation de la durée d’éclairement et application de gibbérel- line), Le cas des échantillons d'une seule observation 1° Trés souvent, on ne dispose que d’une seule observation (n = 1), pour chacune des combinaisons des différentes modalités des deux criteres de classification. Aucun terme résiduel n’apparait alors dans le modéle observé, puisque les moyennes F,;, se confondent avec les observations individuelles zrjj1 . En vue d’alléger les notations, on peut d’ailleurs supprimer le troisiéme indice, devenu superfiu, et supprimer aussi le point qui remplace cet indice dans les symboles relatifs aux moyennes. Par analogie avec le cas général (paragraphe 10.2.2.2°), on peut écrire en conséquence : i. —%..) + (Bj — 2.) + (Bj — al ij 2° De méme, I'équation d’analyse de la variance devient : SCE, = SCE, + SCE, + SCEyy Aucune autre modification n’intervient en ce qui concerne les aspects des- criptifs de l'analyse, si ce n'est le fait que la ligne « variation résiduelle » disparait du tableau d’analyse de la variance (tableau 10.2.1), et que le nombre de degrés de liberté de la variation totale est égal A pq—1, au lieu de pgn-1. [8° Quant & la réalisation des calculs, les formules du paragraphe 10.2.3 peuvent toujours étre utilisées, en remplacant éventuellement les symboles Xj, Xj, et X.., par X;,, Xj et X., et en ne faisant pas intervenir de | somme de carrés d’écarts résiduelle. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 272 analyse de la variance a deux critéres de classification Exemple 10.3.1. Comparaison de trois types de sondes dans deux types de sols: suite de Yanalyse de la variance. Nous pouvons ainsi poursuivre l’analyse de la variance qui a été Vobjet de exemple 10.2.1, en effectuant les tests d’hypothéses, et en caleulant les estimations et les limites de confiance qui s'imposent. On constate tout d’abord que interaction doit étre considérée comme non significative, puisque (tableau 10.2. Fp = 1,5/6,25=0,24 ct P(F >0,24) = 0,79, avec 2 et 18 degrés de liberté. Ce test confirme la conclusion intuitive de Vexemple 10.2.3, & savoir que les différences entre types de sondes ne dé- pendent pas des types de sols, et vice versa. Par contre, les différences observées doivent étre considérées comme tres: hautement significatives en ce qui concerne les types de sols, et comme juste significatives en ce qui concerne les types de sondes, puisque d'une part Fa = 181,5/6,25= 29,0 et P(F > 29,0) = 0,0000, avec 1 et 18 degrés de liberté, et d’autre part : Fy =24,5/6,25 = 3,92 et P(F > 3,92) = 0,039, avec, comme pour l'interaction, 2 et 18 degrés de liberté. L’estimation et les limites de confiance de la différei deux types de sols seraient, pour un degré de confian 1m: existant entre les © égal & 0,05 (table - 50 ot By, Za, = 44,75 - 39,25 = mg/100 et 5,50 + 2,101 \/2 (6,25)/12 = 5,502, 14 = Cette information n'est cependant pas essentielle, en regard des objectifs de étude (exemple 10.2.1). 4 et 7,6 mg/100 g. La comparaison, plus intéressante, des trois types de sondes est un pro- bléme qui peut étre traité notamment par la méthode de NEWMAN et KEULS (paragraphe 12.4.3). Cette méthode permet de montrer que les résultats obtenus & l'aide di premier type de sondes sont significativement supérieurs aux résultats fournis par le deuxiéme type de sond type conduisant des résultats intermédiaires, qui ne sont pas significative- ment différents des deux autres. La différence entre le premier et le deuxiéme type de sondes, et les limites de confiance correspondantes, sont (table II) : le troisitme E41, — Fz, =43,75 — 40,25 = 3, 50 ou 3,5 mg/100 g et 3,50+ 2, 101 /2 (6, 25)/8 = 3,50 + 2,63 = 0,9 et 6,1 mg/100 g. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. Lanalyse de la variance a deux critdres de classification 10.3.3 La ligne « gibbérelline / 8 heures » est relative a l'influence de la gibbérelline pour une durée d’éclairement de 8 heures. Elle contient ce que serait la ligne « gibbérelline » dans le cas d’une analyse de la variance a un critére de clas- sification qui ne prendrait en considération que les informations relatives & la durée d’éclairement de 8 heures, a savoir (paragraphe 9.2.3.4°) (766? + 1.230? + 1.280”) /12 — 3.2762/36 = 13.389 La ligne «gibbérelline / 16 heures» peut étre obtenue de la méme fagon & partir des données relatives a la durée d’éclairement de 16 heures, et concer- ne Vinfluence de la gibbérelline pour cette durée d’éclairement uniquement. Tableau 10.3.3. Etude de 'iniuence de la durée d'éclairement et de la gibbérelline sur la croissance en hauteur de Bryophylium: totaux rolatits aux différents traitements, on millimatres. Durées Gibbérelline Wéclair. | Absence Dose 1 Dose 2 | Xi, 8h 766 = 1.230 1.280 16h 904 LIT 1.204 Xj 1.670 2.347 2.484 | 6.501 Inversement, le regroupement des lignes «durées d’éclairement » et « in- teraction» du tableau 10.3.1, ct la subdivision des totaux ainsi obtenus en trois composantes, permettent. d’obtenir les trois lignes centrales de la deuxiéme partie du tableau 10.3.2, dont par exemple : (766? + 9042) /12 — 1.6702/24 = 793. Ces trois lignes mesurent importance du facteur durées d’éclairement, sé- parément, pour les trois niveaux d’application de gibbérelline (absence de xibbérelline, dose 1, et dose 2). Tl apparait ainsi Clairement que la gibbérelline a une influence tres hau- toment significative pour les deux durées d’éclairement, et que la durée d’éclairement n’intervient de facon significative qu’en l’absence de gibbérelli- ne et pour la dose inférieure de cette substance de croissance. Nous affinerons cette interprétation au cours de l’exemple 12.2.1, en utilisant alors la notion de contraste. Le modéle aléatoire : échantillons de plusieurs observations 1° Dans le cas du modéle aléatoire, on considére une double infinité ou quasi-infinité de populations, et en vue de comparer les moyennes de ces populations, on réalise un échantillonnage & deux degrés, semblable a celui dont il a été question au paragraphe 9.3.1.1°, On choisit tout d’abord au hasard pq populations (unités du premier degré), correspondant & p variantes du premier critére de classification et q variantes du deuxiéme are de classification. On choisit ensuite, indépendamment dans chacune aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 280 Lanalyse de la variance a deux critéres de classification facteur aléatoire, et pas seulement aux q modaliiés pour lesquelles des ob- servations sont réalisées. Dans l’exemple évoqué ci-dessus, cette hypothése a trait A l’égalité des résultats obtenus par les p méthodes de mesures, pour l'ensemble supposé infini ou quasi infini des individus qui pourraient étre mesurés, et pas seu- lement pour les q individus qui ont 6t6, ou qui seront effectivement objet de mesures. 5° Comme précédemment, on peut démontrer que les espérances ma- thématiques des carrés moyens sont alors E(CMq) = 0? +no}, + E(CMg) = P+ pnoe E(CMgy) = 0? +a, et [ E(CM,) Ces résultats sont intermédiaires entre ceux qui concement le modéle fixe et ceux qui ont trait au modéle aléatoire (paragraphes 10.3.2.4° et 10.3.3.5°), mais ils peuvent paraitre quelque peu surprenants. On constate en effet que le terme aléatoire d’interaction 02, intervient ici dans l’espérance mathématique du carré moyen relatif au facteur fixe (CMa), mais pas dans Pespérance mathématique du carré moyen relatif au facteur aléatoixe (CM), alors qu’on aurait pu attendre le contraire. Nous justifierons intuitivement ces résultats au paragraphe 10.3.5.2°. Pour s'assurer de la nullité de tous les a; d'une part, et de o}, , d'autre part, il faut done comparer le carré moyen du facteur fixe (CMq) au caré moyen de l'interaction (CM,p), et le carré moyen du facteur aléatoire (CM)) au carré moyen résiduel (CM, ). La comparaison relative au fact réalisée comme pour le modéle aléatoire, tandis que la comparaison relative au facteur aléatoire est réalisée comme pour le modile fixe. ir fixe est, 6° Rien ne doit étre ajouté A ce qui a été dit antérieurement au sujet des distributions d’échantillonnage et du test relatif & Vinteraction. Quant aux tests qui concernent les deux autres hypothses, ils doivent, étre effectués, en fonction de ce qui vient d’étre exposé, en caleulant les quantités : Fa =CMa/CMg, | et [ Fj =CM)/CM, |, et par comparaison avec les distributions F de FISHER-SNEDECOR a p—1 et (p — 1) (q~1) degrés de liberté d’une part, q— 1 et pq (n —1) degrés de liberté d’antre part. T° Des estimations et des limites de confiance peuvent étre calculées pour les différences de moyennes, comme dans le cas du moddle fixe (para- graphe 10.3.2.7°), mais en substituant le carré moyen de l'interaction CMs, au carré moyen résiduel CM,., et en modifiant en conséquence le nombre de degrés de liberté de la variable t de STUDENT. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 284 Lanalyse de la variance a deux critéres de classification existe une certaine interaction sondes-lieux, c’est-a-dire que les différences entre sondes puissent étre différentes d’un point d’observation A Pautre. Dans ces conditions, les différences de moyennes observées entre les sondes dépendent des lieux qui sont choisis, et le facteur lieux intervient done, par l'intermédiaire de l'interaction, dans l'espérance mathématique du facteur sondes. Par contre, les différences de moyennes observées entre les liewx ne dépendent. pas des types desondes mis en ceuyre, puisque tous les types de sondes sont pris en compte : le facteur types de sondes n’intervient done aucunement, méme pas indirectement, dans l’espérance mathématique du facteur liewx. On notera enfin qu’on peut aussi résumer la situation en disant que le choix de la base de comparaison (interaction ou variation résiduelle), relative ‘un facteur donné, ne dépend pas de la nature de ce facteur lui-méme, mais, bien de la nature du facteur qui Ini est associé 3° Le fait de comparer un facteur principal avec linteraction, dans le cas du modéle mixte ou du modéle aléatoire, a pour conséquence de réduire, sou- vent de maniére drastique, le nombre de degrés de liberté du dénominateur de la variable F correspondante. On a en effet toujours: (p—1) (q-1) 6,29) = 0,043 Xoo = Les différences observées doivent done étre considérées, au contraire, comme significatives, ce qui ne fait d’ailleurs que confirmer la conclusion de analyse de Ia variance & deux crittres de classification (exemple 10.3.6) Tableau 10.3.10. Comparaison des résultats obtenus par trois méthodes d'analyse chimique: teneurs en tutécium, en microgrammes par gramme de cendres, et rangs (données partclles) Teneurs Rangs Echant.} 1-2) 3 | 128 1 133 129 138] 2 1 3 2 131 132 138] 1 2 3 3 M9 121 1} 1 25 25 30. 137136 134 | 32 Totaux 695 5159.5 10.4 Les modéles croisés a effectifs inégaux 10.4.1 Principes généraux 1° Quand les effectifs des différents échantillons ne sont pas égaux, l'ana- lyse de la variance A deux crit2res de classification peut se compliquer sen- siblement. D'une part, en ce qui concerne le volet descriptif de l'analyse, les ef- fets des deux crittres de classification peuvent ne plus étre entitrement distinets. Ainsi, les moyennes relatives aux différentes modalités du pre- mier critere de classification, par exemple, peuvent étre influencées par le deuxidme critére, en raison du fait que les inégalités c’effectifs donnent, dans ces différentes moyennes, des poids inégaux aux différentes modalités de ce deuxiéme critére. L’exemple 10.4.3 illustre bien ce phénoméne. Diautre part, en ce qui concerne le volet inférentiel, il en résulte notam- ment que, d’une manidre générale, les variables y? relatives aux différentes sources de variation ne sont plus indépendantes les unes des autres. 2° L'inégalité des effectifs peut étre lige tout d’abord au fait qu’une ou plusieurs observations sont manquantes("), dans un ensemble de données 2) Missing data, missing value aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. analyse de la variance & deux critéres de classification Dans tous les cas, les nombres de degrés de liberté de Vinteraction et de la variation totale doivent étre réduits d’autant d’unités qu’on a estimé de valeurs manquantes. 2° Ces diverses approches, qui sont toutes basées sur le principe des moindres carrés, fournissent des estimations non biaisées pour les moyennes et pour le earré moyen de Vinteraction, mais elle donne par contre des valeurs surestimées en ce qui conceme les carrés moyens factoriels. L'erreur systématique correspondante est d’autant plus importante que le nombre de données estimées est plus élevé. En conséquence, on n'emploie- ra ces procédures que quand les données manquantes ne représentent qu'une faibie proportion de ensemble. Une limite de 10 % de données manquantes, maximum, parait raisonnable. | D'autres approches sont présentées notamment par HUNT et TRIGGS [ [1989], et KALA [1998} Exemple 10.4.2. Comparaison des résultats obtenus par trois méthodes d’analyse chimique : analyse de Ja variance avec estimation préalable d'une ou deux données. On peut illustrer les procédures qui viennent d’étre présentées en sup- posant par exemple que, pour les données relatives a la comparaison de trois méthodes d’analyse chimique (exemple 10.3.6), la derniére observation (x30) est manquante, ou a di étre éliminée. On aurait alors (tableau 8.5.1) {= 10.683 = 8476, X'yg = 273, x’ ob ° [3 (8.478) + 30 (273) — 10.683] / [(2) (29)] = 136,91. F333 Le tableau 10.4.2 présente les résultats de l'analyse de la variat tenus en substituant cette dernigre valeur & celle qui intervenait antérieure- meat (73,39 = 134). Ce tableau doit étre comparé au tableau 10.3.8. Tableau 10.4.2. Comparaison des résultats obtenus par trois méthodes d'analyse chimique : tableau d'analyse de la variance, aprés estimation d'une donnée. Sources Degrés | Sommes des carrés | Carrés ] de variation _| de liberté des écarts moyens | F P Méthodes d’analyse 2 3717 18,59 | 3,77* | 0.029 Prélévements 29 15.434,50 532,23 Interaction oT 280,77 4,926 Totaux 88 15.752,54 [De méme, on peut illustrer la question de l’estimation de deux données manquantes en supposant qu’en outre, observation 1,13 est manquante, ou a da étre éliminée. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. analyse de la variance a deux critares de classification 10.5 Les modéles hiérarchisés 10.5.1 Principes généraux 1° Les modéles hiérarchisés d’analyse de la variance A deux critéres de classification correspondent A des situations oi un des deux critéres est subordonné & Vautre. 11 en est ainsi par exemple quand on compare les rendements laitiers dune méme race bovine dans deux ou plusieurs régions, en choisissant au hasard et indépendamment plusieurs exploitations agricoles dans chaque région, et en mesurant dans chacune d’elles les rendements de plusieurs bétes, elles aussi choisies au hasard et indépendamment. Le facteur ex- ploitations est alors subordonné au facteur régions, pnisque le choix des exploitations est réalisé & l’intérieur de chacune des régions, sans qu'il n’ ait aucune correspondance entre les différentes exploitations des différentes régions. Dans ces conditions, il ne se justifie pas, en particulier, de caleuler la moyenne Z,1, , qui serait relative aux premiéres exploitations des différentes régions, la moyenne Z.2, . qui serait relative aux deuxitmes exploitations des différentes régions, ete., c'est-A-dire les moyennes Fy, relatives au deuxidme critare de classification, alors qu’il se justifie par contre toujours de calculer les moyennes relatives aux différentes régions, c'est~i-dire les moyennes J relatives au premier critére de classification. 2° Dans ce type de problémes, le crittre de classification subordonné est généralement aléatoire, et le critére de classification principal peut étre, indifféremment, fixe ou aléatoire. Les modéles d’analyse de la variance & prendre en considération sont donc un modéle mixte et un modéle aléatoire. Le modéle mixte correspond & un ensemble d’échantilionnages @ deur degrés, réalisés indépendamment les uns des autres, pour les différentes mo- dalités du premier critére de classification. Le modéle aléatoire correspond a un échantillonnage & trois degrés®, qui généralise l’échantillonnage & deux degrés. En outre, on peut distinguer ici également des modéles équilibrés, a ef- fectifs constants aux différents niveaux de l’échantillonnage, et des modéles non équilibrés, & effectifis inéganx. 3° Dans la suite, et comme pour les modéles croisés, nous envisage rons séparément les aspects descriptifs (paragraphe 10.5.2) ct les aspects inférentiels (paragraphe 10.5.3) de l'analyse. 27) Three-stage sampling, aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. Chapitre 1 1 L’analyse de la variance a trois et plus de trois critéres de classification Introduction Lanalyse de la variance a trois critéres de classification : modéles croisés 4 effectifs égaux Lanalyse de la variance a trois critéres de classification : modéles hiérarchisés a effectifs égaux Lanalyse de la variance a h critares de classification aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 11.2 Lanalyse de la variance @ trois critéres de classification : modéles croisés effectifs égaux 321 Tableau 11.2.1. Résistance de panneaux de particules a tarrachage des cous (esjn:)s @ kg, pour deux grosseurs de clous (i), deux diamatres danneaux (3), tiois vitesses d'arrachage (k), et dans chaque cas, cing éprouvettes (0). ijk Lt wy li jG kL ij k 1 zips li jf k ol rrid {12a 2111 6/2214 111 2 56 1221 2 2112 7 2212 1113 3 f1 213 2113 mi2213 rii4 s {121 4 2114 0/221 4 1115 a7 12165 211 5 8 221 5 1121 a7 1221 52 212 1 79 2221 1122 58 122 2 56 212 2 8 |2 2 2 2 112 3 61 122 3 52 212 3 & 2223 1124 s0f1 224 s2|2 124 8 |2 224 112 5 55/1 2 2 5 53 )2 12 5 8 |2 225 71 1131 0 ]1 2391 ole131 wle2231 7 113 2 6 {1 23 2 54/2 13 2 28/22 3 2 113 3 61 12 3 3 65 213 3 7 223 3 87 113 4 6 ]123 4 6/213 4 8/2234 1135 oii 2 35 o]2i13 5 m]223 5 La présentation de ce tableau, qui contient non seulement les valeurs ob- servées, mais aussi les valeurs de tous les indices, correspond & peu de chose pres aux exigences de la plupart des logiciels statistiques. La présentation la plus classique est en effet, dans le cas envisagé ici, un tableau de 60 lignes et cing colonnes, ou éventuellement quatre colonnes, la colonne L n’étant pas indispensable. Le tableau 11.2.2 donne les résultats de l'analyse de la variance, y com- pris les tests /*, dont il sera question ultérieurement: (exemple 11.2.3) ‘Tableau 11.2.2. Etude de la résistance de panneaux de particules Varrachage des clous : tableau d'analyse de la variance. Sources Degrés | Sommes des carrés | Cares de variation de liberté des écarts moyens F r Grosseurs des clous 1 4.4033 4.403,3 | 344*** 0,0000 Diamétres des anneaux | 1 3553 355,3 | 27,8*** | 0,0000 Vitesses d’arrachage 2 632.1 316,0 24,7*** | 0,0000 Clous-anneaux 1 29,3 29,3 2,29 0,14 Clous-vitesses 2 86,2 43,1 3,37* 0,043 Anneaux-vitesses: 2 540 27,0 211 0,13, Clous-anneaux-vitesses 2 10,4 52 0,40 0,67 Variation résiduelle 48 6140 12,79 Totaux 59 0.1846 aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 11.2 Lanalyse de la variance a trois critéres de classification : modéles croisés a effectifs égaux cules, notamment dans les différentes interactions. On remarque aussi, que ces trois modéles comportent respectivement trois, un, et zéro termes non aléatoires, alors que le modéle fixe en comporte sept. Dans chaque cas, on suppose que les différentes composantes aléatoires sont normales, indépendantes les unes des autres, de moyennes nulles, et de variances constantes. 5° Les hypothéses nulles auxquelles on s‘intéresse sont, pour chaque modéle, au nombre de sept. Pour les composantes non aléatoires, elles con cernent la nullité des effets principaux ou des termes interaction (para- graphes 10.3.2.3° et 10.3.4.4°), tandis que pour les composantes aléatoires, elles s’expriment en termes de nullité des variances (paragraphes 10.3.3.4° et 103.4.4°). 6° Comme en analyse de la variance & deux critéres de classification, le choix des comparaisons A réaliser dépend des espérances mathématiques des carrés moyens. Celles-ci sont présentées dans le tablean 11.2.5, selon les mémes principes que précédemment (paragraphe 10.3.5.1°). En particulier, lesigne + indique, comme préeédemment, que les espérances mathématiques sont, selon les cas, des fonctions croissantes des carrés des termes aj , bj , etc. Tableau 11.2.5. Espérances mathématiques des carrés moyens, pour les différents modales croisés d'analyse de la variance a trois critgres de classification. Carrés Modéle fixe Modéle mixte (a et b fixes) moyens}o? (belie (bejn (alin (ably ck OF atlo” cane be ac (ably oc ab CMa |1 +] 1 qn + CM, |1 + 1 pn + CMe |1 + 1 pqn CMa | 1 + 1 n + Mae | 1 + 1 qn CMpe | 1 + 1 pn CMue|t + ton CMr {1 1 Carrés Modéle mixte (a fixe) Modele aléatoire moyens|a* aipe Shc ac ap 9G FB M9" Cape She CAC FAB CS Ob FA CMa fin an orn +]. anon arn CM, {1 pn prn |1 on pn rn prn cM, |1 pn pan 1 on pn qn pqn CMas |1 n rn lon rn CMae |1 n qn 1 n qn CMpe | 1 pn 1 on pn CMabe| 1 n lon CMr {1 1 7° Quand on dispose d’échantillons de plusieurs observations, toutes les comparisons peuvent étre facilement réalisées dans le cas du modéle fixe, et cela toujours par rapport au carré moyen résiduel. Ten est de méme pour aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 11.2 Lanalyse de la variance a trois critéres de classification : modéles croisés & effectifs égaux 329 Le cas des échantillons d'une seule observation 11.2.4 1° Comme en analyse de la variance a deux critéres de classification (pa~ ragraphe 10.2.5), quand les différents échantillons ne sont constitués chacun que d’une seule observation, toutes les mentions relatives la variation résiduelle disparaissent du modéle observé, de l’équation d’analyse de la va- riance, des nombres de degrés de liberté, etc, 2° Les mentions CM, disparaissent aussi des tableaux d'espérances ma- thématiques des carrés moyens, ce qui réduit, parfois considérablement, les possibilités de comparaison. Ainsi, le tableau 11.2.5 montre que plus aucune comparaison n'est possi- ble dans le cas du mode fixe, si ce n'est en supposant la nullité de certaines interactions. De méme, les comparaisons relatives au factenr aléatoire (C) et ses interactions avec les facteurs fixes (a et 6) ne sont pas possibles non plus pour le premier modéle mixte, et la comparaison relative & interaction des deux facteurs aléatoires (B et C) nest pas possible pour le deuxiéme modele mixte. [Aucune difficulté n'apparait cependant si on peut supposer que le modéle est additif, c’est-i-dire qu'il ne fait intervenir aucune interaction. Cette hy- pothese peut: étre vérifiée dans une certaine mesure par une généralisation du test dadditivité de TUKEY (paragraphe 10.3.6.4°), et par divers autres tests qui poursnivent le méme objectif [MARASINGHE et BOIK, 1993; | ZAFAR-YAB, 1993). [8° Differents cas particuliers d’analyse de la variance a trois critéres de classification, relatifs & des échantillons d'une seule observation, peuvent étre pris en considération, en relation avec divers dispositifs expérimentaux. Il en est ainsi, par exemple, pour les modeles relatifs aux dispositifs en carré | latin, en «cross-over», et en parcelles divisées [DAGNELIE, 1970, 1993] [ _ 4° Enfin, le probléme de 'estimation des données manquantes doit parfois étre abordé aussi. Ce probléme soulive souvent plus de difficultés qu’en analyse de la variance & deux criteres de classification (paragraphe 10.4.3), et il peut nécessiter l'emploi de formules particulitres, liées aux dispositifs expérimentaux dont il vient d’étre question. Ce probléme peut aussi étre résolu par l'analyse de la covariance (para- phe 17.3.3.3°), ou par l'utilisation du modéle linéaire général (paragraphe Exemple 11.2.4. Détermination d’une fumure optimale pour le blé: ana- lyse de la variance. Une expérience en blocs aléatoires compiets a été réalisée sur blé au Rwanda, en vue de déterminer autant que possible une fumure phospho- calcique optimale [NEEL et DE PRINS, 1973]. Trois doses d'acide phos- phorique (100, 200 et 300 kg/ha) et trois doses de chaux (1.000, 4.500 et 8.000 kg/ha) ont été comparées, les neuf combinaisons des deux engrais aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 11.4 Lanalyse de la variance & h critéres de classtfication 2° Toujours par extension de ce qui concerne les analyses de la variance & un, deux, et trois critdres de classification, le nombre de modéles théoriques differents est égal a h +1, a savoir un modéle fixe, h ~ 1 modéles mixtes, et un modéle aléatoire, La principale question est alors la détermination, pour les différents modes, des espérances mathématiques des carrés moyens. Diverses procé- dures ont été proposées A ce sujet [BOYD, 1980;GAYLOR et al., 1970; HARTLEY, 1967: SCHULTZ, 1955], et des tables sont données notamment par ABT [1963], pour quatre critéres de classification. Le probléme est aussi résolu par divers logiciels statistiques, dont Minitab. Le choix des tests d’hypothéses et des estimations des composantes de la variance, en fonction des espérances mathématiques des carrés moyens, souleve les méimes problénes qu’en analyse de la variance & trois critéres de classification (paragraphe 11.2.3.7°). Les mémes solutions, de regronpement. de sommes des carrés des écarts et d'utilisation de fonctions linéaires des carrés moyens, doivent étre envisagées (paragraphes 11.2.3.8° et 11.2.3.9°). 3° Le cas des échantillons d’une seule observation présente aussi des difficultés semblables & celles de l’analyse de la variance a trois critéres de classification (paragraphe 11.2.4). { Cecas particulier est important, en vue notamment d’étndier des nombres relativement élevés de critéres de classification, qui sont alors généralement chacun & deux modalités seulement (cas 2"). La méthode de YATES (pa- ragraphe 11.2.2.5° et exemple 11.2.2), qui s’étend facilement & un nombre queleonque de critéres de classification, est particuliérement. intéressante dans ce dernier cas. Ly a toutefois lieu de tenir compte alors du fait que le nombre de tests augmente trés rapidement en fonction du nombre de crit?res de classifica- tion, En absence de toute correction, il peut en résulter une augmentation considérable du risque de premiére espéce, comme dans toute réalisation de tests multiples [STAT1, paragraphe 10.3.5.1°). Des tables particuliéres, basées notamment sur le principe de BONFERRONI, et le recours & des diagrammes apparentés aux diagrammes de probabilité (paragraphe 3.3.2) permetient de surmonter cette difficulté [LAWSON ct al., 1998; LUDWIG | et al., 1986; PEARSON et HARTLEY, 1966-1972; TAYLOR, 1994]. Exemple 11.4.1. Etude des conditions de gazéification du bois de hétre et dépicéa : analyse de la variance. Une étude a été menée en vue d'identifier ‘importance de différents facteurs susceptibles d’influencer la production de gaz A partir du bois de hétre et d’épicéa. Quatre facteurs ont été pris en considération : deux types différents de gazogenes, les deux essences (hétre et épicéa), trois types de plaquettes de bois qui sont introduites dans les gazogbnes (ces trois types de plaquettes étant caractérisés essentiellement par leurs dimensions), et qua- tre degrés d’humidité de ces plaquettes (bois séché & trois degrés d’humidité différents, et bois frais). Toutes les combinaisons des différentes modalités des quatre facteurs ont été envisagées, et un essai a 6té réalisé pour cha- que combinaison de ces modalités. La principale variable observée était le aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. Lanalyse de la variance a trois et plus de trois critéres de classification les modéles & quatre critéres de classification, en utilisant les tables de HAR- TER et LUM [1955]. Exemple 11.4.2. Interprétation des résultats dune série d'essais d’engrais principes de analyse de la variance. Nous supposerons dans un premier temps que des essais d’engrais, faisant tous intervenir les ln it mémes fumures, ont été réalisés de fagon indépendan- te en six lienx différents, au cours de deux années consécutives, et chaque fois en deux blocs aléatoires complets, constitués chacun de huit parcelles contigués [VAN RENTERGHEM et DAGNELIE, 1963). Nous insistons tont spécialement sur le fait qu’il s'agit bien d’essais indépendants, non seulement Wun liew A Vautre, mais aussi d'une année a Pautre, les essais ayant 616 or ganisés dans six stations de recherche, et chaque fois dans deux champs d'expériences différents d'une année a Vautre("), Les observations effec- tuées sont des rendements par parcelle, et plus particuligrement, dans le cas présent, des rendements en coton. Dans ces conditions, les facteurs fumures, années, et lieux sont croi puisque les mémes fumures sont appliquées au cours des deux années et: aux différents liewx, et qu’en ontre, les mémes lieux sont pris en considération au cours des deux années. Le facteur bloes, par contre, est croisé avec le fac teur fumures, puisque les mémes fumures se retrouvent dans les différents blocs, mais il est subordonné aux facteurs années et lieux, puisque des blo différents (et des parcelles différentes) sont observés d'une année & Van- tre, et d'un liew A Vautre. Le modéle d’analyse de ta variance est done un modele partiellement hiérarchisé & quatre crittres de classification, dans le cas d’échantillons d'une seule observation, en occurrence une observation de rendement par parcelle (1 = 1). Ce modéle est présenié de maniére schématique dans la partie gauche de la figure 11.4.1, les différentes lettres étant les initiales des quatre critéres de classification. A examen des intersections qui apparaissent dans cette figu- re, on constate que le modéle observé et le modéle théorique de l’analyse de la variance doivent contenir les interactions fumures-années, fumures-lieux, années-liewx, et done fumures-années-lieux, ainsi que linteraction fumuri bloes (dans les années et les liewx). L’analyse de la variance correspondante est esquissée dans le tableau 11.4.5. fALB npkALlB RY XW Figure 11.4.1. Interprétation des résultats d'une série d'essais d’engrais roprésontation echématique de doux moddles d'analyse de Ia variance. (14) i, au contraire, les mémes champs d'expériences et Jes mémes parcelles avaient éé ob- servés au cours de deux années consécutives, dans chacune des stations de rei probléme aurait été un probléme de m paragraphe 10.3.7. che, le répétées, au sens oi il en a été question aut aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 61214 Les comparaisons particuliéres et multiples de moyennes Introduction 1° Sauf dans le cas particulier des critéres de classification qui ne posse dent que deux modalités (p = 2, q = 2, etc.), les hypotheses mulles relatives aux facteurs fixes des analyses de la variance font toujours intervenir plu- sieurs signes d’égalité (paragraphes 9.3.2.3°, 10.3.2.3°, 10.3.4.4°, ete.) Le rejet de telles hypothéses souléve alors la question d'interpréte tuellement, de localiser les inégalit De nombreuses solutions ont été proposées pour répondre, ou tenter de répondre, & cette question. Nous en parlons ici sous l'appellation générale de méthodes de comparnisons particuligres et multiples de moyennes. Le choix entre les différentes approches est trés largement fonction de la nature, qualitative ou quantitative, des facteurs considérés (paragraphe 1.2.2.3°), et de Vobjectif qui a été fixé, ou qui aurait di étre fixé, au moment oit la collecte des données a été décidée. et éven- 2° Que le ou les facteurs fixes considérés soient de nature qualitative ou quantitative, si un certain nombre de questions particuliéres ont été définies a priori de facon précise, et si ces questions peuvent étre exprimées sous la forme de fonctions linéaires des moyennes, il est généralement possible de traiter le probléme par l'utilisation de contraste: Pour des facteurs quantitatifs uniquement, cette procédure permet égale- ment, dans certains cas, d’ajuster aux moyennes observées des équations représentatives de courbes ou de surfaces de réponse. Ces équations peuvent alors étre utilisées en vue, notamment, de rechercher des maximums ou des minimums, ou encore, d’une maniére plus générale, des conditions optimales. Nous examinerons ces problémes au cours cu paragraphe 12.2. Les erem- ples 12.2.1 et 12.2.2 en sont des illustrations. erche de conditions 8° Pour des facteurs qualitatifs, Véquivalent de la reel optimales est la recherche de la ou des variantes les meilleure de la ou des variantes dont les moyennes sont maximales ou minimales. Un autre probleme, étroitement lié A ce demier, est: la comparaison d'une série de variantes avec un ou plusieurs témoin: Ces deux questions constituent objet du paragraphe 12.3, et les exein- ples 12.3.1 et 12.3.2 en donnent aussi des illustrations. 4° Dans le cas des facteurs qualitatifs, on peut également souhaiter com- parer entre elles une série de variantes qui ne présentent aucune structure particulitre, et an sujet desquelles on ne se pose a priori aucune question précise. Une premiére solution est alors de procéder a toutes les comparaisons deux A deux des moyennes, considérées sur pied d’égalité. Cette approche, dite de comparaisons multiples, est objet de trés nombreuses méthodes. Une autre solution consiste & tenter de définir des groupes de variantes aussi homogenes que possible, par des méthodes de classification numérique. Nous envisagerons ces approches au paragraphe 12.4, par la présentation un nombre limité de méthodes. Ici également, des illustrations peuvent étre trouvées en considérant les eremples 12.4.1 et 12.4.2. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 12.2 Lutilisation des contrastes 359 En outre, ces trois contrastes sont orthogonaux les uns aux autres, puisque par exemple, pour les deux premiers, la somme des produits des coefficients est (paragraphe 12.2.1.4°) : M0)+M-)+-)0) +(-)(-) [ D'une facon plus générale, on peut noter que toutes les sommes de pro- duits qui interviennent dans la procédure de calcul de YATES sont en réalité des valeurs observées de contrastes orthogonaux (paragraphe 11.2.2.5° et { exemple 11.2.2). 2° Il faut souligner le fait que l'utilisation de contrastes particuliess ne peut se justifier que pour répondre a des questions posées a priori, indépendamment des résultats observés. Le principe de base est bien de toujours collecter et analyser des données en vue de répondre a des questions parfaitement définies au départ. Il serait extrémement dangereux, au contraire, de déduire certaines hypotheses d’un ensemble de données, et de vouloir ensuite vérifier ces hypothses A partir du méme ensemble de données. 3° En ce qui concerne la réalisation des tests de signification et le calcul des limites de confiance des contrastes, il y a lieu de généraliser éventuel- lement les relations présentées au paragraphe 12.2.1.2°, en considérant que les effectifs n; sont dans chaque cas les effectifs totaux relatifs aux différentes moyennes envisagées, que CMy- désigne toujours le carré moyen qui sert. de base de comparaison pour le facteur ou l'interaction considéré, et que le nombre de degrés de liberté correspondant a n, —p est le nombre de degrés de liberté relatif & ce carré moyen. Pour le premier facteur d'un modéle croisé mixte d’analyse de la variance & deux critéres de classification, par exemple, les effectifs désignés par nj sont en fait les effectifs qn , le carré moyen qui sert de base de comparaison, et qui doit remplacer CM,., est le carré moyen de l’interaction CM,s , et le nombre de degrés de liberté correspondant est égal & (p — 1) (q— 1) (paragraphes 10.2.2.1°, 10.2.2.4° et 10.3.5.1°). 4° Enfin, si on teste un nombre important de contrastes, il faut étre at- tentif au fait que la probabilité de considérer & tort l'un ou l'autre contraste comme significatif, c’est-A-dire le risque de premire espace relatif & Ven semble des contrastes, augmente trés rapidement, en fonction du nombre de tests réalisés [STAT!, paragraphe 10.3.5.1°). On peut remédier A cet inconvénient en calculant des valeurs des dis- tributions F de FISHER-SNEDECOR, définies au sens de BONFERRO- NI (STATI, paragraphe 10.3.5.2°], ou en utilisant, & la place des tables habituelles, des tables particuliéres qui tiennent compte du nombre de con- trastes testés [CHAMBERS, 1967; GOTTLIEB et al., 1984; HAHN et HEN- DRICKSON, 1971; PEARSON et HARTLEY, 1966-1972). aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 12.2 Utilisation des contrastes 365 sion tient compte de la valeur estimée 2,25, qui remplace la donnée man- quante (exemple 11.2.4). Ces moyennes permettent de calculer facilement les valeurs observées des deux contrastes, linéaire et. quadratique : 8; = —1,9967 + 3, 1256 = 1, 1289 et Gy = 1, 9967/3 — 2 (2,8667)/3 + 3, 1256/3 = —-0, 2037 Les sommes des carrés des écarts relatives A ces contrastes sont : SCE, = 1, 1280? /(2/9) = 5, 7349 et SCE = (—0,2037)?/{6 (1/3)?/9| = 0,5602, et les valeurs F correspondantes sont (tableau 11.2.7): Fi = 5, 7349/0, 0788 = 72,8 et = 0, 5602/0, 0788 toutes deux avec | et 15 degrés de liberté. La premiére est tres hautement. significative (P = 0,000), et la seconde juste significative (P = 0,018), ce qui implique qu'une courbe de réponse parabolique peut étre ajustée A bon droit, et que des conditions optimales de fumure peuvent donc étre déterminées. La figure 12.2.1, établie en fonction des rendements par hectare, montre toutefois que le maximum de la courbe de réponse doit se situer A proximité de la limite supérieure du domaine éudié. 1000 1700 aha) 1600 1500 400 Rendemer 1300 1200) 1100: 100 200 300 Fumure phosphorque (kg/ha) Figure 12.2.1. Determination dune fumure optimale pour le bié: points moyens observés et courbe de réponse relatifs 4 la furnure phosphorique. L’équation de la courbe de snivante onse pent étre obtenue de la manidre cy = 1,1289/2 = 0,5644, cg = —0,2037/[6(1/3)?] = — 0, 3056 aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 370 Les comparaisons particuliéres et multiples de moyennes croisé mixte & deux crittres de classification. Les comparaisons relatives an facteur hybrides doivent done étre réalisées par rapport 4 Vinteraction des deux facteurs (paragraphe 10.3.6.3°), et les différences entre hybrides: apparaissent ainsi comme tres hautement significatives. Le tableau 12.3.2 permet de caleuler la quantité V2CMa3/4 = V/2(83.05)/4 = 6,467 T/ha, qui remplace ’expression /2CM,/n, et qui n’est autre que lerreur-stan- dard de la différence de deux moyennes. Cette valeur intervient dans la plupart des méthodes que nous considérerons. Nous supposons tout d’abord que Pobjectif de l’expérience est de compa- rer cing hybrides nouveaux, correspondant aux numéros 145, un témoin, portant le numéro 6 , sans rest! n quant aux signes des différences. L’em- ploi de la méthode de DUNNETT s‘impose alors, et nécessite simplement le caleul de expression : t_aj2 V2CMao/4 = 2, 82 (6,467) = 18,2 T/ha, la valeur 2,82 étant relative au nivean de probabilité 0,05, pour un test bilatéral relatif & six populations, témoin compris (table VII). Dans ces conditions, la ou les moyennes inférieures & : 49,4 —18,2 = 31,2 T/ha, on supérieures &: 49, 4+ 18,2 = 67,6 T/ha, doivent étre considérées comme significativement différentes du témoin, Tel est le cas uniquement. pour lhybride 1. Si, par contre, Vobjectif était de rechercher, non pas Vhybride ou les hybrides significativement différents du témoin, mais bien Phybride ou les rents, caleuler serait, pour un méme nivean hybrides significativement. supérieurs au témoin, quant & leurs rende le test serait unilatéral, et la limi de probabilité (table VII) : 49,4 +2, 44 (6,467) = 65,2 T/ha. La conclusion serait identique A la précédente, puisqn'ici également, seul Uhybride 1 dépasse cette limite. [ L'examen des résidus de analyse de la variance permet de constater que la condition d’égalité des variances n'est pas parfaitement assurée dans le cas considéré ici, Nous avons néanmoins choisi de travailler sur les données observées elles-mémes, en vue de faciliter Ia comparai nis par les différentes méthodes qui sont prises en considération. On pourra éventuellement, examiner lineidence de Vinégalité des va- riances en effectuant les mémes calculs sur des données transformées, par | exemple sous forme de logarithmes. on des résultats four aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 376 Les comparaisons particuliéres et multiples de moyennes Cet exemple met biea en évidence les ambiguités et les difficultés d’in- terprétation de tels résultats. [La méthode de BONFERRONI, qui tiendrait compte du fait que 15 com- paraisons sont effectuées entre les six moyennes, reviendrait & remplacer la valeur fo,975 , Soit 2,131, par to,g9sa33, soit 3.481. Elle conduirait aux résultats suivants: 2 5 6 3 4 1 34,0 4 49.4 366 621 739 De méme, les méthodes de SCHEFFE et de TUKEY reviendraient & remplacer la valeur 2,131 par des valeurs critiques particuliéres, égales res- pectivement & 3,81 et 3,25. La premitre donnerait les résultats suivants 2 5 6 3 4 1 34,0 413 49,4 566 621 73,9 tandis que la deuxidine conduirait A une configuration identique A celle qui est fournie par la méthode de BONFERRONI (EL KHERRAK, 1993] Enfin, le solution simple que nous avons évoquée ci-dessus reviendrait & remplacer la valeur 2,131 par 2,82 (table VII), qui est effectivement. in- termédiaire entre les différentes solutions déja envisagées. Elle donnerait comme conclusions : 2 La diversité des résultats obtenus, pour un cas tres simple, qui ne fait intervenir que six variantes, met clairement en évidence le caractére subjec- if du choix de l'une on lantre méthode. Cette diversité souligne aussi la nécessité de toujours effectuer, parmi l'ensemble des méthodes disponibles, un choix a priori, qui soit indépendant des résultats munériques obtemus, et | intangible au cours d'un méme programme de recherche. 12.4.3 La méthode de NEWMAN et KEULS 1° Au contraire de la méthode de la plus petite différence significative, la méthode ou le «multiple range test» de NEWMAN et KEULS (ou de STUDENT, NEWMAN et KEULS)9) s'applique en plusieurs étapes(20) successives. (19) Afuttiple range test, NEWMAN-KEULS 's test, STUDENT-NE ) Multiple step method, stepwise method. BWMAN-KEUIS’s test aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. Exercices Exercices 12.1. Six fumures phosphoriques, correspondant deux formes différentes d’en- grais (P20; en granulés et P205 moulu), et a trois doses (0,3, 0,6 et 0,9 grammes par pot), ainsi qu'un témoin sans fumure phosphorique, ont été comparés ati cours d'un essai en pots, sur ray-grass, chacun des sept objets étant affecté au hasard a trois pots. En fonetion des informations suivantes, relatives aux rendements en matidre séche, exprimés en grammes par pot, procédez 4 une interprétation aussi compléte que possible des résultats obtenus, en particulier en ce qui concerne les différences entre formes et entre doses d’application, et interaction de ces deux facteurs. Famures | Moyennes Totaux ‘Témoin 837, 25,10 Granulés 0,3] 11,63 Sources de var. [D.1 [SCE | CM Granulés 0,6 | 12,21 Funures 6 | 48,36 [8,05 Granulés 0,9 12,48 Var. résiduelle | 14 | 8,89 | 0,635 Mouli 03 10,88 Totaux 0. [eras Moul 06 12,65 Moulu 0,9 13,31 12.2. Complétez la résolution de lexercice 10.2 12.3. Complitez la résolution de Vexercice 10.3, en déterminant quel est ou quels sont, parmi les traitements 2 8 4, le ou les traitement(s) qui donne(nt) des résultats significativement supérieurs au traitement 1, considéré comme témoin. 12.4. Pour huit types de sables, on a déterminé la valeur d’un paramétre ca- ractéristique de la forme des grains, en observant dans chaque cas 25 grains. Les données obtenues ont nécessité une transformation logarithmique, et ont conduit aux résultats présentés ci-dessous (moyennes figurant dans la colonne «Log. > et premier tableau d’analyse de la variance)(®9), On se demande quels sont les types: de sables qui différent significativement les uns des autres. Sables Doun, | [Sources de war. [D1 | SCE | CM T 2,24 | [Type de sables| 7 | 7.1708 | 10244 2 14,12 | | Var. résiduelle | 192 | 9,1921 | 0,047876 4 8,60 Totanx 199 _| 16,3629 4 9,48 5 9,03 | [Sources de var. [D.. | SCE | CM 6 16,44 | [Types de sables| 7 [11721 | 1.674 7 33,00 | | Var. résiduetle | 192 | 13.500 | 70,34 | 5 ‘ae Totaux 199_| 25.297 12.5. Bn vue d'illustrer, dans un cas particulier, les divergences qui peuvent exister entre les données transformées et non transformées, en ce qui conceme les comparaisons multiples de moyennes, nous présentons également. ci-dessus les résultats relatifs, pour le méme probleme, aux données de départ, sans transforma- tion de variable (colonne « Donn. » et deuxiéme tableau d’analyse de la variance). 29) Les données cor lérées ici sont de la méme nature que celles de l'exemple 9.4.5. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 13.2 Les distributions déchantillonnage des variables discontinues, pour des données qualitatives ordinales codées sous forme numérique, ct pour des couples de caractéristiques de natures différentes (données qualitatives ordinales associées & des données quanti- tatives, par exemple). I] faut cependant s’assurer en toute circonstance du caractére linéaire ou approximativement linéaire des relations entre les va- riables ou les caractéristiques étudiées, et de 'absence de valeurs aberrantes (paragraphe 3.6.3). Pour éviter toute erreur systématique dans Vestimation des coefficients de corrélation, il faut supposer aussi que les valeurs observées des variables considérées sont connues sans erreurs de mesure, ou en tout cas, sans erreurs de mesure importantes par rapport a la variabilité propre de ces variables Lpermersnbe 13.3.4°), En particulier, il y a lieu de s’abstenir autant que ible de tout calcul de coefficients de corrélation & partir de distributions di équanoes grouse ex Claoes (STATI, paragraphe 4.2.2.3"). [ Des informations relatives & la robustesse des méthodes qui concernent la corrélation simple sont données notamment. par SRIVASTAVA et LEE | (1984), et SUBRAHMANIAM et GAJJAR [1980]. [ 4° Tres peu de livres généraux sont. spécifiquement consacrés aux pro- blémes de corrélation, ces problémes étant en fait considérés le plus souvent en marge des problémes de régression, pour lesquels les ouvrages spécialisés sont beaucoup plus nombreux (paragraphe 14.1.5). On peut toutefois citer ici le livre de LINDEMAN et al. [1980], ainsi que celui de KENDALL et GIBBONS [1990], en ce qui concemne plus particuliérement les coefficients | de corrélation de rang. Les distributions d’échantillonnage Principes généraux 1° En vue d’étudier la distribution d’échantillonnage du coefficient de corrélation, on associe une variable aléatoire R a la valeur observée r relati- ve & l’échantillon. Comme pour toute fonction des moments centrés [STATI, paragraphe 8.4.1.3], la distribution de cette variable, qui n'est. autre que la distribution d’échantillonnage du coefficient de corrélation, est asympto- tiquement normale. On peut en outre démontrer que la moyenne et la variance de cette distribution sont respectivement, de maniére approchée: E(R) = p[1—(1—p7)/(2n)]_ et var(R) = (1—p?)?/n, p désignant le coofficient de corrélation de la population-parent, ot n Veffectif de l’échantillon. 2° La convergence de la distribution de R vers la distribution normale est cependant trés lente, pour des coefficients de corrélation fort différents de zéro. Sauf dans le cas des populations-parents de corrélation nulle, la distribution d’échantillonnage est en effet dissymétrique, et cette dissymétrie 13.2 13.2.1 aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 13.3 estimation et 'intervalle de confiance d'un coefficient de corrélation 393 3° Quant aux limites de confiance, elles peuvent étre obtenues de fagon indirecte, par Vintermédiaire de la transformation 2, dans les conditions définies aux paragraphes 13.1.3? et 13.2.2.3°. Dans cette optique, on calcule tout d’abord la valeur z de la variable tansformée qui correspond & la valeur observée r. On détermine ensuite les limites de confiance de z par la méthode de 'erreur-standard [STAT1, paragrophe 9.4.3.1°], c’est--dire pour un degré de confiance égal 4 1 — a: 2 =2-U_gj/Vn—3 et 2 =2+ 4 _g/2/Vn—3|. Et on revient aux limites de confiance du coefficient de corrélation lui-méme par la transformation inverse, D'une maniére générale, l'intervalle de confiance ainsi obtemu n'est. pas symétrique par rapport a la valeur observée du coefficient de corrélation, la dissymétrie étant d’autant plus prononeée que la valeur du coeflicient de corrélation est plus différente de zéro, et que l'effectif de |’échantillon est plus réduit. [Des tables et des abaques permettent aussi de déterminer les limites de confiance sans aucun calcul [ODEH, 1986; PEARSON et HARTLEY, 1966- | 1973}. [ 4° Nous pouvons justifier ici le fait que d’éventuelles erreurs de mesure sont toujours source d’erreurs systématiques dans l'estimation des coeffi- cients de corrélation (paragraphe 13.1.3°). A cette fin, désignons par X et Y les variables auxquelles on s’intéresse, et dont on souhaite mesurer la corrélation, par X’ et Y’ les erreurs de mesure, et par Xgp_ et Yops les variables aléatoires dont les valeurs sont réellement observées : Xobs =X+X' et Yous=Y¥+Y'. Si on suppose que les erreurs de mesure sont de moyennes nulles, indépen- dantes entre elles, et indépendantes des variables fondamentales, on peut écrire [STAT 1, paragraphe 5.8.3.3° et 7.3.2]: Ken = OX FOX Ct OF, = OF +O, cov(X’, ¥’) = cov(X, X’) cov(Y, Y’) = cov(X’, ¥) = cov(X, Y’) =0 et cov(Xobs Yous) = cov(X, ¥). On en déduit facilement la relation suivante entre le coefficient de corrélation recherché p et le coefficient de corrélation op, , relatif aux variables réelle- ment observées : P= Pot V/(1 + a, /0%) (14+ 02, /a? Sauf en l'absence d’erreurs de mesure, c’est-A-dire quand : o% = oF =0, aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 398 Les méthodes relatives & la corrélation simple et = lel Vln —2)/G— 78) = Veal Vn Fe? vin Fm =2 (ny + n2) (SCEy + SCE2) fa ~ Hal / | SEL eSOS (E+ 2). Cette derniére expression est bien celle qui a trait au test t d’égalité de deux moyennes, et les nombres de degrés de liberté des deux distributions t sont | identiques (paragraphe 8.4.2.1°). Exemple 13.4.1. Etude de différentes caractéristiques des plantes de chi- corée witloof : tests de signification de coefficients de corrélation. Nous pouvons illustrer le test de signification d’un coefficient de corréla- tion en utilisant les données relatives différentes caractéristiques de 1.000 plantes de chicorée witloof (Cichorium intybus L.) [RONCHAINE, 1962], que nous avons déja prises en considération antéricurement [STAT1, exem- ple 4.11.1). En ce qui concerne le poids des feuilles et le poids des racines, le coeffi- cient de corrélation observé est égal 0,707. La valeur toy. correspondante est: tobs = 0, 707 y/'998/(1 0 avec 998 degrés de liberté. Cette valeur est bien s cative, puisque (table II) : 31,6, tres hautement signifi- P(t > 31,6 0,0000 on to,o09 = 3,10. Si, afin d’éviter tout calcul, on se réfere & la table X, on peut constater ‘que, pour 1.000 individus, c’est-A-dire un nombre de degrés de liberté k égal & 998, un coefficient de corrélation doit étre considéré comme significatif quand il atteint ou dépasse la valeur 0,0521 , comme hautement significatif quand il atteint ou dépasse la valeur 0,0736, et comme tres hautement significatif quand il atteint ou dépasse la valeur 0,1039 On remarquera que le test envisagé ici est unilatéral, puisqu’on s’at- tend, évidemment, & observer une corrélation positive entre les deux ca- ractéristiques étudiées. On pourrait ajouter que, va le nombre d'observa- tions et la valeur du coefficient de corrélation, le recours A un test de signi- fication ne s'imposait nullement. [ Le méme ensemble de données permet aussi d'illustrer les relations entre les différents tests dont il a été question ci-des Dans ce but, considérons plus précisémont la matrice de corrélation (STATI, exemple 4.11.1): 1 0,707 0,230 0,026. 0,707 1 0,230 0,224 0,026 0,030 R aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. Les méthodes relatives & la corrélation simple entre Vacidité du sol, exprimée sous forme de pH, et la teneur en carbone est la méme que la corrélation entre l'acidité du sol et Ia teneur en azote. En désignant ces trois variables respectivement par 1 , r et 3, "hypothése nulle est bien Ho : p12 = pis Pour le premier type de foréts, par exemple, les coefficients de corrélation observés définissent la matrice : 1 = 0,492 = 0,530 R= | —0,422 1 0,827 530 0,827 On en déduit |R| =0,2270, toys = 0, 108 \/1,827/0,0650 =0,57 et P((t| > 0,57) =0,59, avec 7 degrés de liberté. Il faut done conclure que, pour le type de foréts et la profondeur considérés, la corrélation entre l'acidité et: la teneur en carbone (r12 = — 0, 422) n'est pas significativement différente de la corrélation entre Vacidité et la teneur en azote (r13 = — 0, 530). [ Toujours a propos des mémes données, I"hypothése nulle relative a quatre variables, que nous avons évoquée ci-dessus, pourrait concerner la compa- raison, dans un des types de foréts, de Ia corrélation entre les teneurs en carbone et en azote A une premiére profondeur ( et x2), avec la corrélation entre les teneurs en les mémes éléments 4 une deuxiéme profondeur (r3 et La). 13.5.4 La concordance entre deux ou plusieurs classements 1° Le coefficient de corrélation de rang de SPEARMAN permet de chif- frer le degré de concordance qui existe entre les classements établis sous forme de rangs, par deux experts ou deux juges, ou deux jurys ou groupes d’experts ou de juges, ou A deux moments différents, ou encore selon deux méthodes d’observation |STAT1, paragraphe 4.6.3.4°]. Ce coefficient permet aussi de procéder & des tests de signification et d’égalité relatifs a de tels degrés de concordance. 2° Le coefficient de concordance de KENDALL®) est une généralisation, un nombre quelconque q de classements, du coefficient de SPEARMAN. Le coefficient de KENDALL esi en effet défini comme suit W = [1+ @—-1)Fs]/4 Fg étant la moyenne arithmétique simple des 9(q~ 1)/2 coefficients de corrélation de SPEARMAN. Ce paramétre varie entre 0 et 1, les valeurs proches de 0 étant le refiet de discordances importantes entre les classe- ments, et les valeurs proches de 1 le reflet dune grande concordance entre les classements. ) KENDALL ’s coefficient of concordance. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 410 14.2.2 14.2.3 Les méthodes relatives a la régression linéaire simple résiduelle, et dans tous les cas, aux distributions ¢ de STUDENT, pour les autres paramitres, avec des nombres de degrés de liberté qui sont toujours égaux An-2 La distribution d’échantillonnage de la variance résiduelle 1° Si on associe une variable aléatoire $7, 4 la variance résiduelle ob- servée sz, [STAT1, paragraphe 4.7.4.1°], on peut démontrer, dans les con- ditions du paragraphe 14.1.2°, que la quantité : 2 S5,0/0% 5 posséde une distribution y? de PEARSON a n — 2 degrés de liberté, of, , tant Ja variance résiduelle théorique. [La démonstration de cette propriété est semblable A celle qui concerne la variance d'une série statistique simple STATI, paragraphe 8.3.2.5"). La réduction du nombre de degrés de liberté de deux unités, par rapport a Veflectif de P'échantillon, provient du fait que deux paramétres (a et 3) sont | estimés ici, an liew d'un seul (2) A une dimension: 2° Cette propriété a pour conséquence que toutes les méthedes relatives auc variances et aux écarts-types (chapitre 7) sont applicabl ct aux écarts-types résiduels, & condition de remplacer chaque fois n —1 par n-2. es aux variances Les distributions d’échantillonnage des paramétres de la droite des moindres carrés 1° Dans les conditions définies an paragraphe 14.1.2°, la distribution de la variable aléatoire B , qui pent étre associge an coefficient de régression observé b (STATI, paragraphe 4.7.2.5°], est une distribution normale, de moyenne (J, et de variance : of, = of.,/SCEx On peut en déduire que la distribution de. (BB) \/(n - 2)SCEz/(n S}.,), est une distribution ¢ de STUDENT a n ~ 2 degrés de liberté. 2° De méme, la distribution de la variable aléatoire A, qui peut étre associée & l'ordonnée a Vorigine observée a, est une distribution normale, de moyenne a, et de variance : 0%, = oF, (I/n + F7/SCEz). On peut aussi en déduire que la distribution de: (A—a)/\/nS?, (1/n+ #2/SCEz)/(n — 2), est une distribution t de STUDENT a n ~ 2 degrés de liberté. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. a4 14.3 ® 14.3.1 Les méthodes relatives & la régression linéaire simple Uajustement et la validation d’une droite des moindres carrés Principes généraux 1° Nous envisagerons linférence statistique relative a une droite de régression au sens des moindres earrés en deux temps. Dans un premier temps, nous considérerons Ja détermination ou l'ajustement de la droite, c’est-i-dire estimation des paramitres de la droite, et la recherche des limites de confiance correspondantes (paragraphe 14.3.2). Puis, dans un deuxieme temps, nous traiterons du controle de la validité ou de l'adéquation de la droite, notamment par Vétude des résidus (paragraphes 14.3.3 et 14.3.4). Nous donnerons également quelques informations relatives A diverses situations et méthodes alternatives aux moindre: iques (pa graphe 14.3.5), et A certaines méthodes non paramétriques et robustes (pa- ragraphe 14.3.6). 2° Di étre traités & Paide de la commande « regress » dn loai diverses sous-commandes. D‘autre part, nous fournirons aussi, au fur et & mesure, des indications bibliographiques complémentaires relatives a la régression. ne maniére générale, les problémes de régression linéaire peuvent el Minitab, et de { © 14.3.2 Lajustement d'une droite de régression 1° Dans les conditions définies au paragraphe 14.1.2°, et en fonction de ce que nous avons dit en matigre de distributions d’échantillonnage (para- graphe 14.2.2.1°), la variance résiduelie relative & une droite de régression simple peut étre estimée sans biais de la maniére suivante: Be oVn (CEy.2/(n—2) |, SCE), étant la somme des carrés des écarts résiduelle [STAT1, paragraphes 4.74.29 eb 4.9.1.3°): SCEy.2 = SCE, — SPE*/SCE, = SCE, (1 —r*). Des limites de confiance peuvent étre déterminées & aide de la distri- bution x2 de PEARSON A n —2 degrés de liberté, selon une procédure semblable & celle qui doit étre utilisée pour toute variance & une dimension (paragraphe 7.2.2.1°) 2° Toujours dans les conditions définies au paragraphe 14.1.2°, et sur base des distributions d’échantillonnage présentées au paragraphe 14.2.3, les estimations non biaisées des paraméires de la droite de régression pro- prement dits sont : et aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 14.3 Lajustement et la validation d'une droite des moindres carrés L’examen de ces résidus met en évidence une valeur particuliérement Slovée (df = 2, 20), dans le cas des données initiales (y4 en fonction de x,). De méme, cet examen met en évidence une longue séquence de valenrs négatives dans la partie centrale des données initiates (d/, & df). L’existence d’une telle séquence est: un indice du caractére non aléatoire des résidus, et plus particuligrement d’une certaine courbure du diagramme de dispersion des résidus, et done des données initiales. Aucun élément de ce genre n’apparait par contre pour les données transformées (2; en fonction de 2,). La figure 14.3.1 présente les diagrammes de dispersion des résidus en fonction des valeurs de la variable explicative. Ces diagrammes confirment existence de la courbure a laquelle nous venons de faire allusion, et ils mettent bien en évidence les inégalités de moyennes et de variances des résidus, pour les données initiales, et au contraire, la relative stabilité des moyemnes et des variances, pour les données transformées. ibsidus de y Riésidus o* de 2 o 7 14 ours Figure 14.3.1. Décroissance des restes de fongicide observés sur laitue: diagrammes de dispersion des résidus 2” relatits aux données les (y) et aux données transtormées (2), en fonction du temps. ‘Tous les éléments considérés corroborent donc les conclusions obtenues antérieurement, en ce qui concerne la bonne adéquation du modéle linéaire pour les données transformées (exemple 3.6.1). La recherche des données influentes et la validation croisée 14.3.4 1° La validation d'une droite de régression par l'étude des résidus peut étre complétée par la recherche et l’examen des données influentes®), Une observation est dite influente quand elle joue un réle important dans la détermination des paramétres, et done de la position de la droite, par rapport l'ensemble des observations. Une fagon relativement simple d'étudier V'influence'® de chacune des données consiste a éliminer & tour de role chacun des couples d’observations (2. y)); selon une procédure comparable & celle du «jackknife » [STAT1, ©) njtuentil date, _ Influence. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 426 Les méthodes relatives a la régression linéaire simple Exemple 14.3.4. Hydrolyse enzymatique de la cellulose: ajustement @’une droite de régression passant par lorigine Au cours d’une étude relative ’hydrolyse enzymatique de la cellulose, on s’est notamment fixé comme objectif de rechercher une droite de calibra- ge, exprimant la relation entre la concentration de la solution enzymatique et Vimportance de lactivité enzymatique, mesurée par spectrophotométrie, en termes de densité optique [DESMONS, 1987]. Le tableau 14.3.2 présente les résultats obtenns, pour neuf concentra- tions différentes. La figure 14.3.2 donne une représentation graphique de résultats, et met bien en évidence le caractere linéaire de la relation, avec une ordonnée & l’origine nulle ou quasi nulle, Tableau 14.3.2. Hydrolyse enzymatique de la cellulose : concentrations de neut solutons enzymatiques () et densités optiques correspondantes (y,). zi] uw 0,2) 0.111 0,4 | 0.246 0,6 | 0.364 048 | 0,500 1,0 | 0,607 1,2 | 0,723 1,4 | 0,835, 1,6 | 0,925 1,8 | 1,080 05 . Densités optiques ° 1 2 Concentrations Figure 14.3.2. Hydrolyse enzymatique de la cellulose: diagramme de dispersion des concentrations de neut solutions enzymatiques et des densités optiques correspondantes. L’équation de la droite de régression passant par V'origine est : y= (6,8066/11,40) r =0, 59712, les valeurs 6,8066 et 11,40 étant respectivement la somme des produits 2; 4 et Ja somme des carrés des 2. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 14.4 Lestimation a l'aide d'une droite des moindres canés 431 quand Veffectif de Iéchantillon augmente indéfiniment, la valeur uy _o/2 ayant trait & la distribution normale réduite. | Lasous-commande « fits» du logiciel Minitab donne les valeurs attendues y(a;) relatives & toutes les valeurs observées 2; de la variable explicative, tandis que la sous-commande « predict » fournit les valeurs Myjz, 00 §(20) + estimées a l'aide de la droite de régression pour des valeurs particuligres 9 , ainsi que les limites de confiance correspondantes, tant en ce qui concerne | les moyennes conditionnelles que les valeurs individuelles, | 4° La démonstration des formules relatives aux limites de confiance des moyennes conditionnelles est une généralisation simple de celle qui a trait, & Vordonnée & Yorigine (paragraphe 143.2.2°). En suivant une procédure semblable A celle adoptée précédemment (paragraphe 14.2.3.4°), on obtient. en effet la valeur suivante de la variance de toute moyenne conditionnelle : var(Myjz9) = var [Y — B (xo - 2)] = of, [1/n+ (vo - 2)?/SCEz] . La quantité qui figure entre crochets est identique A celle qui intervient, sous la notation h;, dans la détermination des résidus réduits de variance constante, et dans la recherche des valeurs influentes (paragraphes 14.3.3.3° ot 143.42°). Pour les valeurs individuelles, on a de méme : var [Y (2+9)] = var[¥ — B (29-2) + D] =o%,, [(n+1)/n+(2o-)*/SCEx] 5° Les formules relatives aux moyennes conditionnelles sont utilisées en particulier en matiére d’échantillonnage, dans le cadre de la méthode dite d’estimation par la régression2?), L’objectif poursuivi est d’améliorer, par Ja régression, la précision de estimation de la moyenne d’une variable, en tenant compte des valeurs d’une autre variable Il arrive fréquemment en effet que, quand on souhaite effectuer une en- quéte par échantillonnage au sujet d'une variable inconnue y, on connaisse les valeurs d’une autre variable x pour tous les individus de la population considérée. On dispose alors des moyennes # et J relatives & Véchantillon, et de la moyenne my relative A la population, et on cherche a estimer la moyenne my . Cette demiére moyenne peut étre estimée par régression, en considérant qui s’agit de la valeur de y correspondant & mx , sur la droite de régression : fiyimy = a+ bmx =F +b(mx —3). Cette fagon de procéder corrige en fait la valeur de la moyenne observée 7, relative A la variable principale, en fonction de l’écart entre la moyenne | théorique my et la moyenne observée Z, relatives a la variable auxiliaire, [6° La variance de lestimation obtenue de cette maniere est : vat(My mx) = 9% [1m + (my ~F)?/SCEz] . 27) Regression method of estimation. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 14.5 Les tests de conformité, de signification et de linéarité pour les droites des moindres carrés. 439 qui découle des formules de calcul de 1a somme des carrés des écarts et de Ja variance résiduelles (paragraphe 14.3.2.1°). 4° Les nombres de degrés de liberté correspondant aux différentes som- mes des carrés des écarts sont tels que : et les carrés moyens sont: CM, = SCBy/(n — 1) CM, =SCE;] et [ CMy2 =SCEyz/(n—2) |. Le carré moyen total n’est. autre que la variance marginale estimée 3}. , tandis que le carré moyen résiduel se confond avec la variance résiduelle estimée #., . 5° Le modéle théorique qui correspond au moddle observé s'écrit : ¥j— my = [y(ai) - my] + [i -w(@i)], les valeurs y(zrj) étant relatives ici a la droite de régression théorique, et non plus, comme ci-dessus, A la droite de régression observée. En tenant compte du fait que: (ai) = a+ Bx; = my + B(x; -7), et en désignant les écarts résiduels par Dj , on en déduit ¥j=0+8x+D;, ce qui est exactement le modéle que nous avons présenté au départ (para- graphe 14.1.2°), ou encore : ¥j —my = B (ci -£)+ Dj 6° Les espérances mathématiques des carrés moyens factoriel et; résiduel sont [ron o¢, + 5°SCE, | et {E(CMy2) =0%,, De plus, dans les conditions définies au paragraphe 14.1.2°, et quand l'hy- pothése nulle est vraie, on peut établir que les sommes des carrés des écarts factorielle et résiduelle, divisées par of, , ont des distributions x? indépendantes, respectivement & 1 et n — 2 degrés de liberté. 7° On peut done réaliser un test F, en calculant la valeur : Pops = CM)/CMy= |, A 1 et n—2 degrés de liberté, et en rejetant Phypothése nulle dans les mémes conditions qu’en analyse de la variance A un critére de classification (paragraphe 9.3.2.8°). Lrensemble des résultats peut étre présenté sous la forme d'un tableaw analyse de la variance tout a fait classique (tableau 14.5.1). aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 14.5 Les tests de conformité, de signification et de linéarité pour les droites des moindres carrés 443 c'est-a-dire aussi le modéle théorique : a (aj - 9) + [myji - (@ +8.2)] + Yin — my) T° Les espérances mathématiques des carrés moyens factoriels et résiduel sont dans ces conditions : E(CM,) = 0? + 6° SCE; |, E(CMy) = 0? ya 5 Sfmt [my - (+ Bx))? ?} et E(CM, co? étant la variance résiduelle de la variable dépendante, calculée par rap- port aux moyennes conditionnelles. 8° Le modéle théorique et les espérances mathématiques permetient de considérer deux hypothéses nulles. L'une concerne la signification de la régression linéair Hp: 3 et autre la linéarité de la régression : Hg: my =0+Be;. La premiére est I'hypothése nulle que nous avons déja envisagée aux para- graphes 14.5.2.4° et 14.5.3.1°. 9° Dans les conditions définies an paragraphe 14.1.2°, et quand les hy- pothéses nulles sont: vents les sommes des carrés des soul factorielles et résiduelle, es par a2, possident des distributions x? indépendantes, respectivement 4 1, p~2, et n, ~ p degrés de liberté. ‘On peut done réaliser des tests F, en calculant les valeurs : Fi cM/CM,| et [ Fur =CM,u/CM, |, avec | et n, — p degrés de liberté dans le premier cas, p —2 et n, — p degrés de liberté dans le deuxitme cas. On rejette les hypothéses nulles dans les mémes conditions qu’en analyse de la variance A un critére de classification (paragraphe 9.3.2.8°). Comme précédemment, ensemble des résultats peut étre présenté sous Ja forme d'un tableau d’analyse de la variance (tableau 14.5.3). Tableau 145.3. Test de linéarité : tableau d'analyse de la variance. Sources Sommes des carrés| Carrés de variation des écarts moyens | F Régression linéaire 1 SCE; om, | A Non-linéarité p-2 SCEnt Mat | Fat Variation résiduelle | _n. — p SCE, cM, Totaux no-1 SCEy aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 14.6 La comparaison de deux ou plusieurs droites des moindres carrés 4a7 Le test de cette hypothése est un test de parallélisme®) des deux droites de régression. 2° Dans les conditions définies au paragraphe 14.1.2, y compris les conditions d’indépendance des deux échantillons, et d’égalité des variances résiduelles des deux populations-parents, ce test peut étre réalisé en caleu- lant la quantite = [bi — bal / FF. [1/(SCEx)1 + 1/(SCEx)2] Dans cette expression, les symboles 6 et by désignent les coefficients de régression observés, (SCEz)1 et (SCEx)2 les sommes des carrés des carts relatives dans chaque cas & la variable explicative, et #}-, une estimation conjointe de la variance résiduelle commune. Cette estimation conjointe est obtenue comme suit, & partir des sommes des carrés des écarts résiduelles (SCEy2)1 et (SCEy..)2, et des effectifs ny et ng, relatifs sparément chacune des deux droites de régression : 8¥.. = [(SCEy.2) + (SCEy2)2] /(m +24). Le rejet de Phypothése nulle intervient dans les mémes conditions que pour le test d’égalité de deux moyennes (paragraphe 8.4.2.1°), mais avec ny + ng —A4 degrés de liberté. [ La justification de ce test est semblable A celle qui concerne les moyennes | (paragraphe 8.4.2.2°). 3° Quand les deux échantillons sont de méme effectif, ta procédure qui vient d’étre présentée reste applicable en cas d’inégalité des variances rési- duelles, et les expressions données ci-dessus se simplifient quelque peu. Quand les variances résiduelles sont inégales et que les échantillons ne sont pas de méme effectif, une procédure inspirée de la méthode de WELCH, présentée au paragraphe 8.4.2.3°, peut tre adoptée. En outre, quand on dispose, pour chacun des échantillons, de plusieurs observations de la variable dépendante pour les différentes valeurs de la variable explicative, le test de parallélisme peut étre associé & un test de linéarité, l'ensemble des deux tests étant, réalisé par l'analyse de la variance (paragraphe 14.6.3.7°). 4° Dans les mémes conditions que ci-dessus, des limites de confiance peuvent aussi étre calculées comme suit, pour la difiérence (41 — , et avec un degré de confiance égal & 1 — a: by — b+ tayo 83., [1/(SCEx)i + 1/(SCEz)a] |, toujours par référence a la distribution t de STUDENT, et avec nj +n2—4 degrés de liberté. Cette formule peut @tre adaptée conformément A la procédure de WELCH (paragraphe 8.4.2.6°), en cas d’inégalité des variances résiduelles. 29) ‘Test of parallelism. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. Chapitre 1 5 La régression non linéaire simple et la modeélisation Introduction Les modéles constitués d'une seule équation Quelques modéles plus complexes Les méthodes non paramétriques et robustes Les relations entre données qualitatives et quantitatives Les séries chronologiques aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 3) 15.2 Les modéles constitués d'une seule Equation valeur marginale de la production, diminuée du cotit marginal de la fumure, en fonction précisément de la fumure. La fumure optimale, qui correspond au maximum de cette fonction, est en conséquence ‘Do = — 6, 93/ [2 (— 1, 70)] = 2,04 q/ha ou 204 kg/ha. De plus, les sommes des carrés des écarts des valeurs u! et v!?, et la somme des produits des écarts de ces valeurs sont respectivement égales 18, 294, et 72. Quant a la variance résiduelle, il y a lieu de diviser la valeur antérieure par le carré du facteur 0,18, en vue de tenir compte du changement d’unité des rendements (STATI, paragraphe 5.8.3.1°]. En fonction de ces différents é éments, on peut établir l’équation : (6,93 — 3, 40.v')? — 2, 131? (2, 432) (294 ~ 288 e/ + 72v7)/108 =0, ‘et en déduire les limites de confiance : vi =1,72 et vb = 2,50 q/ha, ou 172 et 250 kg/ha. On remarquera que Vintervalle de confiance ainsi défini pour la fumure optimale est nettement moins dissymétrique que celui qui concerne la pro- duction maximale. De plus, par rapport au cas du rendement maximum, ‘on pourra aussi noter que la réduction de la fumure, qui est de l'ordre de 30 % (2,04 q/ha, au lien de 2,92 q/ha), ne conduit qu’a une réduction du rendement de Vordre de 8 % (16,0 q/ha au lieu de 17,4 q/ha)() Les transformations de variables 1° Les exemples 14.3.1 & 14.33, et d'autres exemples subséquents, nous ont permis de montrer incidemment comment un problime de régression ex- ponentielle peut étre traité par les méthodes relatives & la régression linéaire, moyennant une transformation logarithmique de la variable dépendante. Abstraction faite du terme aléatoire, le modéle que nous avons considéré est (exemple 14.3.1) : y= 1087 on y=76?. ‘Le méme principe peut etre appliqué dans de nombreux autres ¢as. Nous en envisageons quelques-uns ci-aprés. 2° La fonction puissance : On notera que les rendements ramenés & Phectare sont en réalité des rendements tout A fait théoriques, dans la mesure oi ils supposent que les productions des parcelles expérimentales, de 18 m?, peuvent étre étendues aux 10.000 m? d'un hectare, alors ce- pendant qu'il s’agit dune culture en terrasses, séparées par des haies anti-érosives. 15.2.3 aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 470 La régression non iinéaire simple et la modélisation 6 ~~ & BBS sol: = B04 - 2 = 30 20 § oe wo ‘Temps (heures) Figure 15.2.1. Dialyse des protéines de Vigna radiata: évolution de la teneur en protéines en fonction du temps. Dans le but d’ajuster & ces données le modéle de MICHAELIS et MEN- TEN, on peut prooéder aux différentes linéarisations décrites ci-dessus (exemple 15.2.2). On obtient ainsi: 1/y=0,01124+0,3612/r, 2/y=0,1937+0,015092 et y =66,79-13,37y/r 15.2.4 — 32,1 et Gy = 89,0, Zy=—12,8 et jo On peut en déduire les valeurs estimées suivantes, pour les paramétres to et yo: 66,3, 13,4 et jy = 66,8. Ces valeurs mettent en évidence une forte discordance des résultats de la premire linéarisation, par rapport aux résultats de la deuxiéme et la troi- siéme linéarisations. A partir des valeurs estimées de 2 et yo, on peut aussi rechercher les valeurs attendues de la variable dépendante y , 4 aide du modéle initial, ainsi que les résidus correspondants. Ceux-ci sont donnés dans les trois co- lonnes centrales du tableau 15.2.1. Ils sont résumés, dans le méme tableau, par les écarts-types résiduels sy. , calculés comme étant les racines carrées des sommes des carrés des résidus divisées dans chaque cas par le nombre observations. Ces différents éléments confirment la discordance signalée ci-dessus, de méme que la grande similitude entre les résultats provenant des deux der- niéres linéarisations. Nous compléterons cette étude dans le cadre de I'exem- ple 15. Les solutions non explicites 1° Dune maniére générale, les équations normales relatives, par exemple, Ala courbe de MITSCHERLICH ne constituent pas un systéme d’équations linéaires, et il n’est pas possible d’expliciter ce systéme d’équations par aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 18.3 Quelques modeles plus complexes 47 Vordonnée a Vorigine (pourcentage d'eau dans les plantes en l'absence d'eau dans le sol). Tableau 15.3.1. Pourcentages d'eau dans le sol (x,) ot pourcontages d'eau dans les plantes (y,), pour une jeune culture de ble, au cours dune période de sécheresse progressive, et variables instrumentales correspondantes (z,+ et 7:2) x Me_| Ta Fea Ta Mi_| ta Tia 94,8 | 92,6 | 0 1 $168) 93,7) 0 1 929]95,1)0 1 |ie1{90s| 0 1 922/024) 0 1 |reolasa| ot 92,1) 0 1 4) 13,2 | 84,7) 13.2 0 95,2) 0 1 | 12,9 | 88,9) 12,9 0 92,7] 0 1 64/734) 64 0 93,9) 0 1 6,2|63,3) 62 0 aig}o 1] sa|sio] 51 0 95,2] 0 1 1,2/53,2] 1,2 0 92,2] 0 1 10/501] 10 0 100 eM bt a* é . fw a . g 7 a . 60 0 2% 4 60 «80100 Eau du sol (%) Figure 15.3.2. Relation entre le pourcentage d'eau dans le sol et le pourcentage d'eau dans les plantes, pour une jeune culture de bié, au cours d'une période de sécheresse progressive. Le probléme posé peut étre résolu en se référant au deuxiéme exemple de Ja figure 15.3.1, et par la régression multiple (paragraphe 16.2), en recourant: aux deux variables instrumentales qui sont également présentées dans le tableau 15.3.1. Ces variables sont telles que, d’une part : =0 et 2=1, pour les premiéres valeurs du tableau, c'est-i-dire pour ie palier de la rela tion entre les deux variables, et: d’autre part : ti et xig=0, aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. La régression non linéaire simple et la modélisation Ces observations sont présentées sous forme graphique dans la figure 15.4.1, Cette figure montre & suffisance qu’il serait bien difficile d’ajuster un quelconque modéle théorique bien défini A ces données. Un lissage par moyennes mobiles peut done se justifier pleinernent. 500 400 00 200 Nb. de rameaux tombés 100. 0 10 20 30 20 Temps (semaines) Figure 15.4.1. Etude du dépérissement du chéne pédonculé: representation graphique des données intiales, relatives au nombre de rameaux tombés au cours de 45 semaines. Le tableau 15.4.1 contient les valeurs de trois séries de meyeunes mobiles, & savoir les moyennes 7{°), caloulées sur trois termes, les moyennes 7\°), caleulées sur cing termes, ot les moyennes 7{°*%), calculées & deux reprises successives sur trois termes, et constituant done des moyennes pondérées sur cing termes. Pour la dixiéme semaine par exemple, on a: 7D = (449 + 286 + 254)/3 330, Ulf) = (B15 + 449 + 286 + 254+ 120)/5 = 285 et aia) = (350 + 330 + 220)/3 = 300 on directement : iit) = [315 + 2(449) + 3 (286) + 2 (254) + 120] /9 00. Les valeurs indiquées entre parenthéses, aux deux extrémités de la série, = sont simplement; les valeurs observées, en ce qui concerne la premiere et la demiére lignes, et des moyennes calculées sur trois observations, en ce qui concerne la deuxime et l’avant-dernitre lignes. Les trois séries de moyennes sont présentées dans la figure 15.4.2, respec- tivement. par une ligne continue, une ligne discontinue, et une ligne poin- tillée. La derniére série, qui oceupe une position intermeédiaire, semble ere la plus adéquate, pour représenter le phénomane observé. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. La régression non linéaire simple et la modélisation a intervalle régulier le long d’un aze. Ces concepts peuvent aussi étre étendus & deux dimensions, pour analyser des ensembles d’observations faites & in- tervalle régulier dans un plan. [ 8° La littérature relative aux séries chronologiques est. particuliérement vaste. On peut citer notamment les livres généraux de BENSABER et BLEUSE-TRILLON [1989], BROCKWELL et DAVIS [1996], CHATFIELD [1996], GOURIEROUX et MONTFORT [1990], et KENDALL et ORD [1993], ainsi que ceux de BOX et al. [1994], en ce qui concerne plus spécia- lement les modeles autorégressifs et: de moyennes mobiles, et de DIGGLE [1990], en ce qui concerne les applications biologiques, et l'article de | HARDLE et el. (1997], & propos des méthodes non paramétriques. 15.6.2 La décomposition des séries chronologiques 1° Le principe de base de la décomposition®®) des séries chronologiques consiste A supposer que le phénoméne observé est le résultat de l'addition d’un certain nombre de composantes indépendantes les unes des autres. Ces composantes sont au minimum au nombre de trois, & savoir : une tendance générale, une composante saisonniére, et une composante aléatoire La tendance généralel?®) représente l’évolution & long terme de la varia- ble étudiée. La composante saisonniére®) est une composante périodique, dont on suppose qu’elle se reproduit indéfiniment dans le temps, en restant toujours identique & elle-méme. Et la composante aléatoire est une compo- sante résiduelle, semblable a celles qui interviennent également en analyse de la variance et en régression, linéaire et: non linéaire. { On inclut parfois aussi dans le modéle une composante cyclique8), c’est- A-dire une composante qui tient compte de mouvements successifs de hausse et de baisse, comme la composante saisonniére, mais sans périodicité ni amplitude réguliéres. Nous n’envisagerons pas ici existence éventuelle d’un | tel élément. 2° La décomposition des séries chronologiques a été congue principale- ment en vue de analyse de données mensuelles. Pour p années dobserva- tions (i = pet j=1, ..., 12), le modéle peut alors s’écrire : Ya fig t9i+ Diy] ou | ¥e= Seta) +Dr |, moyennant la relation : t= 120-1) +). Ce modéle peut étre considéré comme une addition d’éléments de ré- gression et d’analyse de la variance. La tendance générale fi; ou fy est en effet une composante identique A la partie non aléatoire des modéles de régression, linéaire ou non linéaire (paragraphes 14.1.2°, 15.2.2.3°, ete.) Les termes g; de la composante saisonniére, appelés écarts saisonniers, sont 2) Decomposition. 29) trend. 8) Seasonality. & Cyate, aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 15.6 Les séries chronologiques 501 exemple, pourrait contribuer & réduire V'importance des écarts relatifs aux valeurs les plus élevées (27,96 , 26.86 , 23.11 , etc.), mais dans le cas envisagé ici, cette transformation a malheureusement pour conséquence de donner & la composante saisonniére une amplitude qui s’accentue fortement au cours du temps. D'autre part, on notera également que l'utilisation du modéle obtenu ci- dessus, en vue d’effectuer des prévisions, serait particulitrement dangereuse, car elle conduirait rapidement A des estimations négatives, liées la baisse sensible de la production. La méthode de BOX et JENKINS 1° La méthode de BOX et JENKINS(2) implique, d’une manitre géné- rale, 'emploi de modéles constitués de deux parties, 'une d’autorégression, autre de moyennes mobiles. Dans sa version la plus simple, cette méthode s'applique uniquement & des séries d’observations stationnaires de moyenne nulle. Une série chronologique est dite stationnaire™) quand ses différé observations correspondent toutes & une méme distribution de probabi Une suite de nombres aléatoires ou pseudo-aléatoires provenant tous de la distribution uniforme continue définie dans Vintorvalle (0, 1) est, par exem- ple, une suite stationnaire [STAT1, paragraphe 8.2.3.2°]. En soustrayant. dune telle suite la valeur moyenne 0,5 , on obtient: une suite stationnaire de moyenne nulle, [Les tests du caractére aléatoire et simple, que nous avons considérés au cours du paragraphe 2.4, ont également trait & des séries stationnaires. Ces, tests impliquent toutefois l’indépendance des observations successives, ce | que nous ne supposons pas ici. 2° Par analogie avec la notion d’autocorrélation (paragraphe 2.4.2.5°), on appelle modéle autorégressif un modéle de régression qui met une série observations en relation avec elles-mémes, toujours moyennant certains décalages. Pour une série stationnaire de moyenne nulle, le modéle théorique d’au- torégression d’ordre 1, ou modéle AR(1), est : Y=aVi1+ De. On démontre facilement que le coefficient d’antorégression a se confond avec le coefficient d'autocorrélation d’ordre 1, de telle sorte que le modéle observé correspondant est aussi : w= M-1- D’une manitre plus générale, le modtle autorégressif d’ordre p, ou modéle AR(p), est : Yaa + apYi-p+ Di (82) BOX-JENKINS’s method. (9) Stationary time series, 15.6.3 aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 15.6 Les séries chronologiques On pourrait procéder de la méme fagon en ce qui concerne le modele saisonnier ARIMA(O, 1, 1)(12), dont la formulation observée est: Ge = we-12 ~ bir de—12, avec une valeur de biz égale & 0,4636. On négligerait ainsi la tendance générale. Le processus global, qu’on peut représenter par ARIMA(O, 1, 1)q)x ARIMA(O, 1, L)cq2), associe en fait les deux processus dont il vient d’étre question. Les valeurs des paramitres sont. alors(8) ; 6, =0,9674 ct biz = 0,6566. Le modéle global devrait en principe permettre d’effectuer des prévisions pour les mois qui snivent la fin de la série observée, mais comme nous avons sigualé dans le cadre de Yexemple 15.6.1, on doit s’attendre & voir appa- raitre rapidement des valeurs négatives, en raison de la forte décroissance de la production. Les prévisions relatives aux 12 mois de année 1984 sont néanmoins présentées dans le tableau 15.6.2, et y sont comparées avec les productions observées, provenant de l'étude originale [FRERE, 1986]. On iculier des écarts importants pour les mois d’avril, mai et Tableau 15.6.2. Etude de lévolution dans le temps de la production dune palmeraia: productions estimées (7j.) et productions observées (vy) ‘elatives a Tannée 1984, en kilogrammes de régimes par arbre et par mos. Mois | i ue 1 2.66 | 0,56 2 5,73 | 2,20 a | 1642 | 17,13 4 | 1047 | 19,28 a | 14a | 6,92 6 8,29 | 2,59 7 a6 | 351 8 j-015 | 1,34 9 | 063 | 0,56 10 2,30 | 1,03 ul 2.08 | 1,62 12 224 | 2,53 On notera que, dans la réalisation de telles prévisions, chaque fois qu’une valeur postérieure & la fin de la série observée doit servir de base & la pré- vision d’une valeur ultérieure, on remplace la valeur observée par la valeur estimée, et on considére le résidu correspondant comme nul. Ainsi, pour la série observations dont la dernigre valeur est yao (décembre 1983), on dispose de toutes les informations nécessaires & la prévision de yi1 (janvier 38) Comme en régression multiple (parageaphe 16.2), i] n'est pas surprenant que les valeurs des deux paramétres soient différentes, dans le modile & deux composantes, de ce au'elles sont dans Jes deux modeles simples aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 510 La régression multiple et le modale linéaire général relatives, d’une part, & n individus (n lignes), et d’autre part, & deux varia- bles explicatives 1 et 2» , et une variable dépendante y (trois colonnes) Dans une telle situation, on peut s‘efforcer de rechercher une équation : y = bo +121 + b2 22 |, qui exprime la variable dépendante en fonction des variables explicatives. Cette équation est une équation de régression linéaire double. 2° La détermination des paramitres de cette équation peut étre réalisée par la méthode des moindres carrés, en recherchant le minimum de la somme des carrés des écarts entre les valeurs observées et les valeurs attendues de la variable dépendante [STAT1, paragraphe 4.7.2] Sly - lea, we)? = yi - 90 — baer - dois)? =i St On obtient ainsi les relations("0) ; bp = — 1 F1 — be |, s3cov(a1 , y) —cov(x1, £2) cov(t2, y) _ SCE SPE, — SPEi2SPE2y 2 2 h= " 8} 83 ~ cov?(r) , 2) SCE} SCE, — SPE}, et Sova, y) — eovlrs , 72)cov(r1, 0) _ SCE1SPRa, — SPR, SPR, 8} 8} —cov?(x1 , 2) ~ ~~ §GR, SCE — SPF2, La seule condition nécessaire est le fait que le dénominateur s} 53 —cov?(2 , x2), commun aux deux derniéres formules, n’est pas nul, c'est-A-dire aussi que le coefficient de corrélation r1, relatif aux deux va- riables explicatives, est différent de —1 et de +1. [ Comme en régression simple, l’équation de régression et toutes les infor- mations complémentaires qui la concernent peuvent étre obtenues a l'aide de la commande « regress » du logiciel Minitab, et de ses diverses sous-com- | mandes. [9° Les relations qui viennent d’étre présentées peuvent étre démontrées en recherchant les dérivées partielles, par rapport A 21 , 2 et y , de la somme des carrés des écarts 4 minimiser, et en annulant ces dérivées partielles. (10) fen vue d’alligor les notations, nous romplagons, on indico, 21 et #2 par 1 et 2, quand aucune confusion n'est possible. Les expressions SCE et SPE\y, par exemple, sont équivaleates, respectivement, & SCE, et SPExjy aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 518 La régression multiple et le modéle linéaire général explicatives, les contributions individuelles de ces deux variables ne sont pas additives, la somme des deux valeurs 4,2639 et 6,9293 n’étant pas égale & 7,0576. Enfin, ce tableau montre que la contribution partielle, ou com- plémentaire, du poids des racines (2,7937 et 196***) est tres supérieure & la contribution partielle, ou complémentaire, du poids des feuilles (01283, et 9,02**). Cette dernitre constatation était tout & fait prévisible, puisque les rejets proviennent directement des racines, et ne peuvent étre influencés qu’indi- rectement par l'importance du feuillage initial. Au point de vue pratique, et indépendamment de tout aspect didactique, seule la derniére partie du tableau 16.2.2 présente un réel intérét. A cet égard, il faut uoter également que, si la contribution complémentaire du poids des feuilles est effective- ment hautement significative, elle n’en reste pas moins trés limitée, comme en témoignent les variances résiduelles et les coefficients de corrélation et de détermination (exemple 16.2.1). Le tableau d’analyse de la variance permet en outre de vérifier que, pour des effectifs aussi importants que celui qui est considéré ici, les valeurs estimées des variances, des variances résiduelles, et des coefficients de déter- mination sont peu différentes des valeurs observées correspondantes 8}, = 0, 02129 (au lieu de 0,02127), @}, yy = 0,01422 (au lieu de 0,01418) et 2 (12) = 0,3319 (au liew de 0,3332) On notera encore, incidemment, que la valeur 0,3332 du coefficient de détermination multiple observé (exemple 16.2.1) est tout simplement le rapport 7,0576/21,1808 soit d’une manitre générale le quotient SCEy(i9)/SCEy , ce qui étend la propriété vue antérieurement pour deux variables explicatives (paragraphe 14.5.4.10°). Exemple 16.2.3. Pénétration de la soude dans le bois d’ Autranella congo- lensis :régression multiple. L’imprégnation du bois par la soude est une pratique courante dans Vindustrie papetitre. L’intensité de ce traitement est fonction de différents facteurs, et peut étre mesurée par la profondeur de pénétration de la soude dans le bois. Le tableau 16.2.3 donne, dans cette optique, les profondeurs de pénétration, en millimétres, observées sur des éprouvettes de bois d’une essence forestire tropicale (Autranella congolensis), aprés immersion durant 1 heure, 2 heures ou 4 heures, dans un bain de soude porté & 20°, 56° ou 97° centigrades, chacune des neuf combinaisons température-durée ayant été objet de deux observations [GERKENS, 1963]. L’objectif de la recherche est, ici, d’exprimer la profondeur de pénétration en fonction des deux variables explicatives prises en considération dans Vexpérience. Au point de vue didactique, notre objectif est aussi de présenter un exemple de situation, fréquente en pratique, oit les deux variables expli- catives ne sont pas corrélées (ry2 = 0). Des considérations théoriques, liées notamment 4 l’équation de diffusion de la chaleur, laissent supposer que a relation entre les trois variables est du type: y=caj! ai? ou log(y) = a+ by log(r1) + ty log(x2) , aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. La régression multiple et le modéle linéaire général Ces résultats, de méme que ceux qui sont présentés ci-dessous, ne sont toutefois valables que sila matrice Az, est non singuliére. Cette condition implique que le nombre de variables explicatives doit étre inférieur ou égal au nombre d’individus (p < n), et qu’aucune variable explicative ne peut étre exprimée comme une fonction linéaire des p—1 autres variables explicatives. 5° Comme en régression simple (STATI, paragraphe 4.9.1.3°), et en régression double (paragraphe 16.2.2.5°), on peut aussi définir une somme des carrés des écarts résiduelle : SOByip = Any ~ ye AS} Ory | et en déduire les variances résiduelles, observée et estimée 33 yp =SCEy.t..p/n | et |, = SCEy..p/(n—p—1) 6° De méme, les coefficients de corrélation et de détermination multiples, observés et estimés, sont tels que : Ric..p) = | ~SCEy.1..p/SCEy = Qyz Azz Ay /Ayy et a SCBy.1..p/(— p—1) p aie B Fran) = ~ Fr. p/P = 1 SCEy/(n— 1) 7° Dans des conditions semblables celles qui ont été définies au pa- ragraphe 14.1.2°, des déterminations de limites de confiance et des tests dhypothéses peuvent étre réalisés, comme pour la régression simple (pa- raeraphes 14.3.2, 14.4.2 et 14.5.2), en utilisant les distributions x? et ¢, & n—p~ 1 degrés de liberté. tid eoreute lindane qui interviennent. dans ces déterminations de li- mites de confiance et dans ces tests dhypothéses sont, pour le terme indé- pendant {4 d’une part, et pour les coefficients de régression (3; d’autre part : Jee p(lin+z Age) et VF pM pour les moyennes conditionnelles estimées & l'aide d'une équation de régres- sion: Az? (to -#)). et pour les valeurs individuelles estimées 4 l'aide d'une équation de régres- sion : Fa. [/n+ (eo ~ 1p [n+ V)/n+ (eo ~ 2) Az} (xo ~ 2)] - Dans ces relations, a/ désigne les éléments diagonaux de la matrice inverse Az, tandis que a est, dans chaque cas, le vecteur des valeurs Z01; +++; Cop, Pour lesquelles des estimations de moyennes conditionnelles ou de valeurs individuelles doivent étre réali En outre, les résidus de la régression sont évidemment : 4 = yi — (bo +216), aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. [ (21) (22) 16.3 Le cas général de p variables explicatives, 527 et la matrice des données est une matrice de dimensions n x (p+ 1): ley... ap Loan... 2y X= = 1 ta. Sap Dans ces conditions, les relations présentées ci-dessus fournissent notam- ment un veeteur de coefficients de régression constitué de p +1 éléments, qui réunit en fait le terme indépendant et les p coefficients de régression proprement dits : bo bp 5° Une présentation plus générale encore, qui reste valable quand la matrice X’ X est singuliére, peut étre basée sur la notion de matrice inver- se généralisée@"), Cette présentation a pour principe de remplacer Pinverse classique (X’ X)~! par Vinverse généralisée (X’ X)©. Pour une matrice carrée A quelconque, la matrice inverse généralisée AS est telle que: AAG A=A Cette définition généralise la définition classique : AAt=I, dans laquelle I est la matrice identité, & ééments diagonaux unitaires, et éléments non diagonaux nuls. Sauf pour des matrices non singulitres, la relation donnée ci-dessus ne définit cependant pas entigrement Ja matrice inverse généralisée, dans la mesure oi cette équation posséde une infinité de solutions. Diverses condi- tions supplémentaires ont été proposées, en vue daboutir A une définition plus précise, Exemple 16.3.2. Pénétration de la soude dans le bois d’Autranella congo- lensis : régression multiple sans terme indépendant explicite. Nous pouvons illustrer les principes qui viennent d’étre exposés en repre- nant le début de Pexemple 16.2.3, sans faire figurer explicitement de terme indépendant. Aprés transformation logarithmique, les données de base sont, dans ces conditions : 1 2,467 0,000 0,212 1 2,467 0,000 0, 246, x—=|1 2.467 0,301] co y=} 0.324], 1 2,568 0,602 0,675 Ja matrice X s’étendant, comme le vecteur y , sur 18 lignes(2), Generalized inverse matris, Les valeurs reprises ici sont celles des variables désignées antérieurement par 24 , 24 et xy’, mais sans signe « prime», pour les notations matricielles, afin d’éviter toute confusion avec une matrice ou un vecteur transposé aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 16.4 Lutilisation de la régression muttiple en analyse de la variance 531 on peut écrire les 37 relations suivantes 23,4 =m + a + 27,7 = m4 a, + dig 22,5 = m +a2 + da 28,5 = m + a9 + doy 18,9 =m + a3 + dog 26,7 =m + a3 + d37, les symboles m, a1, a2 et a3 étant analogues A ceux du modéle d’analyse de Ia variance, tandis que d1, ... , d37 désignent les valeurs observées des 37 résidus D (Dj, en analyse de la variance A un critére de classification, et D, en régression multiple). Sous forme matricielle, ce syst?me de 37 équations linéaires peut s'écrire aussi 23,4 1100 ay 2,7) [1 100 22,5, 10 1 of [™ sli eel ale 28,5 10 ay 18,9 10 26, 7. 10 sz Cette écriture est celle d'un probléme de régression multiple qui ferait intervenir, sans terme indépendant, 87 individus ct 4 variables explicatives (paragraphe 16.3.3.2°). La matrice X des variables indicatrices comprend autant de lignes qu'il y a d'individus observés, et autant de colonnes qu'il ya de paramétres. Le produit X” X est : 37 13 14 10 13:13 0 0 140 4 0 10 0 0 10. X'X= 1 fait apparaitre les effectifs des différents échantillons (13, 14 et 10), et lenr total (37). I montre notamment que la premiere colonne est 1a somme des trois autres colonnes, ce qui suffit & justifier son caractére singulier. On peut éliminer cet inconyénient en considérant que: a, +02 +03 =0, aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. La régression multiple et le modéle linéaire général Mais des difficultés nouvelles apparaissent notamment & propos de la formulation des hypothéses nulles. Différentes approches peuvent en effet étre considérées dans chaque cas. Nous envisagerons essentiellement cette question pour le modéle croisé fie, en utilisant. des notations semblables & celles qui concernent le cas des effectifs égaux (paragraphes 10.2.2.1° et 10.3.2.1°), mais en remplagant toutefois la lettre x par y. 2° Une premiere approche consiste & comparer les moyennes pondérées hs +++ Up.+ Vune part, et 7), -.., H/g., d’autre part, telles qu’elles apparaissent par exemple dans le tableau 10.4.3. Ces moyennes sont définies de la maniére suivante, A partir des moyennes par cellule Gy, : Les hypothéses nulles s’écrivent alors, comme dans le cas des effectifs égaux (paragraphe 10.3.2.3°) : Ho: m= q inl = =m! =m), et him) =...=m',, mais elles concernent les moyennes théoriques pondérées correspondantes : 12 Fy. Lams). Cette approche revient & tester la signification du premier facteur indé pendamment du fait qu'un deuxiéme facteur est pris en considération, et la signification du deuxiéme facteur indépendamment du fait qu’un premier facteur est pris en considération 8° Une deuriéme approche a, au contraire, pour but de voir s'il exis te des différences significatives liées au premier facteur, quand on élimine au préalable l'influence éventuelle du deuxiéme facteur, et s'il existe des différences significatives liées au deuxitme facteur, quand on élimine au préalable 'infiuence éventuelle du premier facteur. On parle alors de com- paraisons de moyennes ajustées. L'éeriture en termes de moyennes et V'interprétation des hypothises nulles sont sensiblement plus délicates dans ce deuxiéme cas. [ 4° Une présentation relativement simple consiste toutefois A se souve- nir du fait que, dans le cas des effectifs égeux, I’hypothése d’égalité des moyennes relative, par exemple, au premier critére de classification est aus- si une hypothase de nullité des écarts entre ces moyennes et a moyenne générale m,, : Ho: mi. —m. . = Mp. —m, = 0. On se rappellera en outze que la moyenne générale m,, est, non seulement la moyenne des valeurs mj, , mais également la moyenne des valeurs mj @ m, m3. 1 1 5 aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. La régression multiple et le modéle linéaire général les différences entre sexes en éliminant Vinfluence du facteur traitements sur les moyennes par sexe, et les différences entre traitements en éliminant influence du facteur sexes sur les moyennes par traitement. Quant au troi- sigme sous-tableaa, il permet de comparer les moyennes non pondérées, qui peuvent étre déduites des moyennes par échantillon 7,;, (tableau 10.4.3), C'est-a-dire, d’une part : 26,9 et J), = 18,8, a et d’autre part : 21,7 et Js, =22,9 En ce qui concerne le facteur sexes, les trois types d’hypotheses nulles conduisent des conclusions pratiquement identiques. Ces conclusions étaient attendues, la différence entre sexes étant bien connue. Par contre, les trois approches ne donnent pas des conclusions identiques au sujet du facteur traitements. Contrairement aux deux autres, la premiere approche met en évidence des différences significatives de poids des pous- sins en fonction des traitements. Ces différences sont celles auxquelles nous avons fait allusion dans Pexemple 10.4.3, et dont nous avons signalé qu’elles pourraient étre dues, en fait, plus au facteur sexes qu’au facteur traitements En réalité, la troisitme approche est vraisemblablement la plus intéres- sante, et en pratique, la seule sans doute qui devrait étre prise en con- sidération dans le cas présent. Elle revient en effet & mesurer les différences entre traitements pour une répartition de type « moitié-moitié » entre les deux sexes. Cette approche conduit A la conclusion que les différences de poids liées aux différences de traitements ne sont pas significatives. La premiere approche aurait été intéressante si les différences d’effectifs observées entre les échantillons avaient été représentatives de différences effectifs existant au niveau de la population ou des populations-parents. Tel aurait pu étre le cas si on avait considéré, non pas deux sexes et trois traitements, mais par exemple, deux régions et trois races (de poules ou de bétail), et si on avait voulu tester, et éventuellement estimer, la différence entre régions, en tenant compte du fait que les trois races n’y sont pas également représentées. I faut alors que les effectifs des échantillons soient proportionnels aux effectifs des populations, c’est-A-dire aux nombres d’an maux des trois races élevés dans les deux régions [ Pour les deux exemples précédents (exemples 16.4.1 et 16.4.2), nous avons concentré attention sur la présentation des modéles et la réalisation des calculs, dans le but de permettre au lecteur de bien saisir la maniére dont le modile linéaire intervient en analyse de la variance. Pour exemple actuel, nous avons au contraire présenté pour commencer les résultats des calculs, tels qu'ils peuvent étre obtemus par ordinateur, et leur interprétation. Nous pouvons néanmoins esquisser aussi les méthodes de calcul. Les données initiales (tableau 10.4.3) peuvent étre présentées sous forme matricielle d’une maniére pratiquement identique & celle de exemple 16.4.2. Les seules nuances sont que le nombre total de lignes est égal 4 45, au liew de 24, et que dans la matrice X, les groupes de lignes qui ont la méme configuration sont d'effectifs inégaux (respectivement 5, 9, 11, 10, 6 et aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 17.2 Lanalyse de la covariance & un critére de classification de analyse de la variance et du modéle linéaire général (paragraphes 9.1.4° et 16.1.5°), ainsi que dans deux numéros spéciaux de la revue Biometrics, publiés I'un en 1957 [COCHRAN, 1957; ete.], et autre en 1982 [COX et. | MCCULLAGH, 1982; ete.]. Lanalyse de la covariance a un critére de classification Principes généraux Nous commencerons par présenter le modéle fire d’analyse de la cova- riance & un critere de classification (paragraphe 17.2.2), sans séparer nette- ment, comme en analyse de la variance, les aspects descriptifs et les aspects inférentiels. Nous envisagerons ensuite les différentes utilisations possibles de Yanalyse de la covariance (paragraphe 17.2.3). Enfin, nous exposerons quelques notions complémentnires, relatives notamment aux estimations et aux comperaisons de moyennes qui peuvent faire suite & Vanalyse de la covariance (paragraphe 17.2.4). Le modéle fixe 1° Pour p populations et nj individus observés par population (2=1,...,petk=1, ...,n), le modéle fize d’analyse de la covariance 4 un critdre de classification peut s'éerire Ya=my = i + B(Xix — mx) + Dik ¥ représentant la variable A laquelle on s‘intéresse principalement, et X étant: la variable auxiliaire. Par comparaison avec le madéle correspondant de Vanalyse de la variance (paragraphe 9.3.2.2°), le modéle qui vient d’étre présenté fait apparaitre le terme supplémentaire 9 (Xj4 ~ mx), relatif a la variable auxiliaire dont on veut éliminer Vinfluence. Une autre écriture est aussi (Ye — 8 Xin) ~ (my ~ Bmx) =a; + Dix. Cette écriture montre que l'analyse de la covariance peut étre considérée comme une analyse de la variance qui serait relative aux valeurs de la varia- ble principale Y, modifiées en fonction des valeurs de la variable auxiliaire X, le facteur de correction # devant outefois étre estimé A partir des données observées, Enfin, une troisiéme présentation est également : Yig = (my +0; — Bmx) + PXx+ Dix. Par comparaison avec le modéle de la régression linéaire simple (paragraphe 14.1.2°), il apparait ainsi que les quantités my + a; — 8 mx sont les or- données a l'origine des p droites de régression relatives, séparément, aux p 17.2 17.2.1 17.2.2 aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 17.2 Lanalyse de la covariance & un critére de classification ‘Tableau 17.2.3. Etude de la croissance en poids dun ensemble de veaux: tableaux d'analyse de la variance relatifs aux poids @ la naissance et & un an. Sources Degrés | Sommes des carrés | Carrés de variation deliberté| des écarts | moyens}_—F. Pp Différences entre années T 162,97 23,28 | 0,81 | 0,58 Différences entre veaux | 123 3.546,82 28,84 ‘Totaux 130 3.709,79 Différences entre années T 32.889 4.698 | 5,40*** | 0,0000 Différences entre veaux | 123 106.981 869,8 Totaux 130 139.870 De méme, la réponse A la deuxiéme partie de interrogation est fournie par l’analyse de la covariance (tableau 17.2.4). Celle-ci montre que, malgré des modifications non négligeables des différentes sommes des carrés des écarts, les différences de poids & un an restent pratiquement au méme niveau de signification que dans le cas de l'analyse de la variance. L’interprétation de ces différences est envisagée dans le cadre de l'exemple 17.23. Tableau 17.2.4. Etude de la croissance en poids dun ensemble de veaux: tableau d'analyse de la covariance relatif au poids & un an. Sources Degrés | Sommes des carré | Carrés de variation de liberté) des écarts. | moyens|_ F P fférences entre années 7 | 29.263 4.181 | 5,42*** | 0,0000 ifférences entre veaux | 122 94.181 7720 Totaux 129 193.444 I En ce qui concerne les conditions d’application de l'analyse de la cova- tiance, on peut rappeler que I’hypothése d’égalité des coefficients de régres- sion, c'est-a-dire de parallélisme des droites de régression, a été vérifiée antérieurement dans toute la mesure du possible (exemple 14.6.2). On peut ailleurs regrouper éventuellement en un seul tableau les résultats du test de parallélisme et de l'analyse de la covariance. Comme nous |'avons dit ci-dessus, les sommes des carrés des écarts ajustées de analyse de la covariance peuvent étre obtenues facilement & partir des sommes des carrés des écarts des deux analyses de la variance (tableau 17.2.3), et des sommes des produits des écarts résiduelle et totale SPE, = 6.737,94 et SPE, = 7.806, 23. On a en effet : SCE, = 106.981 — 6.737, 94/3.546,82 = 94.181, SCE} = 139.870 — 7.806, 23?/3.709, 79 = 123.444 et SCE/, = 123.444 — 94.181 = 29,263. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 17.2 Lanalyse de la covariance a un critére de classification qui aurait pour objectif de mesurer, sur des animaux, V'influence de certains traitements sur le poids (ou la croissance en poids) de certains organes, en éliminant la part de ces différences qui pourrait éventuellement étre lige A des différences de poids des animaux en fin d’expérience (ou de croissance en poids des animaux durant l’expérience).. Dans de telles situations, l'utilisation de l’analyse de la covariance, et en particulier ’interprétation de ses résultats, doivent étre réalisées avec une trés grande prudence. Cette question est discutée notamment par ROSEN- BAUM [1984]. lest souvent conseillé de compléter toute analyse de la covariance par des analyses de la variance portant, séparément, sur chacune des deux va- riables considérées. Une telle attitude est impérative quand la variable auxi- liaire peut étre liée au critare de classification envisage. Quelques notions complémentaires 1° Comme Vanalyse de la variance, l’analyse de la covariance permet de réaliser, non seulement des tests d’hypothéses, mais aussi des estimations de moyennes, et de différences de moyennes. Il ne s'agit toutefois pas ici des moyennes observées, mais bien des moyennes ajustées(®) de la variable principale, le calcul de ces moyennes faisant intervenir les moyennes de la variable auxiliaire. Les moyennes ajustées sont, pour les p échantillons, les valeurs qui cor- respondent, par régression, & la moyenne générale Z de la variable auxiliaire : 5 -b@i-2). Il s’agit d’estimations non biaisées des moyennes conditionnelles qui appa- raissent dans Phypothése nulle présentée an paragraphe 17.2.3.2°. Le coefficient de régression b est la valeur estimée du coefficient théorique 8 B= =SPE,/(SCEr)s, les sommes des produits et des carrés des écarts étant celles définies au paragraphe 17.2.2.4°. Ce parametre est. aussi le coefficient moyen dont il a 6t6 question & propos du test d’égalité de plusieurs coefficients de régression (paragraphe 14.6.3.5°). 2° L’erreur-standard des moyennes ajustées est donnée par une expres- sion somblable celle qui intervient dans ln détermination des limites de confiance des moyennes conditionnelles estimées a Vaide d’une droite de régression (paragraphe 14.4.2.2°) : Vem [1/n 2 /(SCE;)e), (SCE,)z étant la somme des carrés des écarts résiduelle de 'analyse de la variance relative & la variable auxiliaire. (©) Adjusted mean. 17.24 aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. analyse de la covariance différences yjj — 2jj , C'est-A-dire aux accroissements des teneurs en potas sium liées a l’application de la fumure (F = 8,05 et P = 0,0003). Le recours A.cette solution, plutét qu’a l'analyse de la covariance, se justifierait d’autant, plus, dans le cas présent, qu'aucune vérification des hypotheses de linéarité et de parallélisme des différentes régressions n'est possible, puisqu’on ne dispose que d’une seule observation par couple fumure-bloc. Quelle que soit approche adoptée, l'analyse des résultats pourrait étre complétée par le calcul des moyennes, observées ou ajustées, et par la réalisation de comparaisons particuligres ou multiples, liées aux objectits de la recherche, et notamment, a la nature des différentes fumures mises en expérience. Tableau 17.3.2. Comparaison des teneurs en potassium de sols soumis & différentes: fumures: tableaux d'analyse de la variance relatifs aux teneurs observées avant ct aprés application des fumures, et tableau partie! danalyse de la covariance. Sources Degrés | Sommes des carrés | Carrés de variation | de liberté des écarts moyens| F. P Fumures 4 23,22 580 | 089 | 049 Blocs 6 58,53, 9,76 Interaction 24 157,32 655 Totaux 34 239,07 Fumures 4 452,63, 113,16 | 5,05** | 0,043 Blocs 6 99,54 16,59 Interaction 24 537,60 22,40 ‘Totaux 34 1.089,77 Fumures 4 502,89 125,72 | 7,56*** [0,005 Interaction 23 382,18 10,62 Pumures + inter. | _ 27 885,07 Le tableau 17.3.3 présente aussi les résultats complets, non additifs, de analyse de la covariance. Par comparaison avec la troisi@me partie du ta- bleau 17.3.2, il contient en plus une ligne relative & la régression linéaire moyenne en fonction de la covariable et une ligne relative aux différences entre blocs, les divers termes de cette ligne étant également ajustés en fonc- tion des valeurs de la covariable, ainsi que la ligne « Totaux » initiale. Tableau 17.3.3. Comparaison des tenours en potassium do sols sours différentes tumures :tableau complet d'analyse de la covariance. Sources | Degrés | Sommes des carrés | Carré de variation | de liberté | __des écarts__| moyens |_F P Covariable i, 155,42 155,42 | 9,35%* | 0.0056 Fumures 4 502,89 125,72 | 7,56*** | 0,005, Blocs 6 89,40 14,90 Interaction | 23 382,18 16,62 Totaux au 1.089,77 aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. En guise de conclusion En guise de conclusion, nous voudrions passer A nouveau en revue les différentes étapes de toute étude qui fait appel aux méthodes d’inférence statistique, de la conception initiale de l'étude jusqu’a la communication de ses résultats, en mettant en évidence les principauz écueils auxquels il y a lien d’étre attentif. Ces différentes étapes sont considérées ici comme se succédant de maniére linéaire, alors qu’en réalité, elles se présentent. le plus souvent sous forme itérative, avec une succession de boucles telles que : planification — collecte t 1 interprétation <— analyse [ _ On peut éventuellement consulter aussi, A ce sujet, les travaur de CHAT- FIELD [1991, 1995], FINNEY [1988-1989, 1993, 1995], PREECE [1987], [et RILEY (1994). La premiere étape est la planification de Uétude, c’est-A-dire le plus sou- vent la planification d'une ou plusieurs enguétes ou experiences. Ceite étape commence habituellement par une recherche bibliographique ou pat la con- sultation darchives, relatives par exemple A des résultats d’enquétes ou dexpériences antérieures, et elle se termine par la préparation d'un proto- cole écrit. Les différents éléments qui constituent le protocole ont déja été rapide- ment. présentés (STATI, paragraphes 2.2 et 2.3}, et nous ne les reprenons pas ici. On pent toutefois souligner l'importance de la définition d’objectifs précis, en ce compris la définition de la ou des populations auxquelles l'étude a trait. Le protocole initial peut avantageusement comprendre aussi une esquisse ou un schéma de Vanalyse des résultats (énumération des méthodes a utiliser, schémas des tableaux d’analyse de la variance, etc.) Dans certains cas, la phase de planification peut englober des études- pilotes, sous forme d’enquétes ou d’expériences préliminaires, destinées par exemple a préciser certains éléments du protocole (questionnaires, nom- bres d’observations & réaliser, etc.), ou A vérifier la faisabilité de certaines opérations prévues dans le protocole, Globalement, la phase de planifica- tion peut nécessiter ainsi une part relativement importante (par exemple un quart ou un tiers) du temps et des moyens disponibles pour l'ensemble de Pétude. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. Solutions des exercices Tables et abaques Index bibliographique Index des traductions anglaises Index des matiéres Index des symboles ANNEXES aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 578 Solutions des exercices 16,09 = 6,63), avec un degré de liberté; la dernitre partie de l'exercice peut aussi étre résolue pour des effectifs inégaux, & l'aide de la relation qui définit erreur-standard de la différence de deux proportions : pour des effectifs qui seraient proportionnels aux effectifs déja observés, on obtiendrait ainsi environ 570 | pour la premiére race, et 340 pour la deuxiéme race. 5.5. La différence de fréquences d’apparition des deux germes est significative :uoay = 218 et P(|U| > 2, 18) = 0,029 (ou uoo7s = 1,96 et wo,o05 = 2,58) (test bilatéral d’égalité des deux proportions, non indépendantes, les 80 crémes glacées étant considérées comme constituant un échantillon aléatoire et simple); on notera que la conclusion aurait été opposée, si on avait: comparé les deux proportions, soit 15 et 26 %, en les considérant comme indépendantes :tigg = 1,76 et P(|U| > 1,76) =0, 078 (ou no, 1,96) Chapitre 6 6.1. Il n'y a pas de relation -ative entre la fréquence des avortements et les races: x2, = 0,49 et P(x? > 0,49) = 0,92 (ou xf 7,81), avec 3 degrés de liberté (test x” d’indépendance, ou test d’égalité des quatre proportions d’avortements, les 71 gestations étant considérées comme constituant un échantilion aléatoire et simple, ou les quatre groupes de, respectivement, 26, 14, 15 et 16 gestations étant considérés comme quatre échantillons aléatoires, simples, et indépendants) ;on notera qu’il s'agit d’un cas limite d/utilisation du test x* d'indépendance, trois fréquences attendues étant légerement inférieures & 5 6.2. La relation entre les deux critéres de classification est significative : Xips 4,32 et P(x? > 4,32) = 0,038 (ou x8,9; = 3,84 et x39 = 6,63), avec un degré de liberté (test. x" d’indépendance, dans le cas particulier 2 % 2, les 220 plantes étant considérées comme conatituant. un échantillon aléatoire et simple). [ Coefficient de corrélation de point: = 0,14; les limites de confiance correspondantes peuvent étre caleulées comme pour un coefficient de corrélation classique (paragraphe 13.3), et sont gales & 0,01 et | 0,27. 6.3. Les différences entre traitements ne sont pas significatives : x2,, = 2,85 et P(x? > 2,85) = 0,42 (ou x$,05 = 7,81), avec 3 degrés de liberté (test x? d'indépendance, ou test d’égalité des proportions, les 100 plantes choisies au départ étant considérées comme constituant un échantillon aléatoire et simple). [On notera que le test ainsi réalisé ne tient pas compte du caractére ordinal des quatre degrés d'attaque des plantes; il serait possible de faire intervenir cet élément de facon relativement simple, mais aussi assez sommaire, en donnant des valeurs numériques croissantes aux quatre degrés d’attaque (par exemple 0, 1, 2 et 3), et en comparant les deux traitements par un test d’égalité des moyennes (paragraphe 8.4.2), ou en calculant un coefficient de corrélation bisérial et en en testant la signification, les deux méthodes stant strictement équivalentes (paragraphe 13.4); cette approche conduit & la méme conclusion, mais avec une probabilité sensiblement différente : tos. = 1,44 et P([t| > 1,44) = 0,15 (ou to,o75 = 1,98), avec 98 degrés | de tiberve. 6.4, Les différences de forme des tubercules sont trés hautement significatives:x2,, = 39,9 et P(x5q > 39,9) = 0,0003 (ou x5,999 = 36,1), avec 14 degrés de liberté (test x? d’indépendance, ou test d’égalité des proportions, les huit ensembles de tubercules étant considérés comme des échantillons aléatoires, simples, et indépendants) ; les différences concernent principalement la répartition entre tuber- cules plats et tubercules creux, pour la cinquiéme origine, et dans une moindre mesure, la répartition entre les mémes catégories de tubercules, pour la septitme et la troisitme origines (examen des contributions & la valeur x24, , et des écarts réduits entre fréquences observées et attendues). Chapitre 7 7.1. Ecarts-types estimés :0,602 et 0,595 % (ou 0,60 et 0,59 %); limites de confiance : respectivement, 0,440 et 0,949 %, 0,436 et 0,938 % (ou, respectivement, 0,44 et 0,95 %, 0,44 et 0,94 %, les 15 prélevements de terre étant considérés comme constituant un échantillon aléatoire et simple). aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. Tables et abaques 587 I. DISTRIBUTION NORMALE REDUITE La. Fonction de densité de probabilité Valeurs $(u) = (1/V2m)e~™/2 0,01 0,02, 0,03, 0,04 0,05, 0,06 0,07 0,08 0,09, 1,8 19 20 21 2,2 23 24 25 2.6 27 28 2,9 3,0 31 32 33 34 35 3,6 3,7 38. 39 0,07895, 0,06562 0.05399 0,04398 0.03547 0.02833 0,02230 0.01753 0.01358 0.01042 0,00792 0,00595, 0.00443 0,00327 0,00238 0,00172 0.00123 0,00087 0,00081 0,00012 0,00029, 0,00020 0,3989 0,3965 0,3902 0,3802 0,3668 0,3503 0,312 0,3101 0,2874 0,2637 0,2396 0,2155 0,1919 01691 01476 0,1276 0,1092 0,09246 0,07754 0.06438 0,05292 0,04307 0,03470 0,02768 0,02186 0,01709 0.01323 0,01014 0,070 0,00578 0,00430 0,00317 0,00231 0,00167 0,00119 0,00084 0,00059 0,00041 0,00028 0,00019 0.3989 0.3961 0.3894 0.3485, 0.3202 0.3079 0,2850 0,2613 0.2371 2131 0.1805 0.1669 0.1456 0.1257 0.1074 0,09089 0.07614 0.06316 0.05186 0,04217 0,03394 0.02705, 0.02134 0.01667 0.01289 0.00987 0.00748 0,00562 0.00417 0,00307 0,00224 0.00161 0,00115, 0.00081 0,00057 0,00039 0.00027 0,00018 0,388 0,3956 0,3885 0,378 0,3637 0.3467 0.3271 0,3056 0,2827 0,2589 0,2347 0,2107 0.1872 0.1647 0.1435, 0.1238 0.1057 0,08933 0.07477 0,06195 0,05082 0,04128 0,03319 0,02643 0,02083 0,01625 0,01256 0,00961 0,00727 0,00545 0,00405 0,00208 0,00216 0,00156 0.00111 0,00079 0,00055 0,00038 0,00026 0,00018 10,3986 0,3951 0,3876 0,3765 0,3621 0.3448 0,3251 0.3034 0,2803 0,2565 0,2323 0,2083 1819 0,1626 0.1415 0.1219 0,1040 0.08780 0.07341 0.06077 0,04980 004041 0,03246 0,02033 0,01585 0,01223 0,00935 0,00707 0,00530 0,00393 0,00288 0,00210 0,00151 0.00107 0,00076 0,00053 0,00037 0,00025 0,00017 0.3984 0,945, 0,3867 0,752 0.3605, 0.3429 0.3230 0.3011 0,2780 0.2541 0,2299 2059 0,1826 0.1604 0,1394 0,1200, 0,1023, 0,08628 0,07206 0.05959 0.04879 0,03955 0,03174 0,02522 0.01084 0,01545 0.01191 0,00909 0,00687 0,00514 0,00381 0,00279 0,00203, 0,00146 0,00104 0,00073 0,00051 0,00035 0,00024 0,00016 0,3982 0,3939 0,3857 0,3739 0,3589 0,3410 0,3209 0.2989 0,2756 0,2516 0,2275 0,2036 0,1804 0,1582 0,1374 0,1182 0,1006 0,08478 0.07074 0.05844 0,04780 0,03871 0,03103 0.02463 0,01936 0,01506 0.01160 0,00885 0,00668, 0.00199 0,00870 0,00271 0,00196 0,00141 0,00100 0,00071 0,00049 0,00034 0,00023 0,00016 0,3980 0,3932 0,3847 0,3725 0,3572 0,391 0.3187 0.2966 0.2732 0,2492 0,2251 0,2012 0.1781 0.1561 0.1354 0,163 0.09893. 0,08329 0.06043 0.05730 0.04682 0,03788 0,03034 0,02406 0.01888 0,01468 0.01130 0,00861 0,00649 0,00485 0,00358 0,00262 0,00190 0,00136 0,00097 0,00068 0,00087 0,00033 0,00022 0,00015 0,307 0,3925 0,3836 0.3712 0.3955 0.3372 0.3166 0.2943, 0,2709 0,2468 0,227 0,1989 0.1758 0.1539 0,1334 0,145, 0,09728 0,08183 0,06814 0,05618 0,04586 0,03706 0,02965 0,02349 0,01842 0,01431 0,01100 0,00837 0,00631 0,00470 0,00348 0,00254 0,00184 0,00132 0,00094 0,00066 0,00046 0,00031 0,00021 0,00014 0,973 0.3918 0.3825 0.3697 0.3538 0.3352 03144 0.2920, 0.2685 0.2444 0.2203 0.1965 0.1738 0.1518 0.1315 01127 0.09566 0.08038, 0.06637 0.05508 0.04491 0.03626 0.02898 0.02294 0.01797 0.01304 0.01071 0.00814 0.00613 0.00457 0.00337 0.00246 0.00178 0.00127 0,00090 0,00063 0.00044 0,00030 0,00021 0,00014 Exemples : (0, 52) = 0,3485 et 4(-1,93) = 4(1,93) = 0, 06195. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. Tables et abaques 591 IIL DISTRIBUTIONS x? DE PEARSON (suite) :p > 0,5 xB, Valeurs x3 telles que f [ext 2e-?/] ay? =p lo 05 068 07 08 09 0975 0,99 0,995 0,999 0,995] _k 107 1,64 «2,71 «384 5,02 663788 10,8 121] 1 241 322 461 599 7,38 921 106 138 15,2] 2 367 461 625 7,81 9,35 113 128 16,3 17,7] 3 488 5,99 7,78 949 1 13,3 149 18,5 20,0] 4 606 729 924 Ul 8 151 167) 5 I] 5 7.23856 106 126 M4 168 185 225 M1) 6 838 9,80 120 141 16,0 18,5 203 24,3 26,0) 7 9,52 110 134 15,5 17,5 20,1 220 26,1 27.9 | 8 17 12,2 147 169 19,0 21,7 236-279 9,7] 9 8 134 160 183 20,5 23,2 252 296 314] 10 29 146 173 197 29 27 68 313 331] 1 M40 158 185 21,0 23,3 26.2 28S 32,9 BH,B | 12 11 170-198 dT 2TT DB HS 35,5 | 13 2 182 Wl 3,7 BL H,Q_— BAB -BR Ad 173 19,3 223° 25,075 30.6 | 328 87,7 39,7 | 15 184 20,5 235-53 BS -320 343 39,3. 41,3 | 16 195 216 248 «27,6 «90,2334 35,7 408 42,9 | 17 2,6 28 260 29 35 38 372 423 444) 18 27 23,9 272 BOL 82,986,238 GH 43,8 46,0 | 19 DS 250 WA 314 22 376 400 45,3 47,5] 20 BO 62 296 327 35,5 389 414 468 490] 2 49 27,3 308 339 35.8 40,3428 48,3 50,5 | 22 260 284 320-352 Bl 416442 49,7 52.0] 23 Ml 26 32 364 WA 43,0 456 512 53,5 | 22 30,7 S44 97,7 40,6 446.9 52,6 54.9 | 2 2,2 318 350 389 41,9 45,6483 541 56,4 | 26 30,3 32.9 367 40,1 43,2 47,0 496 55,5 57,9 | 27 314 340879413 44,548,356, 50,3. | 92,5 35,1 991-426 45,7 49,6 52,3 58,3 60,7 | 29 33.5 36,3 40,3 43,8 47,0 50,9 53,7 59,7 62,2 | 30 M2 473 518 558 59,3 63,7 668 73,4 78,1. | 40 BA? 58.2 63,2 67,5 Td 76,2 79,5 86,7 89,6] 50 65.2 69.0 744 79,1 83,3 BRA «92.0 99,6. 102,7 | 60 77 79,7 85,5 90,5 95,0 1004 104.2 112,3.115,6 | 70 86,1 904 966 101.9 105.6 12,3 11631248 128,3| 80 96,5 101,1 1076 1131 128,1 124,1 1283 137,2 140,8 | 90 106,917 18,5124, 1296 135,8 140.2 1494 103,2 | 100 Exemple: x95 = 31,4 pour k= 20 degrés de liberté. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. Tables et abaques X. TEST DE SIGNIFICATION DU COEFFICIENT DE CORRELATION Valeurs critiques r)a/2 et Tia aux niveaux de signification a 0,05 , 0,01 et 0,001 Tha/2 Tia k | 0,05 0,01 0,001 | 0,05 0.01 0,001 2 | 0,9500 0,99000 0,999000 | 0,9000 0,980 0.99800 3 | 0,8783 0,9587 0,99114 | 0,8054 0.9343 0.9859 4 | 08114 0.9172 0,9741 | 0,7293 0,822 0.9633 5 | 0,7945 0.8745 0,9509 | 0,6594 0.8329 0.9350 6 | 0.7067 0.8343 0,9249 | 0,6215 0,787 0.9049 7 | 0.6664 0.7977 0,8983 | 0,5822 0,7498 0.8751 8 | 0,6319 0.7646 0.8721 | 0,5494 0.7155 0.8467 9 | 0,6021 0,7348 0,8470 |0,5214 0,6851 08199 10 | 05760 0,7079 0,8233 |0,4973 0,6581 0.7950 11 | 0,5529 06835 0,8010 | 0,4762 0,6339 0,717 12 | 05324 0,6614 0,700 | 0,4575 06120 0,7501 13 | 05140 0,641 0,7603 | 0,4409 0,5923 0.7301 14 | 04973 0.6226 0,7419 | 0.4259 0,5742 0.7114 15 | 04821 0,6055 0,7247 | |0,4124 0,5577 0.6940 16 | 04683 0,5897 0,7084 | 0,400 0,5425 0.6777 17 | 04555 0.5751 0,6932 | 0,3887 0,5285 0.6624 18 | 0.4438 0,5614 0,788 | 0,3783 0,515 0.6481 19 | 0,4329 0,5487 0,6652 | 0,3587 0,5034 0,6346 20 |04227 0.5368 0.6524 |0,3598 0.4921 0.6219 25 | 0,3809 04869 0.5974 0.4451 05679 30 | 0,3494 0,4487 05541 |0,2960 0,4093 0,5257 35 |0,3246 0.4182 0,5189 | 0,2746 0,3810 0,4916 40 | 0,3044 0.3932 0,4896 | 0,2973 0,3578 0.4633 45 | 02876 0,3721 0,4647 | 0,2429 0,3884 0.4304 50 | 0,2732 0,3542 0,432 | 0,2306 0,3218 0.4188 60 | 0.2500 0,3248 0,4079 | 0,2108 0.2949 0,3851 70 | 02319 0,3017 0,3798 | 0,1954 0,2737 0,3583 80 | 02172 0,2830 0,3568 | 0,1829 0.2565 0,3364 90 | 0,2050 0,2673 0,3376 |.0,1726 0,242 0,3181 100 | 0,1946 0,25400,3211 | 0,1638 0,2301 0,3025 150 | 0,1593 0,2084 0,643 | 0,1339 0,1886 0.2488, 200 | 0,1381 0.1809 0.2298 | 0,1161 0.1636 0,2162 250 | 0,1236 0,1620 0,2061 [0.1039 0,1465 0.1938 300 | 0,129 0,1480 0,184 | 0,0948 0,138 01771 400 | 0.0978 0,1283 0,1635 | 0,082 0,160. 0,1537 600 | 0,0799 0,1049 0,1338 | 0,0671 0.0948 0.1257 800 | 0,0692 0,0909 0,160 0,581 0,0821_0,1090 1.000 | 0.0619 0,0813 _0,1038 _| 0,0520_0,0735_0,0975 Exemple: rog75 = 0,6319 pour un échantillon d’effectif 10 (k = 8) Index des traductions anglaises Les numéros renvoient aux paragraphes et eux exemples (ex.) od figurent les traductions. D’une maniére générale, les traductions déji présentes dans le tome 1 ne sont pas reprises dans le tome 2. A Additive model: 10.2.4.2° Additivity: 10.2.4.2° Adjusted determination coefficient : 14.3.2.2° Adjusted mean : 12.2.4.1° Adjusted R-square : 14.3.2.3° Adjusted sum of squares: 17.22.28 Agglomerative method : 1244.5° Agreement : 6.2.4.6° Agreement coefficient : 6.2.5:3° Analysis of covariance : 111° Analysis of variance: 9.1.12 ANCOVA: 12112 ANDERSON-DARLING ’s test : 3.2.1.3° Angular transformation : 4.3.4.1° ANOGOVA : 12112 ANOVA : 9.1.12 Arcsin square root transformation : 4.3.4.1° ARIMA model: 15.6.3.5° ARMA model: 15.6.3.4 Autocorrelation : 2.4.2.5° Autocorrelation coefficient : 2.4.2.5° Autoregressive and moving average model: 15.63.47 Balanced model : 9.3.1.2° Bandwidth : 15.4.2.4° BARTLETT ’s test : 7.5.2.2° Baselme: 122.3.1° BEHRENS-FISHER's problem : 8.4.2.7° Beta transformation : 4.3.4.5° Between-group mean square : 9.2.2.6° Between-group sum of squares : 9.2.2.4° Bio-assay : 155.212 Biological assay: 15.5.2.1° Bownded-influence regression : 14.3.6.3° BOX-COX’s transformation : 4.33.1° BOX-JENKINS’s method: 15.6.4.1° c Calibration: 14.4.1.9° Change point : 15.3.2.3° Circularity: 1037.42 Cluster analysis : 124.4.1° Clustering: 12.4.41° COCHRAN ’s test: 6.2.4.1° Collinearity : 16.1.4° Complete independen Complete link: 124.452 Complete linkage : 12.4.4.5° Completely hierarchical model: 1.31.12 Concomitant variable : 121.12 Conditional independence: 6.3.2.2° Confidence region : 14.4.2.3° Constancy: 15.38.22 Contingency coefficient : 6.2.5.2° Continuity correction : 5.4.3.4° Contrast : 12.2.1.1° COOK’s distance: 143.4.3° 6.3.2.3° 640 Corrected determination coefficient : 14.3.2.3° Corrected R-square : 1432.22 Corrected sum of squares: 16.3.3.3° Correspondence onalysis: .2.1.4° Covariable : 17.112 Cross classification : 10.1.1° ‘Cross-validation : 143.4.4° Cycle: 15.6.2.1° D Decomposition : 15.6.2.1° Design matriz : 16.4.1.2° Deviate : 2.3.3.4° Direct estimation : 14.4.1.1° Divisive method : 12.4.4.3° Dose-response curve: 15.5.21° Dummy variable: 15.3.23° DUNCAN’s test: 124.3.4° DUNNETT'’s test: 12.3.2.1° DURBIN-WATSON ’s test : 2.4.2.3° ED 50:15.5.25° Effective dose 50: 15.5.25° Environmental variation: 93.2.0° Error mean square: 9.2.2.6° Exror sum of squares : 9.2.2.4° Expected frequency : 3.2.1.1° Experiment matrix: 16.4.1.2° Expert system : 1.3.1.2 Exponential smoothing: 15.6.1.1° Externally standardized residual: 14.3.3.7° F Factorial mean square : 9.2.2.6 Factorial sum of squares: 9.2.2.4° First difference : 15.6.3.5° First order interaction : 11.2.2.2° FISHER’. czact test: 54.2.1° FISHER’ test : 5.4.2.1° FISHER’ z-transformation : 13,2.2.1° gait Fourfold table : 5.41.22 FRIEDMAN’ test : 10.3.8.1° F-test: 14.2.1° Functional relationship : 14.1.4° G General linear model : 16.1.2° Generalized distance: 3.6.3.2° Index des traductions anglaises Generalized inverse matriz: 16.3.3.5° Generalized least squares: 16.4.5.3° Generalized linear model : 16.1.2° Generalized logistic function : 15.2.4.1° Genetic variation : 9.3.3.9° Genotypic variation: 93.5.9° GLS: 16.45.3° GOMPERTZ’s curve: 152.39° Growth curve: WW3.712 GRUBBS’s test: 35.2.2" GUPTA's selection method: 12.33.1° 4 HARTLBY’s test: 25.2.5° HENDERSON's methods : 16.4.5.5° Heritability: 93.2.0° Hierarchical classification : L0.1.1° Hierarchical method: 12.4.4.3° -way analysis of variance: LLL.1° Hyperbolic regression : 15.2.3.2° 1 Incidence matrix : 16.4.1.2° Index of dispersion: 34.3.1° Influence: 14.3.4.1° Influential data: 14.3.4.1° Initial examination : 2.3.1.1° Interaction: 10.2.4.1° Internally standardized residual : 14 3.3.72 Inverse estimation: 11.4.1.2° Inverse sinh transformation : 4.35.4° Inverse square root transformation : 4.3.3.2 Inverse tanh transformation : 13.2.21° Inverse transformation : 4.3.3.2° a Jackknife residual: 14.3.2.7° JONCKHEERE'’s test: 9.3.6.5° Jump point: 15.3.23° kK KENDALL 's coefficient of concordance : 13.5.4.2° Kernel density estimation: 15.4.2.6° Kernel smoothing : 15.4.2.4° KOLMOGOROV-SMIRNOV ’s test: 3.2.1.3° KRUSKAL-WALLIS ’s test 9.3.6.2 L ED 50:15.5.2.5° Least median of squares regression : 14.3.6.3° Least significant difference : 1242.12 Least significant renge: 12.4..1° Index des traductions anglaises 641 Lethal dose 80: 15.5.2.5° LEVENE’s test : 252.6% Leverage : 143.4.2° LILLIEFORS’s test : 32.1.2 Linear model: 16.1.2° Ly-norm regression: 143.6.3° Ly-norm regression : 14.3.6. Log-linear model: 6.2.3.1° Log-log transformation : 4.3.5.5° Logarithmic transformation : 4.2.2.1° Logistic regression : 5.53.12 Longitudinal date: 10.3.2.1° Lsd: 1242.12 M MAHALANOBIS’s distance: 36.3.2° Main effect : 9.3.2.2° MANN-WHITNEY ’s test : 8.4.3.1° MANTEL-HAENSZEL 's statistic : 6.2.6.5° Marginal independence : 6.9.2.2° Matched samples : 1.2.2.4° Maximum likelihood : 16.4.5.5° Marimum tolerated dose: 1.5% MCNEMAR’s test: S.4.4.1° Mean square : 9.2.2.6° Median effective dose: 15.5.2.5° Median lethal dose : 15.5.25° Median test : 843.7° Messy data: 10.4.1.5° Meestimator: 143.62° MICHAELIS-MENTEN 's model: ex. 15.2.2 Minimum effective dose : 12.52 Minimum norm quadratic estimation : 16.4.5.5° Mintmum norm quadratic unbiased estimation : 16.4.5.5° Minimum sum of absolute errors regression : 14.36.22 Minimum variance quadratic unbiased estimation : 16.4.5.5° MINQE : 16.4.5.5° MINQUE: 16.4.5.5° Missing data: 10.4.1.2° Missing value: 10.4.1.2° MIVQUE: 16.4.5.5° Mixed model: 10.1.1° ML: 16.45.5° Model f; 23.1.1° Model Hs 9.3.1.1° Multicollinearity : 16.1.4° Multiple comparisons: 124.1.1° Multiple correlation coefficient : 16.2.2.7° Multiple covariance analysis : 1.2.2.6 Multiple determination coefficient: 16.2.2.7° Multiple linear regression : 16.1.1° Multiple range test: 12.4.3.1° Multiple regression: 16.1.1° Multiple step method : 12.4.3.1° N Nearest-neighbour smoothing : 15.4.24° New multiple range test: 12.4.3.4° NEWMAN-KEULS's test: 124.312 Non orthogonal data: 10.4.1.3° Nonadditivity : 10.2.4.2° Normal score : 3.3.2.5° Normal scores test: 43.52° Numerical classification : 12.44.12 ° Odds ratio: 5.4.5.8° OLS: 16.45.8° Omnibus test : 3.4.1.1° One observation per cell: 10.2.1 One-way analysis of variance: 211° Ordered alternative : 9:3.2.10° Ordinary least squares: 16.4.5.3° Orthogonal contrasts : 12.2.1.4° Orthogonal polynomials : 12.2.3.2° Oulier: 35.112 Pp Paired comparison: 1.2.2.4° Paired samples t-test : 8. Partial independence : 6.3.2.3 Partial least squares regression : 16.1.A° Partial regression coefficient : 16.2.2.4° Partially hierarchical model : LLB.11° PEARSON ’s goodness-of-fit test: 3.2.1.1° Phenotypic variation : 9.3.3.9° PLS regression: 16.1.4° Polynomial regression: 15.2.2.1° Pooling: 10.3.5.3° Power transformation : 4.3.3.1° POP plot; 22.2.7° Prediction limits : 14.4.2.2° Preliminary test : W035. Principal component regression : Probability plot: 3.3.2.1° Probability-probability plot: 33.2.7° Proportionate sample sizes: 10.4.1.4° 16.1.4 @ QQ plot: a.8.2.7° Quantile-quantile plot > 22.272 Quantitative genetics: 93.3.9° R Random-effects model: 2.3.1.1° Random model: (31.12 Rank sum test : 8.4.3.1° Rank test: 84.3.1° Reciprocal square root transformation : 4.3.3.2° Reciprocal transformation : 4:3.8.2° Reduced deviate : 2.3.3.4° Regression method of estimation: 14.4.2.5° Regression plane: 16.2.2.4° REML: 16.45.5° Reparametrization : 16.4.2.3° Repeated measurements : W0.3.7.1° Residual mean square : 9.2.2.6° Residual sum of squares: 9.2.2.4° Response curve: 12.23.1° Response surface: 12.23.1° Reestimator : 143.6.2° Restricted marimum likelihood : 16.4.5.5° Ridge regression : 16.1.4° SATTERTHWAITE's 1123.9 Saturated model: 612.42 SCHEFFE:’s method: 12.4.2.7° Screening: 12.8.1.2° Seasonality: 15.6.2.1° ‘Second difference: 15.6.3.5° ‘Second order interaction: 11.2.2.2° Selection: 123.1.2° Serial correlation : 2.4.2.5° SHAPIRO-WILK 's test : 3.3.3.1° Shift: 13.23° Shrinkage method : 16.1.4° Sign test: 8.5.3.5° Signed rank test : 8.5.3.1° Simple nonlinear regression : 15.1.1° Simultaneous confidence intervals: 12.1.5° Single step method : 12.4.2.1° Smoothing: 15.4.1.1° ‘Spectral analysis: 15.6.1.1° Spectrum analysis : 15.6.1.1° approzimate Ptest: Index des traductions anglaises Sphericity : 10.8.7.4° Spline» 15.4.21° Spoilt data: 10.4.1.5° Spurious observation : 3.5.1.1° Square root transformation : 43.2.1° Standardized deviate : 2.3.3.4° Standardized jackknife residual > 43.272 Stationary time series: 15.6.3.1° Stepwise method : 12.4.3.1° Structural relationship: L414? STUDENT-NEWMAN-KEULS's test: 124.8.1° Studentized residual : 14.33.2° STUDENT'S t-test: 84.21° Successive measurements : 10.3.7.1° T TERPSTRA-JONCKHEERE 's test: 9.3.6.5° Test of additivity : 10.3.6.4° Test of linearity: 14.5.4.2° Test of normality: 3.1.2° Test of parallelism: 14.6.2.1° Theoretical frequency: 3.2.1.1° ‘Three-factor interaction : 1.22.2 Three-stage sampling: 10.5.1.2° Three-way analysis of variance : is Tolerance limite: 14.42.2° Tolerance region : 14.4.2.3° Total mean square: 92.2.6° Total sum of squares: 9.2.2.4° Trend : 15.6.2.1° Trimmed regression: 14.3.6.3° Ltest: 8.4.2.1° TUKEY ’s method: 12.4.2.7° TUKEY 's resistant line: 14:3.6.2° TUKEY ’s test: 10.3.6.4° Two-factor interaction: 11.2.2.2° Two-way analysis of variance: L0.L1° u Unbalanced model: 93.122 Uncorrected sun of squares : 16. v VAN DER WAERDEN’s scores: 4.2.5.2" Variance component : 9.3.3.6° Variance-ratio test: 7.4.2.1° VON NEUMANN ratio: 2.4.2.1° Index des traductions anglaises w WALD-WOLFOWITZ’s test: 8.4.3.7° WARD 's method: 12.4.4.3° WELCH ’s approzimate t-test : 8. WELCH’ test : 8.4.2.3° e WILCOXON's matched pair signed rank test: 8.5.3.1° WILCOXON'’s test : 8.4.3.1° Within-group mean square : 9.2.2.6° Within-group sum of squares : 9.2.2.4° Y YATES'’s correction for continuity : 6.2.3.3° YATES’s method: 11.2.2.5° 2x2 contingency table: 5.4.1.2° 2x2 table: 54.1.2 Index des matiéres Les numéros renvoient aux paragraphes et aux exemples (ex.). A Aberrantes (identification des observations —) : 3.5, 3.6, 6.24.42 Additif (modéle — d’analyse de la variance) : 10.2.4.2° Additivité : 10.2.4 Additivité (test d’ —) 10.26.42 Agglomérative (méthode —): 1244.52 Ajustée (moyenne —) :16.4.4.3°, 17.2.4 Ajustée (somme des carrés des écarts —) : 17.2.2. 1232 Ajustement (dune droite de régression) : 14.3 Ajustement (test d’ —} Aiatoire (modéle — d’analyse de la covariance) : Tae Algatoire (modele 031 Aléatoire (test du caractére — et simple) :2.4 147.2.4° analyse de la variance) : ANDERSON et DARLING (test d’—) :221.3° Angulaire (transformation —) : 42.4 Anormales (identification des observations —) :3.5, 6.244° Are sinus (transformation — racine carrée) : 4.3.4 Argument sinus hyperbolique (transformation —) : 4.3.5.4° Argument tangente hyperbolique (transformation 4.3.5.3, 13.22 ARIMA (modéle —) : 15.6.3.5° ARMA (modéle —) :15.6.3.4° Attendue (fréquence —): 3.2.1.1°, 6.2.2 Autocatalytique (fonction —) : 15.23.2°, 15.2.4.1° Autocorrélation :2.4.2.5°, 4 3.5.8° Autocorrélation (coefficient d’—) : 2.4.2.5° Autorégressif (modéle —) : 15.6.1 Auxiliaire (variable —) :17.1.1° Bande (largeur de —): 15.4.2.4° BARTLETT (test de —) :7.52 Base (ligne de —) : 12.2.3.1° BERHENS-FISHER (probleme de —) : 8.4.2.7° Béta (transformation —) :4.3.4.5° Binomiale (test d’appartenance a une population —):34.5.3° Biologique (essai —) : 15.5.2.1° Bisérial (coefficient de corrélation —) : 18.3.5°, 13.4.5° Blocs (expérience en — aléatoires complets) : 1036.5" BOX et COX (transformation de —) :4.3.3, 4.4.2.4° BOX et JENKINS (méthode de —) : 15.6.3 BRADLEY et SCHUMANN (méthode de 945 c Calibrage :14.4.1.2°, 15.2.2.7° Canevas de choix (d’une méthode) : 1.3 Carré latin (expérience en —) : 11.2.4.3° Carré moyen : 9.2.2.6° Chances (rapport des —) :5.4.5.3° Changement (point de —) : 15.3.2.2° Choix (d’une méthode) : 1.1 Chronologique (série —) : 15.6.1 Cireularité (condition de —) : 10.3.7.4° Classification (numérique): 12.4.1.5° COCHRAN (test do —) 62.412 Colinéarité: 16.1.4° Collecte (des données) : 2.2.2 Combinées (données —) : 17.3.2." Compartiments (modéle &—): 15.3.1 Complte (indépendance —) :6.2.2.2° Concomitante (variable —) : 17.1.1° Concordance (coefficient de —) : 6.2.5.3°, 18.5.4.2° Index des matiéres Concordance (entre deux ou plusieurs classe ments) : 6.2.4.6", 13.5.4 Conditionnelle (estimation et intervalle de confian- ce d’une moyenne —) : 14.4.1, 15.2.2.4°, 16.3.2.7° Conditionnelle (indépendance —) : 6.3.23° Conditionnelle (test de conformité d’une moyenne —):14.5.2.5° Conditions (d’application) : 2.2 Contingence (coefficient de —) :6.2.5.3° Contingence (tableau de — a deux dimensions) :6.2 Contingence (tableau de — a trois dimensions) :6.3, Contingence (tableau de — 2 x 2): §.4.1.2°, 6.2.3 Continuité (correction de —) : 5.4.3.4°, 6.2.3.3° Contraintes (maximum de vraisemblance sous —) : 16.4.5.5° Contraste: 1224 COOK (distance de —) :14.3.4.3° Corrélation (coefficient de — multiple) :16.2.2.7°, 16.2.3.1°, 16.3.2.6° Corrélation (coefficient de — non linéaire) 9.2.2.8°, 145.4.10° Corrélation (comparaison de deux ou plusieurs coefficients de —) : 13.5 Corrélation (distribution ¢’échantillonnage d'un coefficient de —) :12.2 Corrélation (estimation et intervalle de confiance d'un coefficient de —): 13.8 Corrélation (rapport de —) :9.2.2.8°, 145.4.10° Corrélation (test de conformité et test de significa- tion d’un coefficient de —) : 12.4 Corrélés (échantillons —) : 1.2.2.4° Correspondances (analyse des —) : 6.214% Corrigée (somme des carrés — et non —) : 16.3.3.3° ‘Covariable : 17.1.1° Covariance (analyse de la —) : 121 Criblage :12.5.1.2° Croisé (modéle — d’analyse de la variance) : 10.1 Croisée (validation —) :14.3.4.4° Croissance (courbe de —): 10.27 « Cross-over» (expérience en —) : LL2.4.2° Cyclique (composante —) : 15.6.2.1° D Décalage: 15.2.2.3° ‘Décomposition (d’une série chronologique) : 15.6.1 Degré (composante du premier — et du deuxitme —): 122.33" Degrés (échantillonnage & deux —):9.3.4, 94.4 Degrés (échantillonnage & trois —) : 10.5.12° Densité (estimation d'une — de probabilité): 15.4.2.6° Dépendance (degré de —) : 6.2.5, 6.2.6 Dépendante (estimation et intervalle de confiance d'une variable —) : 14.4.2 Descriptive (étude Descriptive (étude — 4 une dimension) : 2.3.3 Détermination (coefficient de —) :14.3.2.3°, 14.5.3.9° Détermination (coefficient de — 16.2.2.7°, 16.2.3.1°, 16.3.2.6" Diagramme (de probabilité) : 3.3.2, 3.6.3 Directe (estimation —) : 14.4.1.10° Dispersion (test de conformité de l'indice de —): 34.3 Distance (généralisée) ; 3.6.3.2° Divisées (expérience en parcelles —) :10.3.7.2° 1.2.4.3" Divisive (méthode —) :12.4.4.3° Dose-réponse (courbe —) : 15.5.21° DUNCAN (méthode de —) : 12.4.1.3°, 12.4.8.4° DUNNETT (méthode de —) :12.4.1.1° DURBIN et WATSON (test de —) : 2.4.2 Dynamique (de population) : 15.83.8° E Ecart (par rapport & la moyenne) :2.8.3.4° Ecarts (somme des carrés des —): 9.2.2.4, 92.3 Ecart-type (estimation et intervalle de confiance d'un —):7.2 Ecart-type (test de conformité d'un —) : 2.3 Ecarts-types (comparaison de deux —) : 2d Ecarts-types (comparaison de plus de deux —) : 25 Echantillonnage : 2.2.2 Effective (dose — médiane ou — 50) :15.5.2.5% Effet (principal) :93.22° Efficace (dose — minimale) : 12.152 Efficacité (relative) : 10.3.6.6°, 17.2.3.3°, 1.24.4? Environnementale (variation —) :9.3.3.9° Equilibré (modéle — et non — d’analyse de la va- Fiance) : @3.1.2° Etalonnage (droite d’—) : 14.41.22 Examen (des données) : 2.3 Expérience (matrice de I'—) :16.4.1.2° Explicative (estimation et intervalle de confiance d'une variable —) : 14.4.3 Exponentiel (lissage —) : 15.G.1.1° Exponentielle (régression —) :15.2.3.1° F F (test —): 742 F (test — approché) :11.2.2.9° Facteurs de choix (d'une méthode) : 1.2 Factorielle (analyse — des correspondances) : 62.142 | deux dimensions) : 2.3.4 multiple) Index des matiares 647 Factoriel(le) (carré moyen —, somme des carrés des écarts — et variation —) 9.2.2 Faussées (données —) : 10.4.1.5° Fonétre (largeur de — FISHER (test de conformité des coefficients de B42 FISHER (test ou test exact de —) :5.4.2 Fixe (modéle — d’analyse de la covariance) : 17.2.2 Fixe (modéle — d’analyse de la variance) :9.3.1 Fonctionnelle (relation —) : 14.1.4° FRIEDMAN (test de —) : 10.3.8, 18.5.4.2° c Généralisé (modble linéaire —) : 16.1.2° Généralisée (fonetion logistique — ) : 15.2.4.1° Généralisée (matrice inverse —) :16.3.3.5° Généralisés (moindres carrés —) :16.4.5.3° Génétique (quantitative) :9.3.2.9° Génétique (variation —) :93.3.9° Génotypique (variation —) :9.33.0° Glissante (moyenne —) 15.4.2 Glissement : 15.32.3° GOMPERTZ (courbe de —) : 15.2.3.2°, 15.2.4.1° GRUBBS (méthode de —) :3.5.2 GUPTA (méthode de —) : 12.31.12 4 HARTLEY (test de —) : 25.2 HENDERSON (méthode de —) HENRY (droite de —) :3.32.1° Heritabilité:9.3.3.0° Hiérarchique (méthode —) : 12.4.4.3° Hiérarchisé (modéle — d’analyse de la variance) 101 Hiérarchisé (modéle complétement — et. partielle- ment — d’analyse de la variance) : 11.3.1 Homogine (séquence —) :2.4.3.1° Homoscédasticité : 2.2.5.1° Hyperbolique (régression —) : 15.2.3.2° Hyperbolique (transformation argument sinus —) 43.5.4° Hyperbolique (transformation argument tangente —):4.3.5.3°, 1222 1 Incidence (matrice d’—) : 16.4.1.2° Indépendance (test d’ —) Indépendant (régression sans terme —) : 16.3.3 Indépendants (¢chantillons — et non —) 1.2.2.4° Individuelle (estimation et intervalle de confiance une valeur —) : 14.4.1, 15.2.2.4°, 16.3.2.7° Influence: 143.412 Influente (donnée —): 143.4 Initial (examen — des données) :2.3 Instrumentale (variable —) : 15.3.2.3° Interaction : 10.2.4 Interaction (de deux et — de trois facteurs): 1L.2.2.2° Intraclasse (coefficient de corrélation —) : 13.3.5° 13.4.3°, 13.5.2.5° Inverse (estimation —) M4.4.1.2°, 15.2.2.7° Inverse (transformation —) :4.5.3.2° Isométrie :14.7.8.2° J JONCKHEERE (test de —) :9.26.5° K Khi-carré (test — d’ajustement) : 8.2 Khi-carré (test — d’indépendance) : 6.2 KOLMOGOROV et SMIRNOV (test de —): 9.2.1.8, 8.43.79, 93.6.5° KRUSKAL et WALLIS (test de —) :9.3.6 L Latin (expérience en carré —) : 1L.2.4.3° Létale (dose — médiane ou — 50) : 15.5.2.5° LEVENE (méthode de —) : 7.5.2, TA Levier (effet de bras de —) : Lien (méthode du — complet) : 12.4.4.5° LILLIEFORS (test de —) : 82.1.3 Linéaire (composante — ) :12.2.3.3° Linéaire (modéle — ou — général) : 16.1 Linéaire (régression — simple) : 14.1 Linéaire (régression non — simple) : LB.1 Linéaire (transformation —) :4.2.1.4° Linéarité (test de —): 145.1.2°, 46.272 Lissage : Li.4.1 Logarithmique (transformation —) : 4.2.2, 4.4.2 Logarithmique (transformation doublement AB55S Logistique (fonction —) : 15.2.3.2°, 15.2.4.1° Logistique (régression —) : 15.5.1.3° Logit : 15.5.3.1° Log-linéaire (modéle —) :6.3.3 Longitudinales (données —) : 10.3.7 Ly et Ly (norme —) :14.3.6.3° u MAHALANOBIS (distance de —) :2.6.2.2° MANN et WHITNBY (test de —) : 8.4. Manquantes (données —) : 10.4.1.2°, 17.3.3.3° MANTEL-HAENSZEL (coefficient de —) : 6.2.6.5° Marginale (indépendance —) :6.8.23° Matriciel (calcul —) : 16.1.5° ‘Maximum (estimation et intervalle de confiance de Pabscisse d'un —) :15.2.2.5° ‘Maximums (nombre de —) :2.4.3.5° MCNEMAR (test de —): 5.4 Médianes (test des —) :8.4.3.7°, 9.36.52 Meilleures (recherche de la ou des variantes Jes —) : 121.22 MICHAELIS et MENTEN (modéle de —): ex. 15.22 Minimum (estimation et intervalle de confiance de Pabscisse d'un —): 15.2.2.5° Minimums (nombre de —) :2.4.3.5° MITSCHERLICH (courbe de —):15,2.3.2°. 15.24.12 Mixte (modéle — d’analyse de la variance) : 10.1. 16.4.5. Mobile (moyenne —): 15.41 Mobiles (mod@le de moyennes —) : 15.6.1 Modile I et modéle I (d’analyse de la variance) : ast ‘Modiles (comparaison de deux ou plusicurs — de régression) : 15.2.5 Modélisation : 15.1 Moindres carrés (droite des —): voir régression Moindres carrés (généralisés et — ordinaires) : 16.4.5." Moindres rectangles (distribution d’échantillonnage d'un coefficient des —) : Moindres rectangles (estimation et intervalle de confiance d'un coefficient des —) : 14.7.2 Moindres rectangles (test de conformité d'un coef- ficient des —) : 14.7.8 Moyenne (estimation et intervalle de confiance dune —):8.2 Moyenne (test de conformité d’une —) 8.3 ‘Moyennes (comparaison de deux —) :8.4, 8.5 Moyennes (comparaison de plus de deux —): voir variance (analyse de la —) Moyennes (comparaisons multiples de —) : 12.1.4° ‘Moyennes (comparaisons particuliéres de —): 12122 Multicolinéarité : 16.1.4° Multiple (analyse de In covariance —) Multiple (coefficient de corrélation — et coeffi- cient de détermination —) : 16.2.2.7°, 16.2.3.1°, 16.3.2.6° Multiple (régression —) 16.1 Multiples (comparaisons — de moyennes) : 12.1.4° Index des matiéres N Nature (des données) :1.24 NEWMAN et KEULS (méthode de —) : 12.41 Normale (équation —): 16.2.23° Normalité (des populations-parents) :2.2.3 Normalité (test de —) : 2.1 Norme (minimum) : 16.4.5.5° Noyau (méthode du —) : 15.4.1 °o Objectif: poursuivie : 1.2.3 Omnibus (test —):3.4.1.1° Optimum (estimation et intervalle de confiance de Vabscisse d'un —) : 15.2.2.6° Ordinaires (moindres carrés —) : 16.4.5.3° Ordonnée a 'origine (distribution d’échantillonnage d'une —) : 14.2.3 Ordonnée a origine (estimation et intervalle de confiance d'une —) :14.3.2.2° Ordonnée & Vorigine (test de conformité d'une —) : 52 Ordonnée (hypothése alternative —) :9.3.2.10° Ordonnées a ’origine (comparaison de deux ou plu- sicurs —} : voir covariance (analyse de la —) Ordre (interaction du premier — et du deuxiéme —) :1L.2.2.2° Origine (régression par ’ —) :14.3.5.3°, 14.5.2.2", 16.3.3 Orthogonal (modéle non — d’analyse de la varian- ce); 10.1, 10.4.1.3° Orthogonalisée (régression —) : 16.1.4? Orthogonaux (contrastes —) :12.2.1.4° Orthogonaux (polynémes —) : 12.2.3 Pp Paires (comparaison par Paires (échantillons associés par Paires (test ¢ par —) :8.5.2 Parallélisme (test de —) :14.6.2.1°, 14.6.3.1° )eLaea? ):1.2.24° Parameétrique (méthode —) : 2.2.3, Paramétrique (méthode non —) :2.2.4 Particulires (comparaisons — de moyennes) : 12.122 Partielle (coefficient de régression —) :16.2.2. 16.3.2.3° Partielle (distribution d’échantillonnage d'un coef ficient de régression —) : 16.2.3.2° Partielle (estimation et intervalle de confiance d’un coefficient de régression —) : 16.2.3 Partielle (indépendance —) : 6.3.2.3° Partielle (test de conformité et test de signifieation d'un coefficient de régression —) : 16.2.3, Index des matiéres Partiels (moindres carrés —) : 16.1.4° PEARSON (test d’ajustement de —) :3.2 PEARSON (test de conformité des coefficients de —): 84.2 Permutées (données —) : L0.4.1.5° Phase (croissante et — décroissante) :24.3.5° Phénotypique (variation —):9.4..0° Plan (de régression) : 16.2.2.4° PLS (régression —) :16.1.4° Point (coefficient de corrélation de —): 13.2.3.8°, 184.42 POISSON (test dappartenance & une population de —) :3.4.3 Polynomiale 16.8.2.10° Pondérée (régression —) : 143.5.72 Population(-parent) :2.2.2.2° Pourcentage(s) : voir proportion(s) P-P (diagramme —): 3.3.2.7° Préalable (test —) : 10.3.5.2° Prédi (limites de — et région ou zone de —) : 14.4.2 Préférences (étude des —) : 10.3.8.4° Préliminaire (examen — des données) : 2.3, Premidre (différenee —) : 15.6.3.52 Principales (régression par les composantes —) : 16.1.4° Probabilité (diagramme de —) :3.3.2, 36.3 Probit :15.5.2.2° Probits (méthode des —) : 15.5.1.3° Proportion (estimation et intervalle de confiance d'une —) :5.2 Proportion (test de conformité d’une Proportionnels (effectifs —) : 10.4.1.4° Proportions (comparaison de deux —) :5.4 Proportions (comparaison de plus de deux —): 6.24 Puissance (fonction —) : 15.2.8.2° Puissance (transformation —) :4.3.3 .5.1°, (régression —):12.2.3, 15.2.1, 15d Q Quantiles (normaux) :3.3.2.5°, 43.5.2° Q-Q (diagramme —) : 38.272 Quadratique (composante —} Quadratique (régression —) + 15.2.2.2° R Racine carrée (transformation — Racine carrée inverse (transformation —):42.29° Racine carrée réciproque (transformation —): 4.2:3.2° Rang :4.4.01° Rang (cocfficient de corrélation de —) 142 Rangs (test des —) : 8.4.3 Rangs (test des — et des signes) 8.5.3 Rangs (test des — par paires) : 8.5.3 Réciproque (transformation —) : 43.3.9° Réduit (écart —) :2.3.3.4° Réduit (résidu —) :3.6.2.2°, 143.3.9° Réduits (résidus — de variance constante) : waga® Région (de confiance et — de tolérance) : 14.4.2 Régression (comparaison de deux ou plusieurs droi- tes de —) : 14.6.1 Régression (distribution d’échantillonnage d'un coefficient de — Régression (estimation et intervalle de confiance d'un coefficient de —) :14.3.2.2° Régression (estimation par la—): 14.4.2.5° Régression multiple : 16.1 Régression partielle : voir partielle (régression —}) Régression (test de conformité et test de significa- tion d’un coefficient de —) : 14.5.1.1° Regroupement (de sommes des carrés des écarts) : 1035.3°, 112.38? Reparamétrisation: 16.4.2.3° Répétées (mesures —): 10.3.7 Réponse (courbe de —) : 12.2.3, 15.2.2.2° Réponse (surface de —) : 12.2.3 Résidu: 9.3.2.2, 14.3.3.2° Résiduel(le) (carré moyen —, somme des carrés des écarts — et variation — Résiduel(le) (distribution d’échantillonnage d’un écart-type — et: d'une variance —): 14.2.2 Résiduel(le) (estimation et intervalle de confian- ce d'un écart-type — et d'une variance —): 14.3.2.1° Résistante (ligne — de TUKEY) :14.3.6.2° Restreint (maximum de vraisemblance —) 16.4.5.5° Rétrécisseurs (méthode & —) : 16.1.4° Risques (rapport des —) :5.45.2° Robuste (méthode —) :2.2.4.5° Saisonnier (coefficient — et écart —) : 15.6.2 Saisonniere (composante —) : 15.6.2 SATTERTHWAITE (méthode de —):11.2.8.9° Saturé (modéle —) : 6.3.3.4° Saut (point de —) : 15.3.2.3° SCHEFFE (méthode de —) : 12.4.1.3°, 124.272 Scores (normaux) : Seconde (différence —) : 15.63.52 Segmentée (régression —) : SAection :123.12° Sensibilité (comparaison de la — de deux ou plu- sieurs expériences) : 94.5 Séquences (test des — homogenes) :8.4.3.7° ‘Séquences (test dir nombre de —homogénes) : 24.3 Sérielle (corrélation —) :2.4.2.5° SHAPIRO et WILK (test de —):33.3 Signes (test des —) :8.5.8.5° Signes (test des rangs et des —): 8.5.3 Significative (méthode de la plus petite différence =) 124.1.2° Significative (plus petite amplitude —) :12.4.3.1° Significative (plus petite différenco —):12.3.2.1°. 124.212 Simultanés (intervalles de confiance —) : 12.1.5" Spectrale (analyse —) : 15.6.1.1° Sphéricité (condition de —) : 10.3.7.4° « Spline » (fonetion —) :15.4.1 Stabilité : 15.3.2.2° Standardisé (6cart —) :2.3.3.4° Standardisé (résidu —) :3.6.2.2°, 143.32° Stationnaire (série —) 15.6.3.1° Stochastique (moddle —) : 15.6.1 Stratifié (échantillonnage —) : 9.3.4, 9.4.3.5° Structure (des données) :1.2.2 Structurelle (relation —): 14.1.4" STUDENT (test # de —) :8.4.2 STUDENT, NEWMAN et KEULS (méthode de —):12.4.8.1° Successives (observations —) : 10.3.7 Systématique (éhantillonnage —) :22.2.4° Systéme-expert : 1.3.1.2 T # (test — approché) :8.4.2 t (test —de STUDENT) : 8.4.2 t (test — par paires) :8.5.2 Tableau 2X 2:5.4.1.2°, £2 ‘Témoins (comparaison avec un ou plusieurs —) + 12a ‘Temporelle (série —) : 15.6.1 ‘Tendance (générale) : 15.6.2 TERPSTRA et JONCKHEERE (test de —): 9.3.6.5 ‘Théorique (fréquence —) :.2.1.1°, 6.2.2 Index des matiéres Tolérance (limites de — et région ou zone de —) 142 Tolérée (dose — maximale) : 2.1.52 Total(e} (carré moyen —, somme des carrés des écarts — et variation —) :92.2 Totale (indépendance —) :6.2.2.2° Transformation (choix d’une —) :4.4 ‘Transformation (de variable) :4.1, 15.2.3 TUKEY (ligne résistante de —) : 14.2.6.2° TUKEY (méthode de —) :12.4.1.3°, 124.2.7° TUKEY (test d’additivité de —) :10.0.6.4° v Validation (d'une droite et — d’une courbe ou d'un, modéle de régression) : 14.3, 15.2.5, VAN DER WAERDEN (scores de —): 4.3.5.2 Variance (analyse de la — a un, deux, trois et plus de trois crit2res de classification) : 9.1, 10.1, 1L1, 41, 16.4.1 Variance (composante de la —) 9.3.36" Variance (estimation et intervalle de confiance dune —):72 Variance (test de conformité d'une —) : 73 yA Variances (comparaison de plus de deux —) :7.5) Variation (estimation et intervalle de confiance d’un coefficient de —) : 12 Visuel (examen — des données) : 2.8.2 Voisins (méthode des plus proches —) : 14.242 VON NEUMANN (test du quotient de —) : 2.4.2 Vraisemblance (test du rapport de —):3.2.1.3” aie Variances (comparaison de deux w WALD et WOLFOWITZ {test de WARD (méthode de —) : 12.4.4.3° WELCH (test de —) :8.4.2 WILCOXON (test: de —) 8.4.3 848.7" Y YATES (correction de continuité de —) :5.4.3.4° 6232° YATES (méthode de —) :11.2.2.5°, 4.2.29 z = (transformation —) :4.35.9°, 12.2.2 Zone (de confiance, — de tolérance et — de prédic- tion): 144.2 Index des symboles Les principaux symboles utilisés dans le texte sont énumérés ici par ordre alphabétique, abord pour V'alpbabet latin, puis pour Valphabet grec. a:ordonnée a Vorigine d’une droite de régression (valeur observée) A: variable aléatoire correspondant & Vordonnée & Vorigine d’une droite de régression a; : effet. principal (valeur théorique fixe) Aj :effet principal (valeur théorique aléatoire) (ab);; + interaction (valeur théorique fixe) (aB),;, (AB);; interaction (valeur théorique aléa- toire) b, bys : coefficient de régression (valeur observée) B, Byx : variable aléatoire correspondant au coeffi- nt de régression d’un échantillon bg: terme indépendant d'une équation de régression (valeur observée) by, bz: coefficient de PEARSON, coefficient de ré- gression (valeur observée) c:coefficient d'une droite des moindres rectangles (valeur observée) C::variable aléatoire correspondant au coefficient de la droite des moindres rectangles d’un échan- tillon 4; interaction (valeur théorique fixe) Cys interaction (valeur théorique aléatoire) Cj, nombre de combinaisons (CMa , CMp : earré moyen factoriel Mp: carré moyen d’interaction CMy, CMy.e: carré moyen résiduel CMt :carré moyen total cov, cov(z, y), cov(X, Y) :eovariance (valeur ob- servée ou théorique) cv, eux : coefficient de variation (valeur observée) G: coefficient de variation (valeur estimée) CV, CVx : coefficient de variation (valeur théori- que) d: marge derreur dj , dj; :écart par rapport & la moyenne, résidu (va- leur observée) Dy, Dy :éart par rapport & la moyenne, résidu (variable aléatoire) di, :écart réduit, résidu réduit (valeur observée) (@!naz)— 2), Pi, Pj :probabilité (valeur théorique) Pj, P,, : probabilité (valeur estimée) ‘q:nombre de classes (on 1 — p) 1, Tay, Tij :coefficient de corrélation (valeur ob- servée) R: variable aléatoire correspondant au coefficient de corrélation d'un échantillon * : coefficient de détermination (valeur observée) 5 8x: écart-type (valeur observée) s?, 82: variance (valeur observée) S? : variable aléatoire correspondant A la variance d'un échantillon Sy. técart-type résiduel (valeur observée) si. : variance résiduelle (valeur observée) variable aléatoire correspondant & la variance iduelle d'un échantillon SCE , SCEz :somme des carrés des écarts SCEa, SCE,:somme des carrés des écarts facto- rielle SCE, :somme des carrés des écarts d’interaction SCEy, SCEy.2 :somme des carrés des écarts rési- duelle SCE; : somme des carrés des écarts totale SPE, SPExy :somme des produits des écarts Index des symboles t: variable de STUDENT. tobe valeur observée d'une variable de STUDENT ta, ti-a/2 ; to,95 , to,o75 : valeur théorique d'une variable de STUDENT U : variable normale réduite ops : Valeur observée de la variable normale réduite Ua My—a/2 + ¥o9s , ¥0.975 ‘valeur théorique de la variable normale réduite var, var(z), var(X) : variance (valeur observée ou théorique) w amplitude (valeur cbservée) 1w; :coefficient de pondération, poids ©, tj, sj : Valeur observée X, X; :variable aléatoire X;,, X.,:somme de valeurs observées #, 3, Fj, : moyenne arithmétique (valeur observée) X : variable aléatoire correspondant & la moyenne arithmétique d'un échantillon #: médiane (valeur observée) ys voir Ge» Fj +moyenne conditionnelle (valeur observée) a:niveau de signification, risque de premiere espdce, ordonnée A Vorigine d’une droite de ré gression (valeur théorique) @ :ordonnée A Vorigine d'une droite de régression (valeur estimée) 1 — ar: degré de confiance risque de deuxitme espice 8, Byx ‘coefficient de régression (valeur théorique) G: coefficient de régression (valeur estimée) Ho : terme indépendant dune équation de régression (valeur théorique) jy : terme indépendant d'une équation de régression (valeur estimée) 41, 2 coefficient de PEARSON, coofi régression (valeur théorique) 1—8: puissance it de 1 coefficient d'une droite des moindres rectangles (valeur théorique) J: coefficient d'une droite des moindres rectangles (valeur estimée) ‘v1, ¥2 :coefficient de FISHER (valeur théorique) Index des symboles 2:différence de moyennes 6r: différence relative de moyennes Ax, Ax;:accroissement, différence, intervalle de classe n:rapport de corrélation (valeur observée) P.PXY » pi; :coefficient de corrélation (valeur théo- rique) :coefficient de corrélation (valeur estimée) coefficient de détermination (valeur théorique) : coefficient de détermination (valeur estimée) 6; oi a , ox :écart-type (valeur théorique) écart-type (valeur estimée) o”, o% : variance (valeur théorique) @? : variance (valeur estimée) ‘écart-type résiduel (valeur théorique) a oy. art-type résiduel (valeur estimée) variance résiduelle (valeur théorique) SC: symbole de sommation :coefiicient de corrélation de point (valeur obser- vée) 6(u) : fonction de densité de probabilité de la dis- tribution normale réduite (1) : fonction de répartition de la distribution nor- male réduite x? :variable de PEARSON X2p_ : Valeur observée d’une variable de PEARSON Xa/2+ Xda Xi—a/2 > XB.06 » X0,075 # Valeur théori- que d’une variable de PEARSON Table des matiéres Avant-propos - essteeecsuesensesses8 Mode d’emploi 29 Sommaire 13 Premieére partie NOTIONS PRELIMINAIRES LL_Introduction 18 1.2 _Les facteurs de choix d’une méthode d’analyse statistique soil 1.3_Un canevas général de choix d’une méthode d’analyse statistique .....................23 Chapitre 2 Les conditions sepplication des méthodes statistiques et examen initial des données 2. Introduction 30 2.2_Les conditions d’application des méthodes statistiques 30 2.3__Lexamen initial des données 26 2.4 Quelques tests du caractére aléatoire et simple d'une série d’observations ...........+ 45, Exercices 55 Chapitre 3 Les tests d’ajustement et de normalité et les observations aberrantes 3.1 Introduction 58 3.2_Le test_y? d’ajustement de PEARSON | 59 3.3 Les diagrammes de probabilité et quelques tests associés 67 3.4 Les tests de conformité de quelques paramitres particuliers . -76 Table des matiéres 3.6 Le cas des données & deux dimensions ........... Exercices Chapitre 4 Les transformations de variables 4.1 Introduction 4.2. Les principes de base et la transformation logarithmique ........ : 94 4.3. Les principales transformations . - 101 Md Te choirid'ine transformalipmcscr names eer ANT Exercices 14 Deuxiéme partie LETUDE DES DONNEES QUALITATIVES Chapitre 5 Les méthodes relatives 4 une ou deux proportions ou 4 un ou deux pourcentages 5.1 Introduction . 6 5.2__L’estimation et l'intervalle de confiance dune proportion Liz 5.3 Les tests de conformité d'une proportion .. 122 5.4_La comparaison de deux proportions = 125 EngnGbtil vias csusruneniavanwnieerineceemuagean ne macsrenamnimams xeneteneoes 135 Chapitre 6 Les tableaux de contingence 6.1 Introduction 138 6.2 Les tableaux de contingence & deux dimensions poieeerwase 22138 6.3 Les tableaux de contingence A trois dimensions 151 Exercices 159 Troisiéme partie LES METHODES RELATIVES AUX MOYENNES ET ALA DISPERSION Chapitre 7 Les méthodes relatives 4 la dispersion TAL WMtTOdUction ......secssseeecseveseeseeesneeneeereeeecereaseeseeseeeseaerenenes 164 7.2 Les estimations et les intervalles de confiance des paramitres de dispersion ..........164 Table des matiéres 657 7.3. Les tests de conformité des paramétres de dispersion . 7.4 La comparaison de deux populations . 7.5 La comparaison de plus de deux populations . Exercices -186 Chapitre 8 Les méthodes relatives 4 une ou deux moyennes 8.1 Introduction ........2...00000+ 8.2. L’estimation et Pintervalle de confiance d'une moyenne ........-..2...4++ 8.3. Les tests de conformité d’une moyenne ... 8.4 La comparaison de deux moyennes dans le cas des échantillons indépendants ........197 8.5 La comparaison de deux moyennes dans le cas des échantillons non indépendant Exercices .. 225 Chapitre 9 L’analyse de la variance a un critére de classification 9.1 Introduction 9.2. Les aspects descriptifs 9.3. Les aspects inférentiels 218 +219 +225 246 9.4 La puissance et la détermination des nombres d’observations Exercices Chapitre 10 L’analyse de la variance 4 deux critéres de classification 10.1 Introduction .. 10.2 Les modéles croisés a effectifs égaux: aspects descriptifs . 10.3 Les modéles croisés & effectifs égaux: aspects inférentiels . 10.4 Les modéles croisés effectifs inégaux si 10.5 Les modéles hiérarchisés 0... 10.6 La puissance et la détermination des nombres d’observations Exercices Chapitre 11 Lanalyse de la variance 4 trois et plus de trois critéres de classification 11.1 Introduction ... 11.2. L’analyse de la variance a trois critéres de classification : modéles croisés a effectifs égaux ££ .-318 --318 STATISTIQUE THEORIQUE ET APPLIQUEE TOME 2 INFERENCE STATISTIQUE A UNE ET A DEUX DIMENSIONS Version entiérement mise a jour et réécrite du volume 2 de Théorie et méthodes statistiques, le tome 2 de Statistique théorique et appliquée présente les méthodes d’inférence statistique 4 une et deux dimensions relatives a 'étude des données qualitatives (proportions et pourcentages, et tableaux de contingence), a étude des moyennes et de la dispersion, y compris 'analyse de Ta variance et de la covariance, 8 la corrélation et a la régression linéaire et non linéaire. Concu a la fois comme manuel et comme livre de référence, il comporte une documentation détaillée, dont plus de 700 références bibliographiques, des tables et abaques, et divers index (index bibliographique, index des traductions anglaises, index des matiéres et index des ‘symboles). Son utilisation comme manuel est facilitée par la délinition de différents plans de lecture ou niveaux d’étude, clairement indiqués tout au long du texte, et par la présence de nombreux exemples et exercices, accompagnés de leurs solutions Pierre DAGNELIE Professeur émérite de (a Faculté des Sciences agronomiques de Gembloux (Belgique), ily a enseigné pendant plus de 30 ans la statistique, théorique et appliquée. Wa également exercé des fonctions de professeur-visiteur dans plusie et établissements d'enseignement supérieur de France, de Grande-Bretdgné de Suisse, d’Algérie, du Maroc et du Brésil et il a été appelé & donngr-de et a efiectuer des missions de formation et de consultant dans de nombreux a Na été président de la Société internationale de Biométrie (Internation: Test lauréat du prix du statisticien d'expression francaise, attribué Statistique de Paris et de France, Honorary Fellow de (a Royal Statistical So Bretagne, et correspondant étranger de l’Académie dAgriculture de France. MMOL 7828041 2} STTHAP2 A516 |Griverate| I

You might also like