You are on page 1of 24

L'Analyse de la variance

dans la recherche linguistique


0. Introduction : de la variance à l'analyse de la variance
Retour à la page d'accueil

Parmi les techniques statistiques qui sont à la portée de tout un chacun, l'analyse de la
variance reste encore un peu à l'ombre, parce que, quoiqu'elle ait été définie dans son principe
depuis assez longtemps, elle n'a été mise à la portée des statisticiens non spécialistes qu'avec
la diffusion générale des moyens de calcul modernes. Alors qu'elle est en effet d'une logique
relativement simple dans son principe, sa pratique exige des calculs nombreux qui étaient
extrêmement fastidieux aussi longtemps que l'ordinateur n'a pas pu être chargé de leur
réalisation.

Le but qu'on se propose dans ce type de calcul est en fait une sorte de généralisation de la
comparaison des moyennes ou de la comparaison des pourcentages lorsqu'il y a plus de deux
valeurs à comparer.

Cette technique est utile en linguistique dans l'analyse de certaines données, en particulier de
données organisées en blocs de même taille. Il s'agit alors le plus souvent d'analyses de la
variance à un seul facteur. Les analyses à deux facteurs sont en revanche la règle dans
l'exploitation d'enquêtes d'usage linguistique. Ces enquêtes sont encore peu répandues, mais
on espère que les linguistes ne tarderont pas à en percevoir la nécessité pour assurer la réalité
des faits sur lesquels ils raisonnent. C'est dans l'exploitation des résultats d'enquêtes d'usage
que l'analyse de la variance est indispensable et qu'elle prouve toute son utilité pour le
linguiste.

Procédons par ordre, pour faire comprendre cette technique à quelqu'un qui ne connait jusque-
là que la variance…

0.1 La variance.

Selon la définition classique, la variance est la moyenne des carrés des écarts par rapport à la
moyenne. On a n observations d'une variable, chaque observation pouvant être désignée
comme xi ; leur moyenne est égale à

c'est-à-dire : la moyenne est égale au quotient qu'on obtient en divisant par le nombre n des
données la somme de toutes les valeurs observées de la variable (de la première à la nième).
Ceci posé, la variance est une autre moyenne, celle qu'on obtient à partir du carré des
différences qui séparent les n observations de la moyenne  :

c'est-à-dire : la variance est égale au quotient qu'on obtient en divisant par le nombre n des
données la somme des carrés de toutes les différences qui séparent les observations
individuelles de leur moyenne commune. En fait, surtout avec les moyens modernes de calcul,
il est beaucoup plus facile d'obtenir la variance avec des données pour lesquelles on n'a pas
besoin de connaitre d'avance la moyenne  :

En d'autres termes : on calcule la somme des x, et en même temps la somme de leurs carrés ;
si nous appelons S la somme des x et SS la somme des carrés de x, nous divisons par n le
carré de S et nous retirons de SS le quotient, après quoi nous redivisons par n la différence
obtenue. Les trois formulations ci-dessus sont strictement équivalentes.

Un exemple simplifié

Prenons le cas des 14 vers d'un sonnet, et prenons pour variable le nombre de mots par vers
(ce n'est pas absurde, vu que les vers ont tous le même nombre de syllabes). Le sonnet Quand
vous serez bien vieille… de Ronsard a 14 vers ayant les nombres de mots suivants :

10 7 7 9 8 7 10 6 9 8 7 7 9 8

. La moyenne se calcule en divisant le total par le nombre de vers, c'est-à-dire 112 par 14 ; par
chance, le résultat est un entier : 8.

Pour calculer la variance, nous faisons d'abord la liste des carrés des écarts par rapport à la
moyenne. Voici d'abord la liste des écarts par rapport à la moyenne (en valeurs absolues) :

0 1 1 1 0 0 0 2 1 0 1 1 1 0

ce qui nous donne les carré suivants :

4 1 1 1 0 1 4 4 1 0 1 1 1 0

  Leur moyenne est égale au quotient de leur total par le nombre des vers, c'est-à-dire 20/14 =
1,42857.

Il a été dit qu'on peut obtenir le même résultat en faisant la somme de tous les carrés des
effectifs :

100 49 49 81 64 49 100 36 81 64 49 49 81 64

Somme : 916 ; de cette somme, il faut retirer le carré de la somme des x (le carré de 112)
divisé par n, et diviser le résultat lui-même par n. Essayons : le carré de 112 est de 12544, qui
divisé par 14 fait 896 ; 916 - 896 = 20, c'est-à-dire précisément la somme des carrés des
différences ; la division par 14 fera donc aussi 1,42857.
On pourra trouver ce deuxième calcul bien plus compliqué que le précédent ; mais si on
n'avait pas pris un cas particulier où la moyenne est un entier, les choses auraient été bien
différentes.

Dans la comparaison entre deux moyennes, on se sert habituellement de l'écart type, qui est
la racine carrée positive de la variance. La variance étant généralement notée par le symbole
2, l'écart type est noté . Pour fixer les idées, mais en simplifiant à l'excès, on peut dire que
deux moyennes distantes de deux fois au moins la valeur de  sont dites "significativement
différentes".

0.2. Facteurs d'une variance

Supposons maintenant que nous ayons une variance obtenue d'une façon comparable à ceci :
dans une enquête menée auprès d'un grand nombre de personnes, on a demandé aux
personnes interrogées si elles prononceraient le -c final du mot donc dans une série de 18
phrases. On a procédé, pour pouvoir apprécier les résultats, au regroupement de 18 réponses
pour former une "bloc", et on a compté les réponses "Non" (= "Je ne prononcerais pas le -c
final"). On obtient ainsi un certain nombre de "blocs", et on évalue à l'intérieur de chaque bloc
la proportion des réponses "Non".

N.B. Le fait que le nombre des phrases soit de 18 et que la taille du bloc de réponses soit aussi
de 18 est un hasard. Le programme qu'on utilisera fera toujours des blocs d'effectifs voisins de
cela, mais le nombre des questions peut être quelconque.

Ceci posé, nous obtenons une moyenne et une variance de cette proportion :

Moyenne : 0,345
Variance : 0,0595

Malheureusement, ceci ne nous apprend pas grand-chose. La moyenne nous dit que, dans le
cas des phrases proposées, la proportion des -c non prononcés selon les réponses des
personnes interrogées est de l'ordre d'un tiers. Mais notre but était de voir en fonction de quoi
le -c était prononcé ou non.

Or nous avions proposé aux personnes interrogées des phrases de différents types ; comme
toujours dans une enquête, nous partions d'une hypothèse en fonction de laquelle les phrases
avaient été préparées. Notre hypothèse était que, d'une part, le type déclaratif, ou impératif, ou
interrogatif de la phrase jouait un rôle dans le choix de la prononciation de donc, et que par
ailleurs la position de donc dans la phrase, à savoir : devant une pause, devant une consonne
ou devant une voyelle, exerçait aussi une influence sur ce choix. Comment savoir si cette
double hypothèse peut être confirmée par les réponses obtenues ?

Le principe de l'analyse de la variance repose sur l'idée suivante : l'hypothèse nulle est que la
variance observée est purement aléatoire, c'est-à-dire que rien d'autre que le hasard
n'intervient dans le choix d'une prononciation ou de l'autre. Si cette hypothèse nulle peut être
"falsifiée" - si on peut prouver qu'elle ne correspond pas à la réalité -, on aura avancé d'un bon
pas. L'idée est qu'on va calculer aussi les variations observées à l'intérieur des sous-ensembles
suivants :
- uniquement les phrases déclaratives ;
- uniquement les phrases impératives ;
- uniquement les phrases interrogatives .
- uniquement celles où donc est suivi d'une pause ;
- uniquement celles où il est suivi d'un mot à initiale vocalique ;
- uniquement celles où il est suivi d'un mot à initiale consonantique.

Bien entendu, il faudra voir aussi ce qui se passe pour l'intersection d'un type de phrase et
d'une position de donc. Par bonheur, le questionnaire a été composé de telle façon que chaque
intersection d'un des trois types et d'une des trois positions était représentée par deux phrases
différentes. Les questions sont présentées sous forme de six listes différentes, mais les 18
phrases considérées figurent dans toutes les listes, dans un ordre variable de l'une à l'autre, et
entourées de 18 autres phrases, qui varient et dont nous ne nous occuperons pas ici.

L'analyse de la variance doit servir à voir dans quelle mesure les variations dans la proportion
des réponses "Non" sont imputables au type de phrase ou à la position de donc dans les 18
phrases communes à toutes les listes, et dans quelle mesure au contraire elle y est attribuable
au simple hasard - étant bien entendu que nous appellerons "simple hasard" tous les autres
facteurs possibles de variation auxquels peut-être nous n'avons pas pensé.

1. Trois types de données


La technique de l'analyse de la variance est applicable lorsqu'on dispose de données qui
peuvent se présenter comme celles dont on vient de parler. Nos données sont en effet de la
nature suivante : nous avons deux "variables contrôlées", qui sont le type de phrase et la
position du mot donc dans la phrase. Pour chaque intersection d'une modalité d'une de ces
deux variables et d'une modalité de l'autre, un bloc de réponses nous fournit une proportion de
réponses "Non". Cet ensemble de proportions - nous en avons 9, puisque chacune des deux
variables contrôlées peut avoir trois modalités - se présente comme un tableau à double
entrée, l'une des variables constituant les lignes, l'autre les colonnes du tableau. Mais en
réalité nous n'avons pas un seul bloc de cette nature, mais toute une série (26, en fait). Nos
données sont donc comme un ensemble de 26 tableaux à double entrée, ou comme un tableau
à trois dimensions comportant 3 × 3 × 26 données. Voici quelques autres exemples de
données utilisables pour l'analyse de la variance. Les données individuelles peuvent être soit
des proportions, soit des mesures.

1.1 Une seule variable contrôlée, proportions

Voici, dans Les Amants du Métro de Jean Tardieu, la proportion de déterminants définis qu'on
rencontre dans les différents rôles. Pour cela, on a extrait de chacun des principaux rôles un
échantillon représentatif de 200 mots répartis en 5 blocs de 40. Bien entendu, on est ici obligé
de se limiter aux rôles comportant un minimum de 200 mots. En comptant dans chaque bloc
le nombre d'articles définis (simples ou contractés), d'adjectifs possessifs et d'adjectifs
démonstratifs, on obtient les effectifs du tableau 1.

Tableau 1

Rôle\Bloc 1 2 3 4 5 Total
Didascalies 5 5 5 8 5 28
Elle 0 0 2 2 2 6
L'amateur de journaux 1 4 2 1 4 12
Lui 0 0 2 1 3 6
La star imaginaire 3 3 3 3 3 15
La dame offensée 2 1 2 3 4 12
l'individu ...fondre... 1 1 6 0 6 14
L'ouvrier compréhensif 6 1 1 3 2 13
L'étudiante 4 2 5 7 6 24
Total 22 17 28 28 35 130

Légende. Dans Les Amants du Métro de Jean Tardieu, on a extrait de chacun des rôles les plus longs (plus de
200 mots) un échantillon de 200 mots représentatif du rôle entier et on l'a réparti en 5 blocs de 40 mots. Les
effectifs indiqués sont ceux des déterminants définis par bloc de 40 mots. Il n'y a évidemment aucune
correspondance ni aucune simultanéité entre les différents blocs d'un rôle à l'autre.

La présentation en tableau à double entrée a ici un caractère fallacieux en ceci qu'une telle
présentation invite à considérer qu'il y a un parallélisme entre les différentes colonnes de
même qu'entre les différentes lignes. Or si l'on peut considérer comme un objet d'étude la
comparaison entre les fréquences des déterminants définis d'un rôle à un autre - quelle que
soit la justification linguistique, stylistique ou thématique de cette comparaison ; en revanche
il ne serait pas très rationnel de vouloir comparer les fréquences de ces mêmes unités d'un
bloc à un autre, fût-ce pour se demander si le texte, à mesure qu'on progresse, devient de plus
en plus "défini" ou de moins en moins "défini", comme on peut en avoir l'impression. Ce ne
serait pas très rationnel, parce que si les didascalies (indications scéniques) sont à peu près
uniformément réparties sur toute la longueur de la pièce, et si le rôle de Lui l'est aussi, des
rôles tels que La dame offensée mais provocante, La star imaginaire ou L'ouvrier
compréhensif apparaissent dans une seule scène pour disparaitre définitivement aussitôt après.
Concrètement : la pièce occupe les pages 9 à 60 de l'édition originale. Le rôle de L'étudiante
est présent aux pages 20 et 21 exclusivement. Celui de L'individu-en-train-de-fondre-dans-la-
foule apparait aux pages 55 à 57. Il ne serait donc pas très pertinent de prétendre comparer le
premier bloc de l'un de ces rôles au premier bloc de l'autre, puis le deuxième bloc de l'un au
deuxième de l'autre et ainsi de suite.

En termes d'analyse de la variance, nous avons affaire ici à une seule variable contrôlée, le
rôle, et pour chacune des modalités de cette variable (on dit aussi : chaque expression,
chaque niveau, chaque état ; ici : chaque rôle), nous avons cinq mesures - cinq répétitions.
On verra ensuite comment on pourra traiter ces données.

1.2 Deux variables contrôlées, proportions.

Prenons maintenant un exemple très différent. Dans une enquête d'usage sur la liaison, c'est-à-
dire (en gros) sur l'articulation, devant un mot à initiale vocalique, d'une consonne finale
habituellement muette, on a voulu voir quels sont les critères selon lesquels la liaison se fait
ou ne se fait pas. Le questionnaire proposé aux sujets était réparti en un certain nombre de
"listes" qui se distinguaient soit par les expressions qu'on y trouvait, soit par l'ordre dans
lequel les mêmes expressions y étaient présentées. Les listes A, B, C et D contenaient toutes
les quatre les expressions 1 à 18, dans un ordre différent et entourées d'expressions
différentes. Le tableau 2 nous dit combien, parmi 24 sujets ayant répondu sur la même liste,
ont répondu "Oui" à propos de chaque expression dans laquelle la liaison potentielle était en
[t].

Tableau 2. Sur 24 sujets interrogés,


nombre de ceux qui se prononcent en faveur de la liaison

Expression A B C D Légende. Sur 24 sujets interrogés, le tableau dit


combien ont répondu "Oui" à la question de la liaison
1 ils sont_allés 21 20 18 20 à propos des expressions indiquées. On n'a retenu ici
3 cent_adhérents 4 6 3 12 que les expressions dans lesquelles la liaison
potentielle était en [t]. Le public concerné ici est un
6 quand_il veut 21 18 23 21
ensemble d'étudiants parisiens interrogés sous la
11 tout_est fini 23 24 24 24 responsabilité de Mary-Annick Morel.
16 ils sont_associés 21 17 17 19
17 ce grand_imbécile 23 15 21 18  
18 ils l'ont_omis 9 8 11 14
Ces données peuvent autoriser deux sortes
de questions :

- d'une part : les différentes expressions se distinguent-elles significativement les unes des
autres pour ce qui concerne le succès rencontré par la forme liée ?
- d'autre part : les mêmes expressions obtiennent-elles des résultats significativement
différents selon l'organisation interne de la liste dans laquelle on les rencontre, selon la place à
laquelle elles y figurent ?

Comme les données précédentes, celles-ci sont présentées sous la forme d'un tableau à double
entrée ; mais la différence est que non seulement chaque ligne représente ici une modalité
d'une variable cohérente : l'expression particulière sur laquelle on interroge, mais en même
temps chaque colonne est elle aussi une modalité d'une autre variable, la liste. La première
variable permet de répondre - ou plus modestement contribuera à fournir la réponse à un
questionnement proprement linguistique sur les critères de la liaison ; la deuxième variable
permet de s'interroger sur un point de méthodologie de l'enquête : les réponses obtenues sont-
elles "biaisées" par la façon dont les questions s'enchainent les unes aux autres ?

1.3 Mesures

Voici maintenant un troisième et dernier exemple. Dans une enquête sur l'interrogation directe
"totale", c'est-à-dire celle qui appelle une réponse par "Oui" ou par "Non", une série de
phrases était proposée aux sujets sous les trois formes interrogatives classiques : forme à
inversion, forme en est-ce que, forme à intonation seule, et les sujets étaient invités à classer
ces trois formes de la plus courante à la plus rare (selon leur impression). Le tableau 3 indique
des résultats concernant la forme à inversion : il nous dit combien, parmi les 23 sujets à qui la
même liste a été soumise, n'ont pas répondu (0), ont classé 1e la forme à inversion (1), l'ont
classée deuxième (2), troisième (3) et ont refusé de la classer, la considérant comme inusitée
(9). Dans un tel cas, on obtient comme réponse globale, non pas une proportion, mais une
sorte de mesure à laquelle il est possible de donner plusieurs formes :

Tableau 3. Classements

Questions (Liste C) Rép 0 1 2 3 9


13 Le chat est-il un félin ? 23 0 8 12 3 0
14 Prend-il le bus pour aller à l'école? 23 0 10 3 10 0
15 Ira-t-il en Martinique l'an prochain? 23 0 5 12 6 0
16 Va-t-il apprécier notre cadeau? 23 0 7 10 6 0
17 Connaissait-il l'ancien directeur? 23 0 8 9 6 0
18 A-t-il réparé le joint de culasse ? 23 0 8 6 9 0
19 Est-il tombé de la chaise ? 23 0 6 6 11 0
20 Serait-il disponible demain ? 23 0 6 7 10 0
22 N'a-t-il pas meilleure mine ? 23 0 8 7 8 0
23 Est-ce demain qu'il part ? 23 0 3 5 14 1
24 Pleut-il ? 23 1 1 3 17 1
             
Questions (Liste D) Rép 0 1 2 3 9
13 Le chat est-il un félin ? 23 1 5 9 8 0
14 Prend-il le bus pour aller à l'école? 23 0 3 9 11 0
15 Ira-t-il en Martinique l'an prochain? 23 1 7 7 8 0
16 Va-t-il apprécier notre cadeau? 23 0 11 7 5 0
17 Connaissait-il l'ancien directeur? 23 0 7 8 8 0
18 A-t-il réparé le joint de culasse ? 23 0 7 7 9 0
19 Est-il tombé de la chaise ? 23 0 7 9 7 0
20 Serait-il disponible demain ? 23 0 7 9 7 0
22 N'a-t-il pas meilleure mine ? 23 0 9 4 10 0
23 Est-ce demain qu'il part ? 23 1 4 7 11 0
24 Pleut-il ? 23 2 3 3 15 0

- On peut résumer les données en calculant le classement moyen d'une phrase, ce qui, pour la
phrase 13 du tableau 3, nous donnerait dans la liste C (8  1 + 12  2 + 3 × 3) ÷ 23 = 1,78.
L'inconvénient de cette méthode est qu'on ne sait pas trop comment compter le refus de
classer, qui apparait aux questions 23 et 24 ; si on le compte comme un classement de 4e (sur
3 !), ce n'est qu'un pis-aller. Un deuxième inconvénient de ce procédé est que la valeur la plus
faible représente la meilleure usualité, et la plus grande l'usualité la plus douteuse, ce qui n'est
pas très intuitif. On préfèrera spontanément les mesures qui sont d'autant plus grandes que
l'acceptabilité parait meilleure.

- Un autre procédé consiste à considérer le classement de 1er comme la reconnaissance d'une


acceptabilité (ou d'une "usualité") parfaite, valant 1 ; le classement en 2e serait considéré
comme l'équivalent de 2/3 = 0,667, et le classement de 3e comme l'équivalent de 1/3 = 0,333.
De cette façon on obtient une valeur de 1 si la phrase est classée en n° 1, de 0,333 si elle est
classée en 3e, et par convention on peut mettre 0 si quelqu'un refuse de classer la forme. Cette
dernière situation est en principe plus rare que les autres : on ne peut guère supposer qu'une
majorité de gens refusera carrément une forme qui est proposée par écrit. Si nous appelons k

le classement proposé, n le nombre d'éléments à classer, cela donne u = . Les n


éléments classés auront ainsi des valeurs d'un total de (Par exemple, pour n=3 éléments

classés , ).

- Un troisième procédé consiste à faire en sorte que les valeurs obtenues par les n
formulations à classer (ici n = 3) fassent un total à peu près égal à 1, comme dans le cas des
proportions. Pour cela, on peut prendre les valeurs obtenues par le procédé précédent et les

diviser par  ; dans le cas présent, on divisera donc par 2. La formule générale est alors la

suivante : u' = .

Quel que soit le procédé utilisé, l'analyse de la variance devrait être en principe possible. Dans
ce qui suit, on la fera en utilisant une moyenne obtenue sur l'ensemble des 23 réponses ; on
verra plus loin pourquoi on opère ainsi plutôt que d'utiliser la variable individuelle (cf. § 4.3).

1.4 Récapitulation

Dans tous les cas envisagés, une analyse de la variance est possible. Pourquoi s'être tant
attardé sur ces questions de présentation des données ? C'est que l'analyse de la variance ne se
conçoit que dans le cas d'une forme particulière de données : elle n'est aisée - et ne sera
envisagée dans ce qui suit - que lorsque les conditions suivantes sont satisfaites :

- Lorsque la variable étudiée consiste en proportions (ce qui est le cas le plus courant en
linguistique), il faut que toutes les proportions examinées aient été obtenues à partir d'un
même nombre d'alternatives ; c'est pourquoi, dans l'exemple de Tardieu (1.1), on n'a pas
examiné les rôles entiers, mais des échantillons de même taille pour tous les rôles. Il est clair
que de telles études ne sont réellement convaincantes que si ce retaillage des différents
fragments de texte selon le lit de Procuste de la taille constante ne coupe pas trop de texte,
c'est-à-dire si les différents éléments comparés sont dès le départ de longueur comparable.
Dans les enquêtes d'usage, ce résultat est facile à obtenir par une organisation rationnelle des
questionnaires.

- Lorsque la variable étudiée est faite de mesures, deux cas peuvent se présenter : si les
mesures individuelles sont réellement des faits individuels (longueur des silences dans une
conversation, longueur des mots ou des phrases dans un texte etc.), on ne se soucie du nombre
d'observations que dans la mesure où tous les états (toutes les expressions) d'une même
variable doivent être représentés par un même nombre d'observations - mais dans la pratique,
comme les variables examinées ou du moins ce qu'on appellera les "résidus" doivent suivre la
loi normale (loi de Gauss), les variables linguistiques sont sans doute rarement de ce type ;
lorsque, au contraire, on prend pour faits individuels des moyennes, il faut, là encore, que
toutes les moyennes utilisées aient été obtenues à partir d'un nombre comparable de données
individuelles : la normalité des résidus est à peu près garantie lorsque les moyennes sont
toutes issues d'un même nombre de données, et très improbable dans le cas contraire.

Voyons en quoi précisément se distinguent les trois sortes de données qui ont été prises pour
exemples dans les paragraphes précédents.
Dans les exemples relatifs à Tardieu et à la liaison, nous avons affaire à des proportions ; dans
celui qui concerne l'interrogation totale, à des mesures. Ce qui distingue l'un de l'autre les
deux premiers de ces exemples, c'est qu'on trouve dans le premier cas des "répétitions" qui ne
peuvent pas être considérées comme une deuxième variable, alors qu'il y a une deuxième
variable dans le cas du deuxième exemple, mais pas de répétitions (il y a une seule proportion
dans chaque case du tableau). Dans le cas des proportions de réponses "Non" dans l'enquête
sur la prononciation de donc, nous avions deux variables, et en même temps un grand nombre
de répétitions.

Dans l'exemple sur l'interrogation, on se trouve en présence d'une mesure, en l'occurrence une
moyenne, obtenue ici sur un effectif de 23 groupes de réponses (chaque question recevant
trois réponses, à savoir trois propositions de rangs). Là aussi on a deux variables, qui sont
d'une part la question individuelle et d'autre part la liste, puisque les données permettront de
voir si les deux listes conduisent aux mêmes résultats globaux. Il n'y a pas de répétitions ici.

Il peut arriver qu'on dispose d'un plus grand nombre de variables. Dans une enquête déjà
réalisée, les mêmes listes ont été proposées à deux sortes de publics, et par ailleurs les mêmes
questions figurent dans des listes différentes dans des environnements différents. On a donc
au moins trois variables susceptibles d'être examinées : d'une part la question (les réponses
pourraient varier en fonction de paramètres particuliers à telle ou telle phrase), ensuite la liste
(la même question peut ne pas recevoir le même traitement selon l'environnement dans lequel
elle apparait), enfin le public. Dans un tel cas, l'une de ces variables doit être négligée ou
traitée - si les données sont assez abondantes - comme ensemble de "répétitions". Mais pour
éviter de se laisser abuser, il faut alors faire tous les calculs envisageables, en prenant comme
facteurs successivement tous les couples de variables possibles, quitte à traiter provisoirement
en tant que "répétitions" des facteurs que l'on considère comme essentiels. On trouvera au §
3.3 un exemple concret d'une telle multiplicité possible de facteurs.

Tableau 4. Moyennes d'une série de classements

Listes G H K L
(61) Le concierge habite l'immeuble ? 0,2847 0,3264 0,2847 0,2639
(62) Il court vite ? 0,3542 0,3611 0,2847 0,3194
(63) Il trahira notre secret ? 0,2569 0,3056 0,2222 0,2569
(64) Il va passer son permis de conduire ? 0,3611 0,3333 0,3472 0,2986
(65) Il voyait la Seine de sa chambre ? 0,3194 0,3681 0,2569 0,3056

Légende. Dans l'enquête conduite par Séverine Heintz, les phrases 61 à 65 figuraient dans quatre listes,
appelées G, H, K et L. La forme où l'interrogation est marquée par l'intonation seule y a obtenu les résultats
moyens figurant sur ce tableau. La moyenne aurait été égale à 0,5 si tous les sujets interrogés avaient été
unanimes à considérer cette forme d'interrogation comme la plus usitée et avaient tous classé les deux autres
formes 2e et 3e.

2. Principes de calcul de l'analyse de la variance


Prenons un cas relativement simple pour commencer.

Dans l'enquête sur les phrases interrogatives directes "totales", cinq phrases ont obtenu les
résultats résumés par le tableau 4. Admettons que pour une raison quelconque, on considère
que ces cinq phrases permettent de bien juger d'un aspect de la problématique des phrases
interrogatives. Il s'agissait ici de questions dans lesquels les sujets étaient appelés à classer les
trois formes interrogatives, et la tableau 4 indique le paramètre moyen u' (v. ci-dessus) obtenu
par la forme où l'interrogation n'est marquée que par l'intonation seule. Ces résultats
permettent-ils de dire
Listes Quest. Moy
1° si ces cinq phrases ont été appréciées de façon différenciée (la
G (61) 0,2847
forme "intonation seule" est-elle mieux reçue dans l'une ou l'autre des
H (61) 0,3264
phrases que dans celles qui restent ?) ;
K (61) 0,2847
2° si les quatre listes amènent des résultats différents (l'environnement L (61) 0,2639
dans lequel ces phrases apparaissent intervient-il dans le jugement qui G (62) 0,3542
est porté sur elles ?). H (62) 0,3611
K (62) 0,2847
2.1 Présentation des données L (62) 0,3194
G (63) 0,2569
Tableau 5. Présentation standard des données H (63) 0,3056
K (63) 0,2222
N.B. Les données sont celles du tableau 4. L (63) 0,2569
G (64) 0,3611
Ici un autre préliminaire s'impose. Pour les calculs, les données ne H (64) 0,3333
peuvent pas être présentées sous forme du tableau à double entrée tel K (64) 0,3472
que nous l'avons utilisé ci-dessus. Tous les logiciels statistiques L (64) 0,2986
demandent une présentation plus analytique, moins intuitive, mais G (65) 0,3194
plus explicite. Cette présentation consiste à présenter une donnée par
H (65) 0,3681
ligne, accompagnée de ses coordonnées.
K (65) 0,2569
L (65) 0,3056
2.2.1 Mesures

Par exemple, les données du tableau 4 se présenteront, selon ce standard, comme le montre le
tableau 5. Sur ce tableau, la première colonne indique le nom de la liste, la deuxième le
numéro de la question, et la troisième indique la valeur de la moyenne. Ce type de données -
les mesures - peuvent être mises telles quelles dans le tableau et traitées par le programme
d'analyse de la variance.

2.2.2 Proportions

Dans le cas des proportions, les choses sont un peu moins simples. En effet les variations dans
les proportions sont parfois assez dissymétriques : autour d'une proportion moyenne de 0,1, la
variation vers le haut est plus libre que vers le bas ; c'est seulement dans le cas de proportions
voisines de 0,5 que la symétrie est à peu près assurée. C'est pourquoi on a coutume d'opérer
sur les proportions une transformation qu'on appelle la "transformation angulaire", qui a pour
effet d'améliorer la symétrie et la normalité des données.

La formule de cette transformation est la suivante : F(p) = , p étant la proportion. En


d'autres termes, il s'agit de la valeur de l'angle (exprimée en radians) qui a pour sinus la racine
carrée de p. Il est clair que cette transformation n'a aucune signification linguistique, pas plus
qu'elle n'a de signification sociologique dans le cas d'une analyse de faits sociologiques. Il
s'agit simplement d'un procédé améliorant la conformité à la loi de Gauss dans le cas où les
proportions sont soumises à des variations régulières (aléatoires).

Tableau 6. Transformation angulaire

Rôle Eff p Les données évoquées à propos de l'enquête


ArcSin( )
sur donc devraient être soumises à cette
Didascalies 5 0,125 0,361367
transformation. Les données de la première
Elle 0 0 0,000000
colonne (premier bloc) du tableau 1 seront
L'amateur de journaux 1 0,025 0,158780 transformées elles aussi comme l'indique le
Lui 0 0 0,000000 tableau 6. Bien entendu, les effectifs
La star imaginaire 3 0,075 0,277406 commencent par être divisés par 40, ce qui
La dame offensée 2 0,05 0,225513 nous donne p, puisqu'il s'agissait du nombre
l'individu ...fondre... 1 0,025 0,158780 d'occurrences par bloc de 40 mots. C'est p
L'ouvrier compréhensif 6 0,15 0,397699 qui est ensuite soumis à la transformation
L'étudiante 4 0,1 0,321751 angulaire.

2.2 Calcul des moyennes et des

Nous présentons ici d'abord le cas du tableau 4. Il est assez facile de partir de ce cas
particulier pour exposer les deux autres cas qui devront être présentés. Il s'agit ici des données
d'une analyse de la variance à deux facteurs sans répétitions : dans le tableau 4, on a affaire à
deux facteurs possibles : le facteur "phrase" et le facteur "liste". Par ailleurs, pour chaque
phrase, on ne dispose que d'une seule mesure par liste. Si l'on disposait de plusieurs mesures
par phrase et par liste (mais le même nombre de mesures dans toutes les cases du tableau), on
serait dans la situation de deux facteurs "avec répétitions". Si, comme dans le cas du
tableau 1, une des dimensions du tableau n'était pas assimilable à un facteur, on aurait aussi
des répétitions, mais avec un seul facteur.

Les moyennes du tableau 4 (ou du tableau 5) ne sont pas toutes identiques, mais ont toutes été
calculées à partir d'effectifs analogues (24 en l'occurrence ; le programme a négligé
systématiquement les quelques cas où les réponses manquaient). On part de l'hypothèse nulle
qu'elles sont toutes des valeurs aléatoires soumises à une même variance, et on peut calculer
les valeurs suivantes :

, où l'indice i renvoie à une valeur de la variable "phrase", et j à une valeur de la


variable "liste", n étant le nombre total de mesures, c'est-à-dire I × J, si on désigne par I le
nombre de phrases concernées (5) et par J le nombre de listes (4). Nous avons donc ici la
moyenne arithmétique des vingt mesures individuelles fournies par le tableau 4.

c'est-à-dire la moyenne des valeurs d'une même ligne (moyenne des quatre totaux
d'une même phrase) ;
c'est-à-dire la moyenne des valeurs d'une même colonne (moyenne des cinq totaux
d'une même liste).

La variance de x, selon la définition classique, est égale à

. Mais dans le calcul de l'analyse de la variance, au lieu de la moyenne des

, c'est leur somme qu'on utilise, donc

C'est cette somme qui pourra être "analysée", c'est-à-dire décomposée ici en trois parties :

- celle qui provient de la variabilité due au facteur 1 (ligne, c'est-à-dire phrase), et désignée
par ssf1 ;
- celle qui provient de la variabilité due au facteur 2 (colonne, c'est-à-dire liste), et désignée
par ssf2 ;
- celle qui provient d'autre origine, et dont on tirera la "variance résiduelle" (dans le logiciel
statistique MINITAB, cette troisième partie est appelée "erreur") ; on la désigne par ssR.

En fait, nous avons affaire ici, non à la variance, mais à un multiple de la variance. Mais ce
sont ces valeurs qui peuvent ainsi s'additionner pour donner ssT = n 2. Pour ce même total n
2
, on use aussi de la notation (n - 1)s2, puisque c'est en le divisant par n - 1 qu'on obtient la
"variance expérimentale". De là la formule bien connue

, qui indique que cette somme, divisée par la variance théorique, suit une loi du
à n - 1 degrés de liberté. Mais la variance théorique n'est pas toujours disponible.

Deux de ces trois parties sont relativement aisées à calculer :

Comme on voit, elles s'obtiennent aisément à partir des moyennes par ligne, des moyennes
par colonne et de la moyenne générale. La troisième partie est

. On peut démontrer que


, d'où l'idée d'appeler tout ce calcul "analyse de la variance". Le troisième
terme de l'addition, ssR , se calculera en fait plus facilement par soustraction :

ssR = ssT - ssf1 - ssf2.


Procédons à ces calculs à propos des données du tableau 4.

= 0,30556 et donc = 0,305562 = 0,093364.

i• | i = 1...5 : 0,290 0,330 0,260 0,335 0,313


•j | j = 1...4 : 0,315 0,339 0,279 0,289

ssT = 0,03289
ssf1 = 0,01517
ssf2 = 0,01090
ssR = 0,00682

Voici le détail des calculs pour ssf1 : nous élevons au carré chacun des et nous faisons la
somme des cinq carrés, après quoi nous multiplions par J = 5 la somme obtenue :

Somme des carrés des : 0,4708, multiplié par J : 1,8832.

Il nous reste à retirer de cela n fois le carré de la moyenne générale : 20 × 0,093367


= 1,86734. La différence entre ces deux résultats fait le ssf1 ci-dessus (mis à part des erreurs
d'arrondi dues aux nombres variables des décimales qui ont pu être utilisées ; les calculs faits
par l'ordinateur sont toujours plus précis que ceux qu'on peut faire avec un nombre réduit de
décimales).

Mais avec cela, l'analyse de la variance n'est pas terminée.

2.3 Degrés de liberté

C'est à ce stade qu'intervient la notion de "nombre de degrés de liberté". On a l'habitude de


cette notion, par des tests tels que celui du 2 ou celui du coefficient de corrélation linéaire.
On se souvient qu'il s'agit souvent du nombre des données moins 1, ou du nombre de colonnes
ou de lignes de données moins 1. On retrouve ce principe ici.

On associe à ssT un nombre de degrés de liberté égal au nombre des mesures moins une. On
associe ensuite

- à ssf1 un nombre de degrés de liberté égal à I - 1 (donc 4 dans le cas présenté)

- à ssf2 un nombre de degrés de liberté égal à J - 1 (c'est-à-dire 3 dans notre cas)

- à ssR un nombre égal à (I - 1) × (J - 1) (ici 12)

On vérifie que le total fait bien n - 1 = I × J - 1 (ici 19).

C'est par ces nombres de degrés de liberté qu'il s'agit de diviser les sommes précédemment
obtenues de manière à obtenir la variance proprement dite imputable à chacun des facteurs.
Précisément : ssf1 sera divisé par 4, ssf2 par 3 et ssR par 12.

2.4 Variances
On présentera ici les formules générales immédiatement suivies de leur application au cas
particulier qui nous sert ici d'exemple. Chaque variance est désignée par un symbole
reconnaissable à partir des notations usuelles : s12 est la variance imputable au premier facteur,
s22 celle qui est imputable au deuxième facteur, et sR2 la variance résiduelle (celle qui ne
provient d'aucun des deux facteurs).

s12 = = = 0,007401

s22 = = = 0,018927

sR2 = = = 0,000504

2.5 Facteurs F de Fisher-Snedecor

Il reste une dernière opération à exécuter : les variances imputables aux deux facteurs vont
être divisées chacune par la variance résiduelle. Le résultat est une variable qui suit une loi de
Fisher-Snedecor comportant le couple de degrés de liberté des deux variances qui en a permis
le calcul :

f1 = . Les nombres de degrés de liberté de f1 sont de I - 1 et (I - 1)×(J - 1).

f2 = . Les nombres de degrés de liberté de f2 sont de J - 1 et (I - 1)×(J - 1).

Pour conclure à propos des facteurs f1 et f2, il faut se reporter à une table de Fisher-Snedecor.
Il est facile de faire afficher par un logiciel comme Excel la probabilité associée à un résultat
F muni de son couple de degrés de liberté.

Concrètement, dans le cas particulier que nous envisageons ici,

f1 = = 6,668

f2 = = 6,389

Au vu du nombre des degrés de liberté, la table nous dit que f1 a une probabilité de l'ordre de
3,6 pour mille (inférieure à 1 %), et f2 une probabilité proche de 7,8 pour mille. Si nous avons
décidé d'opter pour le seuil usuel de 5 %, f1 n'aurait pas dû dépasser la valeur limite de 3,259,
et f2 celle de 3,490. Nous sommes donc fondés à considérer les deux facteurs comme
significatifs : les mesures observées sont significativement influencées par le facteur "phrase"
et par le facteur "liste".

D'un point de vue linguistique, il reste maintenant à interpréter ce résultat. Ici, bien entendu,
la technique statistique ne nous apporte plus rien. Comme il s'agit du résultat (très partiel)
d'une enquête d'usage linguistique, on regardera d'abord comment les phrases se distinguent
les unes des autres. Il s'agira de décider, sur la base des autres résultats de l'enquête, si le score
relativement défavorable obtenu par la forme Il trahira notre secret ? et le résultat beaucoup
plus avantageux observé pour Il court vite  ? et pour Il va passer son permis de conduire ?
sont dus à des caractères particulières aux phrases individuelles ou à des facteurs linguistiques
plus généraux. On sera conduit de toute façon à se demander si tel ou tel résultat défavorable
(tel classement de dernier) n'est pas dû au fait qu'une autre formulation apparaissait
immédiatement comme la plus naturelle. Ici, on peut constater que dans les phrases très
courtes, l'interrogation par inversion du pronom sujet n'est pas très bien reçue (alors qu'elle
bénéficie de la bénédiction de l'institution scolaire), et que les phrases longues résistent un
peu plus que les autres à la forme en est-ce que, qui les allonge encore un peu plus. Avec tout
cela, nous n'avons pas commenté les différences également significatives observées d'une liste
à l'autre : comment se fait-il que la liste G, et surtout la liste H, obtiennent des moyennes
nettement supérieures à celles des deux autres listes, qui contiennent les mêmes phrases ? Le
commentaire correspondant requiert la prise en compte d'un autre fait, qui n'a pas encore été
mentionné : les questions "à classements" viennent en fin de liste dans les listes G et H, en
début de liste dans les listes K et L. On n'entamera pas ici cette discussion. Comme on le voit,
c'est la considération de l'ensemble des résultats qui permettra éventuellement de conclure ; et
de toute manière, l'interprétation des résultats laissera toute sa place à l'intuition du linguiste,
et fera nécessairement taire le statisticien.

2.6 Autre exemple

Nous avons présenté dans le tableau 2 un autre cas de deux facteurs sans répétitions ; de plus,
les deux facteurs étaient les mêmes que dans l'exemple qui vient d'être utilisé : la phrase et la
liste. La variable étudiée est la proportion des sujets qui se prononcent en faveur de la liaison
dans une série de sept expressions apparaissant dans les quatre mêmes listes. Comme il s'agit
ici d'une proportion de réponses "Oui", et non d'une mesure, on opèrera la transformation
angulaire, qui conduira à remplacer par exemple l'effectif de 21 (sur 24) par la proportion p =
0,875, puis p par ArcSin( ) = 1,2094. Après cela on fera l'analyse de la variance à partir des
résultats de cette transformation. On obtient ainsi

ssT = 2,9705 avec 27 degrés de liberté (4 × 7 - 1 : il y avait 7 expressions, 4 listes)


ssf1 = 2,5859 avec 6 degrés de liberté (7 expressions)
ssf2 = 0,0618 avec 3 degrés de liberté (4 listes)
ssR = 0,3228 avec 18 degrés de liberté (3 × 6)

La division de chaque somme ss par son nombre de degrés de liberté nous fournit les
variances ; ensuite, en divisant s12 et s22 par sR2, on obtient les facteurs :

f1 = 24,03, qui avec 6 et 18 degrés de liberté, a une probabilité à peu près nulle (de l'ordre de
0,0000001), et

f2 = 1,15, qui avec 3 et 18 degrés de liberté, a une probabilité d'environ 0,36.

Dans ce cas, nous pourrons donc dire que le facteur "expression" (ou "phrase") intervient
massivement dans la détermination de la liaison : les différentes expressions sont
significativement différentes entre elles pour ce qui est de la probabilité de la liaison ; en
revanche rien ne permet de dire qu'il y ait une différence d'une liste à l'autre là où les
expressions proposées sont les mêmes.
3. Généralisations
Nous n'avons parlé en détail, jusqu'ici, que des analyses de la variance à deux facteurs sans
répétitions, concernant des mesures d'abord, puis les proportions dans le dernier exemple
développé. Mais les données fournies au tableau 1 étaient d'autre nature : elles n'autorisaient
qu'un calcul à un seul facteur. Dans ce cas, les répétitions sont indispensables, car il faut
pouvoir utiliser des moyennes par ligne - or il n'y a pas de moyenne disponible si l'on a une
seule donnée par ligne. A tout cela, il faudra ajouter le cas où les données à deux facteurs
comportent des répétitions. On va aborder maintenant ces autres cas.

3.1 Analyse de la variance à un seul facteur

Ici on a besoin de répétitions. Nous pourrions donc prendre les données du tableau 4, et les
traiter en considérant l'une des deux variables comme source de répétitions. Mais dans tous
les cas où les deux dimensions du tableau peuvent être interprétées comme des facteurs (c'est-
à-dire présentent une cohérence logique), il faut au moins faire l'essai de l'analyse à deux
facteurs, pour ne pas considérer abusivement comme aléatoires des variations qui sont à
mettre au compte de ces facteurs. On ne gagne rien à négliger un des facteurs possibles.

3.1.1 Le calcul de l'analyse de la variance

Lorsque la deuxième dimension (disons : les colonnes) du tableau à double entrée n'est pas un
facteur, nous n'avons pas à nous soucier des moyennes par colonne, mais seulement des
moyennes par ligne et de la moyenne générale. D'où le formulaire qui suit.

Bien entendu, on aura besoin de la moyenne générale . Nous utilisons ici l'indice k
pour les répétitions, par convention ; nous avions utilisé j pour l'indice des expressions du
deuxième facteur.

On utilisera aussi les moyennes par ligne ; appelons K le nombre des répétitions : .
Dans chaque ligne, on additionne les K observations, puis on divise le total par K.

Ici aussi, au lieu de la variance , on utilise la somme des carrés des

déviations par rapport à la moyenne, soit .

Ce total se décomposera ici en deux parts seulement, à savoir

- la part imputable au facteur (unique), traduit par les déviations des moyennes de ligne par
rapport à la moyenne générale :
- la part non imputable au facteur, qui se traduit par les variations internes à chacune des
lignes :

On remarquera qu'il ne s'agit pas de la même chose que dans le cas d'un deuxième facteur, car
on n'utilise pas les moyennes par colonne.

Le nombre des degrés de liberté du facteur est égal à I - 1 ; celui de la variance résiduelle est
de n - I. La variance totale a donc n - 1 degrés de liberté.

On calculera la variance en fonction de ces degrés de liberté :

, et

ce qui nous permet finalement de calculer le facteur .

Comme précédemment, l'interprétation du résultat se fait en fonction des deux nombres de


degrés de liberté, en consultant la table de Fisher-Snedecor.

3.1.2 Exemples

3.1.2.1 Mesures

Reprenons, pour commencer, l'exemple des données du tableau 4. Remarquons tout de même
qu'il est un peu abusif de traiter comme des "répétitions" les quatre listes, puisque nous avons
déjà vu que leurs moyennes sont significativement différentes. Mais qu'obtiendrions-nous si
nous considérions ces différences comme négligeables ?

= 0,30556 (comme précédemment, bien sûr).

Les moyennes par ligne de notre test précédent restent les moyennes par ligne.

La valeur ssf reste identique à la valeur ssf1 du calcul à deux facteurs, puisqu'elle a été obtenue
de la même façon. Mais ce qui change, c'est ssR et le nombre de degrés de liberté qui y est
associé.

ssR = 0,01772, et sR2 = = = 0,001181

En fait, la variance totale, obtenue de la même façon que précédemment, n'ayant pas changé
non plus, on compte avec la "variance résiduelle" à la fois ce qui précédemment était déjà la
variance résiduelle et aussi ce qui relevait du deuxième facteur. La valeur du facteur va
changer en conséquence, puisque la variance résiduelle proprement dite sR2 sera obtenue en
combinant deux types de variation, ce qui la changera - l'augmentera en général, et changera
par là même - diminuera en général - la valeur du facteur.
ssf = 0,00379, et sf2 = = = 0.00379.

Cela qui nous donne un facteur de = 3,209, qui, avec 4 et 15 degrés de liberté, se
situe à 4,3 %.

Quoique la probabilité soit nettement plus grande que dans le cas de l'analyse à deux facteurs,
nous conclurons tout de même, comme précédemment, que le facteur "phrase" a une influence
significative sur les variations des moyennes observées - du moins si nous nous sommes fixé
le seuil statistique usuel de 5 %. Nous expliquons facilement, du reste, que la probabilité
obtenue soit plus forte que précédemment, puisque la variance dite résiduelle est ici en réalité
très composite, et inclut, les calculs précédents l'ont montré, une variation significative d'une
colonne à l'autre.

3.1.2.2 Proportions

Voici maintenant un second exemple, celui qui nous est fourni par les données du tableau 1,
qui ne peut pas être traité autrement que comme comportant un seul facteur. Ce cas se
distingue du précédent par un autre caractère important : c'est qu'ici il s'agit de proportions et
non plus de mesures à proprement parler. La conséquence en est, comme on l'a déjà vu, qu'on
opère dans ce cas sur les données de départ la transformation angulaire

Les données du tableau 1 sont les effectifs observés par bloc de 40 mots (à l'intérieur du rôle).
Il faut donc commencer par calculer la proportion que cela représente en divisant ces effectifs

par 40. On remplacera donc 1 par = 0,025, et de même 2 par 0,05, 3 par 0,075 etc. On
extraira la racine carrée de ces proportions : = 0,158 ; = 0,224 etc. ; enfin on
calculera l'arcsinus (en radians) de ces racines carrées : ArcSin(0,158) =0,159 ; ArcSin(0,224)
= 0,226 etc. Résumons en formule :

x = P(k) = ArcSin( )

où n désigne le nombre d'alternatives ayant servi au calcul de la proportion, ici 40.

A partir de ces nouvelles données, on fera le calcul comme précédemment, et on obtiendra

ssT = 0,6385 avec 44 degrés de liberté (puisqu'il y a 45 données individuelles)


ssf = 0,2778 avec 8 degrés de liberté (il y a neuf "rôles")
ssR = 0,3606 avec 36 degrés de liberté

ce qui nous donne un facteur F = 3,47 d'une probabilité de 0,005 (5 pour mille). Nous
concluons que les différents rôles ne font pas le même usage des déterminants définis.
L'interprétation linguistique, stylistique ou thématique reste évidemment à donner. On n'est
pas surpris que les didascalies soient le "rôle" le plus riche en déterminant définis (plus
particulièrement en articles définis) et que les rôles des deux protagonistes Lui et Elle soient
les deux rôles qui en comportent le moins (par rapport au nombre de mots total du rôle
respectif). Les protagonistes sont complètement occupés par leur relation, par les problèmes
du moi et du toi ; au contraire les didascalies doivent présenter des faits objectifs variés, et qui
peuvent être munis de l'article défini même sans avoir été précédemment évoqués, du moins
lorsqu'il s'agit de personnages (L'ouvrier compréhensif, La dame offensée... etc.).

3.2 Analyse de la variance à deux facteurs avec répétitions

Le cas envisagé ici ne se présentera sans doute dans les travaux des linguistes qu'à propos
d'une enquête devant un public très abondant ; il peut être intéressant alors de considérer
différents publics comme des "répétitions" (mais cela ne dispense pas de vérifier par ailleurs
s'ils ne peuvent pas constituer aussi un facteur de variation, qui sera alors un facteur socio-
linguistique).

3.2.1 Moyennes et valeurs ss = (n - 1)s2

Nous avons dans ce cas une combinaison des cas rencontrés dans les situations déjà
envisagées. Nous avons toujours une moyenne globale qui pourra cette fois s'écrire

, où l'on désigne par i les modalités du premier facteur, par j celles du deuxième
facteur, et par k les répétitions. On suppose - et c'est très souhaitable - qu'on a le même
nombre de répétitions pour toutes les intersections de modalités des deux facteurs. En plus de
la moyenne générale, il faudra tenir compte des trois groupes de moyennes suivants :

Il s'agit ici de la moyenne d'une intersection de modalités de la première et de la


deuxième variable contrôlée. Il y a I × J moyennes de ce type, si nous continuons à désigner
par I le nombre de modalités de la première, par J le nombre de modalités de la deuxième).

Il s'agit de la moyenne d'une "ligne" donnée, si l'on regroupe dans une même
ligne toutes les données comportant la même valeur de i, non seulement pour l'ensemble des
répétitions, mais aussi pour l'ensemble des valeurs de la deuxième variable.

Il s'agit de la moyenne d'une "colonne", si l'on regroupe dans une même


colonne toutes les données comportant la même valeur de j.

Ce qui nous fera obtenir

(variation totale)

(variation d'une ligne à une autre)

(variation d'une colonne à une autre)

Dans ces deux dernières formules, il est important de remarquer que la somme se fait sur i, j
et k, ce qui a la conséquence suivante : il n'existe de la différence , et donc aussi de son
carré, que I valeurs potentiellement distinctes ; il faudra chaque fois multiplier chacun de ces
carrés par J×K, puisqu'il faut l'utiliser pour chaque individu objet d'une observation (chaque

mesure ou chaque proportion). De même chaque devra être multiplié par I×K.

Une nouvelle part de variance doit être ajoutée ici, qu'on appelle l'interaction entre les deux
facteurs (le lien qui existe entre l'un et l'autre) :

Enfin on aura pour variance résiduelle , ce qui nous donnera un total


analysable comme suit :

ssT = ssf1 + ssf2 + ssf1,2 + ssR

Comme on le voit, ce qu'on appelle ici variance résiduelle, c'est la part de la variation qui est
due aux répétitions, comme dans le cas de l'analyse de la variance à un seul facteur.

3.2.2 Nombre de degrés de liberté

Comme précédemment, le nombre total de degrés de liberté est égal à n - 1, si l'on appelle n le
nombre total d'observations, en principe n = I × J × K, avec I : le nombre de modalités (ou
états ou expressions) de la première variable "contrôlée" (premier facteur) ; J : le nombre de
modalités de la deuxième variable "contrôlée" (deuxième facteur) ; K : le nombre de
répétitions, supposé (ou rendu) constant pour toutes les intersections de modalités des deux
facteurs. Ceci posé, les nombres de degrés de liberté s'établissent comme suit :

Premier facteur : I - 1
Deuxième facteur : J - 1
Interaction : (I - 1) × (J - 1)
Variance résiduelle : I × J × (K - 1)

On vérifiera aisément que le total est bien égal à n - 1.

3.2.3 Calcul des variances et des facteurs

Comme on l'avait fait jusqu'ici, on obtient les variances en divisant la valeur ss par le nombre
correspondant de degrés de liberté. Enfin trois variables de Fisher-Snedecor seront obtenues
en divisant chacune des trois variances : s12, s22 et s1,22 (celle de l'interaction) par la variance
résiduelle sR2.

Comme dans les autres cas, la probabilité de la variable F de Fisher-Snedecor est évaluée par
consultation de la table, et la conclusion est tirée de la constatation de cette probabilité : si la
probabilité est inférieure au seuil préalablement fixé, on conclut que le facteur considéré (ou
l'interaction) est significatif ; si la probabilité est supérieure, on ne peut pas conclure.

3.3 Un exemple
Pour ce cas plus complexe que les précédents, on donnera un exemple comportant
évidemment des données abondantes. On prendra celles dont il a été question tout au début :
celles qui concernent l'enquête sur donc. On ne fournira pas ici le détail des données. En voici
une rapide description. Ainsi qu'il a été dit, chaque sujet interrogé a trouvé sur sa liste les 18
phrases en question, qu'on trouvera sur le tableau 7, avec une moyenne simplement indicative
(puisque cette moyenne ne sera pas utilisée elle-même dans le test). Il est facile de voir
intuitivement que les deux facteurs examinés, le type de phrase et la position de donc devant
une pause, une consonne ou une voyelle jouent un rôle dans les résultats obtenus. Mais dans
l'analyse de la variance, ce rôle sera mesuré.

En réalité, ce qui sera soumis à l'analyse de la variance, ce sont des données telles que celles
du tableau 8 (un très petit extrait de l'ensemble des données).

Tableau 8. Début des données soumises à l'analyse de la variance

Type de phrase Phon._suiv. Non Bloc Ici, on le voit, les données ont été
Déclaratif Pause 0 18 0,000000
groupées selon les deux facteurs
envisagés, et, par exemple, la
Impératif/Exclamatif Pause 4 18 0,490883
ligne "Déclaratif, devant pause"
Interrogatif Pause 3 18 0,420534
regroupe les réponses relatives
Déclaratif Consonne 4 18 0,490883
aux phrases 7 et 8. Comme le
Impératif/Exclamatif Consonne 8 18 0,729728
nombre des sujets interrogés est
Interrogatif Consonne 8 18 0,729728 de 240 et qu'il suffit de 9
Déclaratif Voyelle 0 18 0,000000 personnes pour faire un "bloc" de
Impératif/Exclamatif Voyelle 2 18 0,339837 18 réponses par intersection de
Interrogatif Voyelle 3 18 0,420534 modalités, il est facile de calculer
Déclaratif Pause 1 18 0,237941 qu'on obtient 26 blocs complets si
Impératif/Exclamatif Pause 3 18 0,420534 tout le monde ou à peu près
Interrogatif Pause 0 18 0,000000 répond à toutes les questions (ce
Déclaratif Consonne 3 18 0,420534 qui en l'occurrence a été le cas).
Impératif/Exclamatif Consonne 3 18 0,420534
Interrogatif Consonne 3 18 0,420534
Déclaratif Voyelle 1 18 0,237941
L'analyse de la variance réalisée sur ces données très abondantes a donné le résultat qu'on
peut voir dans le tableau 9.

Les résultats ne permettent aucun doute. Chacun des deux facteurs envisagés intervient de
façon massive dans les réponses, même si le type de phrase semble être encore plus important
que la position. L'interaction (5,13301), avec une probabilité d'un demi pour mille en gros,
semble être peu importante en comparaison des facteurs pris en eux-mêmes, mais il
n'empêche qu'elle est significative elle aussi.

Nous n'allons pas commenter plus longuement ici ce résultat. Mais il y a une chose qu'il ne
faut pas occulter : on aurait pu envisager d'autres facteurs : d'une part les questions ont été
toutes présentes dans six listes différentes, et il n'est pas à exclure que les environnements
différents dans lesquels chaque phrase y apparait ait pu influencer les réponses. Ensuite les
publics interrogés ont été certes uniquement des étudiants, dans cette enquête, mais la moitié
étaient des étudiants de Strasbourg, l'autre moitié des étudiants de Grenoble, et il n'est pas dit
que les Grenoblois aient répondu comme les Strasbourgeois. Les étudiants des deux
universités étaient pour une part des débutants de première année, pour une part des étudiants
de licence, et on peut penser que, plus avancés dans des études de Lettres, les étudiants ont pu
affiner leur perception des faits de langue, ou peut-être se laisser influencer par des
enseignements normatifs. Mais ce qui est important ici, c'est que toutes les variations
envisageables à partir de ces facteurs non pris en compte sont incluses dans la variance
résiduelle ; si elles étaient importantes par rapport à la variation due à nos deux facteurs, la
variance résiduelle serait importante aussi, et les facteurs apparaitraient d'autant plus faibles.

4. Précautions, vérifications et variantes


On n'a exposé rapidement ici que la présentation des données et les calculs qui conduisent aux
tests d'analyse de la variance. Mais il ne faut pas perdre de vue les faits suivants, sur lesquels
on ne peut pas s'appesantir ici, et qui du reste ne posent souvent pas trop de problèmes.

4.1 Normalité des résidus

L'analyse de la variance telle qu'elle est proposée ici est légitime dans le cas où les résidus
sont distribués selon la loi de Gauss (loi normale). Les logiciels de traitement statistique du
commerce (par exemple MINITAB) proposent des tests de normalité, qui permettent de
s'assurer que la distribution observée ne s'écarte pas trop de ce modèle. On fera bien de
recourir à ces tests.

4.2 L'intervalle d'acceptation est illimité "à gauche".

On peut utiliser deux lois statistiques, selon la nature des données : la loi du  2 (nous
n'envisageons pas ici cette possibilité, qui nécessiterait un développement assez long) et la loi
de Fisher-Snedecor ; il est bon de se souvenir que l'intervalle d'acceptation de l'hypothèse
nulle est défini, dans les deux cas, unilatéralement : seules les valeurs anormalement grandes
de la variance sont considérées comme "significatives". Il est pensable que dans certains cas
très particuliers l'égalité des différentes moyennes partielles soit plus parfaite que ne le
comporterait le hasard. Le test proposé ne décèlera ces cas que si l'on songe à utiliser la table
correspondante et à faire attention aux valeurs particulièrement faibles des facteurs.

4.3 Utilisation de variables quantitatives individuelles ou de moyennes

Dans le cas de données purement qualitatives, on ne peut travailler que sur des proportions, et
on vient de voir quelles conséquences il convient de tirer de cette circonstance. Mais lorsqu'on
est devant une variable d'aspect quantitatif telle qu'un classement, on pourrait envisager
d'étudier, soit ces variables elles-mêmes, soit une forme transformée obtenue à partir d'elles,

comme les formes u = ou u' = dont il a été question ci-dessus.

Mais l'expérience montre que les réponses du type d'un classement de 3, 4 ou 5 éléments est
une variable quantitative extrêmement fruste, et que les variations aléatoires que l'on constate
d'un sujet à l'autre sont trop importantes pour que ces réponses individuelles soient réellement
utilisables. En effet l'ampleur des variations individuelles produit une variance résiduelle
tellement forte que le rôle des facteurs apparait le plus souvent comme non significatif,
puisque c'est par la variance résiduelle que les autres variances sont divisées dans le calcul du
facteur F. Par ailleurs les résidus qu'on obtient avec une telle variable ne peuvent absolument
pas être considérés comme gaussiens, ce qui condamne définitivement leur utilisation. Mais
comme par ailleurs le recours à des moyennes s'accompagne forcément d'une perte
d'information (schématisation) proportionnelle au nombre des mesures individuelles utilisées,
il s'agira de choisir la moyenne qui produira des résultats stables et gaussiens avec le
minimum de déperdition d'information. On peut considérer que la moyenne de 15 à 20
réponses individuelles est généralement une mesure d'une stabilité suffisante pour donner des
résultats fiables ; il est inutile d'aller au-delà, et si l'on dispose de données beaucoup plus
abondantes, il sera plus indiqué de les utiliser en tant que répétitions que de calculer une
moyenne sur un nombre beaucoup plus important d'individus. Si au contraire le nombre des
sujets interrogés est plus faible, on peut s'attendre à ce que la variance résiduelle s'accroisse
par rapport aux autres variances.
Comme dans le cas de la comparaison de proportions, l'effectif le plus avantageux pour
l'analyse de la variance dans le cas de classements est d'une vingtaine d'observations
individuelles par donnée utilisée. Il est clair que si l'on avait affaire à des mesures d'une plus
grande finesse, les choses se présenteraient différemment ; mais en matière linguistique, on
peut supposer que la plupart des données relèveront d'un de ces deux types.

Vous pouvez, si vous voulez, télécharger ici un programme qui fait l'analyse de la variance, et
un autre programme qui permet de faire un certain nombre d'autres calculs statistiques parmi
les plus courants et les plus élémentaires (moyenne et variance, chi2, corrélations...). Chacun
de ces programmes comporte un fichier d'aide accessible par la touche F1. Le fichier
téléchargé est compressé ; il devra être lancé par un double clic de souris, comme pour
exécuter un programme, pour que les fichiers autoextractibles deviennent accessibles. Après
cette extraction, le fichier téléchargé pourra être détruit.

Télécharger le programme d'analyse de la variance


Télécharger le programme faisant les calculs élémentaires
N.B. Le programme d'extraction utilisé ici est dû à Laurent Laubenheimer. Il s'appelle
AZIPEX et est distribué gratuitement sur le Web.
Retour à la page d'accueil
Retour à la page "Enquête"
Retour à la page d'accueil de l'Université Marc Bloch

You might also like