Professional Documents
Culture Documents
8 - Exercice 1
Khi-Carré d’ajustement (Corrigé)
Connaissances préalables : Distribution de fréquences, proportions.
Buts spécifiques : Test χ 2 d’ajustement.
Table de distribution des χ .
2
Outils nécessaires :
Consignes générales : Les vacances de Pâques approchent… c’est l’occasion de revoir tous les TP en
travaillant en parallèle avec votre cours théorique.
Attention : les exercices supplémentaires font partie de la matière d’examen.
j =1 Ej
avec :
Ø Oj = fréquence observée
Ø Ej = fréquence attendue (expected)
En pratique, la première étape consiste à poser une hypothèse nulle ( H 0 ) avant de récolter
ses données. Pour un test khi-carré d’ajustement, cette H 0 est soit une répartition des sujets
au hasard dans chaque catégorie soit une répartition des sujets conforme à une distribution
connue. La seconde étape consiste à calculer la valeur du khi carré sur base de l’échantillon
(khi carré calculé) et d’observer si elle est située dans une zone de rejet ou de non rejet de
l’hypothèse nulle.
Les valeurs que peut prendre la distribution du khi carré dépendent du nombre de degrés de
liberté. Pour le trouver, la formule suivante est utilisée :
D.L. = J-1 où J = le nombre de catégories de la variable
Une fois qu’on a les degrés de liberté et la valeur calculée du khi carré calculé, on cherche
dans la table de distribution khi-carré, une valeur de khi carré théorique à laquelle on la
compare.
Si χ calculé ≥ χ théorique
2 2
il y a rejet de l’hypothèse nulle.
Dans ce dernie r cas, on considère que la différence est significative avec maximum 5% de
risque de se tromper.
.05 est le seuil habituellement utilisé en psychologie mais il existe d’autres tables plus
conservatrices qui utilisent un risque d’erreur accepté inférieur, comme par exemple .01.
À titre d’exemple, voici une courbe de χ 2 pour 3 degrés de liberté, laissant, sur la droite une
zone de rejet de l’hypothèse nulle (avec une marge d’erreur de 5%) avec comme χ théorique
2
une
valeur de 7,81 (au-delà de laquelle nous sommes de la zone de rejet de l’hypothèse nulle).
Zone de non rejet de
l’hypothèse nulle
(NRH0 )
Zone de rejet de
l’hypothèse nulle
(RH0 )
N.B. : Dans la légende des graphiques que nous vous proposons dans ce T.P. :
• Area = Taille de la zone de rejet (en termes de probabilité d’erreur)
• Low = valeur critique qui délimité la zone de rejet et la zone de non rejet de H0 .
• Df = degrees of freedom (degrés de liberté)
Un chercheur s’intéresse aux boissons préférées dans une population. Il pose la question
suivante à un échantillon de 30 participants : « Préférez-vous boire du thé ou du café ? » Il ne
s’attend pas à observer de préférence pour une de ces 2 boissons.
Réponse :
H 0 = pas de préférence entre thé et café.
p = q = .50 (la probabilité de choisir le thé est la même que la probabilité de choisir le
café).
2. Représentez ces données sous la forme d’un tableau indiquant les fréquences absolues
observées et attendues.
1
E pour expected, qui signifie attendue en anglais.
J
( O j − E j )2
χ 2
calculé =∑
j =1 Ej
(11 − 15) 2 (19 −15) 2
χ2= + = 2,13
15 15
Réponse :
J-1 degré de liberté où J représente le nombre de catégories (ici thé-café) de la variable
(boisson). Donc 2-1 = 1 (D.L.).
Réponse :
Réponse :
On ne rejette pas l’hypothèse nulle qui stipulait l’absence de préférence entre thé et
café. La différence observée dans notre échantillon est donc probablement due au
hasard.
Un chercheur s’intéresse aux facteurs qui déterminent le choix des cours des étudiants. Il pose
la question suivante à un échantillon de 50 étudiants : « Parmi les 4 facteurs suivants, lequel
est le plus important lorsque vous sélectionnez un cours ?». Les étudiants doivent choisir 1
des 4 propositions suivantes :
Sur base de ces données, le chercheur peut- il conclure qu’un facteur (ou plusieurs facteurs) est
(sont) plus important(s) que les autres ? Il teste à un niveau de signification .05.
Réponse :
H 0 : il n’y a pas de préférence pour un facteur particulier. Les 4 facteurs sont choisis
de façon équivalente.
2. Représentez ces données sous la forme d’un tableau indiquant les fréquences absolues
observées et attendues.
Réponse :
Valeur calculée de χ 2 = 8,08
Réponse :
D.L. = 3
Réponse :
Valeur théorique de χ 2 = 7,82
8,08>7,82
En 1908, en France, Binet publie une étude concernant la mesure de l’intelligence des enfants.
Son échelle d’intelligence se base sur un certain nombre d’épreuves classées dans un ordre
croissant de difficulté. Un niveau d’âge est attribué à chaque épreuve qui correspond au plus
jeune âge auquel un enfant d’intelligence normale réussit l’épreuve. L’enfant commence le
test de Binet par les épreuves de l’âge le plus jeune et poursuit la série d’épreuves jusqu’à ce
qu’il échoue. L’âge associé à ces dernières épreuves devient son âge mental et son niveau
intellectuel général est calculé en soustrayant son âge chronologique à son âge mental. On
peut donc «classer » l’enfant dans une des 5 catégories suivantes : retardé de 2 ans, retardé
d’1 an, régulier, avancé de 1 an et avancé de 2 ans. Voici les données, en fréquences
relatives, que Binet obtient sur un échantillon de 192 enfants :
-2 -1 0 +1 +2
0,06 0,23 0,48 0,22 0,01
Des chercheurs, un américain (Goddard) et un allemand (Bobertag) font passer le test de Binet
(traduit en anglais/allemand et adapté culturellement) à un échantillon de 1547 enfants
américains (Goddard) et 228 enfants allemands (Bobertag). Ils obtiennent les données
suivantes, en fréquences absolues :
-2 -1 0 +1 +2
Goddard 294 309 557 325 62
Bobertag 6 40 119 57 6
Réponse :
H 0 : il n’y a pas de différence entre les enfants américains et les enfants français en ce qui
concerne leur répartition dans chaque catégorie d’âge mental.
-2 -1 0 +1 +2
1547 * 0,06 = 1547 * 0,23 = 1547 * 0,48 = 1547 * 0,22 = 1547 * 0,01 =
Ej
92,82 355,81 742,56 340,34 15,47
La valeur calculée de χ 2 se situe dans la zone de rejet et l’hypothèse nulle est donc rejetée.
Les scores au test de Binet ne se distribuent donc pas de la même façon dans la population
américaine que dans la population française.
H 0 : il n’y a pas de différence entre les enfants allemands et les enfants français en ce qui
concerne leur répartition dans chaque catégorie d’âge mental.
-2 -1 0 +1 +2
Oj 6 40 119 57 6
Ej 13,68 52,44 109,44 50,16 2,28
Zone de rejet de
Zone de non rejet de l’hypothèse nulle
l’hypothèse nulle (RH0 )
(NRH0 )
9,49
La valeur calculée de χ 2 se situe dans la zone de rejet et l’hypothèse nulle est donc rejetée.
Les scores au test de Binet ne se distribuent pas de la même façon dans la population
allemande que dans la population française.
Le test χ 2 d’indépendance porte sur 2 variables catégorielles et a pour but d’évaluer si ces 2
variables sont indépendantes. L’hypothèse nulle est qu’il y a une parfaite indépendance entre
les 2 variables. La logique de ce test est la même que pour le test χ 2 d’ajustement. On
prélève un échantillon et chaque individu de l’échantillon est évalué sur 2 variables séparées.
L’échantillon de données servira pour tester une hypothèse par rapport à l’indépendance des
2 variables dans la population.
Par exemple, un groupe d’étudiants est classé en termes de personnalité (introvertie,
extravertie) et de groupe sanguin (A, B, AB, 0).
Ces données se notent dans un tableau de contingence des fréquences absolues observées.
Par exemple, pour un échantillon de 47 étudiants, on pourrait avoir le tableau suivant :
A B AB 0 total
introverti 6 7 6 6 25
extraverti 6 2 6 8 22
Total 12 9 12 14 N=47
Ces fréquences observées sont comparées aux fréquences attendues sous l’hypothèse nulle.
Ensuite, on calcule la valeur du χ 2 pour déterminer dans quelle mesure les valeurs observées
s’accordent avec les valeurs attendues et on se sert de la table de distribution de χ 2 pour
conclure à propos de l’indépendance des 2 variables examinées.
Le test χ 2 d’indépendance utilise exactement la même formule que le test χ 2 d’ajustement :
J K (O − E jk )
2
χ =∑ ∑
2 jk
j =1 k =1 E jk
Les fréquences attendues (Ejk ) se calculent sur base des fréquences marginales et de N.
D.L. = ( J − 1)( K − 1)
avec :
J= nombre de catégories de la variable A (en ligne)
K = nombre de catégories de la variable B (en colonne)
Une étude porte sur l’occurrence d’un comportement d’aide à personne en danger en fonction
du nombre d’observateurs. Les sujets sont confrontés à un individu (la victime) qui simule
une crise d’épilepsie. Les expérimentateurs observent si le sujet manifeste un comportement
d’aide à la personne en danger ou pas. La taille du groupe varie : 2 (sujet + « victime »), 3 ou
6 personnes).
D.L. = (2-1)(3-1) = 2
La valeur critique de χ 2 vaut 5,99.
J K (O − E jk )
2
χ =∑ ∑
2 jk
j =1 k =1 E jk
Un chercheur prétend que la répartition de la population sur les 4 classes de groupe sanguin
est uniforme, en d’autres termes la population se répartit sur les 4 classes de manière
identique.
Sur base des données de la variable « groupe sanguin », pouvez- vous confirmer ou infirmer
cette affirmation ?
Nous souhaitons vérifier si la distribution de la variable groupe sanguin est uniforme, ce qui
revient à dire que les 4 groupes sont équiprobables.
Réponse :
H0 = La variable groupe sanguin est distribuée uniformément sur ses quatre modalités.
Réponse :
Réponse :
Nombre de modalités de la variable « sang » - 1 = 4 – 1 = 3
Réponse :
Ainsi, nous trouver qu’à partir de 7,815 nous pourrons rejeter l’hypothèse que la
distribution du groupe sanguin sur la population est uniforme.
Réponse :
La statistique de test ( χ calculé ) valant 80,282 est largement supérieure à 7,815 ( χ théorique
2 2
);
nous pouvons donc très franchement rejeter l’hypothèse que la variable groupe sanguin
est distribuée uniformément avec un risque d’erreur nettement inférieure à 5%.
Nous souhaitons vérifier si la répartition du groupe sanguin entre les 4 classes dépend du sexe
des individus. À cet effet, considérons les 181 données de notre échantillon.
1. Quel test devrons-nous utiliser pour répondre à cette question sur base de notre échantillon
ci-dessous.
Réponse :
Un test χ 2 d’indépendance.
2. Le tableau ci-dessous est le tableau de contingence des deux variables SANG et SEXE
(O jk ). Déterminez les fréquences marginales et indiquez- les dans le tableau.
SEXE
SANG Masculin Féminin Total
A 12 61 73
B 6 16 22
AB 1 8 9
O 25 52 77
Total 44 137 181
SEXE
SANG Masculin Féminin Total
A 17,746 55,254 73
B 5,348 16,652 22
AB 2,188 6,812 9
O 18,718 58,282 77
Total 44 137 181
4. Déterminez le tableau des carrés des écarts entre les effectifs observés et attendus divisés
par les effectifs attendus ((O jk – Ejk )²/ Ejk ) :
SEXE
SANG Masculin Féminin
(12-17,746)² /
A 0,598
17.746 =1,861
B 0,079 0,026
AB 0,645 0,207
O 2,108 0,677
Réponse :
C’est la somme de toutes les cellules du tableau précédent = 6,201
6. Combien de degrés de liberté compte la loi Khi-carré que nous utilisons ici ?
Réponse :
Réponse :
À partir de χ théorique
2
= 7,815 nous pourrons rejeter l’hypothèse que les deux variables sont
indépendantes.
Réponse :
Réponse :
Nous avons vu au TP 7 que, lors de lancers d’un dé bien équilibré, le nombre de fois que le 6
sortait au cours de 5 lancers successifs suivait une loi binomiale Bi(5;1/6). Pour vérifier que
cette séquence est bien distribuée suivant une loi Bi(5; 1/6), un joueur incrédule décide de
faire 30 séries de 5 lancers successifs et dénomb re pour chaque série le nombre de fois que le
6 est sorti. Il obtient le tableau suivant reprenant le résultat des 30 séries :
1 1 2 1 1 1 0 2 1 0
1 0 0 0 1 2 2 0 1 0
0 0 1 2 1 0 1 1 0 0
Nombre Probabilité
Effectif
de sorties Effectif Effectif relatif attendue [Oj-Ej]²/Ej
attendu
du 6 Bi(5;1/6)
0 12 0,400 0,402 12,056 0,000
1 13 0,433 0,402 12,056 0,074
2 5 0,167 0,161 4,823 0,006
3 0 0,000 0,032 0,965 0,965
4 0 0,000 0,003 0,096 0,096
5 0 0,000 0,000 0,004 0,004
Total 30 1,0000 1,000 30 1,146
Réponse :
Réponse :
Réponse :
Réponse :
Réponse :
Les conditions d’application du test ne sont pas remplies. En effet, les effectifs attendus
(Ei) doivent être supérieurs à 5 or pour X=2, 3, 4 et 5 les effectifs attendus sont inférieurs
à 5.
Trente sept étudiants d’une promotion ont été répartis, en début d’année académique, de
manière strictement aléatoire dans trois séries de travaux pratiques de statistique dirigés par
trois assistants différents A1, A2 et A3. Les résultats obtenus par les étudiants de chaque série
sont notés sur 10 et regroupés dans le tableau suivant.
Afin d’étudier l’indépendance des résultats par rapport à la série d’appartenance de l’étudiant,
un chercheur fait un décompte en termes de nombre de réussites et d’échecs par série de
travaux pratiques.
Réponse :
Un test χ 2 d’indépendance.
Réponse :
H0 = Il y a indépendance entre les résultats et l’appartenance à une série de T.P.
3. Complétez le tableau ci-dessous par les effectifs observés (à partir de 5/10 le résultat est
considéré comme une réussite) :
4. Complétez le tableau de contingence ci-dessous avec les effectifs théoriques attendus sous
l’hypothèse d’indépendance.
Réponse : χ calculé
2
= 3,228
Réponse : (2 – 1)(3 – 1) = 2
8. Si le niveau d’erreur auquel nous souhaitons travailler est fixé à 5 %, déterminez la limite
séparant la zone d’acceptation et la zone de rejet de l’hypothèse d’indépendance. Placez
cette valeur sur un graphique ainsi que le χ calculé
2
.
Réponse :
χ calculé (= 3,228) < χ théorique (= 5,991). Nous ne rejetons donc pas l’indépendance entre les
2 2
deux variables. La mesure de l’écart entre les deux tableaux de contingence (observé et
attendu) n’est pas suffisamment grande que pour conclure à une différence statistique
significative entre ceux-ci. L’échec (ou la réussite) d’un étudiant est donc indépendant de
la série de travaux pratiques qu’il a suivis.
En acceptant une marge d’erreur de 5%, pourrions- nous dire qu’il y a une différence
significative entre les résultats obtenus dans notre échantillon et celui des années ’70 ?
N.B. : Pour cet exercice, nous ne vous posons pas de questions intermédiaires. Il faut
cependant que votre réponse soit complète.
Réponse :
1,04<5,99
Nous nous situons donc dans la zone de non rejet de l’hypothèse nulle. Nous ne pouvons
pas affirmer même avec une marge d’erreur de 5% que ces valeurs sont différentes.
Préférence manuelle
Gauche Droite
Gauche 20 40
Préférence oculaire
Droite 10 80
Y a-t-il une relation entre les deux variables ? Choisissez un seuil de .05.
Réponse :
Préférence manuelle
Gauche Droite Total
Gauche (30*60)/150 = 12 (120*60)/150 = 48 60
Préférence
Droite (30*90)/150 = 18 (120*90)/150 = 72 90
oculaire
Total 30 120 72
3,84<<11,11
Nous nous situons donc dans la zo ne de rejet de l’hypothèse nulle. Nous pouvons
affirmer avec un risque d’erreur maximal de 5% qu’il n’y a pas indépendance entre les
deux variables et qu’il y a donc un lien entre les deux.
Tâche
En public Sans public
Faible 4 16
Estime de soi Moyenne 14 14
Haute 18 6
Réponse :
Tâche
En public Sans public Total
Faible (36*20)/72 = 10 (36*20)/72 = 10 20
Estime de Moyenne (36*28)/72 = 14 (36*28)/72 = 14 28
soi Haute (36*24)/72 = 12 (36*24)/72 = 12 24
Total 36 36 72
5,99<13,2
Nous nous situons donc dans la zone de rejet de l’hypothèse nulle. Nous pouvons
affirmer avec un risque d’erreur maximal de 5% qu’il n’y a pas indépendance entre les
deux variables et qu’il y a donc un lien entre les deux.