You are on page 1of 26

Cheminement du dveloppement de la comptence

Connaissances
dclaratives
Connaissances procdurales et
conditionnelles

Connatre et
comprendre
Choisir Planifier laborer Utiliser

Notions et vocabulaire



Objectifs dvaluation et taxonomies



Planification de lvaluation
certificative



Modalits et instruments dvaluation



Activit intgratrice, preuve synthse
et intgration des apprentissages



tablissement dun seuil de matrise

x x x x

tablissement dun standard de
comptences



Politiques et rglements sur lvaluation
des apprentissages



Contrle de la qualit



Formation lvaluation des
comptences


14. Seuil de russite, seuil de matrise et standard de
comptence



14.1 Introduction

Aprs avoir abord dans les prcdents chapitres diverses modalits dvaluation, il est
maintenant temps de sattarder diverses mthodes pour dterminer un seuil de russite,
de matrise ou de comptence.

Avant daborder formellement la dtermination des seuils, nous reviendrons sur
linterprtation des rsultats dvaluation, quelle soit relative ou absolue. Cela nous
permettra dapprofondir ce sujet dj trait au chapitre 2. Cest aussi cette section que
seront dcrits les diffrents types de seuil que nous rencontrons dans le contexte dune
valuation interprtation absolue.

Ensuite, nous traiterons des modles dterministes et des modles probabilistes qui
provoquent la fixation des postulats derrire les choix faits quant la dtermination des
seuils. Par la mme occasion, la dimensionnalit des rsultats dvaluation sera aussi
aborde.

La description des mthodes pour tablir les seuils est ensuite prsente. Notons tout de
suite que seules les mthodes pour tablir un seuil de matrise et un seuil (standard) de
comptence sont prsentes, les mthodes de dtermination dun seuil de russite tant de
peu dintrt au regard des dfinitions des divers types de seuils. Beaucoup demphase
sera mise sur la dtermination des seuils de matrise, car ce sujet a t trait
abondamment dans les crits. Il sagit aussi de mthodes qui sont la porte de tout
enseignant dans son collge ou dans sa classe.

Malheureusement, nous ne pourrons pas aller aussi loin que nous le dsirons quant la
dtermination dun standard de comptence. Le sujet est encore trop chaud et a, ainsi, peu
t trait dune faon qui puisse produire des propositions vraiment utiles et efficaces.
Beaucoup de dveloppements sont esprer ce sujet.

Nous terminons ce chapitre en prsentant la cote de rendement au collgial, dite cote R, et
la cote Z. Il ne sagit pas de rsultats dvaluation menant directement la dtermination
de seuils, mais leur comprhension est importante dans le contexte de lenseignement
suprieur, car la cote R peut avoir des impacts sur nos pratiques valuatives en classe.
Elle pourrait aussi tre utilise pour dterminer un seuil de matrise par une des mthodes
empiriques de dtermination dun seuil de matrise.



.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 196
14.2 Interprtation de lvaluation : absolue et relative

Dans une approche par comptences, il est important de bien saisir tous les sens associs
linterprtation des rsultats de lvaluation. Cest pourquoi nous jugeons ncessaire de
faire un rappel de notions abordes plus tt dans ce manuel et de profiter de loccasion
pour pousser un peu plus loin la description des diffrentes faons dinterprter les
rsultats dvaluation en ducation.

Au dpart, les utilisateurs de lvaluation en ducation ont principalement adopt une
interprtation de lvaluation qui permettait de placer en rang, du plus faible au plus fort,
les rsultats dvaluation et, par extension, les individus valus. Cest une interprtation
qualifie traditionnellement de normative (norm-referenced). Ce qualificatif nest
toutefois pas trs explicite et, pour cette raison, nous lui prfrons lappellation de
relative.

Linterprtation relative des rsultats dvaluation a t la principale forme
dinterprtation jusqu tout rcemment. Quon pense la faon dattribuer les notes
lintrieur des cours de sciences luniversit o on transformait ces notes en scores z ou
encore en rangs centiles. Dans plusieurs cas, le professeur recevait la consigne trs claire
quil devait faire passer un certain nombre dtudiants et, malheureusement, quil devait
sassurer quun certain nombre dtudiants nobtiennent pas la note de passage. Plusieurs
dentre nous ont aussi vcu la priode o le conseiller dorientation de notre cole nous
indiquait quel rang centile nos rsultats dans diffrentes disciplines se situaient par
rapport tous les rsultats des tudiants de la province. Linterprtation tait encore cette
fois relative.

En fait, cette interprtation relative est tout fait approprie lorsquon dsire retenir les
meilleurs. Cest dailleurs ce quon fait lorsquon organise un concours et quon remet un
prix. Par exemple, on ne retiendra que les meilleures productions crites parmi les
candidatures reues au Prix du ministre de lducation. Cest aussi lutilisation quon fait
de la cote R au collgial pour raliser la slection dans les universits lintrieur de
certains programmes dtudes. Une interprtation relative est toutefois peu approprie
dans la plupart des situations en ducation. Cest pourquoi on a tendance labandonner.

Il serait ainsi peu appropri, dans plusieurs situations dvaluation, de ne retenir que les
moins pires candidats. Par exemple, il serait inquitant que les candidats recommands
la profession mdicale ou la profession infirmire soient les moins pires de leur cohorte.
Cela quivaudrait retenir ceux et celles qui oublient le moins frquemment leurs outils
dans le corps du patient suite une chirurgie ou qui font le moins derreurs lors du calcul
de la quantit de mdicaments injecter dans le sang. Laveault et Grgoire (1997, p. 171)
donnent aussi lexemple de ladministration des examens de conduite automobile o dans
une interprtation relative les moins mauvais candidats obtiendraient leur permis de
conduire.

.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 197
Ces situations ont men les chercheurs et les praticiens rechercher une stratgie
dinterprtation plus utile la certification des tudiants. Ils ont alors dvelopp des
stratgies dvaluation absolue des rsultats dvaluation en ducation. Ces travaux,
dbuts dans les annes soixante principalement par Glaser (Glaser, 1963; Glaser et
Klaus, 1962) et par Popham (Popham, 1980; Popham et Husek, 1969), ont men au
dveloppement de ce que certains nomment lvaluation critrie (criterion-referenced)
ou critrielle. Mme si la notion dvaluation critrie est plus facile communiquer, on
lui a tellement donn de significations varies, souvent contradictoires, que nous lui
prfrons maintenant la dnomination dvaluation interprtation absolue.

Dans ses dbuts, lvaluation interprtation absolue a t associe strictement la
reprsentativit dun domaine de connaissances. La tche des praticiens en valuation
consistait alors dfinir de manire exhaustive un domaine de connaissances et obtenir
un chantillon au hasard des items ou des tches reprsentatives de ce domaine de
connaissances. Ce choix au hasard des items ou des tches assurait une reprsentativit
du domaine au sens probabiliste du terme. On sassurait ainsi que des tests totalement
diffrents, mais labors partir de la mme dfinition du domaine et par une slection
au hasard des items ou tches lintrieur de ce domaine, seraient quivalents. Il ne
restait qu fixer arbitrairement un seuil de russite aux tests qui, cause de la
reprsentativit du domaine, serait le mme pour tous les tests quivalents.

On a retenu de cette priode les notes mythiques de passage de 50 % ou de 60 %. Cest ce
que nous nommons, au plus, des seuils de russite. Cette poque a t lge dor des
travaux sur la confection des tableaux de spcification. Elle a aussi t lge dor du
dveloppement des taxonomies des objectifs dapprentissage et des stratgies pour
oprationnaliser, par des items ou des tches dexamen, ces objectifs.

Llaboration des tests et des examens partir de cette conception de lvaluation
interprtation absolue ne permettait toutefois pas de statuer sur le fait quun tudiant
matrisait ou non un domaine de connaissances. Cest pourquoi linterprtation absolue a
volu de faon considrer la dtermination dun seuil de matrise (mastery-referenced,
mastery-based, standard setting, cutoff score of masters and nonmasters). La
dtermination dun seuil de matrise est toujours base sur un jugement par des experts,
gnralement les professeurs du domaine, quant ce qui est attendu dun tudiant. Le
seuil de matrise nest alors plus fix arbitrairement 50 % ou 60 %. Il est dtermin en
fonction des items ou des tches que les experts jugent quil est indispensable un
tudiant de russir pour dmontrer sa matrise.

La dtermination dun seuil de matrise ne prsuppose pas la ncessit dune slection des
items ou des tches de faon alatoire lintrieur du domaine de connaissances.
Toutefois, il faut sassurer que les tests soient quivalents pour rendre comparables les
rsultats diffrents tests valuant la matrise de ce domaine de connaissances par les
tudiants. Il peut donc tre possible que le seuil de matrise un test donn soit gal 75
% et 87 % un autre test. Cest de la responsabilit des praticiens de sassurer que
linterprtation des rsultats ces tests soit comparable, par exemple en plaant sur une
.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 198
mme chelle de mesure les deux tests. La dtermination dun seuil de matrise ne se
limite donc plus seulement sassurer quun tudiant puisse russir un certain
pourcentage ditems ou de tches reprsentatives dun domaine de connaissances. La
dtermination dun seuil de matrise a principalement connu dimportants
dveloppements dans la slection dans les universits et les collges, ainsi que dans les
entreprises.

Il est intressant de souligner que dans la pratique de lvaluation en salle de classe, et
frquemment dans les valuations nationales grande chelle (large scale assessment),
on napplique que la dtermination dun seuil de russite nos examens et travaux. De
plus, ce seuil de russite nest presque jamais reprsentatif dun domaine de
connaissances, pas plus que le domaine de connaissances na t formellement dfini par
des experts. Cest pourquoi, en empruntant le terme aux travaux sur les plans
dexprience, nous osons nommer ce type dinterprtation pseudo absolue.

De faon similaire, il arrive quun seuil de matrise soit dtermin sans quon ait
formellement dfini le domaine de connaissances. Nous qualifions ce type
dinterprtation, encore en empruntant le terme aux travaux sur les plans dexprience, de
quasi absolue. Mme ce dernier type dinterprtation est peu prs inutilis actuellement
dans nos salles de classe et dans les valuations nationales grande chelle.

La dtermination dun seuil de russite ou dun seuil de matrise ne permet toutefois pas
de statuer sur la comptence dun individu occuper un emploi ou raliser des tches
professionnelles. Actuellement, lengouement pour les approches par comptences en
ducation exige que les valuations effectues dans nos institutions denseignement,
surtout lenseignement suprieur, soient signifiantes et authentiques au regard des
activits futures de nos tudiants. On esprerait alors dterminer des standards de
performance, ou ce que nous prfrons nommer des seuils ou des standards de
comptence (competency-referenced, competency-based) pour ne pas interfrer avec le
sens donn une performance dans ce manuel.

La dtermination dun standard de comptence est actuellement une pratique qui repose
sur peu davances scientifiques. notre avis, elle est actuellement plutt artisanale. Elle
repose principalement sur la correction partir dchelles descriptives globales, quelles
soient apprciatives ou vrificatives. La dtermination dun standard de comptence pose
plusieurs problmes de taille, comme on le verra plus loin dans ce chapitre lors de la
description des principes utiliss aujourdhui pour tablir un standard de comptence.

Le tableau 14.1 offre une synthse de la description que nous venons de prsenter quant
aux divers types dinterprtation des rsultats dvaluation en ducation.
.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 199

Tableau 14.1 Interprtation des rsultats dvaluation en ducation

Interprtation Rsultat Description

Relative
(normative, norm-referenced)

Rang
Rfrence une norme de groupe (norm-
referenced)

Du meilleur au pire, position relative

Modle gnralement probabiliste et
unidimensionnalit
Pseudo absolue Seuil de russite
Note de passage artificiellement tablie 60 %,
sans avoir pralablement dfini un domaine de
connaissances

Modle probabiliste et unidimensionnalit
Quasi absolue Seuil de matrise
Seuil tabli sans avoir vraiment chantillonn au
hasard les items ou les tches dun domaine ou
assur lquivalence entre des formes
quivalentes

Modle probabiliste et unidimensionnalit
Seuil de russite
Reprsentativit du domaine (domain-
referenced)

Domaine clairement dfini et items ou tches
slectionns au hasard

Seuil toutefois fix arbitrairement, frquemment
60 %

Modle probabiliste et unidimensionnalit
Seuil de matrise

En rfrence un niveau de matrise du
domaine (mastery-referenced)

Domaine clairement dfini et items ou tches
qui ne sont pas ncessairement slectionns au
hasard

Seuil dtermin selon un ou des niveaux de
matrise

Modle probabiliste et unidimensionnalit
Absolue
(critrie,
criterion-
referenced)
Absolue
Seuil (standard) de
comptence
En rfrence un standard de performance
(competency-based)

Modle surtout dterministe actuellement
(chelle descriptive globale) et frquemment
multidimensionnel




.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 200
14.3 Modles dterministes et probabilistes et dimensionnalit des scores

Il serait dangereux daborder les mthodes de dtermination des seuils sans dcrire
certains postulats sous-jacents ces mthodes. Ces postulats renvoient directement des
familles de modles. Le premier de ces postulats est lunidimensionnalit du rsultat
dvaluation. Le second renvoie la nature dterministe ou probabiliste du rsultat
obtenu chacun des items dun examen ou des tches associes une performance ou
une production.

Premirement, on doit statuer sur la dimensionnalit du construit quon dsire valuer. La
plupart du temps, on met implicitement lhypothse que le construit valu est
unidimensionnel. Par exemple, un examen en informatique ne mesurerait quune seule
dimension, soit lhabilet en informatique dun tudiant. Cette hypothse ne signifie pas
que lexamen nvalue pas du tout dautres habilets, comme la comprhension en
lecture, lapplication dhabilets de base en mathmatiques, la propension lcriture ou
laptitude esquisser des plans. Ces dimensions doivent cependant avoir peu dimpact sur
le rsultat de ltudiant. Lhypothse dunidimensionnalit exprime plutt quon crot que
lexamen mesure principalement une seule dimension, la dimension la plus importante,
ici lhabilet en informatique. Cest ce que Nandakumar (1991) nomme
lunidimensionnalit essentielle.

Le postulat dunidimensionnalit implique quun seul score est attribu un rsultat
dvaluation. Cest la situation quon retrouve actuellement la plupart du temps en
valuation des apprentissages. Cela simplifie beaucoup linterprtation et la
communication des rsultats dvaluation. On peut ainsi dire que si un tudiant obtient un
score plus lev quun autre tudiant, son niveau dhabilet est, lui aussi, plus lev que
celui de lautre tudiant.

Il arrive que le rsultat une valuation doive plutt tre considr comme tant
multidimensionnel. Cest le cas notamment avec les preuves de personnalit utilises
pour valuer les choix de carrire chez les tudiants. Ces preuves reposent sur le postulat
que la personnalit est constitue de plusieurs facettes (multidimensionnalit) et que le
profil de ces constituantes prdispose ltudiant mieux russir et mieux se dvelopper
professionnellement lintrieur de mtiers spcifiques.

La dtermination de standards de comptences peut aussi poser le problme ventuel de
lexistence de la multidimensionnalit du construit valu. Pensons lvaluation de la
comptence enseigner au collgial qui serait value lintrieur dune preuve
synthse administre la fin dun programme de formation lenseignement suprieur.
La comptence enseigner exige des comptences valuer les apprentissages, raliser
la prestation de cours, rdiger du matriel de cours, participer des tches
administratives, etc. Il est alors difficile dimaginer la comptence enseigner comme
tant unidimensionnelle.

.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 201
Face cette situation, la dtermination de standards de comptence peut ventuellement
poser de srieux dfis. Il est assez difficile dinterprter le rsultat obtenu un construit
multidimensionnel et de le communiquer clairement. En fait, on ne peut plus dire que si
un tudiant obtient un score plus lev quun autre tudiant, son niveau de comptence
est, lui aussi, plus lev que celui de lautre tudiant. On peut alors tre tent de se
contenter dattribuer uniquement un succs ou un chec lvaluation. On abordera plus
loin, de faon timide toutefois, la dtermination dun standard de comptence.

Le second postulat qui nous intresse ici est la nature dterministe ou probabiliste du
rsultat obtenu un item un examen ou une tche associe une production ou une
performance. Pour pouvoir comprendre les implications de ce postulat, il faut tout
dabord accepter que les items dun examen ou les tches dune production ou dune
performance soient de niveaux de difficult variables. Bien sr, on le comprendra, cela
implique encore quil y a unidimensionnalit quant lordonnancement du niveau de
difficult des items ou des tches. Sans cela, il serait impossible de placer les items ou les
tches selon un ordre de difficult.

On dit quun rsultat est de nature dterministe (Guttman, 1944, 1952) lorsque la
probabilit de russir un item ou une tche est nulle (p =0) si le niveau dhabilet ou de
comptence dun tudiant est sous une valeur critre, associe au niveau de difficult de
litem de la tche, et que cette probabilit est certaine (p =1) si le niveau dhabilet ou de
comptence de ltudiant est au-dessus de la valeur critre. La figure 14.1a illustre la
probabilit dobtenir une bonne rponse trois items en fonction du niveau dhabilet
dun tudiant (thta). Le niveau dhabilet est ici transform en score z. On remarquera
que les trois items sont en ordre de niveau de difficult : le plus facile est celui qui est
russi par tous les tudiants dont le niveau dhabilet est gal ou suprieur 1,00; le plus
difficile est celui qui est russi par tous les tudiants dont le niveau dhabilet est gal ou
suprieur 1,00.

Le postulat dterministe exprime lhypothse leffet que si un tudiant russit litem le
plus difficile (b =1,00), il russira tous les items plus faciles (b =-1,00 et 0,00). Cest
pourquoi on qualifie les modles qui reposent sur ce postulat de dterministes. La figure
14.1a illustre cette caractristique. Le tableau 14.2 prsente aussi une illustration dun
modle dterministe. On y remarque que lorsque les items sont placs par ordre
ascendant du niveau de difficult, tous les items sous un certain niveau de difficult sont
russis sans exception.

Le postulat dterministe est toutefois quelque peu surraliste la plupart du temps en
ducation. Ce nest pas parce quun tudiant a russi un item ou une tche dun certain
niveau de difficult quil va russir tous les autres plus faciles. Il peut chouer un item
ou une tche plus facile tout simplement suite une erreur de sa part : il a lu les
consignes trop rapidement, un vnement incontrlable sest produit, son attention a t
dtourne momentanment, etc. Cest pourquoi on a propos une explication dite
probabiliste (Lord, 1952, 1980; Lord et Novick, 1968; Rasch, 1960) du succs ou de
lchec un item ou une tache.
.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 202

La figure 14.1b illustre une conception probabiliste du succs ou de lchec aux mmes
items, items qui ont encore le mme niveau de difficult. On y remarque que la
probabilit de russir chacun des items nest pas limite aux valeurs 0 et 1 : elle varie
plutt entre ces deux valeurs. La russite de litem est nulle lorsque le niveau dhabilet
de ltudiant est trs faible et certaine lorsquil est trs lev. Le tableau 14.2 permet aussi
de comparer les patrons de rponses prdits par les modles de type dterministe et de
type probabiliste. On remarque que dans le modle probabiliste le patron de rponses
nimplique pas quun tudiant qui a russi un item dun certain niveau de difficult va
russir tous les autres plus faciles.





0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
-5,00 -3,00 -1,00 1,00 3,00 5,00
Thta
P
(
u
=
1
|
T
h

t
a
,

b
)
b =-1,00
b =0,00
b =1,00


14.1a

0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
-5,00 -3,00 -1,00 1,00 3,00 5,00
Thta
P
(
u
=
1
|
T
h

t
a
,

b
)
b =-1,00
b =0,00
b =1,00


14.1b
Figure 14.1 Modles dterministes et probabilistes unidimensionnels




Tableau 14.2 Modles dterministes et probabilistes unidimensionnels

Modle Patron de rponses
1

Dterministe 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
2

Probabiliste 1 0 1 1 0 0 1 0 0 1 1 0 0 0 0 0
1. Les items de chacun des patrons de rponses sont illustrs en plaant les items en ordre de niveau de
difficult : du plus facile au plus difficile.
2. 1 correspond une bonne rponse litem et 0, une mauvaise rponse.






.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 203
14.4 Mthodes pour tablir un seuil de matrise

Plusieurs mthodes ont t proposes pour tablir un seuil de matrise. On doit noter que
toutes ces mthodes ont t labores principalement en lien avec des items rponse
choisie et des items rponse construite simple. Elles sappliquent donc surtout des
examens. Les tentatives dapplication des items rponse construite labore, quelle
soit simple ou complexe, ont t peu nombreuses.

Hambleton (1980, p. 103-107) propose dorganiser ces mthodes selon trois catgories :
apprciative (judgmental), empirique (empirical) ou mixte (combination). Le tableau 14.3
prsente les diverses mthodes qui ont t proposes par divers auteurs lintrieur de
chacune de ces catgories. Nous allons dcrire brivement ce que visent ces mthodes en
fonction de la catgorie laquelle elles appartiennent. Par la suite, nous allons prsenter
des exemples pour chacune de ces catgories. Enfin, pour illustrer la variation des seuils
selon la mthode utilise, une comparaison de trois mthodes apprciatives sera
prsente.



Tableau 14.3 Mthodes pour tablir un seuil de matrise
1

Catgorie
Apprciative Empirique Mixte
Nedelsky (1954)
Angoff (1971)
Angoff modifie (ETS, 1976)
Ebel (1979)
J aeger (1978)
Millman (1973)
Mthode du signet (Lin, 2003)
J ugement analytique (Abbon,
2003)
Livingston (1975)
Livingston (1976)
Van der Linden et
mellenbergh (1977)
Kriewall (1972)
Groupes contrasts (Zieky et Livingston, 1977)
Groupes limites (Zieky et Livingston, 1977)
Consquences ducatives Block (1972)
Baysienne de Hambleton et Novick (1973)
Baysienne de Schoon, Gullion et Ferrara
(1978)
1 Adapt de Hambleton (1980).



14.4.1 Mthodes apprciatives

Les mthodes apprciatives exigent la participation de juges experts de la discipline ou
du sujet valuer. Ces experts doivent valuer, selon diverses approches, comment se
comporteront les tudiants chacun des items dun test. Nous prsenterons le dtail de la
procdure suivre de quatre mthodes : celles dAngoff (1971), de J aeger (1978), dEbel
(1979) et de Nedelsky (1954).

La mthode dAngoff exige que chaque expert analyse chaque item et estime la
proportion dtudiants (p) minimalement comptents qui russiraient litem. La somme
.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 204
des probabilits ainsi calcules chaque item devient la valeur associe au seuil de
matrise au test pour un tudiant minimalement comptent. La mthode dAngoff a t
amliore lEducational testing service (ETS, 1976) par lajout de priodes (sessions)
o les experts peuvent comparer leurs estimations. Aprs trois ou quatre priodes de
comparaisons, un estimateur final de la proportion dtudiants minimalement comptents
qui russiraient chacun des items est obtenu. On calcule alors la somme de ces
probabilits aux n items pour obtenir la valeur du seuil de matrise au test :

n
i
i Angoff
p Seuil
1
. quation 14.1


La mthode dAngoff est fort simple utiliser, peut facilement subir des modifications
qui en amliorent la prcision et est, pour ces raisons, trs utilise. Un peu plus loin dans
ce chapitre, lors de la comparaison des mthodes apprciatives, on verra que cest une des
mthodes les plus appropries la dtermination dun seuil de matrise.

J aeger a propos une mthode encore plus simple que celle dveloppe par Angoff. La
procdure est simplifie par rapport la mthode dAngoff en nexigeant des experts que
dindiquer, pour chacun des items, si tous les tudiants minimalement comptents
russiraient ou non litem. Comme la mthode modifie dAngoff, la mthode de J aeger
est itrative et exige que les experts reconsidrent leur jugement plusieurs reprises. Le
seuil de matrise correspond au nombre total ditems dont la russite serait assure par
des tudiants minimalement comptents :

n
i
i Jaeger
x Seuil
1
, quation 14.2


o x
i
prend la valeur de 1 si litem i devrait tre russi par un tudiant minimalement
comptent et la valeur de 0 dans le cas contraire. On calcule ensuite la moyenne de la
valeur obtenue par chaque expert.

La mthode dEbel est probablement la plus complexe des mthodes apprciatives
utiliser. Dailleurs, on semble la retrouver moins frquemment dans les crits. Elle
prsente toutefois lavantage de susciter une analyse plus approfondie de chaque item
dun test et ainsi daborder la validit de contenu de chaque item.

Ebel propose de crer un tableau double entre o les colonnes sont constitues par
diffrents niveaux de difficult des items et les ranges par des niveaux de pertinence
associs chacun des items. Le tableau 14.4 est un exemple de ce type de grille o nous
avons retenu trois niveaux de difficult (d) et quatre niveaux de pertinence (p).
.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 205

La tche des experts est effectue en trois tapes. En premier lieu, ils tablissent la
proportion dtudiants (p) minimalement comptents qui russiraient un item caractris
par un niveau de difficult et de pertinence spcifique. Dans une seconde tape, les
experts identifient les items du test qui sont associs chacune des cases de la grille. la
troisime et dernire tape, le seuil de matrise est obtenu par le calcul de la somme des
proportions multiplies par le nombre ditems caractristiques de chacune des cases :


( )

p
i
d
j
ij ij Ebel
p n Seuil
1 1
*
. quation 14.3


Cette valeur est gnralement reporte en pourcentage : au tableau 14.4, puisquil y a 33
items, le seuil de matrise du juge expert devient alors gal 48,79 %. Comme pour la
mthode dAngoff, on calcule ensuite la moyenne de la valeur obtenue par chaque expert.




Tableau 14.4 Exemple dapplication dune grille dapprciation utilise avec la mthode
dEbel (1979)

Niveau de difficult (d)
Niveau de pertinence (p) Facile Intermdiaire Difficile Total
Essentiel p 0,90
1
0,70 0,25
Items 01
2
, 02, 10, 29 07 09, 23, 24, 25
n 4 1 4
( )
ij ij
p n * 4 * 0,90 =3,60 0,70 1,00 5,30
Important p 0,85 0,65 0,30
Items 04, 30 11 05, 18, 19
n 2 1 3
( )
ij ij
p n * 1,70 0,65 0,90 3,25
Acceptable p 0,70 0,50 0,20
Items 16, 17 06, 13, 22 20, 21
n 2 3 2
( )
ij ij
p n * 1,40 1,50 0,40 3,30
Questionnable p 0,60 0,50 0,15
Items 08, 15, 31, 32, 33 14 03, 12, 26, 27, 28
n 5 1 5
( )
ij ij
p n * 3,00 0,50 0,75 4,25
Total 9,70 3,35 3,05 16,10
48,79 %
1. Proportion dtudiants minimalement comptents qui russiraient ce type ditem.
2. Numro identifiant chaque item.

.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 206
La mthode de Nedelsky (1954) est probablement la plus ancienne procdure qui ait t
suggre pour dterminer un seuil de matrise un test (J aeger, 1989, p. 495). Cette
mthode prsente la particularit de tenir compte de toutes les options de rponse
proposes un item rponse choisie. Les experts doivent dterminer, pour chaque item,
quelles options de rponse un tudiant minimalement comptent pourrait liminer de ses
choix de rponse. Une statistique que Nedelsky nomme le niveau de passage minimal
(minimum pass level), npm, est ensuite calcule : la valeur inverse du nombre de choix de
rponse restants,

o
n
npm

1
1
. quation 14.4


Le tableau 14.5 donne des exemples de la valeur du niveau minimum de passage pour des
items dont le nombre de choix de rponse restants varie entre 1 et 5, des valeurs ralistes
dans la pratique de llaboration ditems rponse choisie.



Tableau 14.5 Niveau de passage minimal en fonction du nombre de choix de rponse
restants
1


Nombre de choix de rponse restants
) 1 (
o
n
Niveau de passage minimal (
o
n 1
1
)
5
4
3
2
1
0,20
0,25
0,33
0,50
1,00
1. Adapt de Hambleton (1980, p. 106).



Comme pour les mthodes de J aeger et dAngoff, il ne reste plus qu calculer la somme
de niveau de passage minimal de chaque item pour obtenir le seuil de matrise au test
pour chacun des experts et, par la suite, calculer la moyenne de ces seuils.

Le seuil de matrise tabli par chaque expert est gal :

n
i
i Nedelsky
npm Seuil
1
. quation 14.5

.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 207
Nous terminons cette section sur les mthodes apprciatives en signalant que J aeger
(1989, p. 493) qualifie aussi ces mthodes dapprciation, pour des raisons assez
videntes, de mthodes centres sur le test. En fait, selon nous, il serait encore plus
pertinent de dire que ce sont des mthodes centres sur les items. Vous aurez aussi not
que ces mthodes sont aussi centres sur la reprsentativit dun domaine de
connaissances et, par extension, sont de type probabiliste. Elles reposent aussi sur le
postulat que lhabilet mesure est unidimensionnelle.


14.4.2 Mthodes empiriques (critre externe)

Livingston (1975, 1976), van der Linden et Mellenbergh (1977), ainsi que Kriewall
(1972) ont propos des mthodes de dtermination du seuil de matrise dites empiriques,
car elles reposent sur lobservation du niveau de matrise en cours dexercice. Il peut
sagir dobservations en cours demploi ou une tape denseignement ultrieure. Cest
pourquoi ces mthodes ont surtout t employes pour la slection de personnel ou de
candidats. On les utilise peu en valuation des apprentissages, quoiquelles seraient de
plus en plus intressantes dans le contexte de certaines approches par comptences o on
dsire sassurer que ltudiant pourra satisfaire aux exigences des employeurs ou pourra
russir luniversit plus tard.

Nous naborderons pas ici ces mthodes, car elles sont actuellement difficiles utiliser
par un enseignant qui a habituellement peu de chances davoir accs des informations
sur les comptences de ses anciens tudiants en emploi ou sur le cheminement scolaire
un ordre denseignement suprieur. titre indicatif, toutefois, nous dsirons souligner
quil est trs facile dutiliser les mmes mthodes de dtermination du seuil de matrise
qui seront prsentes la section suivante concernant les mthodes mixtes.


14.4.3 Mthodes mixtes

Zieky et Livingston (1977 : voir J aeger, 1989, p. 496-497) ont propos une approche pour
dterminer un seuil de matrise un test quils ont nomm la mthode du groupe limite.
Le procd diffre, comme celui des groupes contrasts que nous aborderons tout de suite
aprs, principalement du fait quil est maintenant centr sur les tudiants plutt que sur
les items du test.

La premire tape effectuer par des experts consiste dfinir, par des exemples et une
description de comportements observables, trois catgories de comptences dans le
domaine de connaissance valuer : incomptence, cas limite et comptence. Les experts
identifient ensuite des tudiants qui, selon eux, sont reprsentatifs de ces catgories. Bien
sr, cette opration est ralise avant dadministrer le test. Le test est alors administr
uniquement aux tudiants identifis comme tant reprsentatifs de la catgorie des cas
limites. La moyenne du rsultat obtenu au test par les tudiants identifis comme
appartenant la catgorie des cas limites est alors utilise en tant que seuil de matrise.
.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 208
Zieky et Livingston (1977 : voir J aeger, 1989, p. 497) ont aussi propos une autre
approche pour dterminer un seuil de matrise un test : la mthode des groupes
contrasts. Comme pour la mthode du groupe limite, la mthode des groupes contrasts
est centre sur les tudiants plutt que sur les items dun test. Dans cette mthode, des
experts identifient encore les trois mmes catgories dtudiants : incomptence, cas
limite et comptence. Ensuite, ils assignent les tudiants ces trois catgories. Lorsque
tous les tudiants ont t classifis, le test est administr uniquement aux tudiants
incomptents et comptents. Cette fois-ci, les cas limites ne sont pas utiliss. Le calcul du
seuil de matrise est bas sur la distribution de probabilit du rsultat obtenu au test par
tous les tudiants, sauf les cas limites.

Plusieurs mthodes ont t suggres pour tablir le seuil de matrise partir de cette
distribution du rsultat au test. Par exemple, Hambleton et Eignor (1980 : voir J aeger,
1989, p. 497) proposent de dterminer le seuil partir de lintersection de la distribution
du rsultat dans lchantillon appartenant la catgorie des tudiants dits pralablement
incomptents par les experts et de la distribution du rsultat dans lchantillon
appartenant la catgorie des tudiants dits comptents. Ainsi, si on suppose que les
rsultats au test se distribuent selon une loi normale, ) , ( N , la probabilit quun rsultat
se situe entre (y - c) et (y + c), o c est une constante qui permet dviter que la
probabilit dobtenir le rsultat x soit nulle, est gale :

,
_

1
1
]
1

c y
c y
s
x x
x
dx e
s
x f
x
2
2
1
2
1
) (

. quation 14.6


Lintersection entre les deux distributions de probabilit, ) , (
a
s a N et ) , (
b
s b N , est situe au
point o la probabilit dun rsultat est gale et, ainsi, au point o :


0 ) ( ) ( b f a f
. quation 14.7


La solution cette fonction ne peut pas tre obtenue directement et ncessite lutilisation
dune approximation numrique. La fonction prsentant un comportement assez rgulier,
une mthode danalyse numrique assez simple permet dobtenir la solution aprs
seulement deux ou trois itrations en utilisant les moyennes des deux distributions de
probabilit comme valeurs de dpart. Nous avons utilis ici la mthode de la scante
(Yakovitz et Szidarovszky, 1986, p. 199-203) o une solution approche peut tre
obtenue chaque itration par :


.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 209
) (
) ( ) (
) (
a b
a f b f
a f
a x
n


. quation 14.8


La figure 14.2 prsente un exemple o la moyenne des tudiants de la catgorie des
incomptents a obtenu un rsultat moyen de 60,00 avec un cart type de 10,00, tandis que
la moyenne du groupe des tudiants dits comptents est gale 80,00 avec un cart type
de 7,00. Aprs seulement 3 itrations on obtient une valeur du seuil de matrise qui ne
variera presque plus et qui se maintiendra environ 70,44. Nous avons ralis les calculs
avec Excel, logiciel qui ajuste automatiquement la valeur de la constante c. On peut avoir
accs la feuille de calcul et effectuer des oprations avec dautres valeurs ladresse
suivante : http://www.nobel.er.uqam.ca/r17165/ENSEIGNEMENT/FTP7550/MANUEL/Livinston_seuil.xls.




0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,00 20,00 40,00 60,00 80,00 100,00
Habilet
P
r
o
b
a
b
i
l
i
t

N(60, 10)
N(80, 7)
b
a
x


x1 x2 x3
a 80,00 60,00 68,60
b 60,00 68,60 72,63
f(a) 0,05 -0,04 -0,01
f(b) -0,04 -0,01 0,01
x 68,60 72,63 70,44

Figure 14.2 Dtermination du seuil de matrise par la mthode des groupes contrasts



.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 210
14.4.4 Comparaison de diverses mthodes apprciatives

Certaines tudes ont t ralises quant lefficacit compare des diverses mthodes de
dtermination dun seuil de matrise par les mthodes dapprciation. Par exemple, Cross,
Impara, Frary et J aeger (1984) ont compar les mthodes dAngoff, J aeger et Nedelsky.
Ils ont demand des experts de dterminer un seuil partir de ces trois mthodes. Ils
leur ont aussi demand de reconsidrer leur choix deux autres occasions (sessions) suite
une discussion commune sur le rsultat antrieur de leur travail.

Lanalyse de leurs rsultats, prsents au tableau 14.6, permet de constater que, pour un
mme test, la valeur moyenne du seuil de matrise, x , varie considrablement en fonction
de la mthode de dtermination du seuil. Par exemple, la mthode de J aeger amne
constamment une valeur suprieure du seuil par rapport aux mthodes dAngoff et de
Nedelsky. Cest la mthode de Nedelsky qui fournit la valeur moyenne la plus faible.
Bien sr, le pourcentage dchecs ultrieurs au test varie en fonction du seuil de matrise
retenu : plus le seuil est lev, plus le pourcentage dchecs est lev. La dtermination
du seuil de matrise par ces trois mthodes ne doit donc pas tre ralise de manire
interchangeable.

Le tableau 14.6 permet aussi de constater que la prcision de la procdure de
dtermination du seuil de matrise, telle que mesure par le coefficient de fidlit,
xx
r , est
constamment plus leve avec la mthode dAngoff. On atteint mme des valeurs assez
leves llmentaire aux 2
e
et 3
e
sessions (0,82 et 0,78).

On peut aussi remarquer que le fait de recommencer la procdure de dtermination du
seuil de matrise, aprs discussion commune, naugmente pas toujours beaucoup la
prcision de la valeur obtenue. Dans le cas de la mthode dAngoff, dailleurs, il ne
semble pas utile de faire de nouveau lexercice de dtermination du seuil une 3
e
session.

Selon une analyse comparative faite par J aeger (1989, p. 498-499), la mthode dEbel a
tendance fournir une valeur du seuil de matrise plus leve que celle fournie par la
mthode dAngoff. Selon ces rsultats, il serait possible que la valeur du seuil de matrise
calcule par la mthode dEbel soit comparable celle obtenue par la mthode de J aeger.
partir de cette analyse, nous navons toutefois pas dinformation quant la variabilit
et la fidlit de la mthode dEbel.

Suite aux rsultats obtenus par Cross et collab. (1984), ainsi que par J aeger (1989), il
semble opportun de recommander lutilisation de la mthode dAngoff. Cest elle qui
permet dobtenir la plus grande prcision aprs seulement deux sessions de travail de la
part des experts.





.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 211

Tableau 14.6 Comparaison des seuils de matrise obtenus partir de trois mthodes
apprciatives
1


Mathmatiques lmentaire
Session Session
Mthodes 1 2 3 1 2 3
Angoff x 44,90 36,73 36,37 56,68 51,32 46,20

x
s 9,34 7,44 10,09 19,35 11,19 18,29

checs (%)
70,00 56,00 55,00 71,00 60,00 49,00

xx
r 0,53 0,81 0,74 0,63 0,82 0,78
J aeger x 60,33 57,00 47,00 70,91 70,67 58,67

x
s 13,94 12,21 14,11 10,52 13,17 16,68

checs (%)
93,00 88,00 76,00 95,00 95,00 75,00

xx
r 0,52 0,63 0,53 0,38 0,61 0,62
Nedelsky x 37,87 28,41 27,65 27,54 29,54 25,42

x
s 19,15 10,50 12,66 21,23 18,49 14,01

checs (%)
57,00 42,00 39,00 17,00 19,00 14,00

xx
r 0,45 0,62 0,53 0,38 0,38 0,51
1 Adapt de Cross, Impara, Frary et Jaeger (1984, p. 120-124).



14.5 Standard de comptence

Comme nous lavons soulign la section traitant des seuils de russite, des seuils de
matrise et des standards de comptence, la dtermination dun standard de comptence
est relativement rcente et pose beaucoup de dfis. Nous allons proposer ici quelques
pistes qui sont, nous en sommes bien conscients, bien insuffisantes pour vraiment rendre
compte de latteinte dune comptence. Ce ne sera quun dbut.

Nous allons proposer ici une dmarche de dtermination dun standard de comptence de
nature dterministe, qui peut ventuellement reposer sur un construit multidimensionnel.
Certains diraient que la dmarche propose est qualitative, plutt que quantitative. Cest,
en partie, vrai. Toutefois, nous esprons en arriver ventuellement une dmarche qui
offre plus de potentiel quant des oprations de nature quantitative. De plus, mme si
nous prconisons lutilisation dune correction objective, la dmarche propose pourra
aussi, au besoin, tre applique une correction subjective.

La dtermination dun standard de comptence repose sur llaboration dune chelle
descriptive globale dapprciation ou de vrification. Lutilisation dune chelle
descriptive globale de vrification permet toutefois dappliquer une correction objective.
Nous tenons souligner que la dmarche nest toutefois pas linaire, car on peut effectuer
des allers retours et ainsi modifier ce qui a t fait une tape antrieure.

.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 212
Pour laborer une chelle descriptive globale de vrification, il faut au dpart laborer
une liste de vrification et/ou des chelles descriptives analytiques de vrification pour
chacun des comportements observables qui sont des manifestations de la comptence
valuer.

Ce matriel en main, il sagit ensuite didentifier des exemples (examplars de Gitomer,
1993) qui reprsentent les niveaux de comptence viss. Il sagit dune performance type,
dune copie type ou dune production type de chacun des niveaux de la comptence. Il
nest pas toujours facile didentifier plusieurs niveaux de comptences. Cest pourquoi on
se limite souvent aux niveaux Incomptence Comptence. On pourrait toutefois penser
la squence suivante de niveaux : E) Incomptence D) Comptence minimale C)
Comptence former des pairs B) Pense rflexive sur la comptence A)
Dveloppement alternatif autour de la comptence.

Il faut ensuite dcrire chacun de ces niveaux de comptence pour ensuite laborer une
liste de vrification et/ou des chelles descriptives analytiques de vrification. On pourra,
par la suite, laborer une chelle descriptive globale de vrification.

Ce type de dmarche de dtermination dun standard de comptence fait toutefois surgir
de grands problmes propre notre notre systme ducatif. Ainsi, il sera trs difficile
dappliquer cette dmarche lintrieur dun cours puisque les systmes dinformation de
nos institutions denseignement ne conservent que la note finale un cours : toute la
description est alors perdue. Un tudiant qui obtiendrait un D, pourtant comptent selon
le paragraphe prcdent, serait vu comme un tudiant trs faible. En plus, le public et les
employeurs nauront pas accs toutes ces informations : en quoi donc est-ce utile de
dterminer un standard de comptence, si ce dernier nest pas communiqu dans son
entiret ses utilisateurs : tudiants, employeur ou autres institutions denseignement.
Enfin, un standard de comptence naura de sens que sil est intgr lensemble de
lvaluation des comptences dun tudiant lintrieur dun programme dtudes. Il ne
peut sagir dun lment isol dans un seul cours et il faut penser une intgration totale
des valuations dans le programme dtudes.



14.6 Cote de rendement au collgial et cote Z

Pendant de nombreuses annes, les universits, lintrieur de certains programmes
dtudes contingents, utilisaient le score z pour slectionner les meilleurs tudiants en
provenance des cgeps et collges privs du Qubec. La cote z calcule tait une
moyenne de tous les scores z obtenus par ltudiant dans tous les groupes cours auxquels
il avait t inscrit.

Cette mthode de slection a t critique plusieurs reprises. Le principal argument en
sa dfaveur tait que si un tudiant gnralement fort frquentait un cgep, ou un collge
priv, o il ctoyait des tudiants potentiellement forts aussi, sa cote z allait en souffrir. Il
.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 213
aurait alors moins de chances dtre admis dans un programme contingent luniversit
par la suite.

Il fallait donc mettre au point une statistique qui pallierait cette lacune et qui tiendrait
ainsi compte des rsultats scolaires lentre du cgep ou du collge priv. Cest ce qui a
amen le Service rgional dadmission du Montral mtropolitain (SRAM), en
collaboration avec les universits du Qubec, mettre au point la cote R (cote de
rendement au collgial).

La cote de rendement au collgial ne tient pas seulement compte de la position dun lve
lintrieur de son propre groupe cours, mais aussi de la position des membres du groupe
cours par rapport tous les lves de la province. La formule utilise est la suivante :


) 5 ( 5 + + IFG Z CRC
. quation 14.9


Z correspond la cote z traditionnelle :


gc
gc
S
X X
Z

, quation 14.10


o X est le rsultat final de llve au cours,
gc
X est la moyenne des rsultats de tous les
lves du groupe cours et
gc
S est lcart type des rsultats de tous les lves du groupe
cours.

Loriginalit de la cote de rendement au collgial tient la correction effectue par la
variable IFG, soit lindice de force du groupe, qui est calcul comme suit :


s
M
s
S
M
IFG
75

. quation 14.11


Dans cette formule,
s
M correspond la moyenne de la moyenne des rsultats au
secondaire de tous les lves du groupe cours, tandis que
s
M
S est une approximation de
.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 214
lcart type de cette moyenne dans la population de tous les lves du secondaire. Plus
prcisment,
s
M
S est obtenu comme suit :


s
M
s
M
s
M
M S
M S
M S
s
s
s

<
>
75 si 18
88 75 si 14
88 si 10
quation 14.12


Lindice de force du groupe correspond alors une approximation dune cote Z associe
au groupe cours cette fois-ci.

noter que les deux constantes de 5 utilises dans lquation 1 ne servent qu sassurer
que la cote de rendement variera entre 0 et 50. Il faut aussi souligner quau collgial,
lorsquun lve obtient un rsultat infrieur 30 lintrieur dun cours, on fixe
arbitrairement son rsultat 30. Cest la pratique de la Direction responsable de
lenseignement collgial au ministre de lducation du Qubec.



Tableau 14.7 Exemple du calcul de la cote de rendement au collgial et comparaison
avec la cote Z


Supposons un lve qui aurait obtenu un rsultat de 75 % dans un cours de
mathmatiques. Si la moyenne des rsultats des lves du groupe cours est gale 72 %
et que lcart type est de 10, la cote Z de llve serait de 0,30. Cela correspond un
lve somme toute assez moyen. Toutefois, supposons que la moyenne des moyennes des
notes au secondaire des lves de ce groupe cours est gale 90 %, lindice de force du
groupe est alors gal 2,5 et la cote de rendement atteint une valeur de 39, soit une valeur
trs leve. De moyen, le rsultat de cet lve passe trs lev. Cest un bel exemple de
limpact que peut avoir la force du groupe sur le rsultat dun lve.




Pour terminer cette prsentation de la cote de rendement au collgial, soulignons une fois
de plus quil sagit dun bel exemple dune interprtation relative des rsultats
dvaluation dun tudiant. On ne recherche pas savoir si un tudiant atteint un seuil de
matrise ou un standard de comptence. On ne sintresse qu slectionner les tudiants
dont la cote R est la plus leve.
.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 215
14.7 Questions et exercices


14.8 Pistes de recherche


14.9 Lectures complmentaires

Abbon, M. (2003). Standard setting for complex performance assessment: a critical
examination of the analytic judgment method. Paper presented at the Canadian Society
for the study in education, Halifax, NOVA SCOTIA.

Angoff, W. H. (1971). Scales, norms, and equivalent scores. Dans R. L. Thorndike (d.) :
Educational measurement. Washington, DC : American Council on education.

Berk, R. A. (1976). Determination of optimal cutting scores in criterion-referenced
measurement. Journal of experimental education, 45, 4-9.

Berk, R. A. (1980). Criterion-referenced measurement : the state of the art. Baltimore,
MD : J ohns Hopkins Press.

Berk, R. A. (1986). Performance assessment : methods and applications. Baltimore,
MD : J ohns Hopkins Press.

Block, J . H. (1972). Student learning and the setting of mastery performance standards.
Educational horizons, 50, 183-190.

Buckendahl, C. W., Lawrence, I., Feigenbaum, M., J irele, T., Lewis, C. et van Essen, T.
(2002). A comparison of Angoff and bookmark standard setting methods. Journal of
educational measurement, 39(3), 253-263.

Chi, E. (2001). Comparing holistic and analytic scoring for performance assessment.
Journal of applied measurement, 2(4), 379-388.

Cizek, G. J . (2001). Setting performance standards: concepts, methods, and perspectives.
Mahwah, NJ : Lawrence Erlbaum Associates.

Clauser, B. E., Swanson, D. B. et Harik, P. (2002). Multivariate generalizabiliy analysis
of the impact of training and examinee performance information on judgments made
in an Angoff-style standard-setting procedure. Journal of educational measurement,
39(4), 269-290.

Comit de gestion des BEC (1996). La validation du modle de la cote de rendement au
collgial aux fins de ladmission dans les universits. Montral, QUBEC : Comit
de gestion des bulletins dtudes collgiales.
.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 216

Comit des sciences de la nature (1997). Le choix dun collge a-t-il une influence sur la
cote R finale dun tudiant? Montral, QUBEC : cgep du Vieux-Montral.

Cross, L. H., Impara, J . C., Frary, R. B. et J aeger, R. M. (1984). A comparison of three
methods for establishing minimum standards on the National teacher examinations.
Journal of educational measurement, 21(2), 1130129.

Ebel, R. L. (1979). Essential of educational measurement. Englewood Cliffs, NJ :
Prentice-Hall.

ETS (1976). Report on a study of the use of the National teachers examination by the
state of South Carolina. Princeton, NJ : Educational testing service.

Gingras, M. (1996). La cote R rhabilite. Montral, QUBEC : cgep du Vieux-
Montral.

Gitomer, D. H. (1993). Performance assessment and educational measurement. Dans
R. E. Bennett et W. C. Ward (ds) : Construction versus choice in cognitive
measurement Issues in constructed response, performance testing, and portfolio
assessment. Mahwah, NJ : Lawrence Erlbaum Associates.

Glaser, R. (1963). Instructional technology and the measurement of learning outcomes:
some questions. American psychologist, 18, 519-521.

Glaser, R. et Klaus, D. J . (1962). Proficiency measurement: assessing human
performance. Dans R. M. Gagn (d.) : Psychological principles in system
development. New York, NJ : Holt, Rinehart and Winston.

Green, D. R., Trimble, C. S. et Lewis, D. M. (2003). Interpreting the results of three
different standard-setting procedures. Educational measurement: issues and practice,
22(1), 22-32.

Guttman, G. (1944). A basis for scaling qualitative data. American sociological review, 9,
139-150.

Guttman, L. A. (1950). The basis for scalogram analysis. Dans S. A. Stoufer, F. A.
Suchman, P. F. Lazarsfeld, S. A. Star et J . A. Clausen (ds): Studies in social
psychology in World War II : Vol. 4. Measurement and prediction. Princeton, NJ :
Princeton University Press.

Hambleton, R. K. (1980). Test score validity and standard-setting methods. Dans R. A.
Berk (d.) : Criterion-referenced measurement : the state of the art. Baltimore, MD :
J ohns Hopkins Press.

.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 217
Hambleton, R. K. et Fennessy, L. M. (1994). Technical advances in credentialing
examination development. Dans D. Laveault, B. D. Zumbo, M. E. Gesaroli et M. W.
Boss (ds) : Modern theories of measurement - Problems and issues. Ottawa,
ONTARIO : University of Ottawa.

Hambleton, R. K. et Novick, M. R. (1973). Toward an integration of theory and method
for criterion-referenced tests. Journal of educational measurement, 10, 159-170.

Hambleton, R. K. et Rogers, H. J . (1990). Advances in criterion-referenced measurement.
Dans R. K. Hambleton et J . N. Zaal (ds) : Advances in educational and psychological
testing. Boston, MA : Kluwer.

Hurtz, G. M. et Auerbach, M. A. (2003). A meta-analysis of the effects of modificatons
to the Angoff method on cutoff scores and judgment consensus. Educational and
psychological measurement, 63(4), 584-601.

J aeger, R. M. (1978). A proposal for setting a standard on the North Carolina high
school competency test. Communication prsente au congrs annuel de la North
Carolina Association for research in education tenu Chapel Hill.

J aeger, R. M. (1989). Certification of student competence. Dans R. L. Linn (d.) :
Educational measurement. New York, NY : Macmillan, 3
e
dition.

J aeger, R. M. (1994). The psychometric demands of testing for licensure and
certification. Dans D. Laveault, B. D. Zumbo, M. E. Gesaroli et M. W. Boss (ds) :
Modern theories of measurement - Problems and issues. Ottawa, ONTARIO :
University of Ottawa.

Kriewall, T. E. (1972). Aspects and applications of criterion-referenced tests.
Communication prsente au congrs annuel de lAmerican educational research
association tenu Chicago.

Laveault, D. et Grgoire, J . (1997). Introduction aux thories des tests en sciences
humaines. Paris, FRANCE : De Boeck.

Lin, J . (2003). The bookmark standard setting procedure : strengths and weekness. Paper
presented at the Canadian Society for the study in education, Halifax, NOVA SCOTIA.

Livingston, S. A. (1975). A utility-based approach to the evaluation of pass/fail testing
decision procedures. Report no. COPA-75-01. Princeton, NJ : Educational testing
service.

Livingston, S. A. (1976). Choosing minimum passing scores by stochastic approximation
techniques. Report no. COPA-76-02. Princeton, NJ : Educational testing service.

.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 218
Lord, F. M. (1952). A theory of test scores. Psychometric monograph, 7.

Lord, F. M. (1980). Applications of item response theory to practical testing problems.
Hillsdale, NJ : Lawrence Erlbaum Associates.

Lord, F. M. et Novick, M. R. (1968). Statistical theories of mental test scores. Reading,
MA : Addison-Wesley.

Millman, J . (1973). Passing scores and test lengths for domain-referenced measures.
Review of educational research, 43, 205-216.

Nandakumar, R. (1991). Traditional dimensionality vesrus essential dimensionality.
Journal of educational measurement, 28(2), 99-117.

Nedelsky, L. (1954). Absolute grading standards for objective tests. Educational and
psychological measurement, 14, 3-19.

Popham, W. J . (1980). Domain specification strategies. Dans R. A, Berk (d.) :
Criterion-referenced measurement - The state of the art. Baltimore, MD : J ohns
Hopkins Press.

Popham, W. J . et Husek, T. R. (1969). Implicatons of criterion-referenced measurement.
Journal of educational measurement, 6, 1-9.

Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests.
Chicago : University of Chicago Press.

Schoon, C. G., Gullion, C. M. et Ferrara, P. (1978). Credentiating examinations, bayesian
statistics, and the determination of passing points. Communication prsente au
congrs annuel de lAmerican psychological association tenu Toronto.

Shermis, M. D. et Daniels, K. E. (2004). Norming and scaling for automated essay
scoring. Dans M. D. Shermis et J . C. Burstein (ds) : Automated essay scoring - A
cross-disciplinary perspective. Mahwah, NJ : Lawrence Erlbaum Associates.

van der Linden, W. J . et Mellenbergh, G. J . (1977). Optimal cutting scores using a linear
loss function. Applied psychological measurement, 1, 593-599.

Wang, N. (2003). Use of the Rasch IRT model in standard setting: an item-mapping
method. Journal of educational measurement, 40(3), 231-253.

Wiggins, G. (1996). Anchoring assessment with examplars: why students and teachers
need models. Gifted children quaterley, 40(2), 66-69.

.valuation des comptences
lenseignement suprieur (ch. 14)


Gilles Rache 219
Wilson, M. (2004). Constructing measures : an item response modeling approach.
Mahwah, NJ : Lawrence Erlbaum Associates.

Yakowitz, S. et Szidarovszky, F. (1986). An introduction to numerical computation. New
York, NY : Macmillan.

Zieky, M. J . et Livingston, S. A. (1977). Manual for setting standards on the basic skills
assessment tests. Princeton, NJ : Educational testing service.

You might also like