Professional Documents
Culture Documents
RIA
Ma J.; HERNNDEZ LLOREDA
ditorial.
ITEMA 5
'
:as.
Jrctica en la construccin de
/SUMARIO
1. Orientaciones Didcticas
2. Definicin y objetivos de los tests referidos al criterio
3. Diferencias entre los tests referidos a la norma y los tests referidos al
criterio
4. Longitud del test
5. Fiabilidad en las clasificaciones en los tests referidos al criterio
5.1. ndices de acuerdo que requieren dos aplicaciones del test
5.1 .1. ndice de Hambleton y Novick
5.1 .2. Coeficiente Kappa de Cohen
5.1.3. ndice de Crocker y Algina
5.2. ndices de acuerdo que requieren una sola aplicacin del test
5.2.1. Mtodo de Huynh
5.2.2. Mtodo de Subkoviak
5.2.3. Coeficiente de Livingston
6. Mtodos para estimar el punto de corte en los tests referidos al criterio
6.1. Mtodos valorativos
6.2. Mtodos combinados
6.3. Mtodos de compromiso
7. Ejercicios de autoevaluacin
8. Soluciones a los ejercicios de autoevaluacin
9. Bibliografa complementaria
ri terio
( los tests referidos al
ri dos al criterio
::aciones del test
1. ORIENTACIONES DIDCTICAS
ap licacin del test
A lo largo de los temas precedentes se ha visto cmo llevar a cabo la construccin de los instrumentos de medicin psicolgica y, desde el marco de la
teora clsica de los tests, se han planteado distintos procedimientos para evaluar
la fiabilidad de las puntuaciones obtenidas al aplicarlos y estimar la puntuacin
verdadera de los sujetos en la caracterstica medida. Los tests construidos y evaluados con los procedimientos descritos se denominan: tests referidos a la norma
debido a que el rendimiento de los sujetos se evala en referencia a otros suj etos que forman el grupo normativo. Este enfoque de los tests referidos a normas
no proporciona, en ocasiones, una informacin adecuada de la habilidad real de
un sujeto sino de su posicin relativa respecto a otros sujetos. Supongamos, a
modo de ejemplo, que un sujeto punta por encima del 80% de sus compaeros en un determinado test. Si deseamos saber la posicin relativa de dicho sujeto respecto al rasgo evaluado tendremos que tener informacin acerca del
grado de representatividad de esa muestra. Si estamos hablando de que un sujeto se encuentra en un percentil 80 respecto a una prueba de resolucin de problemas, nos podemos plantear cuestiones como, qu tipo de problemas es capaz de resolver, qu tipo de resolucin requieren dichos problemas, cul es el
lmite de capacidad de resolucin de problemas de dicho sujeto, etc. Este tipo
de cuestiones puede ser abordado cuando la evaluacin de un sujeto no se
realiza en funcin de un grupo normativo, sino cuando tiene lugar en funcin del
nmero de objetivos logrados por dicho sujeto en dicho test. Hablaremos en este
caso de los tests referidos al criterio.
En el presente tema pretendemos desarrollar, lo ms ampliamente posible, y
siempre dentro de las pretensiones del libro, cuatro aproximaciones bsicas a la
estimacin de la fiabilidad de los tests referidos al criterio. Los modelos que aqu
247
PSICOMETRA
:STS REFERIDOS
: rement notablemente el
los que se introducen nue~~ 1978; Hambleton y col.,
s muestran unanimidad al
intenta establecer el estael trabajo de Millman
racin de los avances en
uales especializados elad (1998), Popham (1978)
nmeros monogrficos
978, Vol. 15, N.4) o Apuna disminucin signifia este tema. Hambleton,
contexto educativo del
nuevo enfoque denominado medicin autntica (autenthic measurement) o evaluacin de la ejecucin (performance assessment). No obstante, l mismo considera que los trminos medicin autntica y evaluacin de la ejecucin son simplemente trminos alternativos al de medicin referida a criterio. A finales del
siglo xx ya es un tema de gran relevancia en el terreno de la medicin psicolgica y educativa y prueba de ello son los nmeros monogrficos publicados en
los ltimos aos en las revistas Educational Measurement: lssues and Practice
(1994, Vol. 13, N 4) y Applied Measurement in Education (1995, Vol. 8, N.1 y
1997, Vol. 1O, N. 1).
Se han propuesto numerosas definiciones para hacer referencia a este tipo de
tests, aunque segn Hambleton (1 988) la ms aceptada es la propuesta por
Popham (1978):
Un test referido al criterio se utiliza para evaluar el status absoluto del sujeto
con respecto a algn dominio de conductas bien definido .
Teniendo en cuenta esta definicin, los TRC no constituyen un nuevo marco
terico en la Teora de los Tests sino un nuevo enfoque que responde a preguntas y necesidades distintas de los tests referidos a las normas (TRN). En los TRN
la finalidad es describir al sujeto en el continuo de algn rasgo, haciendo hincapi en las diferencias individuales y expresando su posicin relativa respecto
al grupo de sujetos denominado grupo normativo. Desde la perspectiva de los
TRC el objetivo es construir y evaluar tests que permitan interpretar las puntuaciones en sentido absoluto, sin referencia a ningn grupo, y describir con mayor
precisin los conocimientos, habilidades y destrezas de los sujetos en un dominio concreto de contenidos.
1 PSICOMETRA
Haladyna (1982) o Shrock y Coscarelli (1989). Por otra parte, la validez de con tenido, tal y como se ver en el tema siguiente, es fundamental en este tipo de
tests ya que su esencia es la relevancia y representatividad de los tems respecto
al dominio especfico.
Tambin se encuentran diferencias en los criterios de seleccin de tems para
el test. En los TRN el objetivo es maximizar las diferencias individuales por lo
que se eligen tems de dificultad media y alto ndice de discriminacin para incrementar el poder discriminativo del test. En los TRC, sin embargo, la seleccin de los tems se basa en los objetivos del test 'y en el propsito y finalidad
del mismo (Martnez Arias, 1995). Los TRC se pueden utilizar para dos tipos de
objetivos: la estimacin de la puntuacin dominio de los sujetos y el establecimiento de estndares mediante puntos de corte (Berk, 1980). Un TRC construido
atendiendo al primer objetivo se denomina test referido al dominio y se utiliza
para describir lo que una persona puede hacer en un rea de contenido especfico. Por otro lado, cuando un test se construye para establecer estndares mediante los puntos de corte, el test se denomina test de maestra y es til para clasificar a los sujetos en una de las posibles categoras de clasificacin excluyentes
entre s como xito-fracaso, apto-no apto o trastorno-no trastorno (Cracker y
Algina, 1986).
Segn sea el objetivo que se pretenda, la estimacin de la fiabilidad de las
puntuaciones se realizar de forma diferente (Traub y Rowley, 1980). En este
caso, los mtodos de la teora clsica para tests normativos no son apropiados
porque no permiten describir la precisin de las puntuaciones individuales ni la
consistencia de las decisiones tomadas a partir de ellas (Hambleton y Rogers,
1994). Nuevos procedimientos han sido necesarios para alcanzar los objetivos
de estos tests.
Por otro lado, el establecimiento de estndares lleva consigo la determinacin
de los puntos de corte que delimitan los estndares. La ubicacin de estos puntos de corte ha motivado numerosas investigaciones dada la gran trascendencia
que tienen las decisiones que se toman para los sujetos. Una revisin ms completa de los criterios y mtodos empleados se puede encontrar en Berk (1986,
1996), Cizek (1996), de Gruijter (1985), Faggan (1994), Livingston y Zieky (1982),
Shepard, Glaser, Linn y Bohrnstedt (1993) y en los nmeros monogrficos de las
revistas }ournal of Educational Measurement (1978, vol. 15, nm. 4) y Applied
Measurement in Education (1995, vol. 8, nm. 1).
Adems de la fiabilidad de las clasificaciones y la adecuada ubicacin de los
puntos de corte, otro aspecto relevante de los tests de maestra es la obtencin
de evidencias acerca de la validez de las decisiones de la clasificacin, tal y
250
o
rr
el
u
d
b
la
ej
i
la
fe
ni
tu
VE
de
es
nc
m
Zi
4.
a{
en
en
de
de
cu
ca,
do
ter
tiv,
fic
de
e,
de la fiabilidad de las
Rowley, 1980). En este
no son apropiados
ones individuales ni la
as (Hambleton y Rogers,
ra alcanzar los objetivos
consigo la determinacin
ubicacin de estos punda la gran trascendencia
. Una revisin ms comencontrar en Berk (1986,
Livingston y Zieky (1982),
ros monogrficos de las
. 15, nm. 4) y Applied
decuada ubicacin de los
maestra es la obtencin
de la clasificacin, tal y
1 PSICOMETRA
nada con el nmero de errores de clasificacin tolerables. Por otra parte, cuando
el nmero de elementos del test es elevado, se pueden asegurar valores de probabilidad de clasificacin incorrecta mnimos. Como cabe pensar, un excesivo
nmero de tems tampoco es lo ms adecuado debido a limitaciones de tiempo,
economa, etc.
Se pueden considerar dos maneras de reducir el nmero de errores que se
pueden cometer sin tener que aumentar la longitud del test. Por una parte, la
utilizacin de modelos bayesianos (Novick y Jackson, 1974) y, por otra parte, se
pueden utilizar mtodos basados en tests computarizados (Eignor y Hambleton,
1979; Hambleton y Eignor, 1978; Spineti y Hambleton, 1977; Wilcox, 1980).
A conti nuacin presentamos nicamente el modelo propuesto por Millman
(1973). El lector interesado podr recabar ms informacin a partir de las referencias citadas y/o los trabajos de Birbaum, 1968; Hambleton y col., 1983 y
Lord, 1980.
Modelo de Millman
El modelo propuesto por Mi liman (1973) est basado en el modelo binomial.
Considera la proporcin esperada de tems que un sujeto puede contestar correctamente para ser considerado como apto, de la poblacin de tems definidos,
y el error mximo que se est dispuesto a tolerar.
Dicho modelo parte de los siguientes supuestos:
Prob(x 1 p)
=(n]pxqn-x =
x
i(
x
n!
x!(n-x)!
)pxqn-x
[5.1]
donde:
Prob(x lpJ =probabilidad de que un sujeto con una puntuacin p, conteste
correctamente x tems de un test que tiene n tems.
A partir de la siguiente ecuacin podemos calcular la longitud del test, supuesta una determinada proporcin de aciertos:
252
[5.2]
donde:
n = nmero de tems del test.
n = 0,85(1- 0,85) =
51
0,05 2
en el modelo binomial.
eto puede contestar coacin de tems definidos,
1
n= 0 ' 85 ( - 02 ' 85 ) =318 75,319
o 02
'
'
de tems dicotmicos.
rte de un sujeto es consdientes unas de otras.
[5.1]
puntuacin p, conteste
en tems.
la longitud del test, su-
.:>.
Como ya hemos dicho, los tests referidos al criterio se pueden utilizar para dos
tipos de objetivos: la estimacin de la puntuacin dominio de los sujetos, y el establecimiento de estndares mediante puntos de corte (tests de maestra). El segundo enfoque, es el ms utilizado y el que ha dado lugar a un mayor nmero
de procedimientos para abordar el problema de la fiabilidad. Es en este contexto
desde donde abordaremos el estudio de la fiabilidad de los tests referidos al criterio.
Desde este segundo enfoque, se considera un test fiable si, tras su aplicacin
a los mismos sujetos en distintas ocasiones, o la aplicacin de dos formas paralelas, se clasifica a los sujetos siempre en la misma categora .
Los mtodos que se presentan a continuacin para el clculo de la fiabilidad,
se pueden dividir en dos grupos: los que requieren dos aplicaciones del test, y
253
1 PSICOMETRA
aquellos que slo requieren una aplicacin. Dentro del primer grupo se presenta: el ndice de Hambleton y Novick, el coeficiente Kappa de Cohen, y el ndice de Cracker y Algina. Dentro del segundo veremos: el mtodo de Huynh, el
mtodo de Subkoviak, y el coeficiente de Livingston.
Sujeto
11
12
13
14
15
3
3
16
17
18
19
10
20
254
Test .. e .
No- maestra
minathan, Hambleton y
sujetos que, consisteno no-maestra, como un
Total (N1)
Maestra
No-maestra
14
15
Total (N)
17
N= 20
As, los sujetos 2 y 4 son los nicos sujetos que han sido clasificados en el
grupo de maestra en ambos tests. Del 7 al 20 los sujetos estn clasificados dentro del grupo de no-maestra tanto en el test A como en el B. El resto de los sujetos han sido clasificados de distinta manera en ambos tests. La proporcin de
sujetos consistentemente clasificados en ambos tests se puede expresar mediante
la ecuacin:
comprensin de este
en la que se presenta la
ralelos compuestos por
ente a un mnimo de 7
p =
e
Lp
n
i=1
n
n
n
+ _ll_ +
+ mm
N
N
....
N
_1_1
[5.3]
donde:
Test B
5
5
4
3
4
3
3
2
5
3
1
2
2
1
1
5
4
aparecen en la siguiente
ntuacin de corte que va
'
n 22 ,
...
nmm =nmero sujetos en cada casilla en los que ambos test coinciden al clasificarlos.
Pe
~ =2+~=~=0
f:;p 20 20 20
1
80
mNN
Pa = L NI 21 ~i
j=1
[5.4]
~~'
255
1 I'SICOMETRIA
53
20
1517
20
Pa = -2 + - -2-=0,0375+0,6375=0,675===0,68
Ante estos resultados se puede decir que la utilizacin de los tests supone
una mejora importante en la consistencia de las clasificaciones, y por lo tanto en
la fiabilidad de las mismas, con respecto a las realizadas por mero azar. Mientras que por azar obtenemos una fiabilidad de 0,68, el uso de los tests nos reporta
una fiabilidad de 0,80.
az
[5.5]
Si se aplica el coeficiente Kappa a los datos del ejemplo anterior los resultados sern :
co
El valor Kappa nos proporciona una medida de la consistencia de clasificacin de los sujetos independientemente del posible valor esperado por azar. El
valor Kappa oscila entre 1, que indicara una fiabilidad perfecta, y O, que indicara que la consistencia observada sera atribuible al azar.
Este coeficiente tambin se puede expresar en funcin de las frecuencias absolutas:
me
[5.6]
pus
256
donde:
Test B
Test A
Maestra
No- maestra
Total (N)
5
15
Maestra
No-maestra
1
3
14
17
Total (N)
N= 20
s;;::ne
n que en la estimacin
porcin de sujetos claasificacin consistente
n del coeficiente Kappa
la es:
3 5
" =0 75
20
1
17 15 =12 75
20
Fa =0J5+12J5=13,5 0
1
[5.5]
Por lo tanto:
sistencia de clasificaor esperado por azar. El
perfecta, y O, que indir.
de las frecuencias ab-
[5.6]
K=Fc-Fa = 16-13,50=2,50= 0 , 38
N-Fa 20-13,50 6,50
Como se puede observar, el valor es el mismo que se ha obtenido anteriormente.
Para ver la significacin estadstica del coeficiente Kappa, Cohen (1960) propuso la utilizacin del error tpico de medida de K:
257
1 PSICOMETRA
[5 .7]
pE
ce
Aplicando los datos de nuestro ejemplo:
En primer lugar calculamos el error tpico de medida
5.
A continuacin calculamos el intervalo confidencial:
5.~
[5.8]
tra
de
un
dis
no~
Dado que el valor K= O, se encuentra dentro de los lmites del intervalo, podemos establecer que el acuerdo entre las clasificaciones no es estadsticamente
significativo.
tra
Hu
a ce
intt
Cracker y Algina (1986) proponen el ndice P*, como una alternativa al coeficiente Kappa de Cohen (1960). Este ndice se basa en que la probabilidad mnima de una decisin consistente es 0,50. Este mnimo tendr lugar si las puntuaciones del test son estadsticamente independientes y el punto de corte est
en la mediana de la distribucin conjunta de las puntuaciones obtenidas por los
sujetos en las dos aplicaciones. El coeficiente P* viene expresado por:
P*= Pe -0, 50 =2 -1
1-0 50
Pe
ant
nor
ter
jete
seg
[5.9]
Siguiendo a Cracker y Algina (1986), el valor de P* es igual a 1 cuando las decisiones son totalmente consistentes, e igual a O cuando las decisiones no son
258
[5.7]
ms consistentes que las que resultaran de utilizar tests estadsticamente independientes, cuyas puntuaciones presentan la misma distribucin y un punto de
corte igual a la mediana de la distribucin comn.
En nuestro caso Pe =0,80, por lo tanto:
5.2. ndices de acuerdo que requieren una sola aplicacin del test
5.2.1. Mtodo de Huynh
[5.8]
una alternativa al caee la probabilidad mndr lugar si las pune! punto de corte est
:ones obtenidas por los
por:
[5.9]
Los mtodos que se han presentado implican la existencia de una sola muestra de sujetos y dos aplicaciones de un mismo test o de dos formas paralelas. Una
de las primeras ventajas que supone el mtodo de Huynh es que slo se precisa
un test y una sola aplicacin. En el trabajo de Keats y Lord (1962): A theoretical
distribution for mental test scores estos autores proponen un mtodo para pronosticar las puntuaciones en un test B conocidas las puntuaciones de una muestra de sujetos en una primera aplicacin (test A). El mtodo original descrito por
Huynh (1976) lleva consigo un desarrollo matemtico laborioso por lo que es
aconsejable que se cuente con paquetes de programas computerizados. El lector
interesado puede seguir este desarrollo en Berk (1980).
Sin embargo, Huynh (1976) y Peng y Subkoviak (1980), han propuesto un
mtodo de aproximacin ms manejable. Esta aproximacin al procedimiento
anterior, presupone que la distribucin de puntuaciones es aproximadamente
normal. Huynh sugiere que este presupuesto es adecuado cuando el nmero de
tems es superior a ocho y la razn entre la media de las puntuaciones de los sujetos en el test y el nmero de tems oscila entre O, 15 y 0,85. Los pasos a seguir
segn este mtodo son:
1) Calcular la media (X'), la varianza (5~) y el coeficiente de correlacin de
Kuder-Richardson 21 (KR2 7) y especificar el valor del punto de corte (e). En
el ejemplo que presentamos, suponemos que la media del test A es igual a
X= 5, 15, la varianza 5~ = 4,45, el coeficiente KR21 = 0,37 y el punto de
corte sobre las puntuaciones directas X se establece en e= 7.
2) Calcular la puntuacin tpica (Zx) correspondiente al valor del punto de
corte, con una correccin de 0,5 y, acudiendo a las tablas de curva normal se busca el valor de P que deja por debajo la Z obtenida.
259
L
X
[5.1 O]
z = re - o15 - x J = (7 -o 15 SX
.:>.
(C-0~5-X J
51 1 5J =
21 109
cu
Su
0 1 64
m;
3) A partir de las tablas de Gupta (1963) incluidas al final del libro (tabla 11 ),
obtenemos la probabilidad (Pzz) de que dos variables distribuidas normalmente con una correlacin KR21 = 0 1 37 sean menores que Z = 0,64.
Pzz = 0,58
Pe y k
Pe = 1+ 2 (Pzz - Pz )
[5.11]
L__
[5 .12]
pe = 1+ 2 ( p zz - p z ) = 1+ ( 2 O158 - O,7 4)
= O168
0,74-(0,74/
En definitiva podemos considerar que el mtodo de Huynh constituye un procedimiento matemtico sofisticado para estimar la consisten c ia de cl asificacin
a partir de una sola administracin de un test de maestra (Subkoviak, 1980).
Nota: Tngase en cuenta que al utilizar la frmula KR21 , los tems del test debern
tener la misma dificultad.
L.__
260
dor
aplicacin
mtodo de
del test. Su
buena esti-
Para la explicacin del mtodo de Subkoviak vamos a utilizar los datos del
ejemplo desarrollado en el mtodo de Hambleton y Novick suponiendo que solo
se pudiera aplicar el test A y que el coeficiente de fiabilidad fuera igual a 0,62.
Los pasos para confeccionar la tabla son los siguientes:
Las columnas 1, 2, 3 y 4 representan la distribucin de frecuencias de las
puntuaciones obtenidas por los 20 sujetos de la muestra.
Una vez obtenida la distribucin de frecuencias, se calcula la media y el
coeficiente alfa del test, que suponemos igual a 0,62:
[5 .11]
x= :x = 103 = 5 15
N
[5 .12]
20
'
a=0,62
A continuacin se estima la probabilidad de que una persona con una
determinada puntuacin X responda correctamente a cada tem. Dicha
probabilidad se estima mediante la ecuacin:
=0, 68
[5.13]
uynh constituye un prostencia de clasificacin
(Subkoviak, 1980).
donde:
a
= coeficiente alfa.
X= Puntuacin directa.
N= Nmero d tems del test.
X = Media del
test.
261
1 PSICOMETRA
fx
9
8
7
6
5
4
1
2
2
4
4
2
3
2
1
3
1
1
1-2 (Px- ~)
0,628
0,576
0,525
0.473
0.421
0,370
0,318
0,266
0,215
0.7362
0,5999
0.4562
0,3164
0,1978
0,1105
0,0522
0,0201
0,0059
fx
0,6114
0,5198
0,5038
0,5674
0,6826
0,8034
0,9010
0,9606
0,9882
20
fxpx
0,6114
1,0396
1,0076
2,2696
0,7361
1,1998
0,9124
2.7030
0,9606
0,9882
1,2656
0,7912
0,2210
0 ,1566
0,0201
0,0059
13,9172
5,3088
2.7304
1,6068
f(k)
=Prob(X 2 k)=
L(: )p'q"-'
[5.14]
(1-2 (Px-
P!J)
1(7)
~ Prob(X ~ 7) ~ ( 1:
1(8)
1(9)
fxPx
0 ,6114
0,7361
1,0396
1,1998
1,0076
0,9124
2,2696
1,2656
2,7304
0,7912
1,6068
0,2210
2,7030
0,1566
0,9606
0,0201
0,9882
0,0059
13,9172
5,3088
na el primer caso de la
:1resto de los valores de
1guiendo el mismo pro-
~O, 21 734
1(1 O)
1(11)
11121
0,628
Si se acude a las tablas de la distribucin binomial habra que buscar la probabilidad de que X~ 7 paran= 12, p = 0,628 lo que equivale a buscar 1- la probabilidad de que X::; 6. Para encontrar el valor exacto, la tabla debera contemplar todos los valores de probabilidad de xito p.
Una vez calculados los valores de la cuarta columna, se calcula la probabilidad de que cada sujeto sea consistentemente clasificado en el grupo
de maestra para dos tests independientes; es decir, la probabilidad de que
cada persona sea clasificada en el grupo de maestra por el primer test
(Px,), por la probabilidad de que sea clasificado en el grupo de maestra
por el segundo test (Px 2 ) y que ser igual a P~ y la probabilidad de que sea
clasificado en el grupo de no maestra en los dos tests que ser:
[5.14]
[5.15]
263
1 PS!COMETRA
[5.16]
En e
mente
Para
dad de
tal estir
mos ve
Pa :
[5.17]
1 [1 - 2. (0,7362- 0,7362
A ce
J= 0,6114
Pe=
L fx [ 1- 2(?, - P}) J
[5 .18]
f
X
Pe =
ZE4
Lfx[1-2(Px -P})]
fX
13,9172
=0 695
20
1
5.2.3 .
El ce
Cls ica
que her
deran, r
jeto per
que cor
maestr;
s tiene
de clasi
que est~
[5.16]
En dicha expresin, el numerador representa el nmero de sujetos correctamente clasificados, y el denominador el nmero total de sujetos.
Para calcular el coeficiente Kappa hay que calcular el valor de la probabilidad de clasificacin consistente por azar (p) a partir de la suma del nmero total estimado de sujetos clasificados en el grupo de maestra cuyos valores podemos ver en la columna 7.
:P.~1-2(~
p,
-(~ p,
J)
[5.19]
L_
[5 .17]
A continuacin calculamos el coeficiente Kappa:
14
[5 .20]
valores obtenidos en
, que se obtienen muir los de la columna 2,
punto de corte en amcientes Pe y
Kappa
[5.18]
.:i.2. 1. CfJeficiente
de Livingston
PSICOMETRA
= a s; +(X- C) 2
K2
XV
s; +(X -
[5.21]
C)2
donde:
o
n
coeficiente alfa.
= punto de corte.
g
J
EJEMPLO:
Si aplicamos la frmula a los datos del ejemplo anterior: a= 0,62, X= 5,15
s;+(X-C) 2
4,45+(5,15-7) 2
7,87
078
'
A medida que el punto de corte se distancia del valor de la media del test, aumenta el valor de
Cuando la media del test coincide con el punto de corte,
es igual al coeficiente alfa. Cuando el coeficiente de fiabilidad alfa es igual
a 1, K~ tambin es igual a uno. Por lo tanto, K;v ser siempre igual o mayor que
el coeficiente de fiabilidad alfa.
K;v
K;v.
e
e
cercano al punto de
acin cuando el sujeto se
1UY
[5.21]
evaluado, o la de aquellos sujetos que no dominan el criterio evaluado. Es decir, el criterio acta como un filtro o punto de corte para clasificar a los sujetos.
La cuestin fundamental es, cmo se establece este punto de corte? cul es la
puntuacin a partir de la cual un sujeto se situar en un grupo u otro? Existen innumerables situaciones que requieren establecer un punto de corte antes de dotar de significado a la puntuacin obtenida por un sujeto en un test. Por ejemplo, la calificacin de aprobado o suspenso en un examen, la seleccin de
aspirantes a un puesto de trabajo, la admisin para entrar en la universidad, son
ejemplos donde es necesario establecer un punto de corte. Como se puede observar, las decisiones que se tomen como consecuencia del valor del punto de
corte establecido son de gran importancia, ya que de ellas depender, en algunos casos, el futuro de las personas implicadas.
Por lo general, se suele contar con un nmero adecuado de expertos que son
quienes establecen ese punto de corte. Es, en definitiva, una cuestin sujeta a un
grado de subjetividad, por lo que garanta absoluta no existe. Siempre habr sujetos clasificados errneamente. Sujetos clasificados como competentes cuando
no lo son y viceversa.
erior: a= 0,62,
X= 5,15
2,759+3,42 =0,78
7,87
r de la media del test, aue con el punto de corte,
fiabilidad alfa es igual
mpre igual o mayor que
DE CORTE
co ne
a, b 1
Mtodo de Nedelsky
El mtodo de Nedelsky (1954) es el primero de los procedimientos establecidos para fijar el punto de corte en tests de competencia mnima. Estos tests se utilizan habitualmente en el mbito acadmico para determinar si un sujeto posee
los conocimientos mnimos exigibles en una determinada materia. El mtodo de
Nedelsky se utiliza con tests compuestos de tems de eleccin mltiple, y precisa que los expertos o jueces analicen las distintas alternativas de los tems y, a
continuacin, determinen cules de las posibles alternativas sern consideradas
como errneas por un sujeto que tuviese los conocimientos mnimos exigibles
para ser considerado como competente. El modelo asume que un sujeto elegir
al azar, entre las restantes opciones, la posible respuesta correcta .
Seguidamente, para cada tem, el juez registra el recproco del nmero de
preguntas que quedan . Supongamos que un tem consta de seis alternativas, y un
juez considera que un sujeto mnimamente competente rechazar cuatro de ellas
como errneas. El recproco, se determina dividiendo la unidad por el nmero
de alternativas restantes, las que el sujeto no ha considerado como alternativas
errneas, en nuestro caso 2 por lo que el recproco ser 0,5. Esta puntuacin se
correspondera con la puntuacin esperada para un sujeto en un tem determinado. Para calcular la puntuacin de un sujeto mnimamente cualificado en un
test, se sumaran todos los valores esperados de cada tem. De esta manera, se
obtendr la puntuacin otorgada por un determinado juez a un sujeto mnimamente cualificado. El promedio de las puntuaciones otorgadas por todos los jueces, nos dar la puntuacin de corte.
Veamos el proceso que se seguira con el siguiente tem correspondiente a un
test de mecnica:
tem
te rna
tro e
test.
la SU
dia d
p unt<
Pa
corte
dond
EJE
Su
ternat
Esto ir
amos
Co
Ar
todo e
que m
si n em
res :
I ~=A-~ 1
4Ji?i.
w;w;
;un
[5.22]
donde:
Pe = la puntuacin corregida.
N= nmero de tems.
EJEMPLO:
Supongamos un test de percepcin del color compuesto por 40 tems de 4 alternativas. La media de los valores esperados determinada por 7 jueces es 28.
Esto implica que el valor del punto de corte sin corregir el azar es igual a 28. Veamos cul sera el valor si corregimos los efectos del azar.
p =A-N-A=28e
n-1
40-28=28-~=24
4-1
PSICOMETRA
Mtodo de Angoff
por
Mt
El mtodo propuesto por Angoff (1971 ), puede considerarse como una variante del mtodo de Nedelsky, con la diferencia de que es aplicable a toda clase
de tems, no slo a los de eleccin mltiple. En este mtodo, no se pide a los jueces que emitan juicios acerca de cada una de las alternativas de un tem, como
en el mtodo anterior, sino que deben evaluar el tem globalmente y determinar
la probabilidad de que un sujeto, con los requisitos mnimos para ser competente, responda correctamente a cada uno de los tems del test. Para poder determinar estas probabilidades, los jueces han de comprender claramente latarea que deben realizar los sujetos. Una vez que los distintos jueces han
establecido las probabilidades de que los sujetos mnimamente competentes respondan a los tems correctamente, estamos en condiciones de establecer el
punto de corte. La puntuacin total establecida por cada uno de los jueces para
cada sujeto se considera como la puntuacin estimada de un sujeto mnimamente competente. Para calcular el punto de corte, se suman los valores de las
probabilidades establecidas por cada uno de los jueces, y se calcula la media de
dichas puntuaciones. Como en el caso del mtodo de Nedelsky, tambin se
puede aplicar la correccin de los efectos del azar.
E
Ang
raci<
el gr
ni ve
leva
una
los
pont
juec
que
ni m<
c in
done
EJEMPLO:
En la tabla siguiente aparecen las probabilidades, otorgadas por cuatro jueces, de que un sujeto mnimamente competente supere cada uno de los tems de
un test. Calcular el punto de corte mediante el mtodo de Angoff.
270
tems
Juez 1
Juez 2
Juez 3
Juez 4
0,44
0,25
0,45
0,20
0,38
0,35
0,20
0,40
0,40
0,25
0,35
0,30
0,30
0,40
0,30
0,45
0,50
0,22
0,50
0,25
0 ,30
0,30
0,45
0,22
Total
2,29
1,62
2,45
1,80
EJ
Er
cent<:
tame
propt
XC= "ip(M)
[5.23]
donde:
Juez 4
0,20
0,38
0,30
0,45
p =proporcin de tems en cada casilla que un sujeto mnimamente competente debera contestar correctamente.
0,25
0,22
1,80
271
1 PSICOMETRA
Niveles de dificultad
Niveles de relevancia
Esencial
Importante
Aceptable
Dudoso
Fcil
Medio
Difcil
tems: 15
tems: 20
tems: 10
Juez: 80%
Juez: 60%
Juez: 30%
tems: 30
tems: 18
tems: 7
Juez: 70%
Juez: 55%
Juez: 30%
tems: 25
tems: 15
tems:10
Juez: 65%
Juez: 50%
Juez: 25%
tems: 14
tems: 6
tems:5
Juez: 40%
Juez: 45%
Juez: 20%
Ur
su op
dos:
y se
Mtodo de }aeger
sesi
form;
El mtodo propuesto por jaeger (1978), puede considerarse una variante del
mtodo de Angoff. En este mtodo se le pregunta a cada uno de los jueces, si
cada uno de los tems del test ser contestado correctamente por los sujetos. El
proceso para poder determinar el punto de corte precisa de tres sesiones. En la
primera sesin, cada uno de los jueces, y para cada uno de los tems del test, responde con un S o con un No a la pregunta de si un sujeto mnimamente competente ser capaz de contestar correctamente ese tem . Una vez que los jueces
han contestado a dicha pregunta para cada uno de los tems, se calcula el nmero de tems a los que cada juez respondi con un S.
En la siguiente matriz se presentan los datos correspondientes a la evaluacin
que cinco jueces han hecho respecto a los siete tems de un test.
En la segunda sesin, repetimos el mismo proceso que acabamos de describir pero, al comienzo de la sesin se pone a disposicin de los jueces los datos
obtenidos en la sesin anterior, las opiniones o recomendaciones emitidas por
los jueces, y una tabla con los porcentajes de respuestas SI a cada uno de los
tems.
272
En
U1
m os
El
(1
M
de o
u
cin
Difcil
tem 1
Juez 1
Juez 2
Juez 3
Juez 4
Juez 5
SI
SI
NO
SI
SI
tem 2
SI
tem 3
NO
tem 4
SI
tems: 7
tem 5
Juez: 30%
tem 6
tem 7
NO
NO
NO
NO
NO
NO
NO
NO
NO
Total
tems: 10
Juez: 30%
tems:10
Juez: 25%
SI
SI
SI
NO
NO
SI
SI
SI
SI
SI
NO
NO
NO
NO
NO
NO
NO
SI
tems:5
Juez: 20%
o (0,70) + 18 (0,55) +
Una vez conocidos los datos de la primera sesin cada juez puede cambiar
su opinin; en nuestro caso supongamos que obtenemos los siguientes resultados:
4 (0,40) + 6 (0,45) +
expuesto a la puntuacin
jueces, el valor del punto
asignadas por cada uno
Total
Juez 1
Juez 2
Juez 3
Juez 4
Juez 5
y se les pide que valoren nuevamente cada uno de los tems. Al igual que en la
sesin anterior los jueces pueden ir modificando sus juicios en funcin de la informacin que se les va proporcionando.
derarse una variante del
da uno de los jueces, si
mente por los sujetos. El
isa de tres sesiones. En la
de los tems del test, resjeto mnimamente com. Una vez que los jueces
tems, se calcula el n, ndientes a la evaluacin
de un test.
que acabamos de descride los jueces los datos
daciones emitidas por
SI a cada uno de los
Una vez conocidos los datos de la segunda sesin supongamos que obtenemos los siguientes resultados:
Total
Juez 1
Juez 2
Juez 3
Juez 4
Juez 5
Md1 = 3, Md2
punto
de corte es igual a 3.
Un problema de este mtodo (Berk, 1986) es que slo se permite la asignacin de probabilidades de O 1, pues un sujeto o acierta o falla el tem.
273
1 PSICOMETRA
2 74
~ky
y Livingston (1977), se
:s niveles de competencia
te. Seguidamente,
va dirigido el test, aque, mpetentes. Es decir, aquediada no son del todo inser considerados como
suj etos con estas caracteminar el punto de corte.
edia o la mediana de las
lmite. La mediana es ms
ri abil idad de las puntua-
Grfico 5.1
Punto de corte
Cf)
Q
:y
Cf)
Q)
"O
Q)
':::l
Componentes
20
30
40
50
60
70
80
90
100
Puntuaciones en el test
275
1 PSICOMETRA
Mtodo de Beuk
En el mtodo propuesto por Beuk (1984), los jueces han de tener en cuenta,
en primer lugar, las puntuaciones obtenidas por los sujetos en el test en el que
estamos interesados en establecer un punto de corte y, en segundo lugar, la informacin recogida de las respuestas de los jueces a dos preguntas que les son
formuladas. La primera pregunta hace referencia al porcentaje mnimo de tems,
que los distintos jueces creen que un sujeto debera contestar correctamente
para superar el test y la segunda, hace referencia al porcentaje de sujetos que estiman que obtendrn la puntuacin mnima para superar el test. La primera pregunta hace referencia a datos absolutos, es decir, a la informacin derivada del
simple conocimiento de un sujeto con relacin al valor del punto de corte. La
segunda pregunta, implica informacin o cuestiones de carcter relativo, es decir, cuestiones que pueden tener una importancia econmica, social, etc. y que
no dependen exclusivamente del conocimiento que tenga un sujeto.
Una vez que los jueces han recogido y analizado esta informacin, se procede a determinar el punto de corte. A continuacin, se expone la forma de obtener el punto de corte segn el modelo de Beuk. La siguiente representacin grfica ha sido tomada de Beuk (1984).
En primer lugar, se representa sobre el eje de abscisas el porcentaje mnimo de
tems que los distintos jueces creen que un sujeto debera contestar correctamente
para superar el test y, en el eje de ordenadas, el porcentaje de sujetos que estiman
que obtendrn la puntuacin mnima para superar el test. A continuacin calculamos el valor de la media de los juicios emitidos por los expertos a las dos preguntas formuladas, CX' y Y) y se representa el punto de interseccin A.
En segundo lugar, se obtiene la distribucin C correspondiente a las puntuaciones de los sujetos en el test. Como se puede observar la distribucin es
276
decrec
rrectar
su pera
En 1
por el
ces a 1
En
corte,
detem
sujeto
del n
n , e
Mtoc
El r
maci
de cor
taje dE
sidera
test y,
infom
n, el mtodo de Beuk y el
ente, como hasta ahora,
poseer para superar el crilativa a la posicin de un
la informacin derivada
({)
.9Q)
"S'
({)
Q)
"O
Q)
N'
e
Q)
t!
o
(l_
Xc
Porcentaje de tems
decreciente ya que, a medida que el nmero de tems que hay que responder correctamente para superar el test se eleva, disminuye el nmero de sujetos que lo
superan.
En tercer lugar, se dibuja una recta (AB), cuya pendiente viene determinada
por el cociente entre la desviacin tpica de las respuestas emitidas por los jueces a las dos primeras preguntas: Sy/Sx.
En cuarto lugar, se obtiene el punto de corte Xc Para obtener el punto de
corte, se proyecta el punto B sobre el eje de abscisas. El punto de interseccin
determina el punto de corte Xc Este valor expresa el porcentaje de tems que un
sujeto debe contestar correctamente. Si queremos expresar este valor en funcin
del nmero de tems, multiplicamos el valor de Xc por el nmero de tems del test
n, es decir: N tems = Xc n .
Mtodo de Hofstee
El mtodo de Hofstee (Hofstee, 1983; De Gruijter, 1985), se basa en la informacin proporcionada por los jueces al dar respuesta a cuatro puntos: el punto
de corte que los jueces consideran adecuado y que se define como el porcentaje de tems que los sujetos deben superar, el punto de corte que los jueces consideran inadecuado, el porcentaje mximo admisible de sujetos que fallan en el
test y, el porcentaje mnimo admisible de sujetos que fallan en el test. Con esta
informacin y la distribucin de los resultados obtenidos en el test, se puede es277
1 PSICOMETRA
tablecer el punto de corte mediante la siguiente representacin grfica 5.3 (Tomado de Muiz, 1998):
Grfico 5.3-
~
Q)
Fmx
::J
cr
en
o
Q)
"S'
en
__~ ,
Q)
ro
+"'
e
Q)
2
o
0...
1
1 Pmn
1 Pe
Pmx
278
7. EJERCICIOS DE AUTOEVALUACIN
1. Se han aplicado dos tests compuestos de 15 tems a una muestra de 12 sujetos. Para que un sujeto sea clasificado dentro del grupo de maestra debe
contestar correctamente un mnimo de 1 O tems . Calcular el ndice de fi abilidad empleando para ello el mtodo propuesto por Hambleton y Novi ck.
TEST -A
SUJETOS
1
2
10
8
11
12
10
10
5
6
7
8
9
10
11
12
la siguiente manera: En
ntos Pmx , punto de corte
corte que los jueces conlos puntos Fmx, pory Fmn , porcentaje muacin se representan los
mx Y Fmn - Fmn , respecar al eje de abscisas que
puntuaciones en el test, y
que buscamos.
TEST- B
10
10
11
10
10
10
10
11
11
7
8, p
0,75 .
""'?'
rJ..l:llllJ
Sujetos
Test A
Test B
1
2
7
9
3
4
5
8
5
3
6
8
9
6
4
Sujetos
6
7
8
9
10
ri.I:1.flll
Test A
Test B
8
5
7
5
9
8
6
7
279
1 PSICOMETRA
5. En la siguiente tabla se presentan las probabilidades asignadas por tres jueces de que los cinco tems de un test utilizado en un proceso de selecci n
sean superados por un grupo de sujetos.
tem
Juez 1
Juez 2
Juez 3
0,7
0,8
0,5
0,4
0,4
0,8
0,7
0,6
0,5
0,3
0,8
0,7
0,6
0 ,5
0,3
2
3
4
Calcular:
a. Los puntos de corte de cada Juez mediante el mtodo de Angoff.
b. El punto de corte del test, a partir de la informacin de los tres Jueces.
1 PSICOMETRA
5. En la siguiente tabla se presentan las probabilidades asignadas por tres jueces de que los cinco tems de un test utilizado en un proceso de seleccin
sean superados por un grupo de sujetos.
tem
Juez 1
Juez 2
Juez 3
0,7
0,8
0,5
0.4
0.4
0,8
0,7
0,6
0,5
0,3
0,8
0,7
0,6
0,5
0,3
2
3
4
Calcular:
a. Los puntos de corte de cada Juez mediante el mtodo de Angoff.
b. El punto de corte del test, a partir de la informacin de los tres Jueces.
con cuatro posibles alternativas. En la siguiente tabla se recogen las alternativas errneas que cuatro jueces creen que seran descartadas por un
alumno con los conocimientos mnimos exigidos para superar el test.
tem
Juez 1
Juez 2
Juez 3
Juez 4
bcd
cd
ab
acd
cd
bd
abd
ae
be
bcd
abd
cd
bcd
cb
bd
acd
3
4
Calcular:
a. El valor esperado en el test para cada juez.
b. El punto de corte del test sin corregir y corrigiendo el efecto azar, utilizando el mtodo de Nedelsky
7. Ejercicios conceptuales
Ante cada una de las afirmaciones que se muestran a continuacin, el lector deber responder si el concepto que contiene es verdadero o falso.
des asignadas por tres juen un proceso de seleccin
Juez 3
0,8
0,7
0,6
0,5
0,3
6. Un error falso-negativo tiene lugar cuando clasificamos in correctamente a un sujeto dentro de un grupo de maestra.
mtodo de Angoff.
8. El valor de kappa proporciona una medida de la consistencia de clasificacin de los sujetos dependiente del valor esperado por azar.
grupo de estudiantes de
ms de eleccin mltiple
9. En los tests referidos a la norma no se hace hincapi en la especificacin clara del dominio de contenidos .
281
1 PSICOMETRA
282
modelo binomial.
Total
Maestra
No-maestra
Total
12
83
Pe = -12 +-=0
12
1
1-0,50
0,50
Prob(x~8lp=0,75,n =10)=
10
'
'
x=B
Prob(x
~ 8) ~ (~0 }
~ 45 O, 1O O, 0625 ~
O, 28
Prob(x
~ 9) ~ (~0 }
~ 1O 0,075 O, 25 ~
O, 19
Prob(x
O, 056
L: =O, 53
1 PSICOMETRA
3. N= 1O n
= 1O
Sujeto
Test A
1
2
3
Test 8
Sujeto
Test A
Test 8
7
8
9
10
8
6
7
7
9
Test 8
Test "A"
Maestra
No- maestra
Total
Maestra
6
1
7
1
2
10
No-maestra
Total
7 7
.
1o
=4
90
Fa =4,90 + 0,90=5,80
3 3
.
1o
=o 90
1
284
4.
X
fx
Px
Px
1-2 (Px- ~)
f?x
0,724
0,4492
0,5052
0,5052
0.4492
0,668
0 ,3023
0,5782
1,1564
0,6045
0,612
0,1874
0,6954
2,0862
0,5623
0 ,556
0 ,1064
0 ,8099
2,4296
0,3192
0 ,500
0 ,0547
0,8966
4,4830
0,2734
0,444
0,0250
0,9512
5,7071
0,1502
0,388
0,0100
0,9803
2,9409
0,0299
0 ,332
0,0033
0,9934
0 ,9934
0,0033
0,276
0,0009
0,9983
0,9983
0 ,0009
21,3001
2,3929
Test A
Test B
25
Total
.ra
X =1 25= 5
5
3
10
=5,80
L.(:o}
Prob( X
~ 81 p ~ 0,56,n ~ 10) ~
Prob(x
Prob(x
Prob(x
0,52
ificaciones medi a.
O, 1506
Px
= 0,45
285
1 PSICOMETRA
L/x(1-2(f,
Pe =
fX
Pa
= 1_ 2
-?,
2
))
21 3001
=o 852
25
1
Puesto que el valor de Kappa es muy bajo, cabra esperar una fiabilidad baja.
5.
a)
tem
Juez 1
0,7
0,8
0,5
0,4
0,4
2
3
4
Juez
0,8
0,7
0,6
0,5
0,3
0,9
0,8
0,7
0,5
0,4
2,9 Uuez 2)
3,3 Uuez 3)
b)
El punto de corte del test es igual al promedio de los puntos de corte asignados por cada uno de los jueces.
P.C
test
= 2,8 + 2, 9 + 3,3 = ~ = 3
3
3
e)
El tercer juez, es el que considera el test ms fcil ya que es el que define
un punto de corte ms alto. El primer juez, es el que considera el test ms
difcil ya que es el que define un punto de corte ms bajo.
286
6.
a)
tem
Juez 1
Juez 2
Juez 3
1
2
bcd
cd
ab
acd
cd
bd
abd
ae
be
bcd
abd
cd
3
4
Juez 3
bcd
cb
bd
acd
0,9
0,8
tem
Juez 1
1
2
3
4
1/1
1/2
1/2
1/1
2:
Juez 3
Juez 4
1/2
1/2
1/1
1/2
1/2
1/1
1/1
1/2
1/1
1/2
1/2
1/1
2,5
0,7
0,5
0,4
3,3 Uuez 3)
b)
El punto de corte del test es igual al promedio de los valores esperados
para cada juez
P.C.= 3 + 2, 5 + 3 + 3
=3
ms bajo.
= 11,5 = 2 , 87
4
N-A
4-2 1 87
P.Ccorregido = A - - - = 2,87n-1
4-1
= 2,87-0,37 = 2,49
PSICOMETRA
1 O. Falsa.
Se basa en que la probabilidad mnima de una decisin consistente es
0,50.
11. La afirmacin es falsa.
El punto de corte se establece en funcin del constructo objeto de estudio.
12. La afirmacin es correcta
No es necesario que los tems sean de eleccin mltiple
13. La afirmacin es falsa.
Se trata de un mtodo de compromiso.
288
9. BIBLIOGRAFA COMPLEMENTARIA
MARTNEZ-ARIAS, M.R. (1995). Psicometra: Teora de los tests psicolgicos y
educativos. Madrid: Sntesis.
mltiple
289