You are on page 1of 46

-

RIA
Ma J.; HERNNDEZ LLOREDA
ditorial.

ITEMA 5
'

de los Tests Psicolgicos y Edu-ts. Madrid: Editorial Pirmide.

:as.

Jrctica en la construccin de

LA FIABILIDAD EN LOS TESTS


REFERIDOS AL CRITERIO
Enrique Vila Abad

/SUMARIO
1. Orientaciones Didcticas
2. Definicin y objetivos de los tests referidos al criterio
3. Diferencias entre los tests referidos a la norma y los tests referidos al
criterio
4. Longitud del test
5. Fiabilidad en las clasificaciones en los tests referidos al criterio
5.1. ndices de acuerdo que requieren dos aplicaciones del test
5.1 .1. ndice de Hambleton y Novick
5.1 .2. Coeficiente Kappa de Cohen
5.1.3. ndice de Crocker y Algina
5.2. ndices de acuerdo que requieren una sola aplicacin del test
5.2.1. Mtodo de Huynh
5.2.2. Mtodo de Subkoviak
5.2.3. Coeficiente de Livingston
6. Mtodos para estimar el punto de corte en los tests referidos al criterio
6.1. Mtodos valorativos
6.2. Mtodos combinados
6.3. Mtodos de compromiso
7. Ejercicios de autoevaluacin
8. Soluciones a los ejercicios de autoevaluacin
9. Bibliografa complementaria

ri terio
( los tests referidos al

ri dos al criterio
::aciones del test

1. ORIENTACIONES DIDCTICAS
ap licacin del test

ests referidos al criterio

A lo largo de los temas precedentes se ha visto cmo llevar a cabo la construccin de los instrumentos de medicin psicolgica y, desde el marco de la
teora clsica de los tests, se han planteado distintos procedimientos para evaluar
la fiabilidad de las puntuaciones obtenidas al aplicarlos y estimar la puntuacin
verdadera de los sujetos en la caracterstica medida. Los tests construidos y evaluados con los procedimientos descritos se denominan: tests referidos a la norma
debido a que el rendimiento de los sujetos se evala en referencia a otros suj etos que forman el grupo normativo. Este enfoque de los tests referidos a normas
no proporciona, en ocasiones, una informacin adecuada de la habilidad real de
un sujeto sino de su posicin relativa respecto a otros sujetos. Supongamos, a
modo de ejemplo, que un sujeto punta por encima del 80% de sus compaeros en un determinado test. Si deseamos saber la posicin relativa de dicho sujeto respecto al rasgo evaluado tendremos que tener informacin acerca del
grado de representatividad de esa muestra. Si estamos hablando de que un sujeto se encuentra en un percentil 80 respecto a una prueba de resolucin de problemas, nos podemos plantear cuestiones como, qu tipo de problemas es capaz de resolver, qu tipo de resolucin requieren dichos problemas, cul es el
lmite de capacidad de resolucin de problemas de dicho sujeto, etc. Este tipo
de cuestiones puede ser abordado cuando la evaluacin de un sujeto no se
realiza en funcin de un grupo normativo, sino cuando tiene lugar en funcin del
nmero de objetivos logrados por dicho sujeto en dicho test. Hablaremos en este
caso de los tests referidos al criterio.
En el presente tema pretendemos desarrollar, lo ms ampliamente posible, y
siempre dentro de las pretensiones del libro, cuatro aproximaciones bsicas a la
estimacin de la fiabilidad de los tests referidos al criterio. Los modelos que aqu
247

PSICOMETRA

presentamos son adecuados para aquellas situaciones en las que la decisin de


clasificar a un sujeto dentro o no de un grupo de maestra est en funcin de si
ha alcanzado o no una determinada puntuacin en el test denominada puntuacin de corte.

2. DEFINICIN Y OBJETIVOS DE LOS TESTS REFERIDOS


Al CRITERIO
Los Tests Referidos al Criterio (TRC) tienen sus orgenes en los trabajos de
Fl anagan (1951) y Nedelsky (1954) que introdujeron el concepto de estndar absoluto y relativo respecto a las puntuaciones obtenidas en los tests. La denominacin de Test Referido al Criterio se debe a Ebel (1962) y su diferenciacin respecto a los tests normativos fue establecida por Glaser en 1963. Segn
Hambleton (1994), las principales causas que generan su aparicin son: la necesidad de conocer la eficacia de los programas educativos, el inters por evaluar el nivel de habilidades bsicas alcanzado por los sujetos y el clima contrario al uso de los tests que caracterizaba la situacin de la sociedad americana en
la dcada de los aos sesenta. Durante esta dcada, se produce una escasez de
investigaciones en este campo. Merece destacar, sin embargo, el artculo de
Popham y Husek (1969) en el que se reaviva el tema y se amplan las distinciones entre tests referidos al criterio y los tests referidos a normas.
Posteriormente, en la dcada de los setenta, se increment notablemente el
nmero de artculos, monografas, libros y revistas en los que se introducen nuevos trminos y modalidades de tests (Berk, 1980; Gray, 1978; Hambleton y col.,
1978; Huynh, 1976; Popham, 1978; etc.). Estos autores muestran unanimidad al
considerar un test referido al criterio como aqul que intenta establecer el estatus de un sujeto respecto al dominio definido. Destaca el trabajo de Millman
(1974) en el que realiza la primera recopilacin e integracin de los avances en
esta temtica.
A partir de entonces aparecen sucesivamente manuales especializados elaborados por Bejar (1983), Berk (1980, 1984), Osterlind (1998), Popham (1978)
y Roid y Haladyna (1982) entre otros, as como diversos nmeros monogrficos
en las revistas journal of Educational M easurement (1978, Vol. 15, N.4) o Applied Psychologica l Measurement (1980, Vol. 4, N.4).
Hacia la segunda mitad de los aos 80, se produjo una disminucin significativa en la produccin de publicaciones dedicada a este tema. Hambleton,
(1994) seala que ello fue debido a la irrupcin en el contexto educativo del
248

lA FIABiliDAD EN LOS TESTS REFERIDOS AL CRITERIO

; en las que la decisin de


~stra est en funcin de si
1 test denominada puntua-

:STS REFERIDOS

gen es en los trabajos de


concepto de estndar abs en los tests. La denomi2) y su diferenciacin resGiaser en 1963. Segn
.n su aparicin son: la necativos, el inters por eva sujetos y el clima contrala sociedad americana en
e produce una escasez de
embargo, el artculo de
11 se amplan las distincioa normas.

: rement notablemente el
los que se introducen nue~~ 1978; Hambleton y col.,
s muestran unanimidad al
intenta establecer el estael trabajo de Millman
racin de los avances en
uales especializados elad (1998), Popham (1978)
nmeros monogrficos
978, Vol. 15, N.4) o Apuna disminucin signifia este tema. Hambleton,
contexto educativo del

nuevo enfoque denominado medicin autntica (autenthic measurement) o evaluacin de la ejecucin (performance assessment). No obstante, l mismo considera que los trminos medicin autntica y evaluacin de la ejecucin son simplemente trminos alternativos al de medicin referida a criterio. A finales del
siglo xx ya es un tema de gran relevancia en el terreno de la medicin psicolgica y educativa y prueba de ello son los nmeros monogrficos publicados en
los ltimos aos en las revistas Educational Measurement: lssues and Practice
(1994, Vol. 13, N 4) y Applied Measurement in Education (1995, Vol. 8, N.1 y
1997, Vol. 1O, N. 1).
Se han propuesto numerosas definiciones para hacer referencia a este tipo de
tests, aunque segn Hambleton (1 988) la ms aceptada es la propuesta por
Popham (1978):
Un test referido al criterio se utiliza para evaluar el status absoluto del sujeto
con respecto a algn dominio de conductas bien definido .
Teniendo en cuenta esta definicin, los TRC no constituyen un nuevo marco
terico en la Teora de los Tests sino un nuevo enfoque que responde a preguntas y necesidades distintas de los tests referidos a las normas (TRN). En los TRN
la finalidad es describir al sujeto en el continuo de algn rasgo, haciendo hincapi en las diferencias individuales y expresando su posicin relativa respecto
al grupo de sujetos denominado grupo normativo. Desde la perspectiva de los
TRC el objetivo es construir y evaluar tests que permitan interpretar las puntuaciones en sentido absoluto, sin referencia a ningn grupo, y describir con mayor
precisin los conocimientos, habilidades y destrezas de los sujetos en un dominio concreto de contenidos.

3. DIFERENCIAS ENTRE LOS TESTS REFERIDOS A LA


NORMA Y LOS TESTS REFERIDOS Al CRITERIO
En cuanto a la construccin del test, en los TRC se delimita claramente el dominio de contenidos o conductas y el uso pretendido del test, mientras que en
los TRN los tems suelen derivarse de alguna teora de rasgos y no se hace tanto
hincapi en la especificacin clara del dominio de contenidos. De este modo,
en los TRC se presta mucha atencin a las especificaciones de contenido y a la
elaboracin y anlisis cualitativo de los tems . Una descripcin detallada del
proceso de construccin de un TRC aparece en los trabajos de Hambleton y
Rogers (1991) y Popham (1978, 1984) y sobre elaboracin de tems en los de
Haladyna (1999), Millman (1984), Osterlind (1998), Popham (1978), Roid y
249

1 PSICOMETRA

Haladyna (1982) o Shrock y Coscarelli (1989). Por otra parte, la validez de con tenido, tal y como se ver en el tema siguiente, es fundamental en este tipo de
tests ya que su esencia es la relevancia y representatividad de los tems respecto
al dominio especfico.
Tambin se encuentran diferencias en los criterios de seleccin de tems para
el test. En los TRN el objetivo es maximizar las diferencias individuales por lo
que se eligen tems de dificultad media y alto ndice de discriminacin para incrementar el poder discriminativo del test. En los TRC, sin embargo, la seleccin de los tems se basa en los objetivos del test 'y en el propsito y finalidad
del mismo (Martnez Arias, 1995). Los TRC se pueden utilizar para dos tipos de
objetivos: la estimacin de la puntuacin dominio de los sujetos y el establecimiento de estndares mediante puntos de corte (Berk, 1980). Un TRC construido
atendiendo al primer objetivo se denomina test referido al dominio y se utiliza
para describir lo que una persona puede hacer en un rea de contenido especfico. Por otro lado, cuando un test se construye para establecer estndares mediante los puntos de corte, el test se denomina test de maestra y es til para clasificar a los sujetos en una de las posibles categoras de clasificacin excluyentes
entre s como xito-fracaso, apto-no apto o trastorno-no trastorno (Cracker y
Algina, 1986).
Segn sea el objetivo que se pretenda, la estimacin de la fiabilidad de las
puntuaciones se realizar de forma diferente (Traub y Rowley, 1980). En este
caso, los mtodos de la teora clsica para tests normativos no son apropiados
porque no permiten describir la precisin de las puntuaciones individuales ni la
consistencia de las decisiones tomadas a partir de ellas (Hambleton y Rogers,
1994). Nuevos procedimientos han sido necesarios para alcanzar los objetivos
de estos tests.
Por otro lado, el establecimiento de estndares lleva consigo la determinacin
de los puntos de corte que delimitan los estndares. La ubicacin de estos puntos de corte ha motivado numerosas investigaciones dada la gran trascendencia
que tienen las decisiones que se toman para los sujetos. Una revisin ms completa de los criterios y mtodos empleados se puede encontrar en Berk (1986,
1996), Cizek (1996), de Gruijter (1985), Faggan (1994), Livingston y Zieky (1982),
Shepard, Glaser, Linn y Bohrnstedt (1993) y en los nmeros monogrficos de las
revistas }ournal of Educational Measurement (1978, vol. 15, nm. 4) y Applied
Measurement in Education (1995, vol. 8, nm. 1).
Adems de la fiabilidad de las clasificaciones y la adecuada ubicacin de los
puntos de corte, otro aspecto relevante de los tests de maestra es la obtencin
de evidencias acerca de la validez de las decisiones de la clasificacin, tal y
250

o
rr

el
u

d
b
la
ej
i
la
fe
ni
tu
VE

de
es

nc
m
Zi

4.

a{

en

en
de
de
cu
ca,

do
ter
tiv,
fic
de

LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO 1

parte, la validez de conndamental en este tipo de


dad de los tems respecto

de seleccin de tems para

~ncias individuales por lo

e discriminacin para insin embargo, la selecn el propsito y finalidad


utilizar para dos tipos de
los sujetos y el estableci980). Un TRC construido
'do al dominio y se utiliza
rea de contenido especblecer estndares meestra y es til para claclasificacin ex el uyentes
-no trastorno (Crocker y

e,

de la fiabilidad de las
Rowley, 1980). En este
no son apropiados
ones individuales ni la
as (Hambleton y Rogers,
ra alcanzar los objetivos
consigo la determinacin
ubicacin de estos punda la gran trascendencia
. Una revisin ms comencontrar en Berk (1986,
Livingston y Zieky (1982),
ros monogrficos de las
. 15, nm. 4) y Applied
decuada ubicacin de los
maestra es la obtencin
de la clasificacin, tal y

como se ver en el tema 7. El estudio de este tipo de evidencias se lleva a cabo


mediante el anlisis de la correspondencia entre las clasificaciones realizadas por
el test y las de un criterio de clasificacin externo alternativo. Para ello se realiza
un proceso de validacin referida a un criterio en el que se calcula el coeficiente
de validez a travs de ndices de acuerdo, y se determinan los ndices de sensibilidad y especificidad que complementan la informacin sobre la validez de
las decisiones tomadas por el test. Algunos trabajos en esta temtica (vase por
ejemplo, Dunn, 2000) proponen la aplicacin de la Teora de la Deteccin de Seales, y ms concretamente de las curvas ROC para el estudio de la validez de
las decisiones tomadas al clasificar a los sujetos.
Por ltimo, en lo que respecta a la evaluacin de los sujetos, encontramos diferencias entre ambos enfoques, el normativo y el referido a un criterio, en el significado e interpretacin de las puntuaciones de los tests. En los TRN, la puntuacin obtenida por los sujetos se considera un indicador de su puntuacin
verdadera en un rasgo latente y slo tiene significado en relacin a los resultados del grupo normativo. En los TRC, sin embargo, la puntuacin representa un
estimador del rendimiento del sujeto en el dominio y tiene significado en trminos absolutos. En este enfoque, para la estimacin de la puntuacin en el dominio se puede utilizar la proporcin de respuestas correctas (Bock, Thissen y
Zimowski, 1997).

4. LONGITUD DEL TEST


El problema de determinar la longitud del test, o el nmero de tems que van
a evaluar cada uno de los objetivos incluidos en el test, constituye un problema
crucial ya que de ello va a depender la utilidad de las puntuaciones obtenidas
en dicho test. Si el nmero de tems es pequeo, la interpretacin que hagamos
de las puntuaciones obtenidas tiene un valor limitado. Consiguientemente, se
debera ser cauto a la hora de emplear dichas puntuaciones para llevar a cabo
cualquier tipo de decisin que implique, por ejemplo, una seleccin o clasificacin de los sujetos. Si tenemos un test con pocos elementos, la estimacin del
dominio ser imprecisa y dar lugar a clasificaciones que o bien son inconsistentes a lo largo de varias presentaciones de formas paralelas, o no son indicativas del verdadero nivel de maestra de un sujeto; es decir, se obtendrn clasificaciones que son poco fiables.
Si el propsito que se persigue es el de poder establecer el grado de maestra
de un sujeto, la determinacin de la longitud del test est directamente relacio251

1 PSICOMETRA

nada con el nmero de errores de clasificacin tolerables. Por otra parte, cuando
el nmero de elementos del test es elevado, se pueden asegurar valores de probabilidad de clasificacin incorrecta mnimos. Como cabe pensar, un excesivo
nmero de tems tampoco es lo ms adecuado debido a limitaciones de tiempo,
economa, etc.
Se pueden considerar dos maneras de reducir el nmero de errores que se
pueden cometer sin tener que aumentar la longitud del test. Por una parte, la
utilizacin de modelos bayesianos (Novick y Jackson, 1974) y, por otra parte, se
pueden utilizar mtodos basados en tests computarizados (Eignor y Hambleton,
1979; Hambleton y Eignor, 1978; Spineti y Hambleton, 1977; Wilcox, 1980).
A conti nuacin presentamos nicamente el modelo propuesto por Millman
(1973). El lector interesado podr recabar ms informacin a partir de las referencias citadas y/o los trabajos de Birbaum, 1968; Hambleton y col., 1983 y
Lord, 1980.

Modelo de Millman
El modelo propuesto por Mi liman (1973) est basado en el modelo binomial.
Considera la proporcin esperada de tems que un sujeto puede contestar correctamente para ser considerado como apto, de la poblacin de tems definidos,
y el error mximo que se est dispuesto a tolerar.
Dicho modelo parte de los siguientes supuestos:

1) El test est compuesto por una muestra aleatoria de tems dicotmicos.


2) La probabilidad de una respuesta correcta por parte de un sujeto es constante para todos los tems del test.
3) Las respuestas dadas a los tems del test son independientes unas de otras.
4) Los errores se ajustan al modelo binomial,

Prob(x 1 p)

=(n]pxqn-x =
x

i(
x

n!
x!(n-x)!

)pxqn-x

[5.1]

donde:
Prob(x lpJ =probabilidad de que un sujeto con una puntuacin p, conteste
correctamente x tems de un test que tiene n tems.
A partir de la siguiente ecuacin podemos calcular la longitud del test, supuesta una determinada proporcin de aciertos:
252

Por otra parte, cuando


asegurar valores de propensar, un excesivo
limitaciones de tiempo,

[5.2]

donde:
n = nmero de tems del test.

mero de errores que se


el test. Por una parte, la
974) y, por otra parte, se
(Eignor y Hambleton,
, 1977; Wilcox, 1980).
propuesto por Millman
in a partir de las refebleton y col., 1 983 y

Pe = proporcin de aciertos para ser considerado apto.


e = error mximo admisible.
EJEMPLO:
Para un determinado test se ha establecido la proporcin de aciertos para ser
considerado apto en 0,85. Se desea saber cul es la longitud del test si estamos
dispuestos a admitir un error mximo de 0,05 y 0,02.

n = 0,85(1- 0,85) =
51
0,05 2
en el modelo binomial.
eto puede contestar coacin de tems definidos,

1
n= 0 ' 85 ( - 02 ' 85 ) =318 75,319
o 02
'

'

En el primer caso tendramos 51 tems y admitiramos un margen de aciertos


entre 0,80 y O, 90 (0,85 0,05) y en el segundo caso tendramos 319 tems y un
margen de aciertos entre 0,83 y 0,87 (0,85 0,02 ).

de tems dicotmicos.
rte de un sujeto es consdientes unas de otras.

[5.1]

puntuacin p, conteste
en tems.
la longitud del test, su-

.:>.

FIABILIDAD EN LAS CLASIFICACIO ES E,


REFERIDOS Al CRITE RIO

LOS T ... ST'

Como ya hemos dicho, los tests referidos al criterio se pueden utilizar para dos
tipos de objetivos: la estimacin de la puntuacin dominio de los sujetos, y el establecimiento de estndares mediante puntos de corte (tests de maestra). El segundo enfoque, es el ms utilizado y el que ha dado lugar a un mayor nmero
de procedimientos para abordar el problema de la fiabilidad. Es en este contexto
desde donde abordaremos el estudio de la fiabilidad de los tests referidos al criterio.
Desde este segundo enfoque, se considera un test fiable si, tras su aplicacin
a los mismos sujetos en distintas ocasiones, o la aplicacin de dos formas paralelas, se clasifica a los sujetos siempre en la misma categora .
Los mtodos que se presentan a continuacin para el clculo de la fiabilidad,
se pueden dividir en dos grupos: los que requieren dos aplicaciones del test, y
253

1 PSICOMETRA

aquellos que slo requieren una aplicacin. Dentro del primer grupo se presenta: el ndice de Hambleton y Novick, el coeficiente Kappa de Cohen, y el ndice de Cracker y Algina. Dentro del segundo veremos: el mtodo de Huynh, el
mtodo de Subkoviak, y el coeficiente de Livingston.

5.1. ndices de acuerdo que requieren dos aplicaciones del test


5.1.1. Coeficiente Pe de Hambleton y Novick
Este coeficiente Pe (Hambleton y Novick, 1973; Swaminathan, Hambleton y
Algina, 1974), supone la utilizacin de la proporcin de sujetos que, consistentemente, son clasificados dentro del grupo de maestra o no-maestra, como un
ndice de la fiabilidad de un test.
Nos basaremos en el siguiente ejemplo para una mayor comprensin de este
procedimiento. Supongamos los datos de la tabla 5.1, en la que se presenta la
puntuacin total obtenida por 20 sujetos en dos tests paralelos compuestos por
doce tems, y que un sujeto debe responder correctamente a un mnimo de 7
tems para ser clasificado dentro del grupo de maestra.

Sujeto

11

12

13

14

15

3
3

16

17

18

19

10

20

Dichas puntuaciones pueden agruparse tal y como aparecen en la siguiente


matriz (Tabla 5.2) en funcin de que superen o no la puntuacin de corte que va
a permitir clasificarlos en una categora u otra.

254

LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO

:Jel primer grupo se preKappa de Cohen, y el n: el mtodo de Huynh, el

Test .. e .
No- maestra

licaciones del test

minathan, Hambleton y
sujetos que, consisteno no-maestra, como un

Total (N1)

Maestra

No-maestra

14

15

Total (N)

17

N= 20

As, los sujetos 2 y 4 son los nicos sujetos que han sido clasificados en el
grupo de maestra en ambos tests. Del 7 al 20 los sujetos estn clasificados dentro del grupo de no-maestra tanto en el test A como en el B. El resto de los sujetos han sido clasificados de distinta manera en ambos tests. La proporcin de
sujetos consistentemente clasificados en ambos tests se puede expresar mediante
la ecuacin:

comprensin de este
en la que se presenta la
ralelos compuestos por
ente a un mnimo de 7

p =
e

Lp
n

i=1

n
n
n
+ _ll_ +
+ mm
N
N
....
N

_1_1

[5.3]

donde:

p = proporcin de sujetos clasificados consistentemente en ambas formas.


Test A

Test B

5
5
4

3
4

3
3

2
5
3
1

2
2
1
1

5
4

aparecen en la siguiente
ntuacin de corte que va

N= nmero total de sujetos.


n 11

'

n 22 ,

...

nmm =nmero sujetos en cada casilla en los que ambos test coinciden al clasificarlos.

A partir de los datos de la matriz:

Pe

~ =2+~=~=0
f:;p 20 20 20
1

80

El valor mximo de Pe es igual a 1, valor que se obtendr cuando los sujetos


sean clasificados de la misma forma con los dos tests, y el valor mnimo ser igual
a la proporcin de clasificaciones consistentes que podemos esperar por azar (p 3 ),
valor que viene dado en funcin de las frecuencias marginales de la tabla (N) .

mNN

Pa = L NI 21 ~i
j=1

[5.4]

~~'
255

1 I'SICOMETRIA

Con los datos de la tabla anterior:

53
20

1517
20

Pa = -2 + - -2-=0,0375+0,6375=0,675===0,68
Ante estos resultados se puede decir que la utilizacin de los tests supone
una mejora importante en la consistencia de las clasificaciones, y por lo tanto en
la fiabilidad de las mismas, con respecto a las realizadas por mero azar. Mientras que por azar obtenemos una fiabilidad de 0,68, el uso de los tests nos reporta
una fiabilidad de 0,80.

5.1.2. Coe iciente Kappa de Cohen


Swaminathan, Hambleton y Algina en 1974 sugieren que en la estimacin
del coeficiente de fiabilidad se elimine del valor de la proporcin de sujetos clasificados consistentemente el valor de la proporcin de clasificacin consistente
esperada por azar y, para ello, recomiendan la utilizacin del coeficiente Kappa
de Cohen (Cohen, 1960; Fleiss y col., 1969), cuya frmula es:

az

[5.5]

Si se aplica el coeficiente Kappa a los datos del ejemplo anterior los resultados sern :

co

El valor Kappa nos proporciona una medida de la consistencia de clasificacin de los sujetos independientemente del posible valor esperado por azar. El
valor Kappa oscila entre 1, que indicara una fiabilidad perfecta, y O, que indicara que la consistencia observada sera atribuible al azar.
Este coeficiente tambin se puede expresar en funcin de las frecuencias absolutas:

me

[5.6]

pus

256

LA FIABILIDAD EN LOS TESTS REFERIDOS Al CRITERIO

donde:

Fe = frecuencia observada de clasificaciones coincidentes.


Fa = frecuencia de coincidentes esperadas por azar.
N= nmero total de personas de la muestra.
in de los tests supone
iones, y por lo tanto en
por mero azar. Miende los tests nos reporta

Con los datos de la tabla 5.2,

Test B
Test A

Maestra

No- maestra

Total (N)

5
15

Maestra

No-maestra

1
3

14
17

Total (N)

N= 20
s;;::ne

n que en la estimacin
porcin de sujetos claasificacin consistente
n del coeficiente Kappa
la es:

En primer lugar, calculamos las frecuencias de coincidencias esperadas por


azar a partir de las frecuencias marginales.

3 5
" =0 75
20
1

17 15 =12 75
20
Fa =0J5+12J5=13,5 0
1

[5.5]

plo anterior los res u Ita-

A continuacin, calculamos las frecuencias observadas de clasificaciones


coincidentes

Por lo tanto:
sistencia de clasificaor esperado por azar. El
perfecta, y O, que indir.
de las frecuencias ab-

[5.6]

K=Fc-Fa = 16-13,50=2,50= 0 , 38
N-Fa 20-13,50 6,50
Como se puede observar, el valor es el mismo que se ha obtenido anteriormente.
Para ver la significacin estadstica del coeficiente Kappa, Cohen (1960) propuso la utilizacin del error tpico de medida de K:

257

1 PSICOMETRA

[5 .7]

pE

ce
Aplicando los datos de nuestro ejemplo:
En primer lugar calculamos el error tpico de medida

5.
A continuacin calculamos el intervalo confidencial:

5.~

[5.8]

Si utilizamos un N.C. del 95%, el intervalo confidencial vendr dado por:

tra
de
un
dis

no~

Dado que el valor K= O, se encuentra dentro de los lmites del intervalo, podemos establecer que el acuerdo entre las clasificaciones no es estadsticamente
significativo.

tra

Hu
a ce

intt

5.1.3. ndice de Crocker y Algina

Cracker y Algina (1986) proponen el ndice P*, como una alternativa al coeficiente Kappa de Cohen (1960). Este ndice se basa en que la probabilidad mnima de una decisin consistente es 0,50. Este mnimo tendr lugar si las puntuaciones del test son estadsticamente independientes y el punto de corte est
en la mediana de la distribucin conjunta de las puntuaciones obtenidas por los
sujetos en las dos aplicaciones. El coeficiente P* viene expresado por:

P*= Pe -0, 50 =2 -1
1-0 50
Pe

ant
nor
ter
jete
seg

[5.9]

Siguiendo a Cracker y Algina (1986), el valor de P* es igual a 1 cuando las decisiones son totalmente consistentes, e igual a O cuando las decisiones no son
258

LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO

[5.7]

ms consistentes que las que resultaran de utilizar tests estadsticamente independientes, cuyas puntuaciones presentan la misma distribucin y un punto de
corte igual a la mediana de la distribucin comn.
En nuestro caso Pe =0,80, por lo tanto:

P* =Pe -O, SO = 2p -1 = (2 O 80) -1 =O 60


1-0,50

5.2. ndices de acuerdo que requieren una sola aplicacin del test
5.2.1. Mtodo de Huynh
[5.8]

vendr dado por:

ites del intervalo, poo es estadsticamente

una alternativa al caee la probabilidad mndr lugar si las pune! punto de corte est
:ones obtenidas por los
por:
[5.9]

1 a 1 cuando las delas decisiones no son

Los mtodos que se han presentado implican la existencia de una sola muestra de sujetos y dos aplicaciones de un mismo test o de dos formas paralelas. Una
de las primeras ventajas que supone el mtodo de Huynh es que slo se precisa
un test y una sola aplicacin. En el trabajo de Keats y Lord (1962): A theoretical
distribution for mental test scores estos autores proponen un mtodo para pronosticar las puntuaciones en un test B conocidas las puntuaciones de una muestra de sujetos en una primera aplicacin (test A). El mtodo original descrito por
Huynh (1976) lleva consigo un desarrollo matemtico laborioso por lo que es
aconsejable que se cuente con paquetes de programas computerizados. El lector
interesado puede seguir este desarrollo en Berk (1980).
Sin embargo, Huynh (1976) y Peng y Subkoviak (1980), han propuesto un
mtodo de aproximacin ms manejable. Esta aproximacin al procedimiento
anterior, presupone que la distribucin de puntuaciones es aproximadamente
normal. Huynh sugiere que este presupuesto es adecuado cuando el nmero de
tems es superior a ocho y la razn entre la media de las puntuaciones de los sujetos en el test y el nmero de tems oscila entre O, 15 y 0,85. Los pasos a seguir
segn este mtodo son:
1) Calcular la media (X'), la varianza (5~) y el coeficiente de correlacin de
Kuder-Richardson 21 (KR2 7) y especificar el valor del punto de corte (e). En
el ejemplo que presentamos, suponemos que la media del test A es igual a
X= 5, 15, la varianza 5~ = 4,45, el coeficiente KR21 = 0,37 y el punto de
corte sobre las puntuaciones directas X se establece en e= 7.
2) Calcular la puntuacin tpica (Zx) correspondiente al valor del punto de
corte, con una correccin de 0,5 y, acudiendo a las tablas de curva normal se busca el valor de P que deja por debajo la Z obtenida.
259

L
X

[5.1 O]

z = re - o15 - x J = (7 -o 15 SX

.:>.

(C-0~5-X J

51 1 5J =

21 109

cu
Su

0 1 64

m;
3) A partir de las tablas de Gupta (1963) incluidas al final del libro (tabla 11 ),
obtenemos la probabilidad (Pzz) de que dos variables distribuidas normalmente con una correlacin KR21 = 0 1 37 sean menores que Z = 0,64.
Pzz = 0,58

4) Por ltimo calculamos los valores

Pe y k

Pe = 1+ 2 (Pzz - Pz )

[5.11]

L__

[5 .12]

pe = 1+ 2 ( p zz - p z ) = 1+ ( 2 O158 - O,7 4)

= O168

k=Pzz -p~ =0158-(0,74/ =0 16


Pz -P~

0,74-(0,74/

En definitiva podemos considerar que el mtodo de Huynh constituye un procedimiento matemtico sofisticado para estimar la consisten c ia de cl asificacin
a partir de una sola administracin de un test de maestra (Subkoviak, 1980).

Nota: Tngase en cuenta que al utilizar la frmula KR21 , los tems del test debern
tener la misma dificultad.

L.__

260

dor

5.2.2. /I.Jdodo de Sub .m ic1k


[5 .1 O]

Subkoviak (1980) establece un procedimiento con una nica


cu ando no es posible establecer una forma paralela de un test. El
Subkoviak simula las puntuaciones de una segunda forma paralela
mtodo, al igual que el desarrollado por Huynh, proporciona una
macin de los valores Pe y k.
na! del libro (tabla 11 ),
ables distribuidas narres que Z = 0,64.

aplicacin
mtodo de
del test. Su
buena esti-

Para la explicacin del mtodo de Subkoviak vamos a utilizar los datos del
ejemplo desarrollado en el mtodo de Hambleton y Novick suponiendo que solo
se pudiera aplicar el test A y que el coeficiente de fiabilidad fuera igual a 0,62.
Los pasos para confeccionar la tabla son los siguientes:
Las columnas 1, 2, 3 y 4 representan la distribucin de frecuencias de las
puntuaciones obtenidas por los 20 sujetos de la muestra.
Una vez obtenida la distribucin de frecuencias, se calcula la media y el
coeficiente alfa del test, que suponemos igual a 0,62:

[5 .11]

x= :x = 103 = 5 15
N

[5 .12]

20

'

a=0,62
A continuacin se estima la probabilidad de que una persona con una
determinada puntuacin X responda correctamente a cada tem. Dicha
probabilidad se estima mediante la ecuacin:

=0, 68

[5.13]
uynh constituye un prostencia de clasificacin
(Subkoviak, 1980).

donde:
a

tems del test debern

= coeficiente alfa.

X= Puntuacin directa.
N= Nmero d tems del test.

X = Media del

test.

261

1 PSICOMETRA

fx

9
8
7
6
5
4

1
2
2
4
4
2

3
2
1

3
1
1

1-2 (Px- ~)
0,628
0,576
0,525
0.473
0.421
0,370
0,318
0,266
0,215

0.7362
0,5999
0.4562
0,3164
0,1978
0,1105
0,0522
0,0201
0,0059

fx

0,6114
0,5198
0,5038
0,5674
0,6826
0,8034
0,9010
0,9606
0,9882

20

(1-2 (Px- ~))

fxpx

0,6114
1,0396
1,0076
2,2696

0,7361
1,1998
0,9124

2.7030
0,9606
0,9882

1,2656
0,7912
0,2210
0 ,1566
0,0201
0,0059

13,9172

5,3088

2.7304
1,6068

A modo de ilustracin, calcularemos el resultado para el primer caso de la


matriz de frecuencias, es decir, el caso en el que X= 9. El resto de los valores de
Px (representados en la tercera columna) se obtienen siguiendo el mismo proceso. Recurdese que el test consta de 12 tems.

Px = 0,62 (9/12) + (1-0,62) (5,15/12) = 0,628


En tercer lugar calculamos la probabilidad de que una persona, con una
determinada puntuacin X, y una probabilidad Px de acertar cada tem
(valor correspondiente en la columna 3) responda correctamente siete o
ms tems en el test y sea clasificado dentro del grupo de maestra. Para
ello, puesto que podemos considerar los tems como ensayos de un proceso binomial, aplicaremos la funcin de distribucin binomial o se buscarn los valores correspondientes en las tablas de la distribucin binomial, para lo que se tendr en cuenta el nmero de tems (n), el valor del
punto de corte (e), que en nuestro ejemplo es 7 y la probabilidad de acertar cada tem (px) en funcin de la puntuacin obtenida en el test.

f(k)

=Prob(X 2 k)=

L(: )p'q"-'

[5.14]

Los va lores obtenidos aparecen recogidos en la cuarta columna de la tabla 5.3.


Veamos cul sera el proceso a seguir en el caso de un sujeto que ha obtenido
una puntuacin 9 en el test, y una probabilidad de acertar cada tem de Px = 0,628.
Recurdese que el punto de corte se estableci en 7 tems.
262

LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO

(1-2 (Px-

P!J)

1(7)

~ Prob(X ~ 7) ~ ( 1:

1(8)

~ Prob(X ~ 8) ~ ( 1~ }0,628"0,3 72' ~O, 22 932

1(9)

~ Prob(X ~ 9) ~ ( 1~ )o,62 8' 0,3 72' ~O, 1 72 06

fxPx

0 ,6114

0,7361

1,0396

1,1998

1,0076

0,9124

2,2696

1,2656

2,7304

0,7912

1,6068

0,2210

2,7030

0,1566

0,9606

0,0201

0,9882

0,0059

13,9172

5,3088

na el primer caso de la
:1resto de los valores de
1guiendo el mismo pro-

)a,62 8' 0,3 72'

~O, 21 734

1(1 O)

~ Prob(X ~ 101 ~ G~ )o,62 8" 0,3 72 ' ~ O, 087

1(11)

~ Prob(X ~ 11) ~ G~ )o,628 "0,3 72' ~ O, 02 67 5

11121

~ Prob(X ~ 121 ~ G~ )o,62B" 0,3 72" ~ o, 003 76


Px = 0,73623

Luego, la probabilidad de acertar 7 o ms tems de 12 es Px = 0,73623 que


es la suma de las probabilidades de acertar 7, 8, 9, 10, 11 y 12.

0,628

e una persona, con una


Dx de acertar cada tem
a correctamente siete o
grupo de maestra. Para
omo ensayos de un pro1Cin binomial o se busla distribucin binotems (n), el valor del
a probabilidad de acerida en el test.

Si se acude a las tablas de la distribucin binomial habra que buscar la probabilidad de que X~ 7 paran= 12, p = 0,628 lo que equivale a buscar 1- la probabilidad de que X::; 6. Para encontrar el valor exacto, la tabla debera contemplar todos los valores de probabilidad de xito p.
Una vez calculados los valores de la cuarta columna, se calcula la probabilidad de que cada sujeto sea consistentemente clasificado en el grupo
de maestra para dos tests independientes; es decir, la probabilidad de que
cada persona sea clasificada en el grupo de maestra por el primer test
(Px,), por la probabilidad de que sea clasificado en el grupo de maestra
por el segundo test (Px 2 ) y que ser igual a P~ y la probabilidad de que sea
clasificado en el grupo de no maestra en los dos tests que ser:

[5.14]
[5.15]

lumna de la tabla 5.3.


sujeto que ha obtenido
cada tem de Px = 0,628.

Consiguientemente, la probabilidad de clasificacin consistente para dicho


sujeto es:

263

1 PS!COMETRA

P} +(1-Px/ = 1- 2(P2 -P})

[5.16]

En e
mente

Para
dad de
tal estir
mos ve

En nuestro caso tenemos que:

1- 2. (o, 73 66- o, 73 66 2 ) =o, 612


El conjunto de todos los valores obtenidos aparece recogido en la quinta columna.
En la sexta columna se recoge el nmero de sujetos que, habiendo obtenido una puntuacin X sern consistentemente clasificados. Para el caso
de X= 9, tenemos:

Pa :
[5.17]

1 [1 - 2. (0,7362- 0,7362

A ce

J= 0,6114

La forma de obtener estos valores es multiplicando los valores obtenidos en


la quinta columna por la frecuencia de la columna 2.
Por ltimo, la suma de los valores de la columna 7, que se obtienen multiplicando los valores obtenidos en la columna 4 por los de la columna 2,
representa el nmero de sujetos que superarn el punto de corte en ambos tests.
Con todos estos datos ya se pueden obtener los coeficientes Pe y Kappa
El coeficiente Pe se obtiene dividiendo el valor de la suma del nmero de sujetos que para una determinada puntuacin han sido consistentemente clasificados (columna 6) por el nmero total de sujetos.

Pe=

L fx [ 1- 2(?, - P}) J

[5 .18]

f
X

Pe =
ZE4

Lfx[1-2(Px -P})]
fX

13,9172
=0 695
20
1

5.2.3 .

El ce
Cls ica
que her
deran, r
jeto per
que cor
maestr;
s tiene
de clasi
que est~

LA FIABILIDAD EN LOS TESTS REFERIDOS Al CRITERIO

[5.16]

En dicha expresin, el numerador representa el nmero de sujetos correctamente clasificados, y el denominador el nmero total de sujetos.
Para calcular el coeficiente Kappa hay que calcular el valor de la probabilidad de clasificacin consistente por azar (p) a partir de la suma del nmero total estimado de sujetos clasificados en el grupo de maestra cuyos valores podemos ver en la columna 7.

:P.~1-2(~

ecogido en la quinta co-

tos que, habiendo obte:lasificados. Para el caso

p,

-(~ p,

J)

[5.19]

L_

=1_ 2 (I/xN Px -(L/x


px ) ]= 1 _ 2 (5 3088 -(5 3Q88) )= 61
Pa
N
20
20
2

[5 .17]
A continuacin calculamos el coeficiente Kappa:

14

[5 .20]
valores obtenidos en
, que se obtienen muir los de la columna 2,
punto de corte en amcientes Pe y

Kappa

uma del nmero de sunsistentemente clasifi-

[5.18]

K= Pe -Pa = 0 695 -0~ 61 = 0 085 =O 22


1-pa
1-0 61
0 39
1

.:i.2. 1. CfJeficiente

de Livingston

El coeficiente de Livingston (1972) se desarrolla en el contexto de la Teora


Clsica de los Tests. Siguiendo a Muiz (1998), podemos decir que los mtodos
que hemos presentado hasta el momento para el estudio de la fiabilidad, consideran, por igual, tanto los errores que cometemos cuando clasificamos a un sujeto perteneciente al grupo de maestra en el grupo de no-maestra, como los
que cometemos cuando clasificamos a un sujeto perteneciente al grupo de nomaestra dentro del grupo de maestra. Sin embargo, el coeficiente de Livingston
s tiene en cuenta este tipo de errores, al considerar ms importantes los errores
de clasificacin de los sujetos ms distanciados del punto de corte de aquellos
que estn ms cerca del punto de corte. Lgicamente, es ms fcil cometer erro-

PSICOMETRA

res de clasificacin cuando un sujeto se encuentra muy cercano al punto de


corte y ser ms difcil cometer estos errores de clasificacin cuando el sujeto se
encuentra muy alejado del punto de corte.
El coeficiente viene determinado por:

= a s; +(X- C) 2

K2
XV

s; +(X -

[5.21]

C)2

donde:

o
n

coeficiente alfa.

s; = varianza del test.


X=
e

media del test.

= punto de corte.

g
J

EJEMPLO:
Si aplicamos la frmula a los datos del ejemplo anterior: a= 0,62, X= 5,15

y Sx = 2,109 y el punto de corte igual a 7:

K 2 =a5;+(X-C) =0,624,45+(5,15-7) =2,759+3,42=


XV

s;+(X-C) 2

4,45+(5,15-7) 2

7,87

078
'

A medida que el punto de corte se distancia del valor de la media del test, aumenta el valor de
Cuando la media del test coincide con el punto de corte,
es igual al coeficiente alfa. Cuando el coeficiente de fiabilidad alfa es igual
a 1, K~ tambin es igual a uno. Por lo tanto, K;v ser siempre igual o mayor que
el coeficiente de fiabilidad alfa.

K;v

K;v.

6. MTODOS PARA ESTIMAR EL PUNTO DE CORTE


EN LOS TESTS REFERIDOS AL CRITERIO
En el punto anterior hemos presentado una serie de mtodos para el clculo
de la fiabilidad de los tests referidos al criterio en los cuales partimos del establecimiento de una puntuacin de corte que nos va a permitir clasificar a un sujeto en dos posibles categoras: la de aquellos sujetos que dominan el criterio
266

e
e

LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO 1

cercano al punto de
acin cuando el sujeto se

1UY

[5.21]

evaluado, o la de aquellos sujetos que no dominan el criterio evaluado. Es decir, el criterio acta como un filtro o punto de corte para clasificar a los sujetos.
La cuestin fundamental es, cmo se establece este punto de corte? cul es la
puntuacin a partir de la cual un sujeto se situar en un grupo u otro? Existen innumerables situaciones que requieren establecer un punto de corte antes de dotar de significado a la puntuacin obtenida por un sujeto en un test. Por ejemplo, la calificacin de aprobado o suspenso en un examen, la seleccin de
aspirantes a un puesto de trabajo, la admisin para entrar en la universidad, son
ejemplos donde es necesario establecer un punto de corte. Como se puede observar, las decisiones que se tomen como consecuencia del valor del punto de
corte establecido son de gran importancia, ya que de ellas depender, en algunos casos, el futuro de las personas implicadas.
Por lo general, se suele contar con un nmero adecuado de expertos que son
quienes establecen ese punto de corte. Es, en definitiva, una cuestin sujeta a un
grado de subjetividad, por lo que garanta absoluta no existe. Siempre habr sujetos clasificados errneamente. Sujetos clasificados como competentes cuando
no lo son y viceversa.

erior: a= 0,62,

X= 5,15

2,759+3,42 =0,78
7,87
r de la media del test, aue con el punto de corte,
fiabilidad alfa es igual
mpre igual o mayor que

Se suelen considerar dos tipos de puntos de corte (Muiz, 1998): puntos de


corte relativos y puntos de corte absolutos. Se definen como relativos, cuando
el punto de corte se establece en funcin del grupo de sujetos evaluados, y se
definen como absolutos, cuando el punto de corte se establece en funcin del
constructo o materia objeto de estudio.
Son innumerables los modelos propuestos (Berk, 1996, 1986; Cizek, 1996;
Hambleton y Eignor, 1980; Hambleton y Rogers, 1990; Jaeger, 1995, 1989) para
establecer el punto de corte. Aqu presentamos los mtodos utilizados con mayor frecuencia.

6.1. Mtodos valorativos

DE CORTE

mtodos para el clculo


ales partimos del estaitir clasificar a un suque dominan el criterio

Los cuatro mtodos que veremos a continuacin se basan en la evaluacin


que un grupo de expertos, con un cierto entrenamiento y en nmero suficiente,
llevan a cabo sobre los tems de un test. La forma en que dichos expertos abordan la evaluacin tambin vara segn el mtodo utilizado. Los expertos solamente deben ser especialistas en la materia a evaluar, y no es necesario que conozcan el grado de competencia de cada uno de los sujetos. A pesar de que aqu
solamente presentaremos los modelos basados en el contenido de los ten1s, existen otros modelos que basan el proceso de evaluacin en el contenido del test
267

(Giass, 1978; Shepard, 1976), o en caractersticas tales como el acierto al azar


(Millman, 1973).

co ne

a, b 1
Mtodo de Nedelsky

El mtodo de Nedelsky (1954) es el primero de los procedimientos establecidos para fijar el punto de corte en tests de competencia mnima. Estos tests se utilizan habitualmente en el mbito acadmico para determinar si un sujeto posee
los conocimientos mnimos exigibles en una determinada materia. El mtodo de
Nedelsky se utiliza con tests compuestos de tems de eleccin mltiple, y precisa que los expertos o jueces analicen las distintas alternativas de los tems y, a
continuacin, determinen cules de las posibles alternativas sern consideradas
como errneas por un sujeto que tuviese los conocimientos mnimos exigibles
para ser considerado como competente. El modelo asume que un sujeto elegir
al azar, entre las restantes opciones, la posible respuesta correcta .
Seguidamente, para cada tem, el juez registra el recproco del nmero de
preguntas que quedan . Supongamos que un tem consta de seis alternativas, y un
juez considera que un sujeto mnimamente competente rechazar cuatro de ellas
como errneas. El recproco, se determina dividiendo la unidad por el nmero
de alternativas restantes, las que el sujeto no ha considerado como alternativas
errneas, en nuestro caso 2 por lo que el recproco ser 0,5. Esta puntuacin se
correspondera con la puntuacin esperada para un sujeto en un tem determinado. Para calcular la puntuacin de un sujeto mnimamente cualificado en un
test, se sumaran todos los valores esperados de cada tem. De esta manera, se
obtendr la puntuacin otorgada por un determinado juez a un sujeto mnimamente cualificado. El promedio de las puntuaciones otorgadas por todos los jueces, nos dar la puntuacin de corte.
Veamos el proceso que se seguira con el siguiente tem correspondiente a un
test de mecnica:

tem
te rna
tro e
test.
la SU
dia d
p unt<

Pa
corte

dond

EJE

Su
ternat
Esto ir
amos

Una pieza esencial para que un vehculo pueda circular es:


a) El manillar
b) El espejo retrovisor
e) El motor de arranque
d) La rueda de repuesto
e) Los intermitentes
f) Los faros
268

Co

Ar

todo e
que m
si n em

LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO

es como el acierto al azar

procedimientos establecimnima. Estos tests se utierminar si un sujeto posee


1ada materia. El mtodo de
2 eleccin mltiple, y preternativas de los tems y, a
nativas sern consideradas
n ientos mnimos exigibles
ume que un sujeto elegir
~sta correcta.

recproco del nmero de


ta de seis alternativas, y un
e rechazar cuatro de ellas
D la unidad por el nmero
iderado como alternativas
~ r 0,5. Esta puntuacin se
jeto en un tem determiamente cualificado en un
tem. De esta manera, se
juez a un sujeto mnimargadas por todos los juecorrespondiente a un

res :

Segn el mtodo de Nedelsky, un juez considerara que un sujeto, con unos


conocimientos mnimos de mecnica descartara como alternativas errneas la
a, by d. La puntuacin esperada para un sujeto mnimamente competente en ese
tem vendra dada por el resultado de dividir la unidad entre el nmero de alternativas que se supone que el sujeto no ha rechazado como errneas; en nuestro caso 1: 3 = 0,33. Este proceso es el que se seguira con todos los tems del
test. El valor esperado por ese juez para ese tipo de sujeto en el test ser igual a
la suma de los valores esperados en cada uno de los tems. Si se calcula la media de todos los valores esperados por todos los jueces se tendr el valor del
punto de corte.
Para corregir los posibles efectos del azar a la hora de determinar el punto de
corte se puede utilizar la siguiente expresin:

I ~=A-~ 1
4Ji?i.

w;w;

;un

[5.22]

donde:

Pe = la puntuacin corregida.
N= nmero de tems.

= media de los valores esperados.


n = nmero de alternativas de cada tem.

EJEMPLO:
Supongamos un test de percepcin del color compuesto por 40 tems de 4 alternativas. La media de los valores esperados determinada por 7 jueces es 28.
Esto implica que el valor del punto de corte sin corregir el azar es igual a 28. Veamos cul sera el valor si corregimos los efectos del azar.
p =A-N-A=28e

n-1

40-28=28-~=24
4-1

Corregido el efecto del azar la puntuacin de corte sera 24.


A pesar de su utilizacin no deja de ser un procedimiento cuestionable. El mtodo de Nedelsky asume que los sujetos responden al azar entre las alternativas
que no son descartadas como errneas cuando no conocen la respuesta correcta,
sin embargo, no existe ninguna evidencia que sustente este hecho (van der Linden,
269

PSICOMETRA

1982; jaeger, 1989). Asimismo es un mtodo en el que se tiende a dar valores de


corte ms bajos que si se utilizan otros procedimientos (Shepard, 1980) debido a
que los jueces no suelen asignar valores esperados entre 0,5 y 1. De ser as, o slo
quedaran dos alternativas sin eliminar y, por lo tanto, el valor esperado sera 0,5 o
slo quedara una alternativa sin eliminar, en cuyo caso el valor esperado sera 1.

Mtodo de Angoff

por

Mt

El mtodo propuesto por Angoff (1971 ), puede considerarse como una variante del mtodo de Nedelsky, con la diferencia de que es aplicable a toda clase
de tems, no slo a los de eleccin mltiple. En este mtodo, no se pide a los jueces que emitan juicios acerca de cada una de las alternativas de un tem, como
en el mtodo anterior, sino que deben evaluar el tem globalmente y determinar
la probabilidad de que un sujeto, con los requisitos mnimos para ser competente, responda correctamente a cada uno de los tems del test. Para poder determinar estas probabilidades, los jueces han de comprender claramente latarea que deben realizar los sujetos. Una vez que los distintos jueces han
establecido las probabilidades de que los sujetos mnimamente competentes respondan a los tems correctamente, estamos en condiciones de establecer el
punto de corte. La puntuacin total establecida por cada uno de los jueces para
cada sujeto se considera como la puntuacin estimada de un sujeto mnimamente competente. Para calcular el punto de corte, se suman los valores de las
probabilidades establecidas por cada uno de los jueces, y se calcula la media de
dichas puntuaciones. Como en el caso del mtodo de Nedelsky, tambin se
puede aplicar la correccin de los efectos del azar.

E
Ang
raci<
el gr
ni ve
leva
una
los
pont
juec
que
ni m<
c in

done
EJEMPLO:
En la tabla siguiente aparecen las probabilidades, otorgadas por cuatro jueces, de que un sujeto mnimamente competente supere cada uno de los tems de
un test. Calcular el punto de corte mediante el mtodo de Angoff.

270

tems

Juez 1

Juez 2

Juez 3

Juez 4

0,44

0,25

0,45

0,20
0,38

0,35

0,20

0,40

0,40

0,25

0,35

0,30

0,30

0,40

0,30

0,45

0,50

0,22

0,50

0,25

0 ,30

0,30

0,45

0,22

Total

2,29

1,62

2,45

1,80

EJ

Er
cent<:
tame
propt

LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO

se tiende a dar valores de


(Shepard, 1980) debido a
0,5 y 1. De ser as, o slo
valor esperado sera 0,5 o
el valor esperado sera 1 .

El punto de corte ser igual a la media de las puntuaciones totales otorgadas


por los cuatro jueces:
P.C.= 2,29 + 1,62 + 2,45 + 1,80 = ,
2 04
4
Mtodo de Ebel

nsiderarse como una vaes aplicable a toda clase


o, no se pide a los jueativas de un tem, como
obalmente y determinar
nimos para ser campedel test. Para poder deder claramente la talos distintos jueces han
amente competentes resiciones de establecer el
a uno de los jueces para
de un sujeto mnimasuman los valores de las
y se calcula la media de
Nedelsky, tambin se

El mtodo de Ebel (1972) guarda una cierta similitud con el mtodo de


Angoff que acabamos de ver, puesto que los jueces tambin realizan una valoracin global del tem aunque desde una doble perspectiva. Los jueces evalan
el grado de dificultad del tem, y tambin su grado de relevancia. Ebel sugiere tres
niveles de dificultad para cada tem: fcil, medio y difcil; y cuatro niveles de relevancia: esencial, importante, aceptable y dudoso. De esta manera, se obtiene
una matriz con doce categoras distintas en la que aparecern clasificados todos
los tems del test. Una vez que se han clasificado los tems en la casilla correspondiente, se hace un recuento del nmero de tems por casilla, y los distintos
jueces proceden a estab lecer un porcentaje que representa el nmero de tems
que seran contestados correctamente por un sujeto con una competencia mnima. A continuacin se calcula el punto de corte mediante la siguiente ecuacin:
1

XC= "ip(M)

[5.23]

donde:

Xc = puntuacin correspondiente al punto de corte.


as por cuatro j u e. cada uno de los tems de
de Angoff.

Juez 4
0,20
0,38
0,30

0,45

p =proporcin de tems en cada casilla que un sujeto mnimamente competente debera contestar correctamente.

M= nmero de tems en cada celda.


EJEMPLO:
En la siguiente tabla aparecen clasificados los 165 tems de un test y el porcentaje de tems de cada casilla que un juez considera que responder correctamente un sujeto mnimamente competente (dividido por 100 se obtendr la
proporcin). Calcular el punto de corte.

0,25
0,22
1,80

271

1 PSICOMETRA

Niveles de dificultad
Niveles de relevancia

Esencial

Importante

Aceptable

Dudoso

Fcil

Medio

Difcil

tems: 15

tems: 20

tems: 10

Juez: 80%

Juez: 60%

Juez: 30%

tems: 30

tems: 18

tems: 7

Juez: 70%

Juez: 55%

Juez: 30%

tems: 25

tems: 15

tems:10

Juez: 65%

Juez: 50%

Juez: 25%

tems: 14

tems: 6

tems:5

Juez: 40%

Juez: 45%

Juez: 20%

XC= "Lp(M) = 15 (0,80) + 20 (0,60) + 1o (0,30) + 30 (0,70) + 18 (0,55) +


+ 7 (0,30) + 25 (0,65) + 15 (0,50) + 1o (0,25) + 14 (0,40) + 6 (0,45) +
+ 5 (0,20) = 95,55

Ur
su op
dos:

Esta puntuacin correspondera, tal y como hemos expuesto a la puntuacin


otorgada por un juez; en el caso de que hubiera varios jueces, el valor del punto
de corte vendra dado por la media de las puntuaciones asignadas por cada uno
de ellos.

y se

Mtodo de }aeger

sesi
form;

El mtodo propuesto por jaeger (1978), puede considerarse una variante del
mtodo de Angoff. En este mtodo se le pregunta a cada uno de los jueces, si
cada uno de los tems del test ser contestado correctamente por los sujetos. El
proceso para poder determinar el punto de corte precisa de tres sesiones. En la
primera sesin, cada uno de los jueces, y para cada uno de los tems del test, responde con un S o con un No a la pregunta de si un sujeto mnimamente competente ser capaz de contestar correctamente ese tem . Una vez que los jueces
han contestado a dicha pregunta para cada uno de los tems, se calcula el nmero de tems a los que cada juez respondi con un S.
En la siguiente matriz se presentan los datos correspondientes a la evaluacin
que cinco jueces han hecho respecto a los siete tems de un test.
En la segunda sesin, repetimos el mismo proceso que acabamos de describir pero, al comienzo de la sesin se pone a disposicin de los jueces los datos
obtenidos en la sesin anterior, las opiniones o recomendaciones emitidas por
los jueces, y una tabla con los porcentajes de respuestas SI a cada uno de los
tems.
272

En

U1
m os

El
(1

M
de o

u
cin

LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO

Difcil

tem 1

Juez 1

Juez 2

Juez 3

Juez 4

Juez 5

SI

SI

NO

SI

SI

tem 2

SI

tem 3

NO

tem 4

SI

tems: 7

tem 5

Juez: 30%

tem 6
tem 7

NO
NO
NO

NO
NO
NO
NO
NO
NO

Total

tems: 10
Juez: 30%

tems:10
Juez: 25%

SI

SI

SI

NO
NO

SI

SI

SI

SI

SI

NO
NO

NO
NO
NO

NO
NO

SI

tems:5
Juez: 20%

o (0,70) + 18 (0,55) +

Una vez conocidos los datos de la primera sesin cada juez puede cambiar
su opinin; en nuestro caso supongamos que obtenemos los siguientes resultados:

4 (0,40) + 6 (0,45) +

expuesto a la puntuacin
jueces, el valor del punto
asignadas por cada uno

Total

Juez 1

Juez 2

Juez 3

Juez 4

Juez 5

En la tercera sesin, se presentan los datos de la sesin anterior a los jueces,

y se les pide que valoren nuevamente cada uno de los tems. Al igual que en la
sesin anterior los jueces pueden ir modificando sus juicios en funcin de la informacin que se les va proporcionando.
derarse una variante del
da uno de los jueces, si
mente por los sujetos. El
isa de tres sesiones. En la
de los tems del test, resjeto mnimamente com. Una vez que los jueces
tems, se calcula el n, ndientes a la evaluacin
de un test.
que acabamos de descride los jueces los datos
daciones emitidas por
SI a cada uno de los

Una vez conocidos los datos de la segunda sesin supongamos que obtenemos los siguientes resultados:

Total

Juez 1

Juez 2

Juez 3

Juez 4

Juez 5

El punto de corte, es la mediana ms baja de los diferentes grupos de jueces.


Con los datos anteriores obtenemos los siguientes valores:

Md1 = 3, Md2

= 4, Md3 = 5. Con estos resultados establecemos que el

punto

de corte es igual a 3.
Un problema de este mtodo (Berk, 1986) es que slo se permite la asignacin de probabilidades de O 1, pues un sujeto o acierta o falla el tem.

273

1 PSICOMETRA

6.2. Mtodos combinados


Los dos mtodos que presentamos a continuacin se basan en los juicios que
los expertos llevan a cabo respecto a la competencia de los sujetos. En los mtodos descritos en el apartado anterior, los jueces se suponan expertos en cuanto
a los contenidos a evaluar. En los que ahora presentamos, adems de esa condicin, los jueces tambin deben conocer la competencia de los sujetos en la
materia que se evala.

Mtodo del grupo lmite


En el mtodo del grupo lmite, propuesto por Zieky y Livingston (1977), se
pide a los jueces que definan de mutuo acuerdo tres niveles de competencia
en el dominio a evaluar: competente, lmite y no competente. Seguidamente,
los jueces deben identificar entre los sujetos a los que va dirigido el test, aquellos que, en su opinin, estaran en el lmite de ser competentes. Es decir, aquellos sujetos cuyos conocimientos en la variable estudiada no son del todo inadecuados, pero tampoco adecuados como para ser considerados como
competentes . Una vez que se han seleccionado los sujetos con estas caractersticas, se les aplica el test para, posteriormente, determinar el punto de corte.
Para establecer el punto de corte, se calcular la media o la mediana de las
puntuaciones que han obtenido en el test los sujetos lmite. La mediana es ms
conveniente, puesto que es menos sensible a la variabilidad de las puntuaciones.
EJEMPLO:
Supongamos que una empresa conservera ha impartido a un grupo de trabajadores un cursillo de tcnicas de envasado y etiquetado con el fin de poder aumentar
sus ventas. Una vez terminado el cursillo, la direccin solicita de los tcnicos que
lo han impartido que emitan un juicio sobre el grado de aprovechamiento de qu ienes lo han realizado, observando que 7 de ellos parecen haber adquirido una formacin lmite. Una vez que los asistentes han sido sometidos a una prueba sobre
adquisicin de conocimientos, las puntuaciones de estos 7 sujetos fueron: 50, 48,

47, 46, 45, 43, 40.


Para calcular el punto de corte se podra calcular la media, aunque tal y como
hemos apuntado es mejor calcular la mediana de estas puntuaciones que es igual
a 46. Ese sera el punto de corte.

2 74

LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO 1

Mtodo de los grupos de contraste

se basan en los juicios que


a de los sujetos. En los mJponan expertos en cuanto
amos, adems de esa con~tencia de los sujetos en la

~ky

y Livingston (1977), se

:s niveles de competencia
te. Seguidamente,
va dirigido el test, aque, mpetentes. Es decir, aquediada no son del todo inser considerados como
suj etos con estas caracteminar el punto de corte.
edia o la mediana de las
lmite. La mediana es ms
ri abil idad de las puntua-

El mtodo de los grupos de contraste (Berk, 1976; Livingston y Zieky, 1982),


se basa, al igual que el mtodo anterior, en el conocimiento que los jueces tienen del rendimiento de los sujetos en el dominio que se pretende evaluar con
el test en el que estamos interesados en establecer el punto de corte. Una vez que
los jueces han clasificado a los sujetos en dos grupos, los que a su juicio son
competentes y los que no lo son, se les administra el test y las puntuaciones se
establecen en base a su rendimiento en el mismo. El paso siguiente sera determinar el punto de corte. Para ello se puede utilizar un procedimiento muy sencillo basado en la representacin grfica de la distribucin de puntuaciones del
grupo de sujetos considerados como competentes por los jueces, y la distribucin de los que no son considerados como competentes (grfico 5.1)
Se elegira como punto de corte la interseccin de ambas distribuciones, que
en nuestro caso sera 60.
Si se desplaza el punto de corte hacia la derecha, se reducen los falsos positivos, es decir, se reduce la probabilidad de considerar como competentes a sujetos que no lo son. Por otra parte, si el punto de corte se desplaza hacia la izquierda, se reducen los falsos negativos, es decir, se reduce la probabilidad de
considerar no competentes a los sujetos que s lo son. Es fundamental tener en
cuenta esto, ya que pueden surgir situaciones prcticas en las cuales puede interesar minimizar un tipo de error ms que otro (Muiz, 1998).

Grfico 5.1

Punto de corte

"do a un grupo de trabajael fin de poder aumentar


li cita de los tcnicos que
aprovechamiento de quiehaber adquirido una for"dos a una prueba sobre
7 sujetos fueron: 50, 48,

Cf)

Q
:y
Cf)

Q)

"O

Q)

':::l

Componentes

edia, aunque tal y como


puntuaciones que es igual
10

20

30

40

50

60

70

80

90

100

Puntuaciones en el test

275

1 PSICOMETRA

6.3. Mtodos de compromiso


En los dos mtodos que exponemos a continuacin, el mtodo de Beuk y el
mtodo de Hosftee, los jueces no se basan exclusivamente, como hasta ahora,
en los conocimientos mnimos que un sujeto tiene que poseer para superar el cri terio, sino que incorporan adems la informacin relativa a la posicin de un
sujeto con relacin a su grupo. El hecho de considerar la informacin derivada
de la posicin que un sujeto puede ocupar respecto a su grupo, viene justificada
por las implicaciones de carcter social, econmico, etc. que, en ocasiones, se
pueden derivar del establecimiento del punto de corte.

Mtodo de Beuk
En el mtodo propuesto por Beuk (1984), los jueces han de tener en cuenta,
en primer lugar, las puntuaciones obtenidas por los sujetos en el test en el que
estamos interesados en establecer un punto de corte y, en segundo lugar, la informacin recogida de las respuestas de los jueces a dos preguntas que les son
formuladas. La primera pregunta hace referencia al porcentaje mnimo de tems,
que los distintos jueces creen que un sujeto debera contestar correctamente
para superar el test y la segunda, hace referencia al porcentaje de sujetos que estiman que obtendrn la puntuacin mnima para superar el test. La primera pregunta hace referencia a datos absolutos, es decir, a la informacin derivada del
simple conocimiento de un sujeto con relacin al valor del punto de corte. La
segunda pregunta, implica informacin o cuestiones de carcter relativo, es decir, cuestiones que pueden tener una importancia econmica, social, etc. y que
no dependen exclusivamente del conocimiento que tenga un sujeto.
Una vez que los jueces han recogido y analizado esta informacin, se procede a determinar el punto de corte. A continuacin, se expone la forma de obtener el punto de corte segn el modelo de Beuk. La siguiente representacin grfica ha sido tomada de Beuk (1984).
En primer lugar, se representa sobre el eje de abscisas el porcentaje mnimo de
tems que los distintos jueces creen que un sujeto debera contestar correctamente
para superar el test y, en el eje de ordenadas, el porcentaje de sujetos que estiman
que obtendrn la puntuacin mnima para superar el test. A continuacin calculamos el valor de la media de los juicios emitidos por los expertos a las dos preguntas formuladas, CX' y Y) y se representa el punto de interseccin A.
En segundo lugar, se obtiene la distribucin C correspondiente a las puntuaciones de los sujetos en el test. Como se puede observar la distribucin es
276

decrec
rrectar
su pera

En 1
por el
ces a 1
En
corte,
detem
sujeto
del n
n , e

Mtoc
El r
maci
de cor
taje dE
sidera
test y,
infom

LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO 1

n, el mtodo de Beuk y el
ente, como hasta ahora,
poseer para superar el crilativa a la posicin de un
la informacin derivada

({)

.9Q)
"S'
({)

Q)

etc. que, en ocasiones, se

"O
Q)

N'
e
Q)

t!
o
(l_

s han de tener en cuenta,


en el test en el que
en segundo lugar, la indos preguntas que les son
je mnimo de tems,
contestar correctamente
rcentaje de sujetos que esr el test. La primera preinformacin derivada del
lor del punto de corte. La
carcter relativo, es denmica, social, etc. y que
nga un sujeto.
esta informacin, se proexpone la forma de obiente representacin grel porcentaje mnimo de
a contestar correctamente
de sujetos que estiman
A continuacin calculas expertos a las dos prerrespondiente a las punrvar la distribucin es

Xc

Porcentaje de tems

decreciente ya que, a medida que el nmero de tems que hay que responder correctamente para superar el test se eleva, disminuye el nmero de sujetos que lo
superan.
En tercer lugar, se dibuja una recta (AB), cuya pendiente viene determinada
por el cociente entre la desviacin tpica de las respuestas emitidas por los jueces a las dos primeras preguntas: Sy/Sx.
En cuarto lugar, se obtiene el punto de corte Xc Para obtener el punto de
corte, se proyecta el punto B sobre el eje de abscisas. El punto de interseccin
determina el punto de corte Xc Este valor expresa el porcentaje de tems que un
sujeto debe contestar correctamente. Si queremos expresar este valor en funcin
del nmero de tems, multiplicamos el valor de Xc por el nmero de tems del test
n, es decir: N tems = Xc n .
Mtodo de Hofstee
El mtodo de Hofstee (Hofstee, 1983; De Gruijter, 1985), se basa en la informacin proporcionada por los jueces al dar respuesta a cuatro puntos: el punto
de corte que los jueces consideran adecuado y que se define como el porcentaje de tems que los sujetos deben superar, el punto de corte que los jueces consideran inadecuado, el porcentaje mximo admisible de sujetos que fallan en el
test y, el porcentaje mnimo admisible de sujetos que fallan en el test. Con esta
informacin y la distribucin de los resultados obtenidos en el test, se puede es277

1 PSICOMETRA

tablecer el punto de corte mediante la siguiente representacin grfica 5.3 (Tomado de Muiz, 1998):

Grfico 5.3-

~
Q)

Fmx

::J

cr

en
o

Q)
"S'

en

__~ ,

Q)

ro
+"'
e

Q)

2
o

0...

1
1 Pmn

1 Pe

Pmx

Porcentaje de tems correctos

Para la obtencin del punto de corte se procede de la siguiente manera: En


primer lugar se representa en el eje de abscisas los puntos Pmx, punto de corte
que los jueces consideran adecuado y Pmn, punto de corte que los jueces consideran inadecuado. En el eje de ordenadas se representan los puntos Fmx, porcentaje mximo admisible de sujetos que fallan en el test y Fmn , porcentaje mnimo admisible de sujetos que fallan en el test. A continuacin se representan los
puntos A y 8, resultantes de las intersecciones Pmx - Fmx y Fmn- Fmn , respectivamente. Por ltimo se traza una recta perpendicular al eje de abscisas que
coincida con la interseccin de la distribucin de las puntuaciones en el test, y
la recta AB y se determina el punto Pu punto de corte que buscamos.

278

LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO 1

~sentacin grfica 5.3 (To-

7. EJERCICIOS DE AUTOEVALUACIN
1. Se han aplicado dos tests compuestos de 15 tems a una muestra de 12 sujetos. Para que un sujeto sea clasificado dentro del grupo de maestra debe
contestar correctamente un mnimo de 1 O tems . Calcular el ndice de fi abilidad empleando para ello el mtodo propuesto por Hambleton y Novi ck.

TEST -A

SUJETOS

1
2

10
8

11
12

10
10

5
6
7
8
9

10
11
12

la siguiente manera: En
ntos Pmx , punto de corte
corte que los jueces conlos puntos Fmx, pory Fmn , porcentaje muacin se representan los
mx Y Fmn - Fmn , respecar al eje de abscisas que
puntuaciones en el test, y
que buscamos.

TEST- B

10

10

11
10

10
10

10
11

11
7

2. Calcular la probabilidad de que un sujeto sea clasificado dentro de un


grupo de maestra, supuesta una puntuacin de corte del 80%, n = 1O,
X=

8, p

0,75 .

3. En la matriz da datos adjunta se presenta la puntuacin total obtenida por


1O sujetos en dos tests paralelos de fluidez verbal compuestos por diez
tems. Para que un sujeto sea clasificado dentro del grupo de maestra debe
responder correctamente a un mnimo de 6 tems.

""'?'

rJ..l:llllJ
Sujetos

Test A

Test B

1
2

7
9

3
4
5

8
5
3

6
8
9
6
4

Sujetos

6
7
8
9

10

ri.I:1.flll

Test A

Test B

8
5
7
5
9

8
6
7

279

1 PSICOMETRA

Estimar la fiabilidad en las clasificaciones utilizando el coeficiente kappa


de Cohen.
4. En la tabla adjunta se presentan las puntuaciones y frecuencias obtenidas
por 25 sujetos en un test compuesto por 1O tems. Para que un sujeto sea
clasificado dentro del grupo de maestra, debe responder un mnimo de 8
tems. Calcular, empleando el mtodo de Subkoviak, la consistencia de
clasificacin una vez eliminada la proporcin de clasificacin debida al
azar. (KR20 = 0,56)

5. En la siguiente tabla se presentan las probabilidades asignadas por tres jueces de que los cinco tems de un test utilizado en un proceso de selecci n
sean superados por un grupo de sujetos.

tem

Juez 1

Juez 2

Juez 3

0,7
0,8
0,5
0,4
0,4

0,8
0,7
0,6
0,5
0,3

0,8
0,7
0,6
0 ,5
0,3

2
3
4

Calcular:
a. Los puntos de corte de cada Juez mediante el mtodo de Angoff.
b. El punto de corte del test, a partir de la informacin de los tres Jueces.

c. Qu Juez considera el test ms fcil y ms difcil.


6. Hemos aplicado un test de aptitud numrica a un grupo de estudiantes de
1 de Bachillerato. El test est compuesto por tems de eleccin mltiple
280

1 PSICOMETRA

Estimar la fiabilidad en las clasificaciones utilizando el coeficiente kappa


de Cohen.

4. En la tabla adjunta se presentan las puntuaciones y frecuencias obtenidas


por 25 sujetos en un test compuesto por 1O tems. Para que un sujeto sea
clasificado dentro del grupo de maestra, debe responder un mnimo de 8
tems. Calcular, empleando el mtodo de Subkoviak, la consistencia de
clasificacin una vez eliminada la proporcin de clasificacin debida al
azar. (KR20 = 0,56)

5. En la siguiente tabla se presentan las probabilidades asignadas por tres jueces de que los cinco tems de un test utilizado en un proceso de seleccin
sean superados por un grupo de sujetos.

tem

Juez 1

Juez 2

Juez 3

0,7
0,8
0,5
0.4
0.4

0,8
0,7
0,6
0,5
0,3

0,8
0,7
0,6
0,5
0,3

2
3
4

Calcular:
a. Los puntos de corte de cada Juez mediante el mtodo de Angoff.
b. El punto de corte del test, a partir de la informacin de los tres Jueces.

c. Qu Juez considera el test ms fcil y ms difcil.


6. Hemos aplicado un test de aptitud numrica a un grupo de estudiantes de
1o de Bachillerato. El test est compuesto por tems de eleccin mltiple
280

LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO

zando el coeficiente kappa

1es y frecuencias obtenidas


ms. Para que un sujeto sea
responder un mnimo de 8
1koviak, la consistencia de
de clasificacin debida al

con cuatro posibles alternativas. En la siguiente tabla se recogen las alternativas errneas que cuatro jueces creen que seran descartadas por un
alumno con los conocimientos mnimos exigidos para superar el test.

tem

Juez 1

Juez 2

Juez 3

Juez 4

bcd
cd
ab
acd

cd
bd
abd
ae

be
bcd
abd
cd

bcd
cb
bd
acd

3
4

Calcular:
a. El valor esperado en el test para cada juez.
b. El punto de corte del test sin corregir y corrigiendo el efecto azar, utilizando el mtodo de Nedelsky
7. Ejercicios conceptuales
Ante cada una de las afirmaciones que se muestran a continuacin, el lector deber responder si el concepto que contiene es verdadero o falso.
des asignadas por tres juen un proceso de seleccin

Juez 3
0,8
0,7

0,6
0,5

1. El coeficiente kappa (K) es un estimador de la consistencia de clasifi cacin de sujetos.


2. El mtodo propuesto por Subkoviak para determinar la fiabilidad en las
clasificaciones requiere dos aplicaciones del test.
3. Los tests referidos al criterio evalan la posicin de un sujeto en funcin
de su nivel de rendimiento respecto al dominio definido.

4. El valor del coeficiente Kappa oscila entre O y 1.


5. Si p :2: Pe, podemos establecer que un sujeto pertenece al grupo de
maestra.

0,3

6. Un error falso-negativo tiene lugar cuando clasificamos in correctamente a un sujeto dentro de un grupo de maestra.
mtodo de Angoff.

7. La clasificacin de un sujeto dentro de un grupo de maestra depende


del valor Pe establecido.

acin de los tres jueces.

8. El valor de kappa proporciona una medida de la consistencia de clasificacin de los sujetos dependiente del valor esperado por azar.

grupo de estudiantes de
ms de eleccin mltiple

9. En los tests referidos a la norma no se hace hincapi en la especificacin clara del dominio de contenidos .
281

1 PSICOMETRA

1O. El ndice P* de Cracker y Algina se basa en el modelo binomial.


11. Los puntos de corte absolutos se establecen en funcin del grupo de
su jetos eval u ados.
12. El mtodo de Angoff puede ser considerado como una variante del mtodo de Nedelsky.
13. El mtodo de Beuk es un mtodo valorativo.

282

LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO

modelo binomial.

en funcin del grupo de

)mo una variante del m-

8. SOLUCIONES A LOS EJERCICIOS


DE AUTOEVALUACIN
1.
Test B
No- maestra

Total

Maestra

No-maestra

Total

12

83
Pe = -12 +-=0
12
1

Pa = 12 .12 + 12 .12 =O, 50


k= Pe -pa= 0,83-0,50 = 0,33 =O 66
1-pa

1-0,50

0,50

2. Puntuacin de corte del 80%, n = 1O, x = 8 y, p = 0.75


Aplicando la funcin de distribucin binomial:
10

Prob(x~8lp=0,75,n =10)=

10

](0 75)' (O 25)"-x

'

'

x=B

Prob(x

~ 8) ~ (~0 }

(0,75)" (0, 25)'

~ 45 O, 1O O, 0625 ~

O, 28

Prob(x

~ 9) ~ (~0 }

(0,75)" (0, 25)'

~ 1O 0,075 O, 25 ~

O, 19

Prob(x

~ 1O)~(~~} (0,75)" (0,25) ~ 1 O, 056 1 ~


0

O, 056
L: =O, 53

La probabilidad de acertar 8 o ms tems de 1O y ser clasificado dentro


del grupo de maestra es igual a 0,53.
283

1 PSICOMETRA

3. N= 1O n

= 1O

Sujeto

Test A

1
2
3

Test 8

Sujeto

Test A

Test 8

7
8
9

10

8
6
7

7
9

Test 8
Test "A"

Maestra

No- maestra

Total

Maestra

6
1
7

1
2

10

No-maestra
Total

Se calculan las frecuencias de coincidencias esperadas por azar:

7 7
.
1o

=4

90
Fa =4,90 + 0,90=5,80

3 3
.
1o

=o 90
1

A continuacin, calculamos las frecuencias observadas de clasificaciones


coin cidentes

Por lo tan to:

k=Fc -Fa = 8-5,80 =2,20=


052
N-Fa 10-5,80 4,20
'
Este resultado nos indica una consistencia de clasificaciones media.

284

LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO

4.
X

fx

Px

Px

1-2 (Px- ~)

fx (1-2 (Px- ~))

f?x

0,724

0,4492

0,5052

0,5052

0.4492

0,668

0 ,3023

0,5782

1,1564

0,6045

0,612

0,1874

0,6954

2,0862

0,5623

0 ,556

0 ,1064

0 ,8099

2,4296

0,3192

0 ,500

0 ,0547

0,8966

4,4830

0,2734

0,444

0,0250

0,9512

5,7071

0,1502

0,388

0,0100

0,9803

2,9409

0,0299

0 ,332

0,0033

0,9934

0 ,9934

0,0033

0,276

0,0009

0,9983

0,9983

0 ,0009

21,3001

2,3929

Test A

Test B

25
Total

.ra

X =1 25= 5
5

3
10

Veamos como se han obtenido los valores de Px y Px para el caso de X= 9


eradas por azar:

Px = 0,56 (9/1 O)+ (1-0,56) (5/1 O)= 0,724


Aplicando la funcin de distribucin binomial:

=5,80

rvadas de clasificac io nes

L.(:o}

Prob( X

~ 81 p ~ 0,56,n ~ 10) ~

Prob(x

~ 8) ~ (~0 } (0,724)' (0,276)' ~ 45 0,0755 0,0761 ~ 0,2585

Prob(x

~ 9) ~ (~0 } (0,724)' (0,276)' ~ 1O 0,0546 0,276 ~

Prob(x

~ 1 O)~(~~} (0,724)" (0,276) ~ 1 0,0395 -1 ~ _ _o,~o~39~5~

(0,72 4)' . (O, 2 76)"-'

0,52

ificaciones medi a.

O, 1506

Px

= 0,45

El proceso sera idntico para el resto de las puntuaciones

285

1 PSICOMETRA

L/x(1-2(f,
Pe =
fX

Pa

= 1_ 2

-?,

2
))

21 3001
=o 852
25
1

[I/x ?,-[Ir, ?,]


N

]= 1 _ 2 [2,3929 -[2,3929J ]=o 827


25
25
'

K=Pc-Pa =0,852-0,827 =0,025= 014


1-pa
1-0,827
0,173
1

Puesto que el valor de Kappa es muy bajo, cabra esperar una fiabilidad baja.

5.
a)

tem

Juez 1

0,7
0,8
0,5
0,4
0,4

2
3
4

Juez

0,8
0,7
0,6
0,5
0,3

0,9
0,8
0,7
0,5
0,4

Los puntos de corte se calculan sumando las probabilidades, asignadas


por cada uno de los jueces, de que cada uno de los tems sea superado por
los sujetos. Sumando dichas probabilidades tenemos:
Punto de Corte: 2,8 Uuez 1)

2,9 Uuez 2)

3,3 Uuez 3)

b)
El punto de corte del test es igual al promedio de los puntos de corte asignados por cada uno de los jueces.

P.C
test

= 2,8 + 2, 9 + 3,3 = ~ = 3
3
3

e)
El tercer juez, es el que considera el test ms fcil ya que es el que define
un punto de corte ms alto. El primer juez, es el que considera el test ms
difcil ya que es el que define un punto de corte ms bajo.
286

LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO

6.
a)
tem

Juez 1

Juez 2

Juez 3

1
2

bcd
cd
ab
acd

cd
bd
abd
ae

be
bcd
abd
cd

3
4

perar una fiabilidad baja.

Juez 3

bcd
cb
bd
acd

En primer lugar, debemos calcular la puntuacin esperada por un sujeto en


cada uno de los tems del test. La puntuacin esperada para un sujeto en
un tem viene dada como resultado de dividir la unidad por el nmero de
alternativas del tem que el sujeto no haya rechazado. A continuacin sumamos las puntuaciones esperadas y su valor nos da el valor esperado en
el test para cada juez. Estos datos son los que se recogen en la siguiente
tabla:

0,9
0,8

tem

Juez 1

1
2
3
4

1/1
1/2
1/2
1/1

2:

Juez 3

Juez 4

1/2
1/2
1/1
1/2

1/2
1/1
1/1
1/2

1/1
1/2
1/2
1/1

2,5

0,7
0,5
0,4

obabilid ades, asignadas


os tems sea superado por
m os:

3,3 Uuez 3)

b)
El punto de corte del test es igual al promedio de los valores esperados
para cada juez

los puntos de corte asig-

P.C.= 3 + 2, 5 + 3 + 3

=3

ril ya que es el que define


que considera el test ms

ms bajo.

= 11,5 = 2 , 87
4

N-A
4-2 1 87
P.Ccorregido = A - - - = 2,87n-1
4-1

= 2,87-0,37 = 2,49

7. Soluciones a las preguntas conceptuales


1 . Verdadera.
2. Falsa.
287

PSICOMETRA

Requiere una sola aplicacin del test.


3. Verdadera.
4. Verdadera.
5. Verdadera.
6. Falsa.
Tiene lugar cuando clasificamos incorrectamente a un sujeto dentro del
grupo de no-maestra.
7. Verdadera.
8. Falsa.
Proporciona una medida de la consistencia de clasificacin de los sujetos independientemente del valor esperado por azar.
9. Verdadera.

1 O. Falsa.
Se basa en que la probabilidad mnima de una decisin consistente es

0,50.
11. La afirmacin es falsa.
El punto de corte se establece en funcin del constructo objeto de estudio.
12. La afirmacin es correcta
No es necesario que los tems sean de eleccin mltiple
13. La afirmacin es falsa.
Se trata de un mtodo de compromiso.

288

LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO

9. BIBLIOGRAFA COMPLEMENTARIA
MARTNEZ-ARIAS, M.R. (1995). Psicometra: Teora de los tests psicolgicos y
educativos. Madrid: Sntesis.

te a un sujeto dentro del

En el captulo 21 se hace una exposicin detallada de los tests referidos al criterio.


MUIZ, J. (1998). Teora clsica de los tests. Madrid: Pirmide.
En el captulo 2, el apartado 2.1 O est dedicado al tema de la fiabilidad en los
tests referidos al criterio.

clasificacin de los su azar.

dec isin consistente es

constru cto objeto de es-

mltiple

289

You might also like