Professional Documents
Culture Documents
49
rizacin? Est ligeramente por debajo del promedio o se encuentra cerca del extremo
superior de la distribucin?
Para averiguar la posicin exacta del individuo en relacin con la muestra de es
tandarizacin, la puntuacin cruda se convierte en una medida relativa. Estas puntua
ciones transformadas cumplen un doble propsito; primero, indican la posicin del
individuo en relacin con la muestra normativa, lo que permite la evaluacin de su de
sempeo en comparacin con otras personas. Segundo, proporcionan medidas equiva
lentes que permiten la comparacin directa del desempeo del individuo en pruebas
diferentes; por ejemplo, si una chica obtiene una puntuacin cruda de 40 en una prueba
de vocabulario y una de 22 en una prueba de razonamiento aritmtico, esto nada nos
dice acerca de su desempeo relativo en las dos pruebas: es mejor en vocabulario o en
aritmtica, o bien igualmente buena en ambas materias? Como las puntuacionescrudas
de diferentes pruebas suelen expresarseen unidades distintas resulta imposible su corn
paracin directa. El nivel de dificultad de cada prueba tambin afecta esta compara
cin. Por otro lado, las puntuaciones derivadas pueden expresarse en las mismas
unidades y referirlas a muestras normativas iguales o muy similares en distintas pruebas,
lo que permite comparar la ejecucin relativa en funciones muy diferentes.
Aunque hay varias formas de convertir las puntuaciones crudas para satisfacer los
dos objetivos planteados, las puntuaciones derivadas se expresan esencialmente en
dos formas principales: (1) el nivel de desarrollo alcanzado, o (2) la posicin relativa
dentro de un grupo especfico. Estudiaremos ambas puntuaciones y algunas de sus
variantes en otras secciones del captulo, pero antes es necesario examinar algunos
conceptos elementales de estadstica que fundamentan el desarrollo y la utilizacin de
las normas. La siguiente seccin aclara el significado de ciertas medidas estadsticas
comunes, y proporciona ejemplos simplificados de los clculos sin pretender con ello
brindar una capacitacin en los mtodos estadsticos. Para los detalles de clculo y los
procedimientos a seguir en la aplicacin prctica de esas tcnicas, acuda el lector a
cualquier texto actualizado de estadstica (por ejemplo, D. C. Howell, 1997; Runyon
y Haber, 1991; West, 1991). En la actualidad, es comn que se reconozca la necesidad
de que no slo los usuarios de los tests cuenten con conocimientos bsicos de la
metodologa de la estadstica, sino tambin cualquiera que desee comprender los in
formes de investigacin publicados en cualquier rea de la psicologa (L. S. Aiken,
West, Sechrest y Reno, 1990; Anastasi, 1991; Lambert, 1991; S. T. Meier, 1993).
CONCEPTOS ESTADSTICOS
Un propsito fundamental de la estadstica es organizar y resumir los datos cuantita
tivos para facilitar su comprensin. Una lista de 1 000 puntuaciones no slo resulta
abrumadora, sino que transmite poco significado. El primer paso para poner orden en
semejante caos de datos es tabular las puntuaciones en una distribucin de frecuencias,
como se ilustra en la tabla 3.1, que agrupa las puntuaciones en intervalos de clase, y
marca cada una en el intervalo adecuado. Cuando se han anotado todas las punta
ciones se cuentan las marcas para encontrar la frecuencia o el nmero de casos en
cada intervalo de clase. La suma de esas frecuencias ser igual a N, el nmero total de
casos en el grupo. La tabla 3.1 muestra las puntuaciones obtenidas por l 000 universi
50
52-55
48-51
44-41
4043
1
1
20
73
3639
32}5
2831
156
328
244
1619
28
8
24-27
20-23
12-15
811
(Da tomados de A=
Frecuencia
136
NlOOO
3
2
19)4,pg. 34)
.,o
.,
~
Q)
,::,
2
E
Q)
::,
340
320
300
280
260
240
220
200
180
160
140
120
100
80
60
40
20
51
-Polgono de frecuencia
- - - . Histograma
8
11
12
15
16
19
20
23
24
27
28
31
32
35
36
39
40
43
44-
47
48
51
52
55
Puntuaciones
Fi
gu ra 3
1.
La curva es simtrica y tiene un nico pico en el centro. Casi todas las distribuciones
de rasgos humanos, estatura, peso, aptitudes y caractersticas de personalidad, se
aproximan a la curva normal, y, en general, entre ms grande sea el grupo ms pare
cida resultar la distribucin a la curva terica normal.
Un grupo de puntuaciones tambin puede describirse en trminos de alguna me
dida de tendencia central, que ofrece la puntuacin ms comn o representativa del de
sempeo de todo el grupo. La ms conocida de esas medidas es el promedio, que
tcnicamente se llama media (M) y se obtiene al sumar todas las puntuaciones y di
vidir la suma entre el nmero de casos (N). Otra medida es la moda, o puntuacin
ms frecuente. En una distribucin de frecuencias, la moda es el punto central del in
tervalo de clase con La mayor frecuencia. De acuerdo con lo anterior, en La tabla 3.1 la
moda cae a la mitad del intervalo 3235 y es igual a 33.5. Observe que esca pun
tuacin corresponde al punto ms alto en la curva de distribucin de la figura 3.1.
Otra medida de tendencia central es la mediana, el punto ms cercano al centro de
una distribucin de puntuaciones ordenadas por tamao. La mediana es el punto que
divide la distribucin por encima y por debajo del cual cae la mitad de los casos.
Las medidas de variabilidad, de la extensin de las diferencias individuales alrede
dor de la tendencia central, proporcionan otra descripcin del conjunto de puntua
ciones de un test. La forma ms evidente y familiar de mostrar la variabilidad es el
52
'
,, ' '
''
DE grande
DE pequei'la
Puntuacin
F i g u r a 3 . 2. Distribucionesde frecuenciascon la misma media pero dife
rente variabilidad.
rango entre la mayor y la menor puntuacin; sin embargo, se trata de una medida muy
cruda e inestable, toda vez que la determinan apenas dos puntuaciones, lo cual supone
que una sola puntuacin inusualmente elevada o baja puede afectar mucho su
tamao. Un mtodo ms preciso para medir la variabilidad se basa en la diferencia.
entre la puntuacin de cada individuo y la media del grupo.
En este punto resulta til estudiar el ejemplo de la tabla 3.2, en el que se calcularon
las diversas medidas consideradas para 10 casos. Aunque en la prctica real suelen
manejarse grupos ms grandes, en este caso la eleccin de un grupo tan pequeo obe
dece a la necesidad de simplificar la explicacin. La tabla 3.2 tambin permite intro
ducir algunos smbolos estadsticos que debe aprender, ya que los emplearemos ms
adelante. De manera convencional, designamos las puntuaciones crudas originales con
una X mayscula, la x minscula se emplea para referirse a las desviaciones de cada
puntuacin respecto a la media del grupo y la letra griega l: significa "la suma de". Se
observa que en la primera columna de la tabla 3.2 aparecen los datos para el clculo de
la media (que en este caso es 40) y la mediana (que es igual a 40.5 y se encuentra entre
40 y 41) por encima y por debajo de la cual se encuentran respectivamente cinco casos
(50 por ciento). En un grupo tan pequeo no tiene sentido buscar la moda, porque los
casos no muestran un agrupamiento inequvoco en ninguna puntuacin; de cualquier
modo, la puntuacin de 41 representara tcnicamente a la moda, porque la obtu
vieron dos individuos, en tanto que el resto de los resultados ocurri una sola vez.
La segunda columna muestra qu tanto se desva cada puntuacin por encima o por
debajo de la media de 40. La suma de las desviaciones siempre ser igual a cero,
porque las desviaciones positivas y las negativas alrededor de la media necesariamente
se equilibran o cancelan ( + 20 20 = O). Si ignoramos los signos podemos promediar
las desviaciones absolutas y obtener una medida de la desviacin promedio de cada
sujeto de la media del grupo. Aunque de cierto valor descriptivo, en la prctica no se
f!111FMII
53
: ;
J
Puntuaciones (X)
50%dc
los casos
Mediana;
43
40.5 11
50%de
los casos
+8)
+7
+3 +20
+l
+l
41
41
)
320
-2
64
49
9
1
1
16
36
64
Lx2=244
DC=400
LX 400
M=N=w=40
_2
Vanarua:: u- ==
V ~ lo
244
N
= 24.40
J ~ =\IU40=4.9
oes;
Nora. Los smbolos r. v o son la mayscula y la minscula de la misma letra griega, pronunciada "sigma". En mu
chos textos de estadstica, la DE se refiere a la desviacin estndar de la muestra de la que se obtuvieron los datos,
mientras que o se refiere al estimado de la desviacin estndar en la poblacin de la que se extrajo la muestra.
emplea la "desviacin promedio" porque la eliminacin arbitraria de los signos hace
inadecuado su uso en posteriores anlisis matemticos.
La desviacin estndar (simbolizada por DE o o) es una medida de variabilidad
mucho ms til en la que los signos negativos se eliminan al elevar al cuadrado cada
desviacin, procedimiento seguido en la ltima columna de la tabla 3.2. Se conoce
como varianza o media de los cuadrados de las desviaciones a la suma de esta columna
dividida entre el nmero de casos1
).
54
99.72%
.g
e,
2.14%
3<J
Fi g u ra
-20
-10
Modia
+10
+20
+3o
dad individual produce una DE ms grande que la que tiene menores diferencias in
dividuales. Al evaluar la ejecucin relativa de dos grupos, deben compararse tanto
las DE como las medias. Si se encuentra que la variabilidad de los grupos difiere,
puede suponerse que son dismiles en la proporcin de puntuaciones altas, bajas o en
ambas, independientemente de las diferencias entre las medias. En la actualidad se
dispone de procedimientos que permiten combinar los efectos de las diferencias
entre las medias y las diferencias en la DE ( vase, por ejemplo, Feingold, 1995 ).
La DE tambin proporciona la base para expresar en trminos de normas las pun
tuaciones del individuo en diferentes pruebas, como se mostrar en la seccin de cali
ficaciones estndares. La interpretacin de la DE resulta especialmente clara al
aplicarse a una curva de distribucin normal o aproximadamente normal, en la que
hay una relacin exacta entre la DE y la proporcin de casos, como se ve en la figura
3.3. En la lnea horizontal de la curva se han marcado las distancia que representan
una, dos y tres desviaciones normales por encima y por debajo de la meda; por ejem
plo, en el caso presentado en la tabla 3.2, la media correspondera a una puntuacin de
40, +lo corre pendera a 44.9 (es decir, 40 + 4.9); +2o a 49.8 (es decir, 40 + 2 X 4.9),
etc. En la curva normal el porcentaje de casos que cae entre la media y +lo es 34.13
por ciento. Como la curva es simtrica, tambin se encuentra 34.13 por ciento de los
casos entre la media ylo, de modo que cnrre +la yla a ambos lados de la media se
encuentra el 68.26 por ciento de los casos. Casi todos los casos (99.72 por ciento) caen
denrro de 3a de la media. Estas relaciones son particularmente importantes en la in
terpretacin de las puntuaciones estndares y los percenules que veremos adelante.
NORMAS DE DESARROLLO
Las puntuaciones de las pruebas adquieren significado si indican qu tanto ha progre
sado el individuo en el patrn de desarrollo normal. As, puede decirse que un nio de
ocho aos tiene una edad mental (EM) de LO si su ejecucin en una prueba de in
55
56
57
Este uso del rrmino "escala ordinal" difiere del que se le da en estadstica, en la que una escala ordinal es sirn
plemente aquella que permite el ordenamiento de 106 individU06 sin conocimiento sobre la cantidad de dlferen
cia entre ellos, en sentido estadstico, las escalas ordinales se contrastan con escalas de intervalo de unidadigual.
las escalas ordinales del desarrollo infantil se disean sobre el modelo de la escala de Guttman, o simplex, en la
que la ejecucin exitosa en un nivel implica el dominio de todos los niveles inferiores (L. Guttman, 1944 ). Bart
y Airasian (1974) describen una extensin del anlisis de Gurrman para incluir jerarquas no lineales, con refe
rencia especial a las escalas piageranas,
58
1987).3
En suma, las escalas ordinales se disean para identificar la etapa alcanzada por el
nio en el desarrollo de funciones conductuales especficas. Aunque los resultados
pueden informarse en trminos de niveles aproximados de edad, escas puntuaciones
son secundarias a la descripcin cualitativa de la conducta caracterstica del nio. La
ordinalidad de dichas escalas se refiere a la progresin uniforme del desarrollo por las
etapas sucesivas. En la medida en que las escalas suelen proporcionar informacin
acerca de lo que el nio verdaderamente es capaz de hacer (por ejemplo, trepar esca
leras sin ayuda, reconocer la identidad de la cantidad de lquido cuando se vierte en
recipientes de distintas formas), comparten rasgos importantes con las pruebas de do
minio que analizamos en otra seccin.
NORMAS INTRAGRUPO
Casi todos los tests estandarizados proporcionan alguna forma de normas inrragrupo,
con las que la ejecucin del individuo se evala en trminos del desempeo del grupo
de estandarizacin ms prximo, como sucede al comparar la calihcacin cruda de un
nio con la de otros de la misma edad o del mismo grado escolar. Las puntuaciones in
cragrupo tienen un significado cuantitativo uniforme y definido y pueden emplearse
adecuadamente en casi todos los anlisis estadsticos.
Percentiles.
Las calificaciones percentiles se expresan en trminos del porcentaje
de sujetos de la muestra de estandarizacin que caen bajo determinada puntuacin
cruda. Por ejemplo, si 28 por ciento resuelve correctamente menos de 15 problemas
de una prueba de razonamiento aritmtico, entonces la puntuacin cruda de 15 co
rresponde al percentil 28 (P2s), El percentil indica la posicin relativa del individuo
en la muestra de estandarizacin. Los percentiles tambin pueden verse como rangos en
un grupo de 100, excepto porque en stos se acostumbra empezar a contar por la parte
superior, y el mejor individuo del grupo recibe un rango de 1. Por su parce, con los per
centiles se comienza por el extremo inferior, de modo que entre ms bajo sea el percen
til ms pobre es la posicin del individuo.
El percentil 50 (?50) corresponde a la mediana, ya estudiada como medida de
tendencia central. Los percentiles por encima de 50 representan una ejecucin por
encima de la mediana; los que estn por debajo de 50 significan una ejecucin infe
rior. Los percenciles 25 y 7 5 se conocen como el primer y el tercer puntos cuartiles
(Q1 y~). porque separan los cuartos inferior y superior de la distribucin. Como la
mediana, proporcionan referencias convenientes para describir una distribucin de
puntuaciones y compararla con otras distribuciones.
3 V315C el captulo 9 para otra evaluacin de la aproximacin de Piaget.
Los percentiles no deben confundirse con los porcentajes, que son puntuaciones
crudas que se expresan en trminos del porcentaje de los reactivoscorrectos y el total;
los percentiles son puntuaciones transformadas que se expresan en trminos del por
centaje de individuos. Una puntuacin cruda inferior a cualquiera de las calificaciones
obtenidas en la muestra de estandarizacin tiene un rango percentil de cero (P0); una
superior a cualquier puntuacin de la muestra de estandarizacin tiene una rango per
centil de 100 (P100); sin embargo, los percentilcs no implican una puntuacin cruda
de cero ni una puntuacin cruda perfecta.
Las rangos percenrilares tienen varias ventajas: son sencillas de calcular y de com
prender, incluso por personas sin capacitacin tcnica. Ms an, son de aplicacin
universal, pueden usarse lo mismo con adultos que con nios y son adecuados para
cualquier prueba, sea que mida variables de aptitud o de personalidad.
Su principal desventaja est en la marcada disparidad de sus unidades, en especial
en los extremos de la distribucin. Si la distribucin de las puntuaciones crudas se
aproxima a la curva normal (como sucede con los resultados de la mayor parce de las
pruebas), las diferencias en las puntuaciones crudas cercanas al centro de la distribu
cin (o mediana) aparecen exageradas al transformarsea percenciles; por el contrario,
las diferencias en las puntuaciones crudas prximas a los extremos quedan considera
blemente acortadas. En la figura 3.4 puede verse esta distorsin. Como recordar, en
una curva normal los casos se agrupan cerca del centro y su dispersin aumenta al
aproximarsea los extremos; en consecuencia, cualquier porcentaje de casos cercanos
al centro cubre una distancia ms corta en la lnea horizontal que el mismo porcenta
je cerca de los extremos de la distribucin. En la figura 3.4 puede verse fcilmente es
ta discrepancia en los intervalos entre los rangos percentiles (RP) si se compara la
distancia entre un RP de 40 y uno de 50 con la distancia entre un RP de 10 y uno de
20. Todavams sorprendente es la discrepancia entre esas distancias y la que hay en
o,
RP
3<J
RP0.1
10
-20
2
'1d
Os
20 30 40 50 60 70 80
-10
16
M
50
+10
84
90
99
+20
98
+3o
99.9
60
Principiostcnicosy metodolgicos
99
95
90
80
75
70
60
G)
50
40
~
~
o..
30
25
20
10
5
Juan Mara
Elena Edgar
Juana Ricardo
Roberto Dbora
61
!!""*
M=60
P1m1uaci6n de Elena
X1=65
6560
t1=5
Puntuacinde Roberto
X 2=58
5860
t2=5
=+I.OO
=-0.40
62
de usar en clculos o informes, por lo que suele aplicarse alguna otra transformacin
lineal para poner las puntuaciones en una forma ms conveniente; por ejemplo, las
puntuaciones de las Pruebas de Evaluacin Acadmica (Scholaslic Assessmem Tests,
SAT) de la Junta Universitaria son calificaciones estndares ajustadas a una media de
500 y una DE de 100. As, en esta prueba una calificacin estndar de 1 se expresa
como 400 (500 100 ~ 400), mientras que una de +1.5 corresponde a 650 (500 + 1.5
X 100 ~ 650). Lo nico que se requiere para convertir una calificacin estndar origi
nal en la nueva escala es multiplicarla por la DE deseada ( 100) y sumar o restar el re
sultado de la media deseada (500). Es posible elegir arbitrariamente cualquier otra
constante conveniente para las nuevas media y DE; por ejemplo, las puntuaciones ob
tenidas en los subtests separados de las Escalas de Inteligencia de Wechsler se convier
ten en una distribucin con una media de 10 y una DE de 3. Todas esas medidas son
ejemplos de calificaciones estndares transformadas en forma lineal.
Recordar que una de las razones para transformar las puntuaciones crudas en cual
quier escala derivada es la necesidad de hacer comparables los resultados de diferentes
pruebas. Las puntuaciones estndares derivadas linealmente slo son comparables cuan
do provienen de distribuciones de ms o menos la misma forma; por ejemplo, en cales
condiciones, una calificacin que corresponda a una DE por encima de la media signifi
ca que el individuo ocupa la misma posicin en los dos grupos. En ambas distribuciones,
la calificacin supera aproximadamente al mismo porcentaje de sujetos, y este porcenta
je puede ser determinado si se conoce la forma de la distribucin; sin embargo, si una
distribucin es muy asimtrica y la otra es normal, una calificacin 'l'. de+ 1.00 podra ex
ceder slo al 50 por ciento de los casos en un grupo y a ms del 84 por ciento en el otro.
Cuando la forma de las distribuciones es distinta, las calificaciones pueden hacerse
comparables empleando transformaciones no lineales que las ajuste a cualquier curva
de distribucin. La edad mental y las puntuaciones percentilares representan rransfor
rnaciones no lineales, pero tienen otras limitaciones que ya vimos. Aunque en ciertas
circunstancias puede ser ms apropiada otra distribucin, la curva normal suele em
plearse con este propsito. Una de las razones para esta eleccin es que la mayor parte
de las distribuciones de puntuaciones crudas se aproxima a la curva normal ms que a
cualquier otra. Adems, las medidas fsicas, corno la estatura y el peso, que utilizan es
calas de unidades iguales derivadas por operaciones fsicas, en general producen distri
buciones normales. Otra ventaja de la curva normal es que tiene muchas propiedades
matemticas tiles que facilitan los clculos posteriores.
Las calificaciones estndares normaliwdasson calificaciones estndares expresadas en
trminos de una distribucin que ha sido transformada para ajustarse a una curva
normal. Dichas calificaciones pueden calcularse recurriendo a tablas que muestran el
porcentaje de casos que cae a diferentes distancias DE de la media de una curva nor
mal. Para ello, primero se encuentra el porcentaje de individuos de la muestra de es
tandarizacin que cae en o por encima de cada puntuacin cruda, este porcentaje se
localiza luego en la tabla de frecuencia de la curva normal y se obtiene la correspon
diente calificacin estndar normalizada. Las calificaciones estndares normalizadas
se expresan de la misma forma que las calificaciones estndares derivadas linealmente,
es decir, con una media igual a cero y una DE igual a l. As, una calificacin normali
zada de cero indica que el individuo cae en la media de la curva normal, que supera al
~.,.,_
63
Porcentaje
Estanina
4
1
7
2
12
3
17
4
20
5
17
6
12
7
7
8
4
9
50 por ciento del grupo. Una calificacin de 1 significa que sobrepasa aproximada
mente a 16 por ciento del grupo y una calificacin de+ 1 que aventaja al 84 por ciento.
Como puede verse en la lnea inferior de la figura3.4, esos porcentajes corresponden
respectivamente a una distancia de una DE por debajo y una DE por encima de la me
dia de una curva normal.
Igual que las calificacionesestndaresderivadas linealmente, las calificaciones es
tndares normalizadaspueden adoptar cualquier forma conveniente. Si la calificacin
estndar normalizadase multiplica por 10 y se suma o resta de 50 se convierte en una
calificacin T, una puntuacin que propuso primero W. A. McCall ( 1922) y en la que
una puntuacin de 50 corresponde a la media, una de 60 a una DE por encima de la
media, etc. Otra transformacin conocida es la de la escala estanina, elaborada por
la aviacin estadounidense durante la Segunda Guerra Mundial, que proporciona un
isrema de calificaciones de un solo dgito con una media de 5 y una DE aproximada
mente igual a 2.4 El nombre, que en ingls (stanine) es una contraccin de "standard
rune" o "estndar nueve", se basa en el hecho de que las calificaciones van de 1 a 9. La
restriccin de las calificaciones a nmerosde un solo dgito tiene ciertas ventajas para
el clculo, ya que cada calificacin requiere una sola columna en la computadora.
Las puntuaciones crudas pueden convertirse fcilmente en estaninas si se disponen
I resultados originales en orden de tamao y se les asignan luego cstaninas de acuer
do con los porcentajes de la curva normal reproducidos en la tabla 3.4; por ejemplo, si
el grupo consta exactamente de 100 personas, las cuatro con la calificacin ms baja
reciben una calificacin estanina de 1, las siguientes siete una calificacin de 2, las si
zuientes 12 una calificacin de 3, etc. Cuando el grupo contiene ms o menos 100 ca
,~. primero se calcula el nmero correspondiente a cada porcentaje designado y luego
recibe las estaninasapropiadas. As, si son 200 casos, a ocho les sera asignada una es
ranina de 1 ( 4 por ciento de 200 = 8), con 150 casos seis recibiran una estanina de 1
.! por ciento de 150 = 6). Para cualquier grupo que contenga de 10 a 100 casos, Bar
den y Edgenon (1966) prepararonuna tabla que permite convertir directamente los
rangos en estaninas. Debido a sus ventajas prcticas y tericas, las estaninas han sido
empleadas ampliamente, en especial con las pruebas de aptitud y de aprovechamiento.
Aunque las calificaciones estndares normalizadas son el tipo de puntuacin ms
,Jecuado para la mayor parte de los propsitos, hay ciertas objeciones tcnicas a la
Ka,ser ( 1958) propuso una modificacin de la escala estanina que hace ligeros cambios en los porcentajes y pro
....:e una DE exactamente igual a 2, loque facilita su manejo cuantitativo. Otras variantes son la escala C (Guil
rd v Fruchtcr, 1978, pp. 484487), que consta de 11 unidades y tambin genera una DE de 2, y la escala nen de
: unidades con cinco unidades por encima y cinco por debajo de la media (Canfield, 1951 ).
64
65
Debe agregarse que el uso del trmino "CI" para designar a esas calificaciones es
.m.iares puede resultar engaosa. Estos CJ no se obtienen a partir de los mismos m
>Jos que se emplean para encontrar las razones Cl tradicionales no son razones de
edades mentales y edades cronolgicas. La justificacin para su uso estriba en la fami
liaridad general del trmino "CI" y en el hecho de que estas calificaciones pueden in
terpretarse como CI en tanto que su DE sea aproximadamenteigual a la de los Cl ya
conocidos. Entre las primeras pruebas en expresar las calificacionesen trminos de CI
de desviacin estn las Escalas de inteligencia de Wechsler, cuya media es de 100 y la
DE es igual a 15. El CI de desviacin tambin se emplea en varias pruebas colectivas
de inteligencia y en la tercera revisin del SrantordBiner (1960).
Con el uso creciente del Cl de desviacin se hace importante recordarque los CI de
desviacin de diferentes pruebas slo son comparables si emplean valores iguales o muy
similares para la DE, que adems tienen que aparecersiempre en el manual y el usuario
de la prueba debe considerarlascon atencin. Si el autor elige valores diferentespara la
DE al elaborar la escaladel CI de desviacin, el significado de cualquier CI en tal prue
ha ser muy diferente del que tenga en otras. Esas discrepancias se ilustran en la tabla
3.5, que muestra el porcentaje de casos que obtendran diferentesniveles de CI en dis
::nbucionesnormales con DE que varan entre 12 y 18, valores que por cierto han sido
ealmente utilizados en las escalas CI de pruebas publicadas; por ejemplo, la tabla 3.5
muestra que un CI de 70 corta el 3.1 por ciento inferior cuando la DE es igual a 16 (co
mo el StanfordBnet), pero que puede separar apenas el O. 7 por ciento (DE= 12) o has
ca el 5.1 (DE= 18). Por lo comn, se ha empleado el CI de 70 como punto de corte para
identificar el retardo mental clnicamentesignificativo. Por supuesto, las mismas discre
panelas se aplican a los CI de 130 y superiores, que pueden usarse al seleccionar a nios
.ara programas especiales para sobredorados. Dependiendo de la prueba elegida, el CI
entre 90 y 110, descrito como el normal, puede incluir tan poco como el 42 o tanto
+65111#
Porcentaje de casos de cada intervalo de CI en las distribuciones
normales con media de 100 y diferentes desviaciones
estndares
Porcentaje de frecuencias
intervalo CI
Toral
DE=12
DE= 14
DE=16
DE=lB
0.7
4.3
15.2
1.6
6.3
16.0
3.1
7.5
15.8
5.1
8.5
15.4
i~:~}59.6
15.2
4.3
0.7
100.0
it::}52.2
16.0
6.3
1.6
100.0
1t:}47.2
15.8
7.5
3.1
100.0
i::g}42.0
15.4
8.5
5.1
100.0
66
como el 59.6 por ciento de la poblacin. Para estar seguros, los editores de las pruebas se
esfuerzan por adoptar de manera uniforme una DE de 16 tanto en las nuevas pruebas co
mo en las nuevas ediciones de las anteriores; sin embargo, las variaciones an son sufi
cientes como para hacer que la supervisin de la DE resulte imperativa.
Interrelaciones de las calificaciones intragrupo. En esta etapa de la revisin de
las calificaciones derivadas, el lector puede haber advertido la similitud entre las disrin
tas calificaciones. Los percenles han ido adquiriendo gradualmente al menos un pareci
do grfico con las calificaciones estndares normalizadas. Si la distribucin original de las
puntuaciones no procesadas se aproxima a la curva normal resulta difcil distinguir a
las calificaciones estndares lineales de las calificaciones estndares normalizadas. Por
ltimo, las calificaciones estndares se han convertido en CI y viceversa. En relacin
con ese ltimo punto, un nuevo examen del significado original del CI en tests como el
StanfordBnet demostrar que es posible Interpretarlo como calificaciones estndares.
Si sabemos que la distribucin de los CI del SranfordBnet tiene una media de 100 y
una DE aproximadamente igual a 16, podernos concluir que un CI de 116 cae a una dis
rancia de una DE por encama de la media y representa una calificacin estndar de
+ 1.00. De modo similar, un CJ de 132 corresponde a una calificacin estndar de +2.00,
un CI de 76 a una calificacin estndar de 1.50, etc. Ms an, una razn de Cl del
StaofordBiner igual a 116 corresponde a un percentil de aproximadamente 84 porque
en una curva normal 84 por ciento de loo casos cae por debajo de+l.00 DE (figura 3.4).
La figura 3.6 resume las relaciones en una distribucin normal entre las callficacio
nes que hemos estudiado hasca ahora. Entre ellas se incluyen las calificaciones z. las
calificaciones del Examen de Admisin a la Universidad (College Entrance Examina
rion Board, CEEB), el CI de desviacin de Wechsler (DE= 15), calificaciones T, esta
ni nas y percentiles, Los CI de cualquier prueba han de coincidir con la escala dada del
CI de desviacin siempre que se distribuyan normalmente y tengan una DE igual a 15.
Cualquier otro CI nonnalmence di tribuido puede agregarse a la tabla si conocemos su
DE; por ejemplo, si la DE es de 20, entonces un CI de 120 corresponde a +I DE, un
CI de 80 a l DE, etctera.
En conclusin, la forma exacta en que se informan loo resultados se determina sobre
todo por la conveniencia, familiaridad o facilidad para establecer las normas. Las califi
caciones estndares de cualquier forma (incluyendo el CI de desviacin) han llegado a
reemplazar a otras calaficacaones por las ventajas que ofrecen en relacin con la elabo
racin de la prueba y el tratamiento estadstico de los datos: no obstante, la mayor par,
te de las calificaciones derivadas intragrupo son en esencia similares si se transforman
con cuidado y se interpretan adecuadamente. Cuando se satisfacen ciertas condiciones
estadsncas, todas pueden ser traducidas con facilidad a cualquiera de las otras.
RELJrTIVIDAD
DE LAS NORMAS
67
..
:O
-4a
-3u
-217
+217
+3u
+4a
calificaciones de la prueba
calificacin z
-4
-2
-1
+1
+2
+3
+4
10
20
30
40
50
60
70
80
90
200
300
400
500
600
700
800
55
70
85
100
115
130
145
calificacin T
calificacin
CEEB
CI de la
desviacin
(DE" 15)
Estanina
4%
2
Percentiles
3
1
4
1
5
1
6
1
8
1
9
1
5 10 20 30 405060 70 80 90 95
4%
7% 12%111%120% 117%112% 7% 1
99
mayor informacin. Las posiciones de esos dos estudiantes podra invertirse al cam
biar las pruebas que cada uno present en su respectiva escuela.
Del mismo modo, la posicin relativa de un individuo en diferentes funciones pue
de ser muy mal representada por la falta de comparabilidad de las normas de una prue
'""a. Supongamos que a una estudiante se le aplica una prueba de comprensin verbal y
un tese de aptitud espacial para determinar su ubicacin relativa en ambos campos. Si
la prueba de habilidad verbal se estandariz con una muestra aleatoria de estudiantes
Je secundaria mientras que la prueba espacial se estandariz en un grupo selecto de
asistentes a cursos para eleccin de carrera, el examinador podra llegar a la conclu
sin errnea de que la capacidad verbal de la chica es mucho mayor que la espacial,
cuando podrCa ser el caso contrario.
68
Otro ejemplo tiene que ver con las comparaciones longitudinales de la ejecucin de
un nico individuo en una prueba a lo largo del tiempo. Si el registro acumulativo
de un nio muestra un CI de 118, 115 y 101 en cuarto, quinto y sexto grados, la prime
ra pregunta que debe hacerse antes de interpretar los datos es: "Qu test se aplic al
nio en cada ocasin?" La aparente disminucin puede ser un simple reflejo de las di
ferencias entre los instrumentos,en cuyo caso el nio habra obtenido las mismas ca
lificaciones aunque se le hubieran aplicado con una semana de diferencia.
Hay tres razones principales para explicar las variacionessistemticas entre las cal
ficaciones obtenidas por los mismos individuos en pruebas distintas. Primero, a pesar
de la similitud en el nombre, el conienido de las pruebas puede diferir,como sucede con
muchos de los llamados tests de inteligencia. Aunque lleven el mismo nombre, una de
las pruebas puede abarcar nicamente contenidoverbal, otra ante todo aptitudes espa
ciales y la tercera puede cubrir contenido verbal, numrico y espacial en proporciones
iguales. Segundo, las ,midades de la escala pueden no ser comparables. Como ya expli
camos, si en una prueba el CI tiene una DE de 12 y en otra de 18, entonces es ms pro
bable que un individuo que en la primera prueba obtuvo un CI de 112 en la segunda
reciba uno de 118. Tercero, puede haber diferenciasen la composicin de las m~tras
de esrandmi::acinempleadas para establecer las normas de las diferentes pruebas. Es
obvio que parecer que los mismos individuos tuvieron un mejor rendimiento al com
pararlos con un grupo menos capaz, que cuando se hace con uno de mayorcapacidad.
La falta de comparabldad del contenidode la prueba o de las unidades de la esca
la puede ser detectado aJ remitirse a la propia prueba o a su manual. Sin embargo, es
ms probable que se pasen por alto las diferencias en las respectivas muestras norrnati
vas, diferencias que pueden ser la explicacin de muchas otras discrepanciasen los re
sultados que no pueden entenderse de otra manera.
La muestra normativa. Independientementede como se exprese, cualquier nor
ma se restringe a la poblacin normativa particular de la que se tom la muestra. El
usuario no debe perder de vista la forma en que se establecen las normas, pues no son,
de manera alguna, absolutas, universales o permanentes, sino que simplementerepre
sentan la ejecucin en la prueba de las personas que formaron parte de la muestra de
estandaruacin. Al elegir dicha muestra, suelen hacerse esfuenos por obtener una que
sea representativa de la poblacin a la que va dirigida la prueba.
En la terminologaestadsticase distingue entre muestra y poblacin. La primera se re
6ere al grupo de individuosrealmente examinado, mientras que la poblacin designa al
grupo mayor, pero de similar constitucin,de donde se extrajo la muestra; por ejemplo,
si desea establecer las normasde ejecucin en una prueba para la poblacinde nit'\os V"J
rones de I O aos que asisten a escuelas pblicas urbanas, puede aplicar el instrumentoa
una muestra cuidadosamenteelegida de 500 muchachosde 10 aos que asisten a escue
las pblicas en variasciudades del pas. Hay que verificar la muestra en lo que atae a la
distribucin geogrlica, el nivel sociocconmico, la composicintnica y otras caracte
rsticas pertinentespara asegurar que representa de verdad a la poblacin definida.
En el desarrollo y la aplicacin de las normas debe dedicarse mucha atencin a la
muestra de estandatieacn. Es evidente que la muestra en la que se basan las normas
debe ser lo suficientemente grande como para proporcionar valores estables, lo que
69
quiere decir que no se deben obtener normas muy diferentes al aplicar la prueba a
cualquier otra muestra cuidadosamente elegida de la misma poblacin. Las normas
con un error de muestreo grande tendrn desde luego poco valor en la interpretacin
de los resultados de la prueba.
De igual importancia es el requisitode que la muestra sea representativa de la po
blacin considerada, por lo que es necesario investigar con cuidado factoresselectivos
sutiles que pudieran haber disminuido la representatividad de la muestra. Algunos de
estos factores se encuentran en las muestras institucionales que, debido a su tamao
relativamente grande y a su fcil acceso para propsitos de examinacin, resultan un
campo tentador para la acumulacin de datos normativos. De cualquier forma, es ne
cesario analizar con cuidado las limitaciones especiales de las muestras; por ejemplo,
al examinar a estudiantes se observar que conforme se avanza en los grados escolares
hay una seleccin superior de casos debido a la desercin progresiva de los estudiantes
menos aptos, eliminacin que no afecta de igual manera a los diferentes subgrupos,
As, la tasa de eliminacin selectiva en la escuela es mayor para los hombres que para
las mujeres, y es mayor en los niveles socioeconmicos bajos que en los altos.
Factores selectivos similares operan en otras muestras institucionales, como es el
caso de los prisioneros, los pacientes de hospitales mentales o las personas con retardo
mental que viven en internados. Debido a los muchos factoresespeciales que deterrni
na la propia internacin, esos grupos no son representativosde la poblacin entera de
los infractores, los trastornados o los que padecen retardo; por ejemplo, es ms proba
ble que se interne a los individuos retardados que sufren discapacidades fsicas que a
quienes son aptos. De modo similar, la proporcin relativa de personas con retardo
profundo ser mayor en las muestras cornadas en instituciones de asistencia que en el
conjunto de la poblacin.
Relacionada con la cuestin de la representatividad de la muestra, est la necesidad
de definir la poblacin especfica a la que pueden generalizarselas normas. Como es evi
dente, una forma de asegurar que una muestra es representativa consiste en restringir la
poblacin para que se ajuste a las especificaciones de la muestra disponible; por ejemplo,
si la poblacin se define para incluir nicamente a escolares de 14 aos en lugar de a
todos los nios de 14 aos, entonces una muestra escolar sera representativa. Por su
puesto, lo ideal es que la poblacin deseada se defina de antemano en funcin de los
objetivos de la prueba, para formar luego una muestra adecuada. No obstante, los obs
tculos prcticos para obtener participantespuede hacer que esta meta resulte inalcan
:able. En dicho caso, es mucho mejor redefinir la poblacin de manera ms reducida que
sealar normas sobre una poblacin ideal que no est adecuadamente representada en la
muestra de estandarizacin. En la prctica real, son muy pocas las pruebas que se estan
darizan sobre poblaciones tan amplias como suele suponerse, y ninguna prueba ofrece
normas para la especie humana! Adems, es dudoso que muchas pruebas brinden nor
mas verdaderamente adecuadas para poblaciones tan amplias como "los europeos adul
tos", "los nios mexicanos de 10 aos", etc. En consecuencia, las muestras obtenidas por
diferentes autoresde pruebas pueden no ser representativasde las poblacionesalegadasy
presentar diversos sesgos, de ah que las normas resultantes no sean comparables.
Al interpretar los resultados de la prueba, el usuario debe tornar en consideracin
las influencias especficas que pueden haber actuado sobre la muestra normativa utili
\
70
zada al estandaruarla, y que incluyen factores selectivos especiales as como las condi
ciones sociales prevalecientes en el momento en que fueron obtenidos los datos nor
mativos (Anastasi, 1985b).
Normas fijas nacionales. Una solucin a la falca de comparabilidad de las normas
consiste en usar una prueba ancla para desarrollar tablas de equivalencia para los resul
tados de disrintas pruebas (para mostrar qu puntuacin de la prueba A es equivalente
a cada puntuacin de la prueba B). Esto puede lograrse con el mirodo equipercenril, en el
que las puntuaciones se consideran equivalentes cuando tienen percenriles iguales en
un determinado grupo; por ejemplo, si en el mismo grupo el percentil 80 corresponde
a un Cl de 115 en la prueba A y a un CI de 120 en la prueba B, entonces el Cl de 115
de la prueba A se considera equivalente al CI de 120 de la prueba B. Este procedirnen
to ha sido adoptado de manera restringida por algunos editores en la preparacin de ta
bias de equivalencias para algunos de sus instrumentos (por ejemplo, Lennon, l 966a).
Ocasionalmente se hacen propuestas ms ambiciosas para calibrar cada nueva prue
ba contra una sola prueba ancla que haya sido administrada a una muestra normativa
representativa a nivel nacional (Lennon, 1966b). Un ejemplo de este procedimiento
se encuentra en el Estudio de Prueba Ancla (Anchor Test Study) conducido por el Ser
vicio de Pruebas Educativas (Educacional Testing Service) bajo los auspicios de la Ofici
na de Educacin de los Estados Unidos (laeger, 1973). Dicho estudio representa un
esfuerzo sistemtico por proporcionar normas comparables y verdaderamente repre
sencacivas de la poblacin estadounidense para siete de las pruebas de aprovecharnien
to en lectura aplicadas a nios de educacin elemental. Gracias a un diseo
experimental bien controlado, en 50 estados de ese pas se examin a ms de 300 000
escolares de cuarto, quinto y sexto grado. La prueba ancla estaba formada por las sub
pruebas de lectura de comprensin y de vocabulario de la Prueba de Aprovechamen
to Metropolitana (Merropolium Achie11tmmt Ten), para la cual se establecieron nuevas
normas en una fase del proyecto. En la fase de calibracin del estudio cada nio pre
sent las subpruebas de lectura de comprensin y vocabulano de dos de las siete bate
ras, y cada una se apare a la vez con todas las dems. Algunos grupos recibieron
formas paralelas de las dos subpruebas de la misma batera; en otros grupos todos los
parearnientos fueron duplicados en una secuencia inversa para controlar el orden de la
administracin. A panir de los anlisis estadsticos de todos C50S datos se utiliz el m
todo equipercentil para preparar tablas de equivalencia de puntuaciones para las siete
pruebas. Tambin se prepar un manual de interpretacin de los resultados para uso de
los sistemas escolares y otros interesados (Loret, Seder, Bianchini y Vale, 1974 ).
Los datos de la fase de calibracin del Estudio de Prueba Ancla se utilizaron des
pus para formar una sola escala de puntuacin, conocida como la Escala Nacional de
Referencia (Nacional Reference Sea/e, Rentz y Bashaw, 1977). La tabla de conversin
permite la transformacin de una puntuacin de cualquier forma de las siete pruebas
en cualquiera de los niveles escolares en una calificacin de tres lugares sobre una es
cala uniforme y continua. Esta escala fue elaborada empleando el anlisis de reactivos
y los mtodos de escalamiento del modelo Rasch, uno de los modelos de anlisis de
reactivos ms sencillos del que veremos ms aqu y en el captulo 7.
Para muchos propsitos de examnacin resulta til contar con puntuaciones com
parables de diferentes pruebas que se expresen sobre una escala uniforme de medicin
71
se refieran a una sola muestra normativa. Empero, debe observarse que existen dife
rentes grados y clases de comparabilidad de las calificaciones. La comparabilidad en
una situacin particular depende de la similitud de las pruebas en cuanto a! conteni
Jo, a propiedades psicomtricas como la confiabilidad y el grado de dificultad y a los
prccedmentos estadsticos utilizados para lograr la comparabilidad (Angoff, 1984;
:\ngoff y Cowell, 1986; P. W. Holland y Rubn, 1982). Las pruebas no deben conside
rarse igualadas o equivalentes a menos que sean verdaderamente intercambiables. No
bsranre, diferentes clases y grados de comparabilidad pueden facilitar la interpreta
cin de los resultados siempre que Las puntuaciones comparables se usen de modo
apropiado y con pleno conocimiento de La forma en que se derivaron.
Xormas especficas.
Otro acercamiento a La no equivalencia de las normas exis
rentes que quiz sea el ms realista para la mayor parte de los instrumentos consis
te en estandarizarlas sobre poblaciones definidas de manera ms restringida y elegidas
rara adaptarse a los propsitos especficos de cada prueba. En esos casos, los lmites de
la poblacin normativa debe informarse claramente con las normas. As, puede decirse
que las normas se aplican a "los empleados administrativos de las grandes empresas" o
a "los estudiantes de primer ao de ingeniera". Para muchos propsitos de examina
cin resulta deseable contar con normas muy especficas. Aunque pueda disponerse de
normas representativas de una poblacin ms amplia, siempre que subgrupos identifi
cables obtengan puntuaciones apreciablemente diferentes en una prueba particular re
sulta til informar por separado Las normas del subgrupo. Los subgrupos pueden formarse
de acuerdo con la edad, el grado escolar, el programa de estudios, el sexo, la regin geo
grfica, el ambiente urbano o rural, el nivel socioeconrnico y muchas otras variables.
El uso que vaya a hacerse de La prueba determina la diferenciacin que resulte ms per
tinente, as como la conveniencia de contar con normas generales o especficas.
Debemos mencionar tambin el caso de las normas locales, que con frecuencia son
establecidas por los propios usuarios en ambientes particulares. Los grupos empleados
para derivar dichas normas se definen de manera an ms limitada que los subgrupos
considerados antes. As, un empleador puede acumular normas de los solicitantes pa
ra un determinado trabajo en una empresa en particular, o La oficina de admisin de
una universidad puede evaluar el rendimiento de los alumnos en trminos de su pro
pia distribucin de calificaciones. Esas normas Locales son ms apropiadas que Las nor
mas nacionales para muchos propsitos de exarninacin, como la prediccin del
desempeo en el empleo o acadmico, la comparacin del aprovechamiento relativo
de un nio en diferentes materias o bien la medicin del progreso de un individuo a Lo
largo del tiempo.
Grupo fijo de referencia.
Aunque la forma en que se calcula la mayor parte de
las calificaciones derivadas permite una interpretacin normativa inmediata de La eje
cucin en una prueba, hay algunas excepciones notables. Una escala no normativa
utiliza un grupo fijo de referencia para asegurar la comparabilidad y continuidad de las
calificaciones sin brindar una evaluacin normativa del desempeo. Con dicha esca
la, la interpretacin normativa tiene que referirse a normas obtenidas de manera inde
pendiente de una poblacin adecuada. Con este propsito suelen emplearse normas
locales u otras normas especficas.
72
Prindpiostcnicasy metodolgicos
73
74
75
del examinado. Los usuarios que tienen acceso a sus propias computadoras pueden ad
quirir programas que adems de las calificaciones numricas tambin proporcionan
informes interpretativos para ciertos tests, como las Escalas de Inteligencia para nios
de Wechsler, Revisadas (WlSCR) y para adultos (WAISR).
Los sistemas interactivos de cmputo ilustran un nivel ms complejo de interpreta
cin individualizada de las puntuaciones de los tests. En stos, el individuo est en
contacto directo con la computadora por medio de estaciones de respuesta y entabla
de hecho un dilogo con la computadora (J. A. Harris, 1973; Holurnan, 1970; M. R.
Katz, 1974; Super et al., 1970). Esta tcnica ha sido investigada en relacin con la
planeacin educativa y profesional y en la toma de decisiones. En escas situaciones,
los resultados suelen incorporarse a la base de datos de la computadora junto con la
informacin proporcionada por el estudiante o el cliente. En esencia, la computadora
combina toda la informacin disponible sobre el individuo con los datos almacenados
acerca de los programas educativos y ocupacionales, y utiliza todos los hechos y rela
ciones pertinentes para responder a las preguntas del individuo y ayudarlo a tomar
una decisin. Un ejemplo de esos programas es el Sistema Interactivo de Gua e In
formacin ( System for lnteractive Guidance Information, "SI GI", 197 4197 5). El siste
ma, en uso por ms de una dcada en universidades, se ha actualizado y revisado para
ayudar no slo a los estudiantes y a los adultos a prepararse para ingresar o regresar al
mercado de trabajo, o para sopesar ascensos o cambios de carrera (M. R. Katz, 1993;
Norris, Schott, Shatkin y Bennett, 1986).
Riesgos y directrices.
Aunque es indudable que las computadoras han abierto el
camino a mejoras sin precedentes en todos los aspectos de las pruebas psicolgicas, algunas de sus aplicaciones pueden conducir a abusos e interpretaciones errneas de las
calificaciones de las pruebas (Butcher, 1985a; J. J. Kramer y Mtchell, 1985; Mata
razzo, 1983, 1986a, 1986b). En un esfuerzo por prevenir esos riesgos se ha prestado
considerable atencin al desarrollo de directrices para la examinacin basada en
computadoras. Los Estndares de Evaluacin (Testing Standards: AERA, APA, NC
ME, 1985) incluyen varios criterios vinculados con la evaluacin basada en compu
tadoras. Se ha elaborado un conjunto ms amplio y detallado de normas que se refieren
en especial al uso de la computadora en los diversos aspectos de la examinacin ( va
se, por ejemplo, Butcher, 1987, pp, 413431). Vase Moreland (1985, 1992), para
una revisin cuidadosa del uso de computadoras en la evaluacin, particularmente en
relacin con la interpretacin computarizada de los resultados.
Dos de las preocupaciones principales respecto al uso de computadoras araen a la
comparabilidad de los resultados y a las interpretaciones narradas de los mismos. Cuan
do la misma prueba se aplica por medio de una computadora y de la manera impresa
tradicional es necesario investigar la comparabilidad de los resultados (Mazzeo,
Druesne, Raffeld, Checketts y Muhlstein, 1991 ). A menos que se demuestre que ambos
modos de aplicacin producen formas completamente igualadas de la prueba, el mis
mo conjunto de normas puede no ser aplicable a ambos; adems, la confiabilidad y la
validez del instrumento tambin pueden variar. Es especialmente importante revisar
la cornparabilidad de individuos o grupos diferentes cuya experiencia con el uso de las
computadoras, sobre todo en la evaluacin, puede diferir de manera notable.
El rpido crecimiento de los servicios computarizados que proporcionan informes
interpretativos narrados de los resultados ha generado particular preocupacin. Dos
76
INTERPRETACIN
77
davfa desde otro punto de vista, otra muestra de los tests referidos a dominio se ilustra
en los exmenes para el cumplimiento de las condiciones mnimas requeridas, por
ejemplo para obtener una licenciade conduccin o de piloto. Una aplicacin relacio
nada es el examen de la pericia para el trabajo, que evala la maestra de un pequeo
nmero de habilidades bien definidas, como en las ocupaciones militares especializa
das (Maier y Hrshfeld, 1978; Swezey y Pearlsten, 1975).
Por ltimo, la familiaridad con los conceptos de los tests referidos a dominio puede
contribuir a la mejora de los exmenes tradicionales informales preparados por los
maestros para su uso en el aula. Linn y Gronlund (1995) ofrecen una gua detallada
para este propsito, as como un tratamiento sencillo y equilibrado de tales pruebas.
Una resea breve y excelente de las principales limitaciones de esa forma de examina
cin se encuentra en Ebel ( 1972); y Berk (1984a) proporciona una amplia revisin de
muchos de los problemas tcnicos de su elaboracin y evaluacin.
Significado del contenido. El rasgo distintivo principal de la examinacin referi
da a dominio (como quiera que se le defina y sea que se le designe con este trmino o
con alguno de sus sinnimos) es su interpretacin del desempeo en la prueba en tr
minos del significado del contenido. Desde luego, el punto de atencin est en lo que
los examinados pueden hacer y lo que conocen, y no en cmo se comparan con otros.
Al elaborar estos instrumentos, un requisito fundamental es contar con un dominio
definido con claridad de los conocimientos o las habilidades que la prueba debe eva
luar. Para que los resultados tengan un significado que pueda comunicarse, el contenido
del dominio por muestrearse debe ser reconocido como importante. El dominio selec
cionado debe subdividirse luego en unidades pequeas definidas en trminos de eje
cucin. En el contexto educativo, las unidades corresponden a los objetivos educativos
definidos conducrualmente, como "multiplicar nmeros de tres dgitos por otro de dos
dgitos" o "identificar las falcas ortogrficasque consisten en escribir s en lugar de e". En
los programas preparados para la instruccin individualizada, pueden prepararse cien
tos de esos objetivos para una sola materia. Despus de que se han formulado los objeti
vos educativos, se preparan los reactivos para muestrear cada uno, un procedimiento
difcil y tardado; sin embargo, si no se cuenta con una especificacin cuidadosa y con
trolada del contenido, los resultados de esta examinacin pueden degenerar en una
mescolanza idiosincrsica e ininterpretable. Un compromiso prctico consiste en que
un experto identifique y defina los principales conceptos, principios, metodologas u
objetivos educativoscada uno de los dominios significativosdefinidos puede entonces.
muestrearseconcienzudamentecon los reactivos de prueba apropiados. Es indudable
que el grado de especificidad con que se requiere evaluar los dominios de conducta
vara segn la naturaleza y propsito de la prueba (Popham, 1984; Roid, 1984).
Cuando se aplica estrictamente, la examinacin referida a dominio se adapta me
jor al examen de habilidades bsicas (como lectura y aritmtica) a nivel elemental.
En esas reas los objetivos educativos suelen disponerse en orden jerrquico, y la ad
quisicin de las habilidades ms elementales es un requisiro para la adquisicin de
otras de mayor nivel;7 sin embargo, no es prctico y quiz tampoco deseable for
mular objetivos muy especficos para los niveles avanzados de conocimiento en mate
7 Idealmente, escas pruebas siguen el modelo simplex de la escala de Guttman (vase Popham y Husek, 1969),
como es el caso de las escalas ordinales de Piager que estudiaremos en el capitulo 9.
78
nas menos estructuradas. A estos niveles, es probable que tanto el contenido como la
secuencia de aprendizaje sean mucho ms flexibles.
Por otro lado, al subrayar el significado del contenido en la interpretacin de los re
sultados, la examinacin referida a dominio puede ejercer un efecto saludable sobre la
aplicacin general de pruebas, por ejemplo para la interpretacin de los resultados de
un test de inteligencia. Describir la ejecucin de un nio en un test de inteligencia en
trminos de las habilidades intelectuales especficas y del conocimiento que representa
puede ayudar a contrarrestar las confusiones y los errores que han quedado vinculados
al Cl tradicional; de todas formas, cuando se plantea en esos trminos generales, la
aproximacin referida a dominio equivale a interpretar las calificaciones de las prue
bas a la luz de la validez demostrada de la prueba particular, ms que en trminos de
vagas entidades subyacentes. Por supuesto, dicha interpretacin puede combinarse
con calificaciones referidas a normas.
Pruebas de destreza.
Otro rasgo que suele asociarse con la evaluacin referida a
dominio es el procedimiento para examinar la destreza. En esencia, el procedimiento
da una calificacin de todo o nada que indica si el individuo ha alcanzado o no el ni
vel establecido de habilidad. Cuando se examinan habilidades bsicas, en general se
espera una destreza casi completa (por ejemplo, 8085 por ciento de respuestas co
rrectas). Tambin puede emplearse una distincin de tres niveles que incluye destreza,
no destreza y un intervalo intermedio dudoso o de "revisin".
En relacin con la instruccin individualizada, algunos educadores han afirmado
que si se cuenta con tiempo suficiente y mtodos educativos apropiados, casi cualquie
ra puede lograr la completa destreza de los objetivos elegidos. Las diferencias indivi
duales se manifestaran en el tiempo requerido para el aprendizaje ms que en el
rendimiento final, como sucede en los exmenes tradicionales (Carroll, 1963, 1970;
Cooley y Glaser, 1969; Gagn, 1965). De todo esto se dice que en las pruebas de des
treza las diferencias individuales son de poco o ningn inters. En consecuencia, se
acostumbra elaborar los tests referidos a dominio de modo que, luego de la capacita
cin apropiada, minimicen las diferencias individuales en la ejecucin. La evaluacin
de la destreza se emplea regularmente en los programas de instruccin personalizada, y
tambin es caracterstica de los tests referidos a dominio para habilidades bsicas, ade
cuadas para la instruccin elemental.
En la elaboracin de esas pruebas hay dos preguntas importantes: ( 1) cuntos
reactivos deben usarse para la evaluacin confiable de cada objetivo educativo cubier
to por la prueba], y (2) qu proporcin de reactivos hay que responder correctamen
te para determinar en forma confiable la destreza/ En buena parte de los primeros tests
referidos a dominio, decisiones de criterio daban las respuestas; no obstante, el progre
so sustancial alcanzado en el desarrollo de tcnicas estadsticas puede proporcionar
respuestas objetivas empricas (Berk, 1984a; R. L. Ferguson y Novick, 1973; Hamble
ton, l984a, 1989; Hambleton y Novick, 1973). Bastar con algunos ejemplos para
ilustrar la naturaleza y el alcance de esos esfuerzos.
Estas dos preguntas pueden plantearse en una sola hiptesis que se prueba en el mar
co de la teora de la toma de decisiones y el de un anlisis secuencial (Hambleton,
l 984a; Wald, 194 7). En concreto, deseamos probar la hiptesis de que el examinado ha
alcanzado el nivel requerido de destreza en el contenido del dominio u objetivo educa
tivo muestreado por los reactivos de la prueba. El anlisis secuencial consiste en hacer
79
observaciones, una tras otra, y decidir despus de cada una si ( l) se acepta la hiptesis,
(2) se rechaza,o (3) hay que hacer otras observaciones. As, el nmero de observaciones
(en este caso, el nmero de reactivos) necesario para llegar a una conclusin confiable
se determina durante el proceso de evaluacin. En lugar de presentar un nmero fijo y
predeterminado de reactivos, el examinado contina resolviendo la prueba hasta que
se alcance una decisin de destreza o no destreza. En este momento se interrumpe el
examen y el estudiante es dirigido al siguiente nivel de instruccin o se le regresa a estu
diar el nivel no dominado. Con las facilidades de las computadoras, los procedimientos
de decisin secuencial son factibles y pueden reducir el tiempo total de examinacin a
la vez que producen estimaciones confiables de la destreza.
Algunos investigadores han explorado los mtodos bayesianos de estimacin que
incorporan datos colaterales y son adecuados para las decisiones que requieren las
pruebas de destreza. Debido al gran nmero de objetivos educativos que hay que pro
bar, en general los tests referidos a dominio incluyen un pequeo nmero de reactivos
por cada objetivo. Para completar esta limitada informacinse han establecido procedi
mientos que comprenden datos colateralesde la historiadel desempeo del estudiante
as como los resultados de otros alumnos (R. L. Ferguson y Novick, 1973; Hambleton,
1984a; Hambleton y Novick, 1973).
Cuando los procedimientos confeccionados individualmente no resultan prcti
cos, es posible establecerde manera emprica puntuaciones de corte al analizar los re
sultados de grupos apropiados antes y despus de la instruccin. Luego se selecciona
la puntuacin de corteque haga una mejor discriminacin entre los que han recibido la
educacin adecuada y los que no lo han hecho (Panell y Laabs, 1979; L. A. Shepard,
1984). En ciertas situaciones se requiere de juicio para evaluar la relativa gravedad de
"aprobar" a una persona no calificada contra "reprobar" a alguien que s lo est. En
tonces, se elevara o disminuira el punto de corte para responder a las consecuencias
de la mala clasificacin.
Tests referidos a normas. Ms all de las habilidades bsicas, las pruebas de destreza
son inaplicables o insuficientes,ya que en las materiasms avanzadas y menosestructu
radas el rendimiento es abierto. El individuo puede progresar casi ilimitadamente en
funciones como la comprensin, el pensamiento crtico, la apreciacin y la originali
dad. Ms an, la cobertura del contenido puede seguir muchas direcciones diferentes
dependiendo de las habilidades, los intereses y las metas del individuo, as como de las
facilidades locales de educacin. En esas condiciones, la destreza total es poco realista e
innecesaria, por lo que en tales casos suele utilizarse la evaluacin referida a normas pa
ra determinar el grado de rendimiento. Se han elaborado algunos instrumentos para
permitir tanto las aplicaciones referidas a normas como las referidas a dominio. Un
ejemplo se encuentra en las pruebas Stanford de diagnstico para lectura y matemti
cas, que adems de proporcionar normas apropiadas para cada nivel, permiten un an
lisis cuantitativo del aprovechamientodel nio en objetivos educativos detallados.
Observe que la evaluacin referidaa dominio no es tan nueva ni tan distinta de los
exmenes referidos a normas como implican algunos de sus exponentes. Evaluar la
ejecucin del individuo en una prueba en trminos absolutos, como una letra o el
porcentaje de aciertos, desde luego es ms antiguo que las interpretaciones normati
vas. Tentativas ms precisas por describir el desempeo en una prueba en trminos
80
del significado del contenido tambin son anteriores a la introduccin del trmino
"test referido a criterio" (Ebel, 1962; J. C. Flanagan, 1962; Nitko, 1984, pp. 1416).
Otros ejemplos se hallan en las primeras escalas formadas para evaluar la calidad de la
escritura, la redaccin o el dibujo al igualar la muestra de trabajo del individuo contra
un espcimen estndar. Ebel ( 1972) observ adems que el concepto de destreza o ha
bilidad en educacin ~n el sentido del aprendizaje de todo o nada de unidades espe
dficas fue muy popular en los veinte y los treinta, antes de ser abandonado.
En todas las formas de evaluacin est implcito un marco normativo, independien
temente de cmo se expresen los resultados (Angoff, 1974; Nitko, 1984). La mera elec
cin del contenido o bien las habilidades por medir est influida por el conocimiento
del examinador de lo que puede esperarse de seres humanos en determinada etapa
educativa o de desarrollo. Dicha eleccin presupone que se cuenta con infonnacin
acerca de lo que otras personas han hecho en situaciones similares. Ms an, al impo
ner puntuaciones de corte uniformes sobre un continuo de habilidad, las pruebas de
destreza no eliminan las diferencias individuales. Describir el nivel de lectura de coro=
prensin de un individuo como "la habilidad de comprender el contenido del diario
The New York Times" deja espacio para una amplia gama de diferencias individuales
en grado y comprensin. Aplicar un punto de corte para establecer una dicotoma en
la ejecucin simplemente ignora las diferencias individuales que permanecen dentro
de las dos categoras y descarta informacin potencialmente til.
CALIFICACIONES
MNIMAS
Y PUNTUACIONES
DE CORTE
81
82
30 v por encama
20-29
10-19
Meno.de 10
Nmero
de casos
22
104
71
14
5
9
37
43
e
o
21
37
36
36
43
24
14
59
27
3
7
(Adaptado de Tecluucal Manual "' Diffmnol A,cuu,k Tests, 5 ed., p. 152. Reproducido con automactn.
uiwight" 1992 por la PS)'Chological Corporarion.)
al final del primer semestre. El criterio fue las calificaciones finales del segundo semos
rre, la correlacin entre los resultados de la prueba y el criterio fue de .60.
La primera columna de la tabla 3.6 muestra las calificaciones de la prueba divid
das en cuatro intervalos de clase; en la segunda columna se presenta el nmero de es
tudiantes cuyas puntuaciones caen en cada intervalo. Las entradas restantes en cada
hilera de la tabla indican el porcentaje de casos dentro de cada intervalo de calificaclo
nes que recibi cada grado al final del curso. As, de los 22 estudiantes con califica
dones iguales o superiores a 30 en la prueba de razonamiento numrico, cinco por
ciento recibi calificaciones iguales o inferiores a O, ninguno recibi C, 36 por ciento
recibi By 59 por ciento A. En el otro extremo, de los 14 estudiantes con una califica
cin inferior a I O en la prueba, 43 por ciento recibi calificaciones iguales o inferiores
a D, 36 por ciento C y 14 por ciento B. El anmalo siete por ciento que recibi A, que
representa un solo caso, finalmente es informacin intil para propsitos de generali
zacin, como es el caso del cinco por ciento con calificaciones iguales o superiores a
30 que recibi una calificacin igual o menor a O, nuevamente representado por un
caso. No obstante, dentro de las Limitaciones de los datos disponibles, los porcentajes
de la tabla 3.6 proporcionan estimaciones de la probabilidad de que un individuo reci
bir una determinada calificacin criterio. Por ejemplo, si un nuevo estudiante recibe
una puntuacin de 24 en la prueba de razonamiento numrico del DAT (es decir, cae
en el intervalo 2029), debemos concluir que la probabilidad de que obtenga en el
curso una calificacin de A es de 27 por ciento, la de que obtenga una calificacin de
Bes 43 por ciento, etctera.
En muchas situaciones practicas, los criterios pueden dicotornizarse como "xito" y
"fracaso" en un trabajo, un curso o en otra empresa. En cales condiciones, puede pre
pararse una grdfica de expeccabilidodque muestre la probabilidad de xito o fracaso que
corresponde a cada intervalo de calificacin. La figura 3. 7 es un ejemplo de dicha gro
flca, la cual se basa en una batera para la seleccin de pilotos elaborada por la fuerza
area de los Estados Unidos. La grfica muestra el porcentaje de cadetes que califican
dentro de cada escanina de la batera y que no lograron completar el entrenamiento de
Nmero
de hombres
21 474
19444
32129
39398
34975
23699
11 209
2139
83
~
10%
k%
EJ1
22 l.
1
30%
4"
s: 1%
1
67%
904
O
10
20
30
40
50
60
70
t77%
80
90
100
vuelo. Puede verse que el 77 por ciento de los cadetesque recibieron una estanina de l
fue eliminado del curso de entrenamiento, miencras que slo cuatro por ciento de los
que obtuvieron una estanina 9 no logr completar el entrenamientosatisfactoriamen
te. Entre esos extremos, el porcentaje de fracasos disminuy en forma constante a lo
largo de las estaninas sucesivas. Sobre la base de esta grfica de expectabilidades pue
de predecirse, por ejemplo, que alrededor del 40 por ciento de los cadetes que obtie
nen una calificacin estanina de 4 fracasary que cerca del 60 por ciento completar
satisfactoriamenteel entrenamiento de vuelo. Pueden hacerse afirmaciones similares
acerca de la probabilidad de xito o fracaso de los individuosque reciben cada estani
na. As, la probabilidad de que complete el entrenamiento un individuo con una cali
ficacin estanina de 4 es de 60:40 o 3:2. Adems de brindar una interpretacin
referida al criterio de los resultados de la prueba, puede observarse que tanto las tablas
como las grficas de expectabilidaddan una idea general de la validez de una prueba
para predecir un criterio determinado.Es por ello que al final del captulo 6, en una
seccinsobre los modelosde decisin para el uso justo de las pruebas, haremos una re
visin ms detallada de los procedimientosempricos empleados para establecer pun
tuaciones de corte. En dicha seccin tambin nos referimosa los procedimientos
matemticos para el establecimiento de calificacionesde corte ptimas en diversas
condiciones.Las aplicacionesespecficasde las puntuacionesde corteen las principa
les reas de la prctica psicolgica tambin pueden encontrarse en el captulo 17.