You are on page 1of 37

ANASTASI A y URBINA S. Tests Psicolgicos, Edit.

Pretince Hall, Mxico 1998

Normas y significado de las


puntuacionesde los tests
n la segunda parte, compuestapor los captulos3 a 7, encontrar una introduc
cin a los conceptos bsicos y la metodologaque se requieren para entender
las pruebas psicolgicasy para la adecuada nterpretacin de us resultados. Los
siguientes captulos abordan remas como las normas, la confiablhdad, la validez,
el anlisis de reactivos y el diseo de los tests. Este captulo trata sobre el desarrollo y
uso de las normasy otros procedimientosque facilitan la nterpretacin de las puntua
ciones. En ausencia de datos interpretativosadicionales, la sola puntuacincruda de
cualquier prueba psicolgica carece de significado. Decir que un individuo ha resuelto
correctamente 15 problemasde una prueba de razonamiento aritmtico, identificado
34 palabras de una prueba de vocabulario o armadoun objeto mecnicoen 57 segun
dos, transmite poca o ninguna informacinsobre su posicin en cualquiera de escas
funciones.Tampoco los porcentajesbrindanuna solucin satisfactoria al problema de
interpretar las puntuacionesde los instrumentos; por ejemplo, una puntuacin de 65
por ciento de aciertos en una prueba de vocabulario puede ser equivalente al 30 en
Otra y al 80 por cientoen una ms. Obviamente, el grado de dificulcad de los reactivos
que componen cada prueba determinar el significado del resultado. Al igual que las
puntuaciones crudas, los porcentajes slo pueden interpretarse en un marco de refe
rencia claramente definido y uniforme.
En los instrumentos psicolgicos, las puntuacionessuelen interpretarse haciendo
referencia a normas que representanel desempeo de la muestra de estandarizacinen
la prueba; es decir, las normas se establecen empricamente al determinar lo que
hacen en la prueba los miembrosde un grupo representativo. La puntuacintransfor
mada de cualquier individuo se refiere entoncesa la distribucinde las puntuaciones
obtenidas por la muestra de estandarizacn para descubrir qu lugar ocupa en esa dis
tribucin. Coincide el resultado con el desempeo promedio del grupo de escanda
48

Normas y significado de las puntuacionesde los tests

49

rizacin? Est ligeramente por debajo del promedio o se encuentra cerca del extremo
superior de la distribucin?
Para averiguar la posicin exacta del individuo en relacin con la muestra de es
tandarizacin, la puntuacin cruda se convierte en una medida relativa. Estas puntua
ciones transformadas cumplen un doble propsito; primero, indican la posicin del
individuo en relacin con la muestra normativa, lo que permite la evaluacin de su de
sempeo en comparacin con otras personas. Segundo, proporcionan medidas equiva
lentes que permiten la comparacin directa del desempeo del individuo en pruebas
diferentes; por ejemplo, si una chica obtiene una puntuacin cruda de 40 en una prueba
de vocabulario y una de 22 en una prueba de razonamiento aritmtico, esto nada nos
dice acerca de su desempeo relativo en las dos pruebas: es mejor en vocabulario o en
aritmtica, o bien igualmente buena en ambas materias? Como las puntuacionescrudas
de diferentes pruebas suelen expresarseen unidades distintas resulta imposible su corn
paracin directa. El nivel de dificultad de cada prueba tambin afecta esta compara
cin. Por otro lado, las puntuaciones derivadas pueden expresarse en las mismas
unidades y referirlas a muestras normativas iguales o muy similares en distintas pruebas,
lo que permite comparar la ejecucin relativa en funciones muy diferentes.
Aunque hay varias formas de convertir las puntuaciones crudas para satisfacer los
dos objetivos planteados, las puntuaciones derivadas se expresan esencialmente en
dos formas principales: (1) el nivel de desarrollo alcanzado, o (2) la posicin relativa
dentro de un grupo especfico. Estudiaremos ambas puntuaciones y algunas de sus
variantes en otras secciones del captulo, pero antes es necesario examinar algunos
conceptos elementales de estadstica que fundamentan el desarrollo y la utilizacin de
las normas. La siguiente seccin aclara el significado de ciertas medidas estadsticas
comunes, y proporciona ejemplos simplificados de los clculos sin pretender con ello
brindar una capacitacin en los mtodos estadsticos. Para los detalles de clculo y los
procedimientos a seguir en la aplicacin prctica de esas tcnicas, acuda el lector a
cualquier texto actualizado de estadstica (por ejemplo, D. C. Howell, 1997; Runyon
y Haber, 1991; West, 1991). En la actualidad, es comn que se reconozca la necesidad
de que no slo los usuarios de los tests cuenten con conocimientos bsicos de la
metodologa de la estadstica, sino tambin cualquiera que desee comprender los in
formes de investigacin publicados en cualquier rea de la psicologa (L. S. Aiken,
West, Sechrest y Reno, 1990; Anastasi, 1991; Lambert, 1991; S. T. Meier, 1993).

CONCEPTOS ESTADSTICOS
Un propsito fundamental de la estadstica es organizar y resumir los datos cuantita
tivos para facilitar su comprensin. Una lista de 1 000 puntuaciones no slo resulta
abrumadora, sino que transmite poco significado. El primer paso para poner orden en
semejante caos de datos es tabular las puntuaciones en una distribucin de frecuencias,
como se ilustra en la tabla 3.1, que agrupa las puntuaciones en intervalos de clase, y
marca cada una en el intervalo adecuado. Cuando se han anotado todas las punta
ciones se cuentan las marcas para encontrar la frecuencia o el nmero de casos en
cada intervalo de clase. La suma de esas frecuencias ser igual a N, el nmero total de
casos en el grupo. La tabla 3.1 muestra las puntuaciones obtenidas por l 000 universi

50

Principios tcnicos y metodolgicos

Distribucin de frecuencias de las puntuaciones de 1 000 estu


diantes universitarios en una prueba de aprendizaje de cdigos
Intervalo de clase

52-55
48-51
44-41
4043

1
1
20
73

3639
32}5
2831

156
328
244

1619

28
8

24-27
20-23
12-15

811

(Da tomados de A=

Frecuencia

136

NlOOO

3
2

19)4,pg. 34)

tarios en una prueba de aprendizaje de cdigos en la que un conjunto de palabras arti


ficiales o slabas sin sentido deba ser sustituido por otro. Las puntuaciones crudas in
dicaban el nmero de slabas correctas sustituidas en un ensayo de dos minutos, con
un rango de ocho a 52. Se agruparon en intervalos de clase de cuatro puntos, que iban
de 5255 en la parte superior de la distribucin a ~11 en el extremo inferior. La
columna de frecuencia revela que dos estudiantes obtuvieron puntuaciones entre
ocho y 11, tres entre 12 y 15, ocho entre 16 y 19, etctera.
La informacin que proporciona una distribucin de frecuencias tambin puede
representarse en forma grfica en una curva de distribucin. La figura 3.1 muestra de
esa manera los datos de la tabla 3.1. En la lnea base, el eje horizontal, se encuentran
las puntuaciones agrupadas en intervalos de clase; en el eje vertical se localizan las fre
cuendas o nmeros de casos que caen en cada intervalo. La grfica se presenta de dos
formas, ambas de u.so comn. En el hiswgrama, la altura de la columna levantada sobre
cada intervalo corresponde al nmero de sujetos localizados ah. Podemos imaginar
que cada individuo se para en los hombros de otro para formar la columna. En el polf.
gono ~ frecuencia, un punto en el cenero del intervalo de clase y conectado a la fre
cuencia apropiada indica el nmero de sujetos en cada intervalo. Los puntos sucesivos
se unen luego con lneas rectas.
A excepcin de algunas irregularidades menores, la distribucin que se muestra en
la figura 3.1 recuerda la curva normal. En la figura 3.2 se presenta una curva normal
perfecta determinada matemticamente. Esta curva tiene importantes propiedades
matemticas y brinda la base para muchos anlisis estadsticos; sin embargo, para nues
tros propsitos actuales slo mencionaremos algunos de esos rasgos. En esencia, la
curva indica que el mayor nmero de casos se agrupa en el centro de la dismbucin, y
que al acercarse a los extremos va disminuyendo gradualmente en ambas direcciones.

Normas y significado de las puntuaciones de los test.s

.,o
.,

~
Q)

,::,

2
E

Q)

::,

340
320
300
280
260
240
220
200
180
160
140
120
100
80
60
40
20

51

-Polgono de frecuencia
- - - . Histograma

8
11

12
15

16
19

20
23

24
27

28
31

32
35

36

39

40
43

44-

47

48
51

52
55

Puntuaciones
Fi

gu ra 3

1.

Curvas de distribucin: polgono de frecuencia e histograma.

(Datos de la tabla 3.1)

La curva es simtrica y tiene un nico pico en el centro. Casi todas las distribuciones
de rasgos humanos, estatura, peso, aptitudes y caractersticas de personalidad, se
aproximan a la curva normal, y, en general, entre ms grande sea el grupo ms pare
cida resultar la distribucin a la curva terica normal.
Un grupo de puntuaciones tambin puede describirse en trminos de alguna me
dida de tendencia central, que ofrece la puntuacin ms comn o representativa del de
sempeo de todo el grupo. La ms conocida de esas medidas es el promedio, que
tcnicamente se llama media (M) y se obtiene al sumar todas las puntuaciones y di
vidir la suma entre el nmero de casos (N). Otra medida es la moda, o puntuacin
ms frecuente. En una distribucin de frecuencias, la moda es el punto central del in
tervalo de clase con La mayor frecuencia. De acuerdo con lo anterior, en La tabla 3.1 la
moda cae a la mitad del intervalo 3235 y es igual a 33.5. Observe que esca pun
tuacin corresponde al punto ms alto en la curva de distribucin de la figura 3.1.
Otra medida de tendencia central es la mediana, el punto ms cercano al centro de
una distribucin de puntuaciones ordenadas por tamao. La mediana es el punto que
divide la distribucin por encima y por debajo del cual cae la mitad de los casos.
Las medidas de variabilidad, de la extensin de las diferencias individuales alrede
dor de la tendencia central, proporcionan otra descripcin del conjunto de puntua
ciones de un test. La forma ms evidente y familiar de mostrar la variabilidad es el

52

Principios tcnicosy metodolgicos

'

,, ' '

''

DE grande
DE pequei'la

Puntuacin
F i g u r a 3 . 2. Distribucionesde frecuenciascon la misma media pero dife
rente variabilidad.
rango entre la mayor y la menor puntuacin; sin embargo, se trata de una medida muy

cruda e inestable, toda vez que la determinan apenas dos puntuaciones, lo cual supone
que una sola puntuacin inusualmente elevada o baja puede afectar mucho su
tamao. Un mtodo ms preciso para medir la variabilidad se basa en la diferencia.
entre la puntuacin de cada individuo y la media del grupo.
En este punto resulta til estudiar el ejemplo de la tabla 3.2, en el que se calcularon
las diversas medidas consideradas para 10 casos. Aunque en la prctica real suelen
manejarse grupos ms grandes, en este caso la eleccin de un grupo tan pequeo obe
dece a la necesidad de simplificar la explicacin. La tabla 3.2 tambin permite intro
ducir algunos smbolos estadsticos que debe aprender, ya que los emplearemos ms
adelante. De manera convencional, designamos las puntuaciones crudas originales con
una X mayscula, la x minscula se emplea para referirse a las desviaciones de cada
puntuacin respecto a la media del grupo y la letra griega l: significa "la suma de". Se
observa que en la primera columna de la tabla 3.2 aparecen los datos para el clculo de
la media (que en este caso es 40) y la mediana (que es igual a 40.5 y se encuentra entre
40 y 41) por encima y por debajo de la cual se encuentran respectivamente cinco casos
(50 por ciento). En un grupo tan pequeo no tiene sentido buscar la moda, porque los
casos no muestran un agrupamiento inequvoco en ninguna puntuacin; de cualquier
modo, la puntuacin de 41 representara tcnicamente a la moda, porque la obtu
vieron dos individuos, en tanto que el resto de los resultados ocurri una sola vez.
La segunda columna muestra qu tanto se desva cada puntuacin por encima o por
debajo de la media de 40. La suma de las desviaciones siempre ser igual a cero,
porque las desviaciones positivas y las negativas alrededor de la media necesariamente
se equilibran o cancelan ( + 20 20 = O). Si ignoramos los signos podemos promediar
las desviaciones absolutas y obtener una medida de la desviacin promedio de cada
sujeto de la media del grupo. Aunque de cierto valor descriptivo, en la prctica no se

Normas y significado de las puntuadones de los tests

f!111FMII

53

Ilustracin de la tendencia central y la variabilidad

: ;
J

Desviacin (x == X M) Cuadrado de las desv. (x1)

Puntuaciones (X)

50%dc
los casos
Mediana;

43

40.5 11

50%de
los casos

+8)

+7
+3 +20
+l
+l

41
41

)
320
-2

64

49
9
1
1

16

36

64

Lx2=244

DC=400

LX 400

M=N=w=40

_2

Vanarua:: u- ==

V ~ lo
244
N
= 24.40

J ~ =\IU40=4.9

oes;

Nora. Los smbolos r. v o son la mayscula y la minscula de la misma letra griega, pronunciada "sigma". En mu
chos textos de estadstica, la DE se refiere a la desviacin estndar de la muestra de la que se obtuvieron los datos,
mientras que o se refiere al estimado de la desviacin estndar en la poblacin de la que se extrajo la muestra.
emplea la "desviacin promedio" porque la eliminacin arbitraria de los signos hace
inadecuado su uso en posteriores anlisis matemticos.
La desviacin estndar (simbolizada por DE o o) es una medida de variabilidad
mucho ms til en la que los signos negativos se eliminan al elevar al cuadrado cada
desviacin, procedimiento seguido en la ltima columna de la tabla 3.2. Se conoce
como varianza o media de los cuadrados de las desviaciones a la suma de esta columna
dividida entre el nmero de casos1

).

La varianza ha demostrado ser de gran

utilidad para separar la contribucin de diferentes factores a las diferencias indivi


duales en el desempeo de una prueba; sin embargo, para los propsitos presentes lo
que ms nos interesa es la DE que, como se muestra en la tabla 3.2, es la raz
cuadrada de la varianza. Esta medida suele emplearse al comparar la variabilidad de
distintos grupos; por ejemplo, la figura 3.2 presenta dos distribuciones que coinciden
en la media pero difieren en la variabilidad. La distribucin con la mayor variabili
1
Los clculos ilustrados en este capitulo tienen que ver con la esradfsrica descriptiva, que se refiere a la muestra
realmente medida; en la esradfsrica inferencial, la N es reemplazada por N1 para estimar los valores correspon
dientes a la poblacin a parcir de los datos de la muestra. Entre menor sea la muestra, mayor ser la diferencia
entre los valores de la muestra y los de la poblacin. Para ms explicaciones, vase cualquier libro actualizado de
estadsticas (por ejemplo, Comrey y Lee, 1992).

Principios tcnicos y metodolgicos

54

99.72%

.g

e,

2.14%
3<J

Fi g u ra

-20

-10

Modia

+10

+20

+3o

3 3. Distribucin de los porcentajes de casos de la curva normal.

dad individual produce una DE ms grande que la que tiene menores diferencias in
dividuales. Al evaluar la ejecucin relativa de dos grupos, deben compararse tanto
las DE como las medias. Si se encuentra que la variabilidad de los grupos difiere,
puede suponerse que son dismiles en la proporcin de puntuaciones altas, bajas o en
ambas, independientemente de las diferencias entre las medias. En la actualidad se
dispone de procedimientos que permiten combinar los efectos de las diferencias
entre las medias y las diferencias en la DE ( vase, por ejemplo, Feingold, 1995 ).
La DE tambin proporciona la base para expresar en trminos de normas las pun
tuaciones del individuo en diferentes pruebas, como se mostrar en la seccin de cali
ficaciones estndares. La interpretacin de la DE resulta especialmente clara al
aplicarse a una curva de distribucin normal o aproximadamente normal, en la que
hay una relacin exacta entre la DE y la proporcin de casos, como se ve en la figura
3.3. En la lnea horizontal de la curva se han marcado las distancia que representan
una, dos y tres desviaciones normales por encima y por debajo de la meda; por ejem
plo, en el caso presentado en la tabla 3.2, la media correspondera a una puntuacin de
40, +lo corre pendera a 44.9 (es decir, 40 + 4.9); +2o a 49.8 (es decir, 40 + 2 X 4.9),
etc. En la curva normal el porcentaje de casos que cae entre la media y +lo es 34.13
por ciento. Como la curva es simtrica, tambin se encuentra 34.13 por ciento de los
casos entre la media ylo, de modo que cnrre +la yla a ambos lados de la media se
encuentra el 68.26 por ciento de los casos. Casi todos los casos (99.72 por ciento) caen
denrro de 3a de la media. Estas relaciones son particularmente importantes en la in
terpretacin de las puntuaciones estndares y los percenules que veremos adelante.

NORMAS DE DESARROLLO
Las puntuaciones de las pruebas adquieren significado si indican qu tanto ha progre
sado el individuo en el patrn de desarrollo normal. As, puede decirse que un nio de
ocho aos tiene una edad mental (EM) de LO si su ejecucin en una prueba de in

Normas y significado de las puntuaciones de los tests

55

teligencia es tan buena como la de un nio de 10 la EM de 10 tambin se asignara a


un adulto retardado que mostrara el mismo nivel de ejecucin. En un contexto dife
rente, puede decirse que un chico de cuarto grado ha alcanzado la norma de sexto en
una prueba de lectura y la de tercero en una de aritmtica. Otros sistemas de desa
rrollo utilizan descripciones cualitativas de la conducta en funciones especficas,
como las actividades sensoriomotoraso la formacin de conceptos. Como quiera que
se expresen, las puntuaciones basadas en normas de desarrollo tienden a ser burdasen
trminos de la psicometra, y no se prestan a un tratamiento estadstico preciso no
obstante, resultan muy atractivas para propsitosdescriptivos, en especial en el esru
dio clnico intensivo de individuos y para ciertos propsitosde investigacin.
Edad mental. En el captulo 2 dijimos que el trmino "edad mental" se populariz
gracias a las traducciones y adaptaciones de las escalas de BinetSirnon, aunque el
propio Binet prefera usar el ms neutral de "nivel mental". En escalas de edad como
las de Binet y sus revisiones (previas a 1986), los reactivos se agrupaban en niveles
cronolgicos. Por ejemplo, los reactivos pasados por la mayora de los nios de siete
aos de una muestra de estandarizacin se colocaban en el nivel de siete aos, los
pasados por casi todos los de ocho aos se asignaban al nivel de ocho aos, etc. La
puntuacin de un nio en la prueba correspondera entonces al mayor nivel que
hubiera completado con xito. En la prctica real, la ejecucin de los individuos
mostraba cierto grado de dispersin, lo que significa que en algunas pruebas estaban
por debajo de su edad mental y pasaban otras por encima. Por esta razn se
acostumbraba calcular la edad basal, es decir, la mayor edad en la que todas las pruebas
se pasaban. A esta edad basal se agregaban luego crditos parciales en meses por las
pruebas pasadas en niveles superiores. La edad mental del nio en la prueba era la
suma de la edad basal y los meses adquiridos como crditos en los niveles superiores.
Las normas de edad mental tambin han sido empleadas con pruebas que no se divi
den en niveles de aos. En ese caso, primero se determina la puntuacin del nio, que
puede ser el nmero total de aciertosobtenido en toda la prueba o bien puede basarseen
el tiempo, nmero de errores o en alguna combinacin de esas medidas.El promedio de
las puntuaciones crudas de los nios de la muestra de estandarizacinen cada grupo
de edad constituye la norma de edad para esa prueba; por ejemplo, la puntuacin cruda
promedio de los nios de ocho aos representa la norma para esa edad. Si la calificacin
de un individuo es igual a la puntuacin cruda promedio de los ocho aos, entonces su
edad mental en la prueba es de ocho af'los. Todaslas puntuacionescrudas de dicha prueba
pueden transformarsede manera similar haciendo referencia a las normasde edad.
Advierta que la unidad de edad mental no permanece constante con la edad, sino
que tiende a disminuir con los aos; por ejemplo, un nio que a la edad de cuatro
tiene un ao de retardo a los 12 tendr aproximadamente tres aos de retardo. Un
af'lo de desarrollo mental de los tres a los cuatro aos equivale a tres aos de desarrollo
de los nueve a los 12. Como el desarrollo intelectualavanza ms rpidamente a edades
tempranas y disminuye a medida que el individuo se aproxima a su lmite de madu
racin, la unidad de edad mentalse reduce tambin con la edad. Esta relacin se apre
cia con ms facilidad si se piensa en la estatura del individuo expresada en trminos
de "edad de estatura". La diferencia, en centmetros,entre una edad de estatura de tres
y cuatro aos ser mayor que entre una de 10 y l l. Debido a la disminucin progresiva

56

Principios tcnicos y metodolgicos

de la unidad de EM, un ao de aceleracin o retardo, digamos, la edad de cinco repre


senta una desviacin mayor de la norma que un ao de aceleracin o retardo a los 1 O.
Grados equivalentes.
En las pruebas de aprovechamiento acadmico, los resulta
dos suelen interpretarse como equivalentes a grados, prctica comprensible porque las
pruebas se emplean en medios escolares. Describir el aprovechamiento de un alumno
como equivalente al desempeo de sptimo grado en ortografa, de octavo en lectura
y de quinto en aritmtica tiene el mismo atractivo popular que el uso de la edad men
tal en los tests tradicionales de inteligencia.
Las normas de grado se encuentran calculando la puntuacin cruda promedio de los
nios de cada grado. De esta manera, si en la muestra de estandarizacin los chicos de
cuarto resuelven correctamente un promedio de 23 problemas en una prueba de aritrn
tica, entonces la puntuacin cruda de 23 corresponde a un grado equivalente de cuatro.
Los equivalentes de grados intermedios, que representan fracciones de grado, en general
se encuentran por interpolacin, aunque tambin pueden obtenerse examinando direc
tamente a los nios en momentos diferentes del al'\o escolar. Como ste cubre 10 meses,
pueden expresarse como decimales; por ejemplo, 4.0 se refiere al desempeo promedio al
inicio del cuarto grado (aplicando la prueba al empezar el curso), 4.5 al desempeo pro
medio a la mitad del grado (aplicando la prueba a mediados del ao escolar), etctera.
A pesar de su popularidad, las normas de grado tienen varios defectos. Primero, el
contenido de la instruccin vara de un grado a otro, de ah que las normas de grado
slo sean apropiadas para las materias enseadas a lo largo de todos los niveles escola
res cubiertos por la prueba. Por lo general no son aplicables en el nivel de secundaria,
pues muchas materias se cursan slo uno o dos aos; sin embargo, incluso en las mate
rias enseadas en cada grado el nfasis puesto en dferenres temas puede variar, por lo
que el progreso puede ser ms rpido en una materia que en otra. En erras palabras, las
unidades de grado son desiguales, y tales desigualdades ocurren de manera irregular en
diferentes reas temticas.
Las normas de grado tambin pueden ser objeto de malas interpretaciones a menos
que el usuario tenga siempre presente la manera en la que se derivaron; por ejemplo, si
una nia de cuarto obtiene un grado equivalente de 6.9 en aritmtica, eso no signifi
ca que domine los procesos aritmticos enseados en sexto. Aunque es indudable
que su calificacin obedece a una ejecucin superior en la aritmtica de cuarto grado,
no debe suponerse que cumple los requisitos para la aritmtica de sptimo. Por ltimo,
las normas de grado tienden a ser consideradas en forma errnea como criterios de
desempeo: por ejemplo, una maestra de sexto puede suponer que todos sus alum
nos deben encontrarse alrededor de las normas del sexto grado en las pruebas de apro
vechamiento. Esta concepcin errnea no es sorprendente cuando se utilizan normas
de grado. Con todo, las diferencias individuales observadas en cualquier grado son tan
grandes, que el rango de las puntuaciones de una prueba de aprovechamiento inevita
blemente se extiende a lo largo de varios grados.
Escalas ordinales. Otra aproximacin a las normas de desarrollo proviene de la
investigacin en el campo de la psicologa infantil. Las observaciones empricas del
desarrollo conducrual de infantes y nios pequeos lleva a la descripcin de la con
ducta caracterstica de esas edades sucesivas en funciones corno la locomocin, la dis
criminacin sensoriomotora, la comunicacin lingstica y la formacin de concep

Normas y significado de las puntuaciones de los tests

57

tos. Un ejemplo precoz se encuentra en el trabajo de Gesell y sus colegas en Yale


(Ames, 1937; Gesell y Amatruda, 1947; Halverson, 1933; Knobloch y Pasamanick,
1974 ). Los Programas de Desarrollo de Gesell presentan, en meses, el nivel aproxima
do de desarrollo que ha alcanzado el nio en cuatro reas principales de conducta, a
saber, motora, adaptativa, lenguaje y personalsocial. Estos niveles se encuentran
comparando la conducta del nifio con La que es distintiva de ocho edades claves que
van de las cuatro semanas a los 36 meses.
Gescll y sus colaboradores subrayaban el patrn secuenciado del desarrollo conduc
cual temprano. Citaban evidencias considerables de Las uniformidades de Las secuen
s;ias del desarrollo y la progresin ordenada de los cambios en la conducta; por
ejemplo, en las reacciones del nio ante un objeto pequeo colocado frente a l se en
cuentra una secuencia cronolgica caracterstica en la fijacin visual y los movimien
tos de mano y dedos. El uso de la mano en intentos burdos de prensin palmar ocurren
a una edad anterior al uso del pulgar en oposicin a la palma; esta prensin es a su vez
seguida por el uso ms eficiente de los dedos pulgar e ndice a manera de tenazas al asir
el objeto. Este patrn secuenciado se observa tambin al caminar, subir escaleras y en
la mayor parte del desarrollo sensoriornotor de los primeros aos. Las escalas desarro
liadas dentro de este marco son ordinales en el sentido de que las etapas del desarrollo
siguen un orden constante, en el que cada etapa presupone el dominio de la conducta
que es caracterstica de las etapas previas.2
En los sesenta se observ el resurgimiento del inters en las teoras del desarrollo del
psiclogo infantil suizo Jean Piaget ( vase Flavell, 1963; Ginsburg y Opper, 1969; D. R.
Green, Ford y Flarner, 1971). La investigacin de Piaget se centr en el desarrollo de los
procesos cognoscitivos de La infancia a la adolescencia. Se interesaba en conceptos espe
cficos ms que en habilidades generales. La permanencia del objeto es un ejemplo de
dichos conceptos o esquemas. En este caso, el nio es consciente de La identidad y la
existencia continua de objetos cuando los ve desde ngulos diferentes o cuando salen
del alcance de su vista. Otro concepto muy estudiado es el de la conservacin, el reco
nocimiento de que un atributo permanece constante a pesar de los cambios en su apa
riencia, como cuando la misma cantidad de lquido se vierte en recipientes de forma
distinta o cuando se colocan varillas de La misma longitud en rdenes diferentes.
Las careas piagecianas han sido exhaustivamente empleadas por los psiclogos del
desarrollo en su labor de investigacin, y algunas han sido organizadas en escalas es
candarizadas, como veremos en el captulo 9 (Goldschmd y Bentler, 1968b; Pinard
y Laurendeau, 1964; U!giris y Hunt, 1975). De acuerdo con la aproximacin de Pia
get, esos instrumentos son escalas ordinales en las que alcanzar una etapa depende de
haber completado las etapas anteriores en el desarrollo del concepto. Las tareas se di
sean para revelar los aspectos dominantes de cada etapa de desarrollo; slo despus
se obtienen datos empricos concernientes a las edades en las que suele alcanzarse
2

Este uso del rrmino "escala ordinal" difiere del que se le da en estadstica, en la que una escala ordinal es sirn
plemente aquella que permite el ordenamiento de 106 individU06 sin conocimiento sobre la cantidad de dlferen
cia entre ellos, en sentido estadstico, las escalas ordinales se contrastan con escalas de intervalo de unidadigual.
las escalas ordinales del desarrollo infantil se disean sobre el modelo de la escala de Guttman, o simplex, en la
que la ejecucin exitosa en un nivel implica el dominio de todos los niveles inferiores (L. Guttman, 1944 ). Bart
y Airasian (1974) describen una extensin del anlisis de Gurrman para incluir jerarquas no lineales, con refe
rencia especial a las escalas piageranas,

58

Principios tcnicos y metodolgicos

cada etapa. A este respecto, el procedimiento difiere del seguido en la elaboracin


de escalas de edad en las que los reactivos se eligen en primer lugar sobre la base de
su diferenciacin entre edades sucesivas. Aunque prosigue el inters en las contri
buciones de los planteamientos de Piaget, los anlisis crticos y las evaluaciones em
pricas han resaltado tanto sus aportaciones como sus limitaciones (Sugarman,

1987).3

En suma, las escalas ordinales se disean para identificar la etapa alcanzada por el
nio en el desarrollo de funciones conductuales especficas. Aunque los resultados
pueden informarse en trminos de niveles aproximados de edad, escas puntuaciones
son secundarias a la descripcin cualitativa de la conducta caracterstica del nio. La
ordinalidad de dichas escalas se refiere a la progresin uniforme del desarrollo por las
etapas sucesivas. En la medida en que las escalas suelen proporcionar informacin
acerca de lo que el nio verdaderamente es capaz de hacer (por ejemplo, trepar esca
leras sin ayuda, reconocer la identidad de la cantidad de lquido cuando se vierte en
recipientes de distintas formas), comparten rasgos importantes con las pruebas de do
minio que analizamos en otra seccin.

NORMAS INTRAGRUPO
Casi todos los tests estandarizados proporcionan alguna forma de normas inrragrupo,
con las que la ejecucin del individuo se evala en trminos del desempeo del grupo
de estandarizacin ms prximo, como sucede al comparar la calihcacin cruda de un
nio con la de otros de la misma edad o del mismo grado escolar. Las puntuaciones in
cragrupo tienen un significado cuantitativo uniforme y definido y pueden emplearse
adecuadamente en casi todos los anlisis estadsticos.
Percentiles.
Las calificaciones percentiles se expresan en trminos del porcentaje
de sujetos de la muestra de estandarizacin que caen bajo determinada puntuacin
cruda. Por ejemplo, si 28 por ciento resuelve correctamente menos de 15 problemas
de una prueba de razonamiento aritmtico, entonces la puntuacin cruda de 15 co
rresponde al percentil 28 (P2s), El percentil indica la posicin relativa del individuo
en la muestra de estandarizacin. Los percentiles tambin pueden verse como rangos en
un grupo de 100, excepto porque en stos se acostumbra empezar a contar por la parte
superior, y el mejor individuo del grupo recibe un rango de 1. Por su parce, con los per
centiles se comienza por el extremo inferior, de modo que entre ms bajo sea el percen
til ms pobre es la posicin del individuo.
El percentil 50 (?50) corresponde a la mediana, ya estudiada como medida de
tendencia central. Los percentiles por encima de 50 representan una ejecucin por
encima de la mediana; los que estn por debajo de 50 significan una ejecucin infe
rior. Los percenciles 25 y 7 5 se conocen como el primer y el tercer puntos cuartiles
(Q1 y~). porque separan los cuartos inferior y superior de la distribucin. Como la
mediana, proporcionan referencias convenientes para describir una distribucin de
puntuaciones y compararla con otras distribuciones.
3 V315C el captulo 9 para otra evaluacin de la aproximacin de Piaget.

Normas y significado de las puntuaciones de los tests 59

Los percentiles no deben confundirse con los porcentajes, que son puntuaciones
crudas que se expresan en trminos del porcentaje de los reactivoscorrectos y el total;
los percentiles son puntuaciones transformadas que se expresan en trminos del por
centaje de individuos. Una puntuacin cruda inferior a cualquiera de las calificaciones
obtenidas en la muestra de estandarizacin tiene un rango percentil de cero (P0); una
superior a cualquier puntuacin de la muestra de estandarizacin tiene una rango per
centil de 100 (P100); sin embargo, los percentilcs no implican una puntuacin cruda
de cero ni una puntuacin cruda perfecta.
Las rangos percenrilares tienen varias ventajas: son sencillas de calcular y de com
prender, incluso por personas sin capacitacin tcnica. Ms an, son de aplicacin
universal, pueden usarse lo mismo con adultos que con nios y son adecuados para
cualquier prueba, sea que mida variables de aptitud o de personalidad.
Su principal desventaja est en la marcada disparidad de sus unidades, en especial
en los extremos de la distribucin. Si la distribucin de las puntuaciones crudas se
aproxima a la curva normal (como sucede con los resultados de la mayor parce de las
pruebas), las diferencias en las puntuaciones crudas cercanas al centro de la distribu
cin (o mediana) aparecen exageradas al transformarsea percenciles; por el contrario,
las diferencias en las puntuaciones crudas prximas a los extremos quedan considera
blemente acortadas. En la figura 3.4 puede verse esta distorsin. Como recordar, en
una curva normal los casos se agrupan cerca del centro y su dispersin aumenta al
aproximarsea los extremos; en consecuencia, cualquier porcentaje de casos cercanos
al centro cubre una distancia ms corta en la lnea horizontal que el mismo porcenta
je cerca de los extremos de la distribucin. En la figura 3.4 puede verse fcilmente es
ta discrepancia en los intervalos entre los rangos percentiles (RP) si se compara la
distancia entre un RP de 40 y uno de 50 con la distancia entre un RP de 10 y uno de
20. Todavams sorprendente es la discrepancia entre esas distancias y la que hay en

o,
RP

3<J
RP0.1

10

-20
2

'1d

Os

20 30 40 50 60 70 80

-10
16

M
50

+10
84

90

99

+20
98

+3o
99.9

F i g u r a 3 4. Rangos percentilares en una distribucin normal (Q es igual a cuartil).

60

Principiostcnicosy metodolgicos

tre un RP de 10 y un RP de 1 (en una curva normal derivada matemticamente, el


percentil cero se alcanza en el infinito, por lo que no puede mostrarse en la grfica).
La misma relacin puede verse desde la direccin opuesta s1 se examinan los rangos
percentlares correspondientesa iguales distancias a de la media de una curva normal.
Esos rangos se presentan bajo la grfica de la figura 3.4, segn la cual la diferencia per
cenrlar entre la media y +la es 34 (84 50), y entre +Ic y +2o es de slo 14 (9884).
Resulta evidente que los percentles muestran la posicin relativa de cada individuo
en la muestra normativa pero no la magnitud de la diferencia entre puntuaciones; sin
embargo, si se grafican en una carta de probabilidad aritmtica, las puntuaciones per
ccntllares tambin brindan una imagen correcta de las diferencias entre las punruacio
nes, La carta de probabilidad aritmtica es una grfica con secciones transversalesen la
que las lneas verticales muestran el mismo espaciamientoque los puntos percentilarcs
de una distribucin normal (como en la figura3.4 ), mientras que el espaciamiento entre
las lneas horizontales es uniforme, o a la inversa (como en la figura 3.5). Las grficas de
percentiles normales pueden usarse para mostrar las punruacionesde diferentes individuos
en la misma prueba o los resultadosde la misma persona en diferentespruebas. En cual

99
95
90

80
75
70
60

G)

50
40

~
~

o..

30
25
20
10
5

Juan Mara

Elena Edgar

Juana Ricardo

Roberto Dbora

F l g u r a 3 S. Diagrama de perceruil normal. Los percencilesse espacian de modo que


correspondana distancias igualesen una distribucin normal. Comparela distancia entre
las puntuaciones obtenidas por Juan y Mara con la que existe entre los resultados de
Elena y Edgar:dentro de ambos pares, la diferencia percentil es de 5 puntos.Juana y
Ricardo difieren en 10 puntos percentiles, igual que Roberto y Obora.

Normas y significado de las puntuaciones de los tests

61

quier caso, la diferencia real entre puntuaciones aparecer representada correctamente.


Muchas bateras de aptitudes y de aprovechamiento utilizan esta tcnica en sus perfiles
de calificaciones, que muestran el desempeo del individuo en cada prueba.
Calificaciones estndares. Los instrumentos actuales hacen un uso creciente de las
calificaciones estndares, que desde cualquier punto de vista constituyen el tipo ms
satisfactorio de puntuacin derivada. Estas calificaciones expresan la distancia del in
dividuo de la media en trminos de la desviacin normal de la distribucin normal.
Las calificaciones estndares pueden obtenerse por medio de transformaciones linea
les o no lineales de las puntuaciones crudas originales. Las calificaciones estndaresobre
rudas por medio de una transfarmaci6n lineal conservan las relaciones numricas exactas
de las puntuaciones originales gracias a que para calcularlas se resta una constante de
cada puntuacin cruda y se divide el resultado entre otra constante. La magnitud rela
tiva de Las diferenciasentre las calificaciones estndares as derivadas corresponde exac
tamente a la que existe entre las puntuaciones crudas. Todas las propiedades de la
distribucin original de las puntuaciones crudas se duplican en la distribucin de califi
caciones estndares, lo cual implica que en las dos clasesde puntuaciones es posible rea
lizar el mismo clculo sin distorsionar de los resultados.
Las puntuaciones estndares derivadas linealmente suelen conocerse simplemente
como "calificaciones estndares" o como "calificaciones i'. Para calcular una califica
cin z, se encuentra la diferencia entre la calificacin individual cruda y la media del
grupo normativo, y luego se divide la diferencia entre la DE del grupo normativo. La
tabla 3.3 muestra el clculo de las puntuaciones z para dos individuos, de los que uno
cae a una DE por encima de la media del grupo y el otro a .40 DE por debajo. Cual
quier punruacin no procesada que sea exactamente igual a la media es equivalente a
una puntuacin z de cero. Es evidente que dicho procedimiento producir puntuacio
nes derivadas con signo negativo para todos los que caigan por debajo de la media.
Adems, como el rango total de la mayor parte de los grupos no se extiende ms all
de tres DE por encima y por debajo de la media, las puntuaciones estndares deben
expresarse con al menos un decimal para perrnitir la suficiente diferenciacin.
Las dos condiciones mencionadas (la ocurrencia de valores negativos y de decima
les) tienden a producir nmeros desproporcionados que resultan confusos y difciles

!!""*

:culo de puntuaciones estndares


DE=5

M=60
P1m1uaci6n de Elena

X1=65
6560
t1=5

Puntuacinde Roberto
X 2=58
5860
t2=5

=+I.OO

=-0.40

62

Prindpios tcnicos y metodolgicos

de usar en clculos o informes, por lo que suele aplicarse alguna otra transformacin
lineal para poner las puntuaciones en una forma ms conveniente; por ejemplo, las
puntuaciones de las Pruebas de Evaluacin Acadmica (Scholaslic Assessmem Tests,
SAT) de la Junta Universitaria son calificaciones estndares ajustadas a una media de
500 y una DE de 100. As, en esta prueba una calificacin estndar de 1 se expresa
como 400 (500 100 ~ 400), mientras que una de +1.5 corresponde a 650 (500 + 1.5
X 100 ~ 650). Lo nico que se requiere para convertir una calificacin estndar origi
nal en la nueva escala es multiplicarla por la DE deseada ( 100) y sumar o restar el re
sultado de la media deseada (500). Es posible elegir arbitrariamente cualquier otra
constante conveniente para las nuevas media y DE; por ejemplo, las puntuaciones ob
tenidas en los subtests separados de las Escalas de Inteligencia de Wechsler se convier
ten en una distribucin con una media de 10 y una DE de 3. Todas esas medidas son
ejemplos de calificaciones estndares transformadas en forma lineal.
Recordar que una de las razones para transformar las puntuaciones crudas en cual
quier escala derivada es la necesidad de hacer comparables los resultados de diferentes
pruebas. Las puntuaciones estndares derivadas linealmente slo son comparables cuan
do provienen de distribuciones de ms o menos la misma forma; por ejemplo, en cales
condiciones, una calificacin que corresponda a una DE por encima de la media signifi
ca que el individuo ocupa la misma posicin en los dos grupos. En ambas distribuciones,
la calificacin supera aproximadamente al mismo porcentaje de sujetos, y este porcenta
je puede ser determinado si se conoce la forma de la distribucin; sin embargo, si una
distribucin es muy asimtrica y la otra es normal, una calificacin 'l'. de+ 1.00 podra ex
ceder slo al 50 por ciento de los casos en un grupo y a ms del 84 por ciento en el otro.
Cuando la forma de las distribuciones es distinta, las calificaciones pueden hacerse
comparables empleando transformaciones no lineales que las ajuste a cualquier curva
de distribucin. La edad mental y las puntuaciones percentilares representan rransfor
rnaciones no lineales, pero tienen otras limitaciones que ya vimos. Aunque en ciertas
circunstancias puede ser ms apropiada otra distribucin, la curva normal suele em
plearse con este propsito. Una de las razones para esta eleccin es que la mayor parte
de las distribuciones de puntuaciones crudas se aproxima a la curva normal ms que a
cualquier otra. Adems, las medidas fsicas, corno la estatura y el peso, que utilizan es
calas de unidades iguales derivadas por operaciones fsicas, en general producen distri
buciones normales. Otra ventaja de la curva normal es que tiene muchas propiedades
matemticas tiles que facilitan los clculos posteriores.
Las calificaciones estndares normaliwdasson calificaciones estndares expresadas en
trminos de una distribucin que ha sido transformada para ajustarse a una curva
normal. Dichas calificaciones pueden calcularse recurriendo a tablas que muestran el
porcentaje de casos que cae a diferentes distancias DE de la media de una curva nor
mal. Para ello, primero se encuentra el porcentaje de individuos de la muestra de es
tandarizacin que cae en o por encima de cada puntuacin cruda, este porcentaje se
localiza luego en la tabla de frecuencia de la curva normal y se obtiene la correspon
diente calificacin estndar normalizada. Las calificaciones estndares normalizadas
se expresan de la misma forma que las calificaciones estndares derivadas linealmente,
es decir, con una media igual a cero y una DE igual a l. As, una calificacin normali
zada de cero indica que el individuo cae en la media de la curva normal, que supera al

~.,.,_

Normos y significado de las puntuaciones de los tests

63

Porcentajes de la curva normal para su uso en la conversin


esta ni na

Porcentaje

Estanina

4
1

7
2

12
3

17
4

20
5

17
6

12
7

7
8

4
9

50 por ciento del grupo. Una calificacin de 1 significa que sobrepasa aproximada
mente a 16 por ciento del grupo y una calificacin de+ 1 que aventaja al 84 por ciento.
Como puede verse en la lnea inferior de la figura3.4, esos porcentajes corresponden
respectivamente a una distancia de una DE por debajo y una DE por encima de la me
dia de una curva normal.
Igual que las calificacionesestndaresderivadas linealmente, las calificaciones es
tndares normalizadaspueden adoptar cualquier forma conveniente. Si la calificacin
estndar normalizadase multiplica por 10 y se suma o resta de 50 se convierte en una
calificacin T, una puntuacin que propuso primero W. A. McCall ( 1922) y en la que
una puntuacin de 50 corresponde a la media, una de 60 a una DE por encima de la
media, etc. Otra transformacin conocida es la de la escala estanina, elaborada por
la aviacin estadounidense durante la Segunda Guerra Mundial, que proporciona un
isrema de calificaciones de un solo dgito con una media de 5 y una DE aproximada
mente igual a 2.4 El nombre, que en ingls (stanine) es una contraccin de "standard
rune" o "estndar nueve", se basa en el hecho de que las calificaciones van de 1 a 9. La
restriccin de las calificaciones a nmerosde un solo dgito tiene ciertas ventajas para
el clculo, ya que cada calificacin requiere una sola columna en la computadora.
Las puntuaciones crudas pueden convertirse fcilmente en estaninas si se disponen
I resultados originales en orden de tamao y se les asignan luego cstaninas de acuer
do con los porcentajes de la curva normal reproducidos en la tabla 3.4; por ejemplo, si
el grupo consta exactamente de 100 personas, las cuatro con la calificacin ms baja
reciben una calificacin estanina de 1, las siguientes siete una calificacin de 2, las si
zuientes 12 una calificacin de 3, etc. Cuando el grupo contiene ms o menos 100 ca
,~. primero se calcula el nmero correspondiente a cada porcentaje designado y luego
recibe las estaninasapropiadas. As, si son 200 casos, a ocho les sera asignada una es
ranina de 1 ( 4 por ciento de 200 = 8), con 150 casos seis recibiran una estanina de 1
.! por ciento de 150 = 6). Para cualquier grupo que contenga de 10 a 100 casos, Bar
den y Edgenon (1966) prepararonuna tabla que permite convertir directamente los
rangos en estaninas. Debido a sus ventajas prcticas y tericas, las estaninas han sido
empleadas ampliamente, en especial con las pruebas de aptitud y de aprovechamiento.
Aunque las calificaciones estndares normalizadas son el tipo de puntuacin ms
,Jecuado para la mayor parte de los propsitos, hay ciertas objeciones tcnicas a la
Ka,ser ( 1958) propuso una modificacin de la escala estanina que hace ligeros cambios en los porcentajes y pro
....:e una DE exactamente igual a 2, loque facilita su manejo cuantitativo. Otras variantes son la escala C (Guil
rd v Fruchtcr, 1978, pp. 484487), que consta de 11 unidades y tambin genera una DE de 2, y la escala nen de
: unidades con cinco unidades por encima y cinco por debajo de la media (Canfield, 1951 ).

64

Principios tcnicos y metodolgicos

normalizacin rutinaria de todas las distribuciones. Dicha transformacin slo debera


llevarse a cabo cuando la muestra es grande y representativa y cuando existen razones
para creer que la desviacin de la normalidad resulta de defectos en la prueba ms que
de las caractersticas de la muestra y otros factores que afecten la conducta considerada.
Tambin debe observarse que cuando la distribucin original de puntuaciones crudas
se aproxima a la normalidad, las calificaciones estndares derivadas linealmente y las
calificaciones estndares normalizadas resultan muy similares a pesar de las diferen
cias entre los mtodos empleados para derivarlas. Como es obvio, el proceso de nor
malizar una distribucin que de hecho es prcticamente normal producir poco o
ningn cambio. Siempre que sea factible suele ser ms deseable obtener una distribu
cin normal de puntuaciones crudas por el ajuste adecuado del nivel de dificultad de
los reactivos de la prueba ms que por la normalizacin subsecuente de una distribu
cin marcadamente no normal. Con una distribucin ms o menos normal de pun
tuaciones crudas, las calificaciones estndares linealmente derivadas cumplirn el
mismo propsito que las calificaciones estndares normalizadas.
El CI de desviacin. El CI (cociente de inteligencia) se introdujo en los primeros
tests de inteligencia en un esfuerzo por convertir las calificaciones de EM en un indica
dor uniforme de la posicin relativa del individuo. El CI era simplemente la razn de la
edad mental y la edad cronolgica multiplicada por 100 para eliminar los decimales
(CI = 100 X EM/EC). Por supuesto, si la EM de una nia es igual a su EC su Cl sera
exactamente igual a 100. Un CI de 100 representa entonces la ejecucin normal o pro
medio, en tanto que uno por debajo indica "retardo" y otro por encima "aceleracin".
Sin embargo, la aparente simplicidad lgica del Cl tradicional pronto decepcion.
Un problema tcnico importante es que, a menos que la DE de la distribucin de CI per
manezca aproximadamente constante con la edad, los CI correspondientes a diferentes
niveles de edad no resultan comparables; por ejemplo, un Cl de 115 a los 10 aos puede
indicar el mismo grado de superioridad que uno de 125 a los 12, porque ambos pueden
caer a una DE de la media de su respectiva distribucin de edad. En la prctica, ha resul
tado muy difcil establecer pruebas que satisfagan los requisitos psicorntricos para hacer
comparables a los CI en todo el rango de edad. Es principalmente por eso que la razn de
Cl ha sido reemplazado por el llamado CI de desviacin, que es otra variante de las cali
ficaciones estndares. El CI de desviacin es una calificacin estndar con una media de
100 y una DE similar a la utilizada en la distribucin de CI del StanfordBiner. Aunque
la DE de la razn de CI del StanfordBinet (utilizada por ltima vez en la edicin de
1937) no permanece exactamente constante en todas las edades, flucta alrededor
de una media ligeramente mayor a 16, de ah que si se elige una DE de 16 al informar
las calificaciones estndares de una prueba de desarrollo reciente, las puntuaciones pue
den ser interpretadas de la misma manera que la razn de Cl del StanfordBnet. Como
el Cl del StanfordBinct ha estado en uso durante mucho tiempo, examinadores y clni
cos se han acostumbrado a interpretar y clasificar las ejecuciones en dicha prueba en tr
minos de los niveles de CI. Han aprendido lo que pueden esperar de individuos con
CI de 40, 70, 90, 130, etc., por lo que hay ciertas ventajas prcticas en el uso de una
escala que corresponda a las conocidas distribuciones de CI del StanfordBnet. Dicha
correspondencia de unidades de calificacin se consigue en la seleccin de las cifras
de la media y la DE que concuerden con los de la distribucin de StanfordBinet.

Normos y significada de las puntuaciones de los tests

65

Debe agregarse que el uso del trmino "CI" para designar a esas calificaciones es
.m.iares puede resultar engaosa. Estos CJ no se obtienen a partir de los mismos m
>Jos que se emplean para encontrar las razones Cl tradicionales no son razones de
edades mentales y edades cronolgicas. La justificacin para su uso estriba en la fami
liaridad general del trmino "CI" y en el hecho de que estas calificaciones pueden in
terpretarse como CI en tanto que su DE sea aproximadamenteigual a la de los Cl ya
conocidos. Entre las primeras pruebas en expresar las calificacionesen trminos de CI
de desviacin estn las Escalas de inteligencia de Wechsler, cuya media es de 100 y la
DE es igual a 15. El CI de desviacin tambin se emplea en varias pruebas colectivas
de inteligencia y en la tercera revisin del SrantordBiner (1960).
Con el uso creciente del Cl de desviacin se hace importante recordarque los CI de
desviacin de diferentes pruebas slo son comparables si emplean valores iguales o muy
similares para la DE, que adems tienen que aparecersiempre en el manual y el usuario
de la prueba debe considerarlascon atencin. Si el autor elige valores diferentespara la
DE al elaborar la escaladel CI de desviacin, el significado de cualquier CI en tal prue
ha ser muy diferente del que tenga en otras. Esas discrepancias se ilustran en la tabla
3.5, que muestra el porcentaje de casos que obtendran diferentesniveles de CI en dis
::nbucionesnormales con DE que varan entre 12 y 18, valores que por cierto han sido
ealmente utilizados en las escalas CI de pruebas publicadas; por ejemplo, la tabla 3.5
muestra que un CI de 70 corta el 3.1 por ciento inferior cuando la DE es igual a 16 (co
mo el StanfordBnet), pero que puede separar apenas el O. 7 por ciento (DE= 12) o has
ca el 5.1 (DE= 18). Por lo comn, se ha empleado el CI de 70 como punto de corte para
identificar el retardo mental clnicamentesignificativo. Por supuesto, las mismas discre
panelas se aplican a los CI de 130 y superiores, que pueden usarse al seleccionar a nios
.ara programas especiales para sobredorados. Dependiendo de la prueba elegida, el CI
entre 90 y 110, descrito como el normal, puede incluir tan poco como el 42 o tanto

+65111#
Porcentaje de casos de cada intervalo de CI en las distribuciones
normales con media de 100 y diferentes desviaciones
estndares
Porcentaje de frecuencias

intervalo CI

130 y por encima


'.20129
110119
100109
90 99
SO 89
iO- 79
Debao de 70

Toral

DE=12

DE= 14

DE=16

DE=lB

0.7
4.3
15.2

1.6
6.3
16.0

3.1
7.5
15.8

5.1
8.5
15.4

i~:~}59.6
15.2
4.3
0.7
100.0

Conesfa de The PsvchologicalCorporation.)

it::}52.2
16.0
6.3
1.6
100.0

1t:}47.2
15.8
7.5
3.1
100.0

i::g}42.0
15.4
8.5
5.1
100.0

66

Prindpios tcnicos y metodolgicos

como el 59.6 por ciento de la poblacin. Para estar seguros, los editores de las pruebas se
esfuerzan por adoptar de manera uniforme una DE de 16 tanto en las nuevas pruebas co
mo en las nuevas ediciones de las anteriores; sin embargo, las variaciones an son sufi
cientes como para hacer que la supervisin de la DE resulte imperativa.
Interrelaciones de las calificaciones intragrupo. En esta etapa de la revisin de
las calificaciones derivadas, el lector puede haber advertido la similitud entre las disrin
tas calificaciones. Los percenles han ido adquiriendo gradualmente al menos un pareci
do grfico con las calificaciones estndares normalizadas. Si la distribucin original de las
puntuaciones no procesadas se aproxima a la curva normal resulta difcil distinguir a
las calificaciones estndares lineales de las calificaciones estndares normalizadas. Por
ltimo, las calificaciones estndares se han convertido en CI y viceversa. En relacin
con ese ltimo punto, un nuevo examen del significado original del CI en tests como el
StanfordBnet demostrar que es posible Interpretarlo como calificaciones estndares.
Si sabemos que la distribucin de los CI del SranfordBnet tiene una media de 100 y
una DE aproximadamente igual a 16, podernos concluir que un CI de 116 cae a una dis
rancia de una DE por encama de la media y representa una calificacin estndar de
+ 1.00. De modo similar, un CJ de 132 corresponde a una calificacin estndar de +2.00,
un CI de 76 a una calificacin estndar de 1.50, etc. Ms an, una razn de Cl del
StaofordBiner igual a 116 corresponde a un percentil de aproximadamente 84 porque
en una curva normal 84 por ciento de loo casos cae por debajo de+l.00 DE (figura 3.4).
La figura 3.6 resume las relaciones en una distribucin normal entre las callficacio
nes que hemos estudiado hasca ahora. Entre ellas se incluyen las calificaciones z. las
calificaciones del Examen de Admisin a la Universidad (College Entrance Examina
rion Board, CEEB), el CI de desviacin de Wechsler (DE= 15), calificaciones T, esta
ni nas y percentiles, Los CI de cualquier prueba han de coincidir con la escala dada del
CI de desviacin siempre que se distribuyan normalmente y tengan una DE igual a 15.
Cualquier otro CI nonnalmence di tribuido puede agregarse a la tabla si conocemos su
DE; por ejemplo, si la DE es de 20, entonces un CI de 120 corresponde a +I DE, un
CI de 80 a l DE, etctera.
En conclusin, la forma exacta en que se informan loo resultados se determina sobre
todo por la conveniencia, familiaridad o facilidad para establecer las normas. Las califi
caciones estndares de cualquier forma (incluyendo el CI de desviacin) han llegado a
reemplazar a otras calaficacaones por las ventajas que ofrecen en relacin con la elabo
racin de la prueba y el tratamiento estadstico de los datos: no obstante, la mayor par,
te de las calificaciones derivadas intragrupo son en esencia similares si se transforman
con cuidado y se interpretan adecuadamente. Cuando se satisfacen ciertas condiciones
estadsncas, todas pueden ser traducidas con facilidad a cualquiera de las otras.

RELJrTIVIDAD

DE LAS NORMAS

Comparaciones entre pruebas.


El CI, o cualquier otra calificacin, debe acom
paarla siempre el nombre del test del que se obtuvo. Los resultados de las pruebas no
pueden interpretarse en abstracto, tienen que ser referidos a pruebas particulares. Si
loo registros escolares muestran que Pedro Grner obtuvo un CI de 94 y Teresa Olivo
un CI de 110, estas calificaciones no pueden aceptarse porque aparecen sin contar con

Normas y significadode las puntuaciones de los tests

67

..

:O

-4a

-3u

-217

+217

1<7 Media de las + 1<7

+3u

+4a

calificaciones de la prueba
calificacin z
-4

-2

-1

+1

+2

+3

+4

10

20

30

40

50

60

70

80

90

200

300

400

500

600

700

800

55

70

85

100

115

130

145

calificacin T

calificacin
CEEB
CI de la
desviacin
(DE" 15)
Estanina

4%

2
Percentiles

3
1

4
1

5
1

6
1

8
1

9
1

5 10 20 30 405060 70 80 90 95

4%

7% 12%111%120% 117%112% 7% 1

99

i g u r a 3 6. Relaciones entre diferentes calificaciones en una distribucin normal.

mayor informacin. Las posiciones de esos dos estudiantes podra invertirse al cam
biar las pruebas que cada uno present en su respectiva escuela.
Del mismo modo, la posicin relativa de un individuo en diferentes funciones pue
de ser muy mal representada por la falta de comparabilidad de las normas de una prue
'""a. Supongamos que a una estudiante se le aplica una prueba de comprensin verbal y
un tese de aptitud espacial para determinar su ubicacin relativa en ambos campos. Si
la prueba de habilidad verbal se estandariz con una muestra aleatoria de estudiantes
Je secundaria mientras que la prueba espacial se estandariz en un grupo selecto de
asistentes a cursos para eleccin de carrera, el examinador podra llegar a la conclu
sin errnea de que la capacidad verbal de la chica es mucho mayor que la espacial,
cuando podrCa ser el caso contrario.

68

Prindpios tcnicos y metodolgicos

Otro ejemplo tiene que ver con las comparaciones longitudinales de la ejecucin de
un nico individuo en una prueba a lo largo del tiempo. Si el registro acumulativo
de un nio muestra un CI de 118, 115 y 101 en cuarto, quinto y sexto grados, la prime
ra pregunta que debe hacerse antes de interpretar los datos es: "Qu test se aplic al
nio en cada ocasin?" La aparente disminucin puede ser un simple reflejo de las di
ferencias entre los instrumentos,en cuyo caso el nio habra obtenido las mismas ca
lificaciones aunque se le hubieran aplicado con una semana de diferencia.
Hay tres razones principales para explicar las variacionessistemticas entre las cal
ficaciones obtenidas por los mismos individuos en pruebas distintas. Primero, a pesar
de la similitud en el nombre, el conienido de las pruebas puede diferir,como sucede con
muchos de los llamados tests de inteligencia. Aunque lleven el mismo nombre, una de
las pruebas puede abarcar nicamente contenidoverbal, otra ante todo aptitudes espa
ciales y la tercera puede cubrir contenido verbal, numrico y espacial en proporciones
iguales. Segundo, las ,midades de la escala pueden no ser comparables. Como ya expli
camos, si en una prueba el CI tiene una DE de 12 y en otra de 18, entonces es ms pro
bable que un individuo que en la primera prueba obtuvo un CI de 112 en la segunda
reciba uno de 118. Tercero, puede haber diferenciasen la composicin de las m~tras
de esrandmi::acinempleadas para establecer las normas de las diferentes pruebas. Es
obvio que parecer que los mismos individuos tuvieron un mejor rendimiento al com
pararlos con un grupo menos capaz, que cuando se hace con uno de mayorcapacidad.
La falta de comparabldad del contenidode la prueba o de las unidades de la esca
la puede ser detectado aJ remitirse a la propia prueba o a su manual. Sin embargo, es
ms probable que se pasen por alto las diferencias en las respectivas muestras norrnati
vas, diferencias que pueden ser la explicacin de muchas otras discrepanciasen los re
sultados que no pueden entenderse de otra manera.
La muestra normativa. Independientementede como se exprese, cualquier nor
ma se restringe a la poblacin normativa particular de la que se tom la muestra. El
usuario no debe perder de vista la forma en que se establecen las normas, pues no son,
de manera alguna, absolutas, universales o permanentes, sino que simplementerepre
sentan la ejecucin en la prueba de las personas que formaron parte de la muestra de
estandaruacin. Al elegir dicha muestra, suelen hacerse esfuenos por obtener una que
sea representativa de la poblacin a la que va dirigida la prueba.
En la terminologaestadsticase distingue entre muestra y poblacin. La primera se re
6ere al grupo de individuosrealmente examinado, mientras que la poblacin designa al
grupo mayor, pero de similar constitucin,de donde se extrajo la muestra; por ejemplo,
si desea establecer las normasde ejecucin en una prueba para la poblacinde nit'\os V"J
rones de I O aos que asisten a escuelas pblicas urbanas, puede aplicar el instrumentoa
una muestra cuidadosamenteelegida de 500 muchachosde 10 aos que asisten a escue
las pblicas en variasciudades del pas. Hay que verificar la muestra en lo que atae a la
distribucin geogrlica, el nivel sociocconmico, la composicintnica y otras caracte
rsticas pertinentespara asegurar que representa de verdad a la poblacin definida.
En el desarrollo y la aplicacin de las normas debe dedicarse mucha atencin a la
muestra de estandatieacn. Es evidente que la muestra en la que se basan las normas
debe ser lo suficientemente grande como para proporcionar valores estables, lo que

Normos y significado de los puntuaciones de los tests

69

quiere decir que no se deben obtener normas muy diferentes al aplicar la prueba a
cualquier otra muestra cuidadosamente elegida de la misma poblacin. Las normas
con un error de muestreo grande tendrn desde luego poco valor en la interpretacin
de los resultados de la prueba.
De igual importancia es el requisitode que la muestra sea representativa de la po
blacin considerada, por lo que es necesario investigar con cuidado factoresselectivos
sutiles que pudieran haber disminuido la representatividad de la muestra. Algunos de
estos factores se encuentran en las muestras institucionales que, debido a su tamao
relativamente grande y a su fcil acceso para propsitos de examinacin, resultan un
campo tentador para la acumulacin de datos normativos. De cualquier forma, es ne
cesario analizar con cuidado las limitaciones especiales de las muestras; por ejemplo,
al examinar a estudiantes se observar que conforme se avanza en los grados escolares
hay una seleccin superior de casos debido a la desercin progresiva de los estudiantes
menos aptos, eliminacin que no afecta de igual manera a los diferentes subgrupos,
As, la tasa de eliminacin selectiva en la escuela es mayor para los hombres que para
las mujeres, y es mayor en los niveles socioeconmicos bajos que en los altos.
Factores selectivos similares operan en otras muestras institucionales, como es el
caso de los prisioneros, los pacientes de hospitales mentales o las personas con retardo
mental que viven en internados. Debido a los muchos factoresespeciales que deterrni
na la propia internacin, esos grupos no son representativosde la poblacin entera de
los infractores, los trastornados o los que padecen retardo; por ejemplo, es ms proba
ble que se interne a los individuos retardados que sufren discapacidades fsicas que a
quienes son aptos. De modo similar, la proporcin relativa de personas con retardo
profundo ser mayor en las muestras cornadas en instituciones de asistencia que en el
conjunto de la poblacin.
Relacionada con la cuestin de la representatividad de la muestra, est la necesidad
de definir la poblacin especfica a la que pueden generalizarselas normas. Como es evi
dente, una forma de asegurar que una muestra es representativa consiste en restringir la
poblacin para que se ajuste a las especificaciones de la muestra disponible; por ejemplo,
si la poblacin se define para incluir nicamente a escolares de 14 aos en lugar de a
todos los nios de 14 aos, entonces una muestra escolar sera representativa. Por su
puesto, lo ideal es que la poblacin deseada se defina de antemano en funcin de los
objetivos de la prueba, para formar luego una muestra adecuada. No obstante, los obs
tculos prcticos para obtener participantespuede hacer que esta meta resulte inalcan
:able. En dicho caso, es mucho mejor redefinir la poblacin de manera ms reducida que
sealar normas sobre una poblacin ideal que no est adecuadamente representada en la
muestra de estandarizacin. En la prctica real, son muy pocas las pruebas que se estan
darizan sobre poblaciones tan amplias como suele suponerse, y ninguna prueba ofrece
normas para la especie humana! Adems, es dudoso que muchas pruebas brinden nor
mas verdaderamente adecuadas para poblaciones tan amplias como "los europeos adul
tos", "los nios mexicanos de 10 aos", etc. En consecuencia, las muestras obtenidas por
diferentes autoresde pruebas pueden no ser representativasde las poblacionesalegadasy
presentar diversos sesgos, de ah que las normas resultantes no sean comparables.
Al interpretar los resultados de la prueba, el usuario debe tornar en consideracin
las influencias especficas que pueden haber actuado sobre la muestra normativa utili
\

70

Prindpios tcnicos y metodolgicos

zada al estandaruarla, y que incluyen factores selectivos especiales as como las condi
ciones sociales prevalecientes en el momento en que fueron obtenidos los datos nor
mativos (Anastasi, 1985b).
Normas fijas nacionales. Una solucin a la falca de comparabilidad de las normas
consiste en usar una prueba ancla para desarrollar tablas de equivalencia para los resul
tados de disrintas pruebas (para mostrar qu puntuacin de la prueba A es equivalente
a cada puntuacin de la prueba B). Esto puede lograrse con el mirodo equipercenril, en el
que las puntuaciones se consideran equivalentes cuando tienen percenriles iguales en
un determinado grupo; por ejemplo, si en el mismo grupo el percentil 80 corresponde
a un Cl de 115 en la prueba A y a un CI de 120 en la prueba B, entonces el Cl de 115
de la prueba A se considera equivalente al CI de 120 de la prueba B. Este procedirnen
to ha sido adoptado de manera restringida por algunos editores en la preparacin de ta
bias de equivalencias para algunos de sus instrumentos (por ejemplo, Lennon, l 966a).
Ocasionalmente se hacen propuestas ms ambiciosas para calibrar cada nueva prue
ba contra una sola prueba ancla que haya sido administrada a una muestra normativa
representativa a nivel nacional (Lennon, 1966b). Un ejemplo de este procedimiento
se encuentra en el Estudio de Prueba Ancla (Anchor Test Study) conducido por el Ser
vicio de Pruebas Educativas (Educacional Testing Service) bajo los auspicios de la Ofici
na de Educacin de los Estados Unidos (laeger, 1973). Dicho estudio representa un
esfuerzo sistemtico por proporcionar normas comparables y verdaderamente repre
sencacivas de la poblacin estadounidense para siete de las pruebas de aprovecharnien
to en lectura aplicadas a nios de educacin elemental. Gracias a un diseo
experimental bien controlado, en 50 estados de ese pas se examin a ms de 300 000
escolares de cuarto, quinto y sexto grado. La prueba ancla estaba formada por las sub
pruebas de lectura de comprensin y de vocabulario de la Prueba de Aprovechamen
to Metropolitana (Merropolium Achie11tmmt Ten), para la cual se establecieron nuevas
normas en una fase del proyecto. En la fase de calibracin del estudio cada nio pre
sent las subpruebas de lectura de comprensin y vocabulano de dos de las siete bate
ras, y cada una se apare a la vez con todas las dems. Algunos grupos recibieron
formas paralelas de las dos subpruebas de la misma batera; en otros grupos todos los
parearnientos fueron duplicados en una secuencia inversa para controlar el orden de la
administracin. A panir de los anlisis estadsticos de todos C50S datos se utiliz el m
todo equipercentil para preparar tablas de equivalencia de puntuaciones para las siete
pruebas. Tambin se prepar un manual de interpretacin de los resultados para uso de
los sistemas escolares y otros interesados (Loret, Seder, Bianchini y Vale, 1974 ).
Los datos de la fase de calibracin del Estudio de Prueba Ancla se utilizaron des
pus para formar una sola escala de puntuacin, conocida como la Escala Nacional de
Referencia (Nacional Reference Sea/e, Rentz y Bashaw, 1977). La tabla de conversin
permite la transformacin de una puntuacin de cualquier forma de las siete pruebas
en cualquiera de los niveles escolares en una calificacin de tres lugares sobre una es
cala uniforme y continua. Esta escala fue elaborada empleando el anlisis de reactivos
y los mtodos de escalamiento del modelo Rasch, uno de los modelos de anlisis de
reactivos ms sencillos del que veremos ms aqu y en el captulo 7.
Para muchos propsitos de examnacin resulta til contar con puntuaciones com
parables de diferentes pruebas que se expresen sobre una escala uniforme de medicin

Normas y significado de las puntuaciones de las tests

71

se refieran a una sola muestra normativa. Empero, debe observarse que existen dife
rentes grados y clases de comparabilidad de las calificaciones. La comparabilidad en
una situacin particular depende de la similitud de las pruebas en cuanto a! conteni
Jo, a propiedades psicomtricas como la confiabilidad y el grado de dificultad y a los
prccedmentos estadsticos utilizados para lograr la comparabilidad (Angoff, 1984;
:\ngoff y Cowell, 1986; P. W. Holland y Rubn, 1982). Las pruebas no deben conside
rarse igualadas o equivalentes a menos que sean verdaderamente intercambiables. No
bsranre, diferentes clases y grados de comparabilidad pueden facilitar la interpreta
cin de los resultados siempre que Las puntuaciones comparables se usen de modo
apropiado y con pleno conocimiento de La forma en que se derivaron.
Xormas especficas.
Otro acercamiento a La no equivalencia de las normas exis
rentes que quiz sea el ms realista para la mayor parte de los instrumentos consis
te en estandarizarlas sobre poblaciones definidas de manera ms restringida y elegidas
rara adaptarse a los propsitos especficos de cada prueba. En esos casos, los lmites de
la poblacin normativa debe informarse claramente con las normas. As, puede decirse
que las normas se aplican a "los empleados administrativos de las grandes empresas" o
a "los estudiantes de primer ao de ingeniera". Para muchos propsitos de examina
cin resulta deseable contar con normas muy especficas. Aunque pueda disponerse de
normas representativas de una poblacin ms amplia, siempre que subgrupos identifi
cables obtengan puntuaciones apreciablemente diferentes en una prueba particular re
sulta til informar por separado Las normas del subgrupo. Los subgrupos pueden formarse
de acuerdo con la edad, el grado escolar, el programa de estudios, el sexo, la regin geo
grfica, el ambiente urbano o rural, el nivel socioeconrnico y muchas otras variables.
El uso que vaya a hacerse de La prueba determina la diferenciacin que resulte ms per
tinente, as como la conveniencia de contar con normas generales o especficas.
Debemos mencionar tambin el caso de las normas locales, que con frecuencia son
establecidas por los propios usuarios en ambientes particulares. Los grupos empleados
para derivar dichas normas se definen de manera an ms limitada que los subgrupos
considerados antes. As, un empleador puede acumular normas de los solicitantes pa
ra un determinado trabajo en una empresa en particular, o La oficina de admisin de
una universidad puede evaluar el rendimiento de los alumnos en trminos de su pro
pia distribucin de calificaciones. Esas normas Locales son ms apropiadas que Las nor
mas nacionales para muchos propsitos de exarninacin, como la prediccin del
desempeo en el empleo o acadmico, la comparacin del aprovechamiento relativo
de un nio en diferentes materias o bien la medicin del progreso de un individuo a Lo
largo del tiempo.
Grupo fijo de referencia.
Aunque la forma en que se calcula la mayor parte de
las calificaciones derivadas permite una interpretacin normativa inmediata de La eje
cucin en una prueba, hay algunas excepciones notables. Una escala no normativa
utiliza un grupo fijo de referencia para asegurar la comparabilidad y continuidad de las
calificaciones sin brindar una evaluacin normativa del desempeo. Con dicha esca
la, la interpretacin normativa tiene que referirse a normas obtenidas de manera inde
pendiente de una poblacin adecuada. Con este propsito suelen emplearse normas
locales u otras normas especficas.

72

Prindpiostcnicasy metodolgicos

Uno de los primeros ejemplos de escalamiento en trminos de un grupo fijo de refe


rencia se encuentra en la escala de calicacin del Test de Aptitud Acadmica de la
Junta Universitaria5 (College Board Sclwlasnc Apcimde Test, Donlon, 1984). Entre 1926
(cuando se aplic la prueba por primera vez) y 1941, las calificaciones del SAT se expre
saban sobre una escala normativa en trminos de la media y la DE de los candidatos que
presentaban la prueba en cada aplicacin. Dado el incremento en el nmero y la vare
dad de las universidades participantes en la Junta Universitaria y los cambios en la com
posicin de la poblacin de aspirantes, se concluy que era necesario mantener la
continuidad de la escala. De otra manera, el resultado de un individuo dependera de las
caractersticas del grupo examinado en un ao particular. Un motivo an ms urgente
para mantener la continuidad de la escala proviene de la observacin de que, debido a la
operacin diferencial de factores selectivos, los estudiantes que presentaban el SAT en
cierta poca del ao obtenan un resultado inferior al obtenido por quienes lo presenta
ban en otros momentos. Por ende, despus de 1941 todas las calificaciones del SAT se
expresaron en trminos de la media y la DE de los aproximadamente 11 000 candidatos
que presentaron la prueba en 1941. Esos aspirantes constituyeron el grupo fijo de re
ferencia empleado en el escalamiento de las formas subsecuentes del instrumento.
As, una punruacin de 500 en cualquier forma del SAT corresponde a la media de la
muestra de 1941, una calificacin de 600 cae a una DE por encima de la media, etctera.
Para permitir la transformacin de puntuaciones crudas de cualquier forma del SAT a
esas calificaciones de un grupo fijo de referencia en cada forma se incluy una pequea
prueba ancla (o conjunto de reactivos comunes). En consecuencia, cada nueva forma se
ligaba a una o dos pruebas anteriores, las que a su vez estaban ligadas a otras formas por
una cadena de reactivos que se extendan hasta la forma de 1941. Estas calificaciones del
SAT no normativas podan entonces interpretarse al compararlas con cualquier distri
bucin apropiada de puntuaciones, como las de una universidad particular, una clase de
universidad, una regin, etc. Esas normas especficas son ms tiles al tomar decisiones
de admisin a la universidad que las normas anuales basadas en toda la poblacin de
candidatos. Ms an, cualquier cambio en la poblacin de aspirantes puede ser detecta
da con una nica escala fija de calificaciones. Ms recientemente, la escala SAT ha vuel
to a centrarse en el desempeo de ms de un milln de estudiantes estadounidenses que
se graduaron de secundaria en 1990 y presentaron el test en su penltimo o ltimo ao
escolar. Los resultados para los estudiantes que presentaron el SAT despus del primero
de abril de 1995 se informaron de acuerdo con la escala "reciente" derivada del grupo de
referencia de 1990. Se han elaborado materiales auxiliares e interpretativos para ayudar
a los usuarios a convertir las calificaciones individuales y agregadas de la escala anterior
y vice~ersa (vase el captulo 17), lo que permite una interpretacin completa y diversi
ficada de la ejecucin individual para propsitos especficos de examinacin.6
Las escalas formadas a partir de un grupo fijo de referencia son anlogas en un as
pecto a las escalas empleadas en la medicin fsica. A este respecto, Angoff ( 1962, pp.
3233) comentaba:
s Esta pn,el,e tttibocS luqo el nombtt de Test de Evaluacin Escolar (Sdaolasoc ~
Tesa, SAT) para
moocrar el cambio de la onentacin hacia la naturaleza de las cahficacloncs de las pruebasque surgi I finales del
silo XX ( vase especialmente el caplwlo 12 paro una revisin del efecto de las d,fcrcnchu de las experiencias
pmooalcs IOln la eecucln en la prueba).
Reconoccmc:. la ayuda de Wayne Camara de la JunlJI Un1vcrs1111na para la obtencin de la 1nlormacin.

Normas y significado de las puntuaciones de los tests

73

Difcilmenteexiste una persona que conozca la definicin original precisa de la lon


gitud del pie usado en la medicin de estatura o distancia, o que sepa quin fue el rey
cuyo pie se acord originalmente que fuera la norma; por otro lado, no hay nadie
aqu que no sepa cmo evaluar longitudes y distancias en trminos de esta unidad.
Nuestra ignorancia del significado original de pie de manera alguna disminuye la
utilidad que tiene para nosotros. Su utilidad procede del hecho de que se mantiene
constante y nos permite familiarizarnoscon l. No es necesariodecir que las mismas
consideracionesse aplican precisamente a otras unidades de medicin la pulgada,
la milla, los grados Fahrenheit. Del mismo modo, en el campo de la medicin psi
colgica es razonable decir que la definicin original de la escala no debe ser de im
portancia. Lo que es importante es mantener una escala constante la cual, en el
caso de un programade examinacin de formas mltiples,se consigue mediante una
rigurosa igualacin entre formas y la disposicin de los datos normativos comple
mentariospara ayudar en la interpretacin y la toma de decisiones, datos que deben
revisarsede vez en cuando segn lo justifiquen las circunstancias.
Teora de las respuestas a los temes.
Desde los setenta se observa un resurgi
miento del inters en una clase de procedimientosde gran complejidad matemtica
para escalar la dificultad de los reactivos o itemes de una prueba (Hambleton, 1989;
Harnbleton, Swaminathan y Rogers, 1991; Jaeger, 1977). Debido a la gran cantidad
de clculos que requieren, slo fueron viables cuando aument la disponibilidad de
computadoras de alta velocidad. Aunque su complejidad y sus procedimientos mate,
mticos difieren, escasaproximacionesse agruparon originalmente con el ttulo general
de modelos de rasgos latentes. La medida bsica que utilizan es la probabilidad de que un
sujeto con determinada habilidad (el llamado rasgo latente) acierte en un reactivo de
dificultad conocida; sin embargo, ello no implica que existan rasgos latentes o habili
dades subyacentes en un sentido fsico o fisiolgico, ni tampoco que originen una
conducta. Los rasgos latentes son constructos estadsticos derivados matemticamen
te de relaciones empricas observadas entre las respuestas a la prueba. Una estimacin
micial del rasgo latente de un examinado es la calificacin total que obtiene en la
prueba. Para evitar la falsa impresin creada por el trmino "rasgo latente", algunos de
los principales exponentes de estos modelos lo han sustituido por el trmino ms des,
criptivo y preciso de "Teora de Respuesta al fcem" o TRI (Lord, 1980; D. J. Weiss y
Davison, 1981 ). Esta designacin ha alcanzado un uso general dentro de la psicologa.
En esencia, los modelos TRI se han usado para establecer una escala de medicin
uniforme y "libre de muestra" que pueda aplicarse a individuos y grupos de muy diver
sos niveles de habilidad y que permita probar contenidos de distintos niveles de difi
cultad. Como en el caso del grupo fijo de referencia que explicamos en la seccin
anterior, los modelos TRI requieren de reactivos ancla o una prueba comn como
puente entre las muestras examinadas y las pruebas o conjuntos de reactivos; sin ern
bargo, en lugar de usar la media y DE de un grupo especficode referencia para definir
el origen y tamao de las unidades de la escala, los modelos TRI los establecen en tr
minos de los datos que representan una amplia gama de habilidades y dificultades de
los reactivos, que pueden provenir de varias muestras. Por lo general, el origen se esca,
blece cerca del centro de este rango. La unidad comn de la escala se deriva matem
ticamente de los datos de los reactivos, lo que tiene varias ventajas tericas y prcticas

74

Principios tcnicosy metodolgicos

sobre los anteriores procedimientos de anlisis de reactivos. Revisaremos despus la


metodologa especfica, en el captulo 7, cuando tratemos las tcnicas de anlisis de
reactivos. La TRI se ha ido incorporando en los programas de examinacin a gran es
cala; por ejemplo, desde 1982 el procedimiento se emplea para igualar las calificacio
nes totales de las nuevas formas del SAT y expresarlas en una escala continua
uniforme (Camara, Freeman y Everson, 1996; Donlon, 1984).
Aunque ha crecido la atencin dirigida al problema general de igualacin de la prueba, que permite expresar los resultados de diferentes formas de la misma prueba en
una escala de calificacin uniforme, las dificultades tcnicas de los diversos plantea
mientos explorados con este propsito escapan al alcance de este libro, por lo que re
ferimos al lector a P. W. Holland y Rubn (1982) y a Petersen, Kolen y Hoover ( 1989)
para una revisin completa y una evaluacin crtica de dicha metodologa.

LAS COMPUTADORAS Y LA INTERPRETACIN


DE LAS CALIFICACIONES DE LAS PRUEBAS
Desarrollos tcnicos. Las computadoras han tenido un impacto importante en cada
fase de la examinacin, desde la elaboracin de la prueba hasta la aplicacin, califi
cacin, interpretacin y elaboracin del reporte (F. B. Baker, 1989; Butcher, 1987;
Gutkin y Wise, 1991; Raid, 1986). Los usos evidentes de las computadoras -y los
enconmidos antes representaron un incremento sin precedentes en la rapidez con
que pueden realizarse los procesos de calificacin y anlisis de datos. El uso de las
computadoras en la aplicacin automatizada de las pruebas convencionales tambin
puede considerarse en esta categora, en la medida en que proporciona formas ms sen
cillas de aplicacin. Empero, mucho ms significativa es la contribucin de las compu
tadoras a la exploracin de nuevos procedimientos y acercamientos a las pruebas psico
lgicas que habran sido imposibles sin la flexibilidad y capacidad de procesamiento de
datos que proporcionan. Este efecto de las computadoras lo ilustra la adopcin crecien
te de los modelos TRI para el escalamiento libre de muestra. Veremos otras innovacio
nes del uso de las computadoras al revisar los temas pertinentes a lo largo del libro.
As, examinaremos algunas aplicaciones de las computadoras a la evaluacin del
desempeo en las pruebas (F. B. Baker, 1989; Gutkin y Wise, 1991; Roid y Gorsuch,
1984). Al nivel ms simple, casi todas las pruebas actuales, especialmente las diseadas
para aplicacin colectiva, ahora estn adaptadas para su calificacin computarizada.
Varias editoriales y organizaciones independientes de calificacin de pruebas estn
equipadas para brindar esos servicios a los usuarios. Adems, tambin se observa un
aumento en el acceso a discos de computadora que los usuarios pueden emplear para
calificar las pruebas en sus propias computadoras (por ejemplo, los programas ASSIST
desarrollados por el Servicio Estadounidense de Asesora). A un nivel ms complejo,
para algunas pruebas se dispone de interpretacionescomputarizadas de los resultados, en
las que el programa asocia informes verbales preparados con ciertos patrones de res
puesta. Este sistema se ha empleado en test de aptitud y de personalidad; por ejemplo,
en el Inventario Multifsico de Personalidad de Minnesota (Minnesota Multiphasic
Personality Inventory, MMPI), que estudiaremos en el captulo 13, los usuarios pueden
obtener junto con las puntuaciones numricas impresiones del diagnstico y el infor
me interpretativo acerca de las tendencias de personalidad y la condicin emocional

Normas y significado de las puntuaciones de los tests

75

del examinado. Los usuarios que tienen acceso a sus propias computadoras pueden ad
quirir programas que adems de las calificaciones numricas tambin proporcionan
informes interpretativos para ciertos tests, como las Escalas de Inteligencia para nios
de Wechsler, Revisadas (WlSCR) y para adultos (WAISR).
Los sistemas interactivos de cmputo ilustran un nivel ms complejo de interpreta
cin individualizada de las puntuaciones de los tests. En stos, el individuo est en
contacto directo con la computadora por medio de estaciones de respuesta y entabla
de hecho un dilogo con la computadora (J. A. Harris, 1973; Holurnan, 1970; M. R.
Katz, 1974; Super et al., 1970). Esta tcnica ha sido investigada en relacin con la
planeacin educativa y profesional y en la toma de decisiones. En escas situaciones,
los resultados suelen incorporarse a la base de datos de la computadora junto con la
informacin proporcionada por el estudiante o el cliente. En esencia, la computadora
combina toda la informacin disponible sobre el individuo con los datos almacenados
acerca de los programas educativos y ocupacionales, y utiliza todos los hechos y rela
ciones pertinentes para responder a las preguntas del individuo y ayudarlo a tomar
una decisin. Un ejemplo de esos programas es el Sistema Interactivo de Gua e In
formacin ( System for lnteractive Guidance Information, "SI GI", 197 4197 5). El siste
ma, en uso por ms de una dcada en universidades, se ha actualizado y revisado para
ayudar no slo a los estudiantes y a los adultos a prepararse para ingresar o regresar al
mercado de trabajo, o para sopesar ascensos o cambios de carrera (M. R. Katz, 1993;
Norris, Schott, Shatkin y Bennett, 1986).
Riesgos y directrices.
Aunque es indudable que las computadoras han abierto el
camino a mejoras sin precedentes en todos los aspectos de las pruebas psicolgicas, algunas de sus aplicaciones pueden conducir a abusos e interpretaciones errneas de las
calificaciones de las pruebas (Butcher, 1985a; J. J. Kramer y Mtchell, 1985; Mata
razzo, 1983, 1986a, 1986b). En un esfuerzo por prevenir esos riesgos se ha prestado
considerable atencin al desarrollo de directrices para la examinacin basada en
computadoras. Los Estndares de Evaluacin (Testing Standards: AERA, APA, NC
ME, 1985) incluyen varios criterios vinculados con la evaluacin basada en compu
tadoras. Se ha elaborado un conjunto ms amplio y detallado de normas que se refieren
en especial al uso de la computadora en los diversos aspectos de la examinacin ( va
se, por ejemplo, Butcher, 1987, pp, 413431). Vase Moreland (1985, 1992), para
una revisin cuidadosa del uso de computadoras en la evaluacin, particularmente en
relacin con la interpretacin computarizada de los resultados.
Dos de las preocupaciones principales respecto al uso de computadoras araen a la
comparabilidad de los resultados y a las interpretaciones narradas de los mismos. Cuan
do la misma prueba se aplica por medio de una computadora y de la manera impresa
tradicional es necesario investigar la comparabilidad de los resultados (Mazzeo,
Druesne, Raffeld, Checketts y Muhlstein, 1991 ). A menos que se demuestre que ambos
modos de aplicacin producen formas completamente igualadas de la prueba, el mis
mo conjunto de normas puede no ser aplicable a ambos; adems, la confiabilidad y la
validez del instrumento tambin pueden variar. Es especialmente importante revisar
la cornparabilidad de individuos o grupos diferentes cuya experiencia con el uso de las
computadoras, sobre todo en la evaluacin, puede diferir de manera notable.
El rpido crecimiento de los servicios computarizados que proporcionan informes
interpretativos narrados de los resultados ha generado particular preocupacin. Dos

76

Principios tcnicos y metodolgicos

principios bsicos fundamentan muchos de los criterios. Primero, debe proporcionarse


informacin adecuada que permita al usuario evaluar la confiabilidad, la validez y
otras propiedades tcnicas del sistema interpretativo empleado al preparar el progra
ma de cmputo. Cmo se obtuvieron los informes interpretativos de los resultados?
Cul es la base terica y de investigacin del sistema? Los anlisis proceden de
anlisis cuantitativos o del juicio clnico de expertos? Si se trata del ltimo caso, debe
proporcionarse la informacin relativa a las calificaciones de estos expertos.
El segundo principio indica que siempre que se empleen informes interpretativos de
los resultados (sea con propsitos clnicos o de orientacin o bien cuando se utilicen al
tomar decisiones importantes sobre los individuos), es indispensable considerar otras
fuentes de datos disponibles sobre los examinados. Es por ello que slo los profesiona
les calificados deben usar reportes de los resultados. Los reportes deben considerarse
como un instrumento auxiliar y no como un sustituto del especialista profesional.

INTERPRETACIN

DE LOS TESTS REFERIDOS A DOMINIO

Naturaleza y usos. Un acercamiento a las pruebas que gener gran actividad en


los setenta, en particular en el campo de la educacin, se conoci al principio como
"tests referidos a criterio". Propuesto por Glaser ( 1963 ), el trmino se ha empleado
de manera vaga y su definicin vara entre diversos autores. Ms an, es comn el uso de
sinnimos, por ejemplo tests referidos a contenido, a un dominio o a un objetivo, aun,
que en ocasiones tienen connotaciones ligeramente distintas. La designacin inicial
de "referencia a criterio" ha sido reemplazada gradualmente por trminos con mayor
precisin descriptiva, por la cual en lo sucesivo emplearemos el trmino "tests refer
dos a dominio o tests de dominio".
En general, las pruebas de este tipo utilizan su marco interpretativo como referen
cia a un dominio especfico de contenido ms que a una poblacin especfica de perso
nas. A este respecto, la aproximacin ha sido comparada con la examinacin usual
referida a normas, que para interpretar la calificacin del individuo la compara con los
resultados de otros en la misma muestra; por ejemplo, en los tests referidos a un domi
nio la ejecucin del examinado puede ser informada en trminos de las operaciones
aritmticas que ha dominado, el tamao estimado de su vocabulario, el nivel de difi
cultad del tema de lectura que ha comprendido (desde revistas de tiras cmicas hasta
la literatura clsica) o sus oportunidades de lograr un nivel determinado de ejecucin
sobre un criterio externo (educativo u ocupacional).
Hasta ahora, la examinacin referida a dominio ha encontrado su principal aplica
cin en varias innovaciones educativas. Entre ellas destacan los sistemas educativos
asistidos por computadoras, administrados por computadoras y otros sistemas educati
vos individualizados. En todos esos sistemas, la examinacin est muy integrada a la
instruccin y se aplica antes, durante y despus de cada unidad para supervisar las ha
bilidades que son requisitos, diagnosticar las posibles dificultades de aprendizaje y
prescribir los procedimientos educativos subsecuentes (N itko, 1989).
Desde otro ngulo, los tests referidos a dominio han sido utilizados en estudios de
rendimiento educativo, como la Evaluacin Nacional del Progreso Educativo (Nacional
Assessment of Educacional Progress, E. G. J ohnson, 1992; Messick, Beaton y Lord, 1983;
E B. Womer, 1970), y al hacer frente a las demandas de responsabilidad educativa. To

Normas y significadode las puntuaciones de los tests

77

davfa desde otro punto de vista, otra muestra de los tests referidos a dominio se ilustra
en los exmenes para el cumplimiento de las condiciones mnimas requeridas, por
ejemplo para obtener una licenciade conduccin o de piloto. Una aplicacin relacio
nada es el examen de la pericia para el trabajo, que evala la maestra de un pequeo
nmero de habilidades bien definidas, como en las ocupaciones militares especializa
das (Maier y Hrshfeld, 1978; Swezey y Pearlsten, 1975).
Por ltimo, la familiaridad con los conceptos de los tests referidos a dominio puede
contribuir a la mejora de los exmenes tradicionales informales preparados por los
maestros para su uso en el aula. Linn y Gronlund (1995) ofrecen una gua detallada
para este propsito, as como un tratamiento sencillo y equilibrado de tales pruebas.
Una resea breve y excelente de las principales limitaciones de esa forma de examina
cin se encuentra en Ebel ( 1972); y Berk (1984a) proporciona una amplia revisin de
muchos de los problemas tcnicos de su elaboracin y evaluacin.
Significado del contenido. El rasgo distintivo principal de la examinacin referi
da a dominio (como quiera que se le defina y sea que se le designe con este trmino o
con alguno de sus sinnimos) es su interpretacin del desempeo en la prueba en tr
minos del significado del contenido. Desde luego, el punto de atencin est en lo que
los examinados pueden hacer y lo que conocen, y no en cmo se comparan con otros.
Al elaborar estos instrumentos, un requisito fundamental es contar con un dominio
definido con claridad de los conocimientos o las habilidades que la prueba debe eva
luar. Para que los resultados tengan un significado que pueda comunicarse, el contenido
del dominio por muestrearse debe ser reconocido como importante. El dominio selec
cionado debe subdividirse luego en unidades pequeas definidas en trminos de eje
cucin. En el contexto educativo, las unidades corresponden a los objetivos educativos
definidos conducrualmente, como "multiplicar nmeros de tres dgitos por otro de dos
dgitos" o "identificar las falcas ortogrficasque consisten en escribir s en lugar de e". En
los programas preparados para la instruccin individualizada, pueden prepararse cien
tos de esos objetivos para una sola materia. Despus de que se han formulado los objeti
vos educativos, se preparan los reactivos para muestrear cada uno, un procedimiento
difcil y tardado; sin embargo, si no se cuenta con una especificacin cuidadosa y con
trolada del contenido, los resultados de esta examinacin pueden degenerar en una
mescolanza idiosincrsica e ininterpretable. Un compromiso prctico consiste en que
un experto identifique y defina los principales conceptos, principios, metodologas u
objetivos educativoscada uno de los dominios significativosdefinidos puede entonces.
muestrearseconcienzudamentecon los reactivos de prueba apropiados. Es indudable
que el grado de especificidad con que se requiere evaluar los dominios de conducta
vara segn la naturaleza y propsito de la prueba (Popham, 1984; Roid, 1984).
Cuando se aplica estrictamente, la examinacin referida a dominio se adapta me
jor al examen de habilidades bsicas (como lectura y aritmtica) a nivel elemental.
En esas reas los objetivos educativos suelen disponerse en orden jerrquico, y la ad
quisicin de las habilidades ms elementales es un requisiro para la adquisicin de
otras de mayor nivel;7 sin embargo, no es prctico y quiz tampoco deseable for
mular objetivos muy especficos para los niveles avanzados de conocimiento en mate
7 Idealmente, escas pruebas siguen el modelo simplex de la escala de Guttman (vase Popham y Husek, 1969),
como es el caso de las escalas ordinales de Piager que estudiaremos en el capitulo 9.

78

Principios tcnicos y metodolgicos

nas menos estructuradas. A estos niveles, es probable que tanto el contenido como la
secuencia de aprendizaje sean mucho ms flexibles.
Por otro lado, al subrayar el significado del contenido en la interpretacin de los re
sultados, la examinacin referida a dominio puede ejercer un efecto saludable sobre la
aplicacin general de pruebas, por ejemplo para la interpretacin de los resultados de
un test de inteligencia. Describir la ejecucin de un nio en un test de inteligencia en
trminos de las habilidades intelectuales especficas y del conocimiento que representa
puede ayudar a contrarrestar las confusiones y los errores que han quedado vinculados
al Cl tradicional; de todas formas, cuando se plantea en esos trminos generales, la
aproximacin referida a dominio equivale a interpretar las calificaciones de las prue
bas a la luz de la validez demostrada de la prueba particular, ms que en trminos de
vagas entidades subyacentes. Por supuesto, dicha interpretacin puede combinarse
con calificaciones referidas a normas.
Pruebas de destreza.
Otro rasgo que suele asociarse con la evaluacin referida a
dominio es el procedimiento para examinar la destreza. En esencia, el procedimiento
da una calificacin de todo o nada que indica si el individuo ha alcanzado o no el ni
vel establecido de habilidad. Cuando se examinan habilidades bsicas, en general se
espera una destreza casi completa (por ejemplo, 8085 por ciento de respuestas co
rrectas). Tambin puede emplearse una distincin de tres niveles que incluye destreza,
no destreza y un intervalo intermedio dudoso o de "revisin".
En relacin con la instruccin individualizada, algunos educadores han afirmado
que si se cuenta con tiempo suficiente y mtodos educativos apropiados, casi cualquie
ra puede lograr la completa destreza de los objetivos elegidos. Las diferencias indivi
duales se manifestaran en el tiempo requerido para el aprendizaje ms que en el
rendimiento final, como sucede en los exmenes tradicionales (Carroll, 1963, 1970;
Cooley y Glaser, 1969; Gagn, 1965). De todo esto se dice que en las pruebas de des
treza las diferencias individuales son de poco o ningn inters. En consecuencia, se
acostumbra elaborar los tests referidos a dominio de modo que, luego de la capacita
cin apropiada, minimicen las diferencias individuales en la ejecucin. La evaluacin
de la destreza se emplea regularmente en los programas de instruccin personalizada, y
tambin es caracterstica de los tests referidos a dominio para habilidades bsicas, ade
cuadas para la instruccin elemental.
En la elaboracin de esas pruebas hay dos preguntas importantes: ( 1) cuntos
reactivos deben usarse para la evaluacin confiable de cada objetivo educativo cubier
to por la prueba], y (2) qu proporcin de reactivos hay que responder correctamen
te para determinar en forma confiable la destreza/ En buena parte de los primeros tests
referidos a dominio, decisiones de criterio daban las respuestas; no obstante, el progre
so sustancial alcanzado en el desarrollo de tcnicas estadsticas puede proporcionar
respuestas objetivas empricas (Berk, 1984a; R. L. Ferguson y Novick, 1973; Hamble
ton, l984a, 1989; Hambleton y Novick, 1973). Bastar con algunos ejemplos para
ilustrar la naturaleza y el alcance de esos esfuerzos.
Estas dos preguntas pueden plantearse en una sola hiptesis que se prueba en el mar
co de la teora de la toma de decisiones y el de un anlisis secuencial (Hambleton,
l 984a; Wald, 194 7). En concreto, deseamos probar la hiptesis de que el examinado ha
alcanzado el nivel requerido de destreza en el contenido del dominio u objetivo educa
tivo muestreado por los reactivos de la prueba. El anlisis secuencial consiste en hacer

Normas y significado de las puntuaciones de los tests

79

observaciones, una tras otra, y decidir despus de cada una si ( l) se acepta la hiptesis,
(2) se rechaza,o (3) hay que hacer otras observaciones. As, el nmero de observaciones
(en este caso, el nmero de reactivos) necesario para llegar a una conclusin confiable
se determina durante el proceso de evaluacin. En lugar de presentar un nmero fijo y
predeterminado de reactivos, el examinado contina resolviendo la prueba hasta que
se alcance una decisin de destreza o no destreza. En este momento se interrumpe el
examen y el estudiante es dirigido al siguiente nivel de instruccin o se le regresa a estu
diar el nivel no dominado. Con las facilidades de las computadoras, los procedimientos
de decisin secuencial son factibles y pueden reducir el tiempo total de examinacin a
la vez que producen estimaciones confiables de la destreza.
Algunos investigadores han explorado los mtodos bayesianos de estimacin que
incorporan datos colaterales y son adecuados para las decisiones que requieren las
pruebas de destreza. Debido al gran nmero de objetivos educativos que hay que pro
bar, en general los tests referidos a dominio incluyen un pequeo nmero de reactivos
por cada objetivo. Para completar esta limitada informacinse han establecido procedi
mientos que comprenden datos colateralesde la historiadel desempeo del estudiante
as como los resultados de otros alumnos (R. L. Ferguson y Novick, 1973; Hambleton,
1984a; Hambleton y Novick, 1973).
Cuando los procedimientos confeccionados individualmente no resultan prcti
cos, es posible establecerde manera emprica puntuaciones de corte al analizar los re
sultados de grupos apropiados antes y despus de la instruccin. Luego se selecciona
la puntuacin de corteque haga una mejor discriminacin entre los que han recibido la
educacin adecuada y los que no lo han hecho (Panell y Laabs, 1979; L. A. Shepard,
1984). En ciertas situaciones se requiere de juicio para evaluar la relativa gravedad de
"aprobar" a una persona no calificada contra "reprobar" a alguien que s lo est. En
tonces, se elevara o disminuira el punto de corte para responder a las consecuencias
de la mala clasificacin.
Tests referidos a normas. Ms all de las habilidades bsicas, las pruebas de destreza
son inaplicables o insuficientes,ya que en las materiasms avanzadas y menosestructu
radas el rendimiento es abierto. El individuo puede progresar casi ilimitadamente en
funciones como la comprensin, el pensamiento crtico, la apreciacin y la originali
dad. Ms an, la cobertura del contenido puede seguir muchas direcciones diferentes
dependiendo de las habilidades, los intereses y las metas del individuo, as como de las
facilidades locales de educacin. En esas condiciones, la destreza total es poco realista e
innecesaria, por lo que en tales casos suele utilizarse la evaluacin referida a normas pa
ra determinar el grado de rendimiento. Se han elaborado algunos instrumentos para
permitir tanto las aplicaciones referidas a normas como las referidas a dominio. Un
ejemplo se encuentra en las pruebas Stanford de diagnstico para lectura y matemti
cas, que adems de proporcionar normas apropiadas para cada nivel, permiten un an
lisis cuantitativo del aprovechamientodel nio en objetivos educativos detallados.
Observe que la evaluacin referidaa dominio no es tan nueva ni tan distinta de los
exmenes referidos a normas como implican algunos de sus exponentes. Evaluar la
ejecucin del individuo en una prueba en trminos absolutos, como una letra o el
porcentaje de aciertos, desde luego es ms antiguo que las interpretaciones normati
vas. Tentativas ms precisas por describir el desempeo en una prueba en trminos

80

Prindpios tcnicos y metodolgicos

del significado del contenido tambin son anteriores a la introduccin del trmino
"test referido a criterio" (Ebel, 1962; J. C. Flanagan, 1962; Nitko, 1984, pp. 1416).
Otros ejemplos se hallan en las primeras escalas formadas para evaluar la calidad de la
escritura, la redaccin o el dibujo al igualar la muestra de trabajo del individuo contra
un espcimen estndar. Ebel ( 1972) observ adems que el concepto de destreza o ha
bilidad en educacin ~n el sentido del aprendizaje de todo o nada de unidades espe
dficas fue muy popular en los veinte y los treinta, antes de ser abandonado.
En todas las formas de evaluacin est implcito un marco normativo, independien
temente de cmo se expresen los resultados (Angoff, 1974; Nitko, 1984). La mera elec
cin del contenido o bien las habilidades por medir est influida por el conocimiento
del examinador de lo que puede esperarse de seres humanos en determinada etapa
educativa o de desarrollo. Dicha eleccin presupone que se cuenta con infonnacin
acerca de lo que otras personas han hecho en situaciones similares. Ms an, al impo
ner puntuaciones de corte uniformes sobre un continuo de habilidad, las pruebas de
destreza no eliminan las diferencias individuales. Describir el nivel de lectura de coro=
prensin de un individuo como "la habilidad de comprender el contenido del diario
The New York Times" deja espacio para una amplia gama de diferencias individuales
en grado y comprensin. Aplicar un punto de corte para establecer una dicotoma en
la ejecucin simplemente ignora las diferencias individuales que permanecen dentro
de las dos categoras y descarta informacin potencialmente til.

CALIFICACIONES

MNIMAS

Y PUNTUACIONES

DE CORTE

Necesidades prcticas y peligros latentes. El concepto de destreza en la exa


minacin referida a dominio es slo un ejemplo del uso prctico de los puntos de cor
ce en la coma de decisiones. En la vida cotidiana deben especificarse y adoptarse cali
ficaciones mnimas para una gran variedad de propsitos. En muchas situaciones, las
condiciones de seguridad requieren el establecimiento de puntos de corte en el de
sempeo, como para conceder licencias de conductor, la seleccin de pilotos para una
aerolnea o de trabajadores para una planta nuclear. En la escuela, aprobar un curso o
graduarse representan otras situaciones que exigen una clasificacin de todo o nada
(Jaeger, 1989). En la prctica clnica y de consejera, las decisiones concernientes al
tratamiento o las recomendaciones pueden requerir de juicios similares.
Un argumento particularmente slido para el uso de los puntos de corte atae a la
presencia de variables crticas requeridas para el desempeo de ciertas funciones, se
traca de variables en las que una deficiencia no puede compensarla una habilidad SO
bresaliente en otras variables. En tales casos, una calificacin alta en una batera de
seleccin podra ocultar una deficiencia en una habilidad crucial. Con codo, los indi
viduos que caen debajo del mnimo requerido en la habilidad esencial fallarn, inde
pendientemente de sus otras habilidades; por ejemplo, los operadores del equipo de
sonar deben tener una buena discriminacin auditiva. Durante la Segunda Guerra
Mundial, los reclutas de la marina estadounidense fueron seleccionados para el entre
namiento como operadores de sonar sobre la base de la combinacin de sus califica
ciones en pruebas de discriminacin auditiva y de comprensin mecnica. Como
resultado, algunos hombres con formacin universitaria que obtuvieron excelentes re
sulcados en comprensin mecnica pero que resultaron deficientes en las habilidades
auditivas esenciales fueron asignados a dicho entrenamiento con el fracaso subse
cuente. El procedimiento estndar de la marina requera que quienes fracasaran en su

Normas y significado de las puntuaciones de los tests

81

primera asignacin de entrenamiento fueran transferidos a tareas generales como


aprendices de marinero, lo que supona la prdida de sus servicios especializados. Un
anlisis posterior de la situacin llev a la sustitucin de un procedimiento de corte
para este propsito de seleccin; sin embargo, para la mayor parte de las variables rela
cionadas con el trabajo, la relacin con la ejecucin del trabajo tiende a ser lineal, de
modo que entre mayor sea el resultado obtenido en la prueba mejor suele ser el desem
peo (Coward y Sackett, 1990). En tales casos, la calificacin real del sujeto predice
mejor su rendimiento que su posicin relativa en un punto de corte.
En la medida en que no es posible evitar el uso de los puntos de corte en muchas
decisiones prcticas, es esencial estar al tanto de los riesgos de dichas evaluaciones y
utilizar procedimientos para reducir los errores de juicio; por ejemplo, deben hacerse
esfuerzos para mitigar las limitaciones del resultado de una sola prueba. Cuando sea
factible, el corte debe ser una banda de puntuaciones ms que una sola puntuacin
obtenida en una aplicacin de la prueba. Ms an, las decisiones sobre los individuos
deben depender de mltiples fuentes de informacin, de modo que los resultados de la
prueba los completen otros datos relevantes a su desempeo, pasado y actual. Si un
grupo de jueces establece los puntos de corte, ste debe incluir la representacin ade
cuada de expertos tanto en el rea relativa al desempeo de la tarea como en los prin
cipios de construccin y uso de las pruebas. Por encima de codo, siempre que sea
posible, los puntos de corte deben establecerse o verificarse sobre la base de datos em
pricos. En concreto, esto implica que deben obtenerse los resultados conseguidos en
la prueba por grupos que difieren claramente en la conducta de criterio importante,
como el desempeo real en cierto trabajo. Por supuesto, esta es la ejecucin que la
prueba pretende predecir y en que se establece un punto de coree para asegurar un m
nimo seguro, aceptable o deseable. Un ejemplo claro de la aplicacin del mtodo em
prico para establecer puntuaciones de coree en una prueba de seleccin de personal se
encuentra en las tablas de expectabtlidad que veremos en la siguiente seccin.
Tablas de expectabilidad.
Una de las formas de interpretar el significado del re
sultado de una prueba es la ejecucin criterio esperada del sujeto, como en el progra
ma de capacitacin o en el empleo. Este uso del trmino "criterio" sigue la prctica
psicomtrica habitual, como cuando se dice que una prueba es validada contra un cri
terio particular (vase el captulo 1). Hablando estrictamente, el termino "test referi
do al criterio" debe aludir a esta interpretacin del desempeo, mientras que los otros
planteamientos que revisamos en la seccin anterior se describen mejor como referi
dos a contenido o a dominio.
La tabla de expectabilidad muestra la probabilidad de diferentes resultados de cri
terio para quienes obtienen cada resultado de la prueba; por ejemplo, si un estudian
te obtuvo una calificacin de 530 en la Prueba de Evaluacin Acadmica (Scholascic
Assessmeru Test, SAT) de la Junta Universitaria, cules son las posibilidades de que
su calificacin promedio en determinada universidad caiga en la categora A, B, C, Do
F? Esta informacin se puede obtener si se examina la distribucin bivariada de las cali
ficaciones predctoras (del SAT) contra el criterio establecido (el promedio de califica
ciones). Si el nmero de casos en cada celda de dicha distribucin bivariada se cambia
por un porcentaje, el resultado es una tabla de expectabilidad, como la que ilustra la ta
bla 3.6. Los datos para esta tabla fueron obtenidos de 211 estudiantes de sptimo grado
inscritos en cursos de matemticas. El predictor fue la prueba de Razonamiento Num
rico de los Tests de Aptitud Diferencial (DifferemialAptitude Tests, DAT) administrados

82

Prindpios tcnicos y metodolgicos

Tablade expectabilidad que muestra la relacin entre la Prueba


de razonamiento numrico (DAT) y las calificaciones en un
curso de matemticas para 211 estudiantes de sptimo grado
Punruacin
de la prueba

30 v por encama
20-29
10-19
Meno.de 10

Nmero
de casos

22

104

71

14

Porcentaje que recibe cada calificacin o grado por letra


Dymenos

5
9

37
43

e
o

21
37
36

36
43
24
14

59

27
3
7

(Adaptado de Tecluucal Manual "' Diffmnol A,cuu,k Tests, 5 ed., p. 152. Reproducido con automactn.
uiwight" 1992 por la PS)'Chological Corporarion.)

al final del primer semestre. El criterio fue las calificaciones finales del segundo semos
rre, la correlacin entre los resultados de la prueba y el criterio fue de .60.
La primera columna de la tabla 3.6 muestra las calificaciones de la prueba divid
das en cuatro intervalos de clase; en la segunda columna se presenta el nmero de es
tudiantes cuyas puntuaciones caen en cada intervalo. Las entradas restantes en cada
hilera de la tabla indican el porcentaje de casos dentro de cada intervalo de calificaclo
nes que recibi cada grado al final del curso. As, de los 22 estudiantes con califica
dones iguales o superiores a 30 en la prueba de razonamiento numrico, cinco por
ciento recibi calificaciones iguales o inferiores a O, ninguno recibi C, 36 por ciento
recibi By 59 por ciento A. En el otro extremo, de los 14 estudiantes con una califica
cin inferior a I O en la prueba, 43 por ciento recibi calificaciones iguales o inferiores
a D, 36 por ciento C y 14 por ciento B. El anmalo siete por ciento que recibi A, que
representa un solo caso, finalmente es informacin intil para propsitos de generali
zacin, como es el caso del cinco por ciento con calificaciones iguales o superiores a
30 que recibi una calificacin igual o menor a O, nuevamente representado por un
caso. No obstante, dentro de las Limitaciones de los datos disponibles, los porcentajes
de la tabla 3.6 proporcionan estimaciones de la probabilidad de que un individuo reci
bir una determinada calificacin criterio. Por ejemplo, si un nuevo estudiante recibe
una puntuacin de 24 en la prueba de razonamiento numrico del DAT (es decir, cae
en el intervalo 2029), debemos concluir que la probabilidad de que obtenga en el
curso una calificacin de A es de 27 por ciento, la de que obtenga una calificacin de
Bes 43 por ciento, etctera.
En muchas situaciones practicas, los criterios pueden dicotornizarse como "xito" y
"fracaso" en un trabajo, un curso o en otra empresa. En cales condiciones, puede pre
pararse una grdfica de expeccabilidodque muestre la probabilidad de xito o fracaso que
corresponde a cada intervalo de calificacin. La figura 3. 7 es un ejemplo de dicha gro
flca, la cual se basa en una batera para la seleccin de pilotos elaborada por la fuerza
area de los Estados Unidos. La grfica muestra el porcentaje de cadetes que califican
dentro de cada escanina de la batera y que no lograron completar el entrenamiento de

Normas y significado de las puntuaciones de los tests


Estanina
del piloto

Nmero
de hombres

21 474

19444

32129

39398

34975

23699

11 209

2139

83

Porcentaje eliminado en el entrenamiento piloto primario

~
10%
k%

EJ1

22 l.
1

30%
4"

s: 1%
1

67%

904
O

10

20

30

40

50

60

70

t77%
80

90

100

F i g u r a 3 7. Grfica de Expeccabilidadque muestra la relacin entre la ejecucinen


una batera para la seleccin de pilotos y la eliminacin de un vuelo de entrenamiento
primario.
(Tom3dodcj. C. Flanagan, 1947, p. 58.)

vuelo. Puede verse que el 77 por ciento de los cadetesque recibieron una estanina de l
fue eliminado del curso de entrenamiento, miencras que slo cuatro por ciento de los
que obtuvieron una estanina 9 no logr completar el entrenamientosatisfactoriamen
te. Entre esos extremos, el porcentaje de fracasos disminuy en forma constante a lo
largo de las estaninas sucesivas. Sobre la base de esta grfica de expectabilidades pue
de predecirse, por ejemplo, que alrededor del 40 por ciento de los cadetes que obtie
nen una calificacin estanina de 4 fracasary que cerca del 60 por ciento completar
satisfactoriamenteel entrenamiento de vuelo. Pueden hacerse afirmaciones similares
acerca de la probabilidad de xito o fracaso de los individuosque reciben cada estani
na. As, la probabilidad de que complete el entrenamiento un individuo con una cali
ficacin estanina de 4 es de 60:40 o 3:2. Adems de brindar una interpretacin
referida al criterio de los resultados de la prueba, puede observarse que tanto las tablas
como las grficas de expectabilidaddan una idea general de la validez de una prueba
para predecir un criterio determinado.Es por ello que al final del captulo 6, en una
seccinsobre los modelosde decisin para el uso justo de las pruebas, haremos una re
visin ms detallada de los procedimientosempricos empleados para establecer pun
tuaciones de corte. En dicha seccin tambin nos referimosa los procedimientos
matemticos para el establecimiento de calificacionesde corte ptimas en diversas
condiciones.Las aplicacionesespecficasde las puntuacionesde corteen las principa
les reas de la prctica psicolgica tambin pueden encontrarse en el captulo 17.

You might also like