Professional Documents
Culture Documents
48
Normas y significado de las puntuacionesde los tests 49
rización? ¿Está ligeramente por debajo del promedio o se encuentra cerca del extremo
superior de la distribución?
Para averiguar la posición exacta del individuo en relación con la muestra de es
tandarización, la puntuación cruda se convierte en una medida relativa. Estas puntua
ciones transformadas cumplen un doble propósito; primero, indican la posición del
individuo en relación con la muestra normativa, lo que permite la evaluación de su de
sempeño en comparación con otras personas. Segundo, proporcionan medidas equiva
lentes que permiten la comparación directa del desempeño del individuo en pruebas
diferentes; por ejemplo, si una chica obtiene una puntuación cruda de 40 en una prueba
de vocabulario y una de 22 en una prueba de razonamiento aritmético, esto nada nos
dice acerca de su desempeño relativo en las dos pruebas: ¿es mejor en vocabulario o en
aritmética, o bien igualmente buena en ambas materias? Como las puntuacionescrudas
de diferentes pruebas suelen expresarseen unidades distintas resulta imposible su corn
paración directa. El nivel de dificultad de cada prueba también afecta esta compara
ción. Por otro lado, las puntuaciones derivadas pueden expresarse en las mismas
unidades y referirlas a muestras normativas iguales o muy similares en distintas pruebas,
lo que permite comparar la ejecución relativa en funciones muy diferentes.
Aunque hay varias formas de convertir las puntuaciones crudas para satisfacer los
dos objetivos planteados, las puntuaciones derivadas se expresan esencialmente en
dos formas principales: (1) el nivel de desarrollo alcanzado, o (2) la posición relativa
dentro de un grupo específico. Estudiaremos ambas puntuaciones y algunas de sus
variantes en otras secciones del capítulo, pero antes es necesario examinar algunos
conceptos elementales de estadística que fundamentan el desarrollo y la utilización de
las normas. La siguiente sección aclara el significado de ciertas medidas estadísticas
comunes, y proporciona ejemplos simplificados de los cálculos sin pretender con ello
brindar una capacitación en los métodos estadísticos. Para los detalles de cálculo y los
procedimientos a seguir en la aplicación práctica de esas técnicas, acuda el lector a
cualquier texto actualizado de estadística (por ejemplo, D. C. Howell, 1997; Runyon
y Haber, 1991; West, 1991). En la actualidad, es común que se reconozca la necesidad
de que no sólo los usuarios de los tests cuenten con conocimientos básicos de la
metodología de la estadística, sino también cualquiera que desee comprender los in
formes de investigación publicados en cualquier área de la psicología (L. S. Aiken,
West, Sechrest y Reno, 1990; Anastasi, 1991; Lambert, 1991; S. T. Meier, 1993).
CONCEPTOS ESTADÍSTICOS
Un propósito fundamental de la estadística es organizar y resumir los datos cuantita
tivos para facilitar su comprensión. Una lista de 1 000 puntuaciones no sólo resulta
abrumadora, sino que transmite poco significado. El primer paso para poner orden en
semejante caos de datos es tabular las puntuaciones en una distribución de frecuencias,
como se ilustra en la tabla 3.1, que agrupa las puntuaciones en intervalos de clase, y
marca cada una en el intervalo adecuado. Cuando se han anotado todas las puntúa
ciones se cuentan las marcas para encontrar la frecuencia o el número de casos en
cada intervalo de clase. La suma de esas frecuencias será igual a N, el número total de
casos en el grupo. La tabla 3.1 muestra las puntuaciones obtenidas por l 000 universi
50 Principios técnicos y metodológicos
52-55 1
48-51 1
44-41 20
4043 73
3639 156
32}5 328
2831 244
24-27 136
20-23 28
1619 8
12-15 3
811 2
N•lOOO
340
320
300 -- Polígono de frecuencia
280 - - - . Histograma
260
240
.,o 220
., 200
~ 180
Q)
,::,
2 160
Q)
E 140
·::,
z 120
100
80
60
40
20
8 12 16 20 24 28 32 36 40 44- 48 52
11 15 19 23 27 31 35 39 43 47 51 55
Puntuaciones
La curva es simétrica y tiene un único pico en el centro. Casi todas las distribuciones
de rasgos humanos, estatura, peso, aptitudes y características de personalidad, se
aproximan a la curva normal, y, en general, entre más grande sea el grupo más pare
cida resultará la distribución a la curva teórica normal.
Un grupo de puntuaciones también puede describirse en términos de alguna me
dida de tendencia central, que ofrece la puntuación más común o representativa del de
sempeño de todo el grupo. La más conocida de esas medidas es el promedio, que
técnicamente se llama media (M) y se obtiene al sumar todas las puntuaciones y di
vidir la suma entre el número de casos (N). Otra medida es la moda, o puntuación
más frecuente. En una distribución de frecuencias, la moda es el punto central del in
tervalo de clase con La mayor frecuencia. De acuerdo con lo anterior, en La tabla 3.1 la
moda cae a la mitad del intervalo 3235 y es igual a 33.5. Observe que esca pun
tuación corresponde al punto más alto en la curva de distribución de la figura 3.1.
Otra medida de tendencia central es la mediana, el punto más cercano al centro de
una distribución de puntuaciones ordenadas por tamaño. La mediana es el punto que
divide la distribución por encima y por debajo del cual cae la mitad de los casos.
Las medidas de variabilidad, de la extensión de las diferencias individuales alrede
dor de la tendencia central, proporcionan otra descripción del conjunto de puntua
ciones de un test. La forma más evidente y familiar de mostrar la variabilidad es el
52 Principios técnicosy metodológicos
Puntuación
rango entre la mayor y la menor puntuación; sin embargo, se trata de una medida muy
cruda e inestable, toda vez que la determinan apenas dos puntuaciones, lo cual supone
que una sola puntuación inusualmente elevada o baja puede afectar mucho su
tamaño. Un método más preciso para medir la variabilidad se basa en la diferencia.
entre la puntuación de cada individuo y la media del grupo.
En este punto resulta útil estudiar el ejemplo de la tabla 3.2, en el que se calcularon
las diversas medidas consideradas para 10 casos. Aunque en la práctica real suelen
manejarse grupos más grandes, en este caso la elección de un grupo tan pequeño obe
dece a la necesidad de simplificar la explicación. La tabla 3.2 también permite intro
ducir algunos símbolos estadísticos que debe aprender, ya que los emplearemos más
adelante. De manera convencional, designamos las puntuaciones crudas originales con
una X mayúscula, la x minúscula se emplea para referirse a las desviaciones de cada
puntuación respecto a la media del grupo y la letra griega l: significa "la suma de". Se
observa que en la primera columna de la tabla 3.2 aparecen los datos para el cálculo de
la media (que en este caso es 40) y la mediana (que es igual a 40.5 y se encuentra entre
40 y 41) por encima y por debajo de la cual se encuentran respectivamente cinco casos
(50 por ciento). En un grupo tan pequeño no tiene sentido buscar la moda, porque los
casos no muestran un agrupamiento inequívoco en ninguna puntuación; de cualquier
modo, la puntuación de 41 representaría técnicamente a la moda, porque la obtu
vieron dos individuos, en tanto que el resto de los resultados ocurrió una sola vez.
La segunda columna muestra qué tanto se desvía cada puntuación por encima o por
debajo de la media de 40. La suma de las desviaciones siempre será igual a cero,
porque las desviaciones positivas y las negativas alrededor de la media necesariamente
se equilibran o cancelan ( + 20 20 = O). Si ignoramos los signos podemos promediar
las desviaciones absolutas y obtener una medida de la desviación promedio de cada
sujeto de la media del grupo. Aunque de cierto valor descriptivo, en la práctica no se
Normas y significado de las puntuadones de los tests 53
f!111FMII
Ilustración de la tendencia central y la variabilidad
50%dc
los casos
40.5 11••
:¡ ;
Puntuaciones (X)
43
41
Desviación (x == X M) Cuadrado de las desv. (x1)
+8)
+7
+3 +20
+l
64
49
9
1
J
Mediana; 41 +l 1
o
º)
50%de -2 4
los casos
320 16
36
64
DC=400 Lx2=244
LX 400
M=N=w=40
•
Vanarua:: u- ==
_2 V ~ lo
N 244
= 24.40
oes«; J ~ =\IU40=4.9
Nora. Los símbolos r. v o son la mayúscula y la minúscula de la misma letra griega, pronunciada "sigma". En mu·
chos textos de estadística, la DE se refiere a la desviación estándar de la muestra de la que se obtuvieron los datos,
mientras que o se refiere al estimado de la desviación estándar en la población de la que se extrajo la muestra.
1
Los cálculos ilustrados en este capitulo tienen que ver con la esradfsrica descriptiva, que se refiere a la muestra
realmente medida; en la esradfsrica inferencial, la N es reemplazada por N1 para estimar los valores correspon
dientes a la población a parcir de los datos de la muestra. Entre menor sea la muestra, mayor será la diferencia
entre los valores de la muestra y los de la población. Para más explicaciones, véase cualquier libro actualizado de
estadísticas (por ejemplo, Comrey y Lee, 1992).
54 Principios técnicos y metodológicos
99.72%
i t
1
.g
f
~
e,
2.14%
dad individual produce una DE más grande que la que tiene menores diferencias in·
dividuales. Al evaluar la ejecución relativa de dos grupos, deben compararse tanto
las DE como las medias. Si se encuentra que la variabilidad de los grupos difiere,
puede suponerse que son disímiles en la proporción de puntuaciones altas, bajas o en
ambas, independientemente de las diferencias entre las medias. En la actualidad se
dispone de procedimientos que permiten combinar los efectos de las diferencias
entre las medias y las diferencias en la DE ( véase, por ejemplo, Feingold, 1995 ).
La DE también proporciona la base para expresar en términos de normas las pun
tuaciones del individuo en diferentes pruebas, como se mostrará en la sección de cali
ficaciones estándares. La interpretación de la DE resulta especialmente clara al
aplicarse a una curva de distribución normal o aproximadamente normal, en la que
hay una relación exacta entre la DE y la proporción de casos, como se ve en la figura
3.3. En la línea horizontal de la curva se han marcado las distancia que representan
una, dos y tres desviaciones normales por encima y por debajo de la medía; por ejem·
plo, en el caso presentado en la tabla 3.2, la media correspondería a una puntuación de
40, +lo corre pendería a 44.9 (es decir, 40 + 4.9); +2o a 49.8 (es decir, 40 + 2 X 4.9),
etc. En la curva normal el porcentaje de casos que cae entre la media y +lo es 34.13
por ciento. Como la curva es simétrica, también se encuentra 34.13 por ciento de los
casos entre la media ylo, de modo que cnrre +la yla a ambos lados de la media se
encuentra el 68.26 por ciento de los casos. Casi todos los casos (99.72 por ciento) caen
denrro de ±3a de la media. Estas relaciones son particularmente importantes en la in·
terpretación de las puntuaciones estándares y los percenules que veremos adelante.
NORMAS DE DESARROLLO
Las puntuaciones de las pruebas adquieren significado si indican qué tanto ha progre·
sado el individuo en el patrón de desarrollo normal. Así, puede decirse que un niño de
ocho años tiene una edad mental (EM) de LO si su ejecución en una prueba de in·
Normas y significado de las puntuaciones de los tests 55
2
Este uso del rérmino "escala ordinal" difiere del que se le da en estadística, en la que una escala ordinal es sirn
plemente aquella que permite el ordenamiento de 106 individU06 sin conocimiento sobre la cantidad de dlferen
cia entre ellos, en sentido estadístico, las escalas ordinales se contrastan con escalas de intervalo de unidadigual.
las escalas ordinales del desarrollo infantil se diseñan sobre el modelo de la escala de Guttman, o simplex, en la
que la ejecución exitosa en un nivel implica el dominio de todos los niveles inferiores (L. Guttman, 1944 ). Bart
y Airasian (1974) describen una extensión del análisis de Gurrman para incluir jerarquías no lineales, con refe
rencia especial a las escalas piageranas,
58 Principios técnicos y metodológicos
NORMAS INTRAGRUPO
Casi todos los tests estandarizados proporcionan alguna forma de normas inrragrupo,
con las que la ejecución del individuo se evalúa en términos del desempeño del grupo
de estandarización más próximo, como sucede al comparar la calihcación cruda de un
niño con la de otros de la misma edad o del mismo grado escolar. Las puntuaciones in
cragrupo tienen un significado cuantitativo uniforme y definido y pueden emplearse
adecuadamente en casi todos los análisis estadísticos.
Los percentiles no deben confundirse con los porcentajes, que son puntuaciones
crudas que se expresan en términos del porcentaje de los reactivoscorrectos y el total;
los percentiles son puntuaciones transformadas que se expresan en términos del por
centaje de individuos. Una puntuación cruda inferior a cualquiera de las calificaciones
obtenidas en la muestra de estandarización tiene un rango percentil de cero (P0); una
superior a cualquier puntuación de la muestra de estandarización tiene una rango per
centil de 100 (P100); sin embargo, los percentilcs no implican una puntuación cruda
de cero ni una puntuación cruda perfecta.
Las rangos percenrilares tienen varias ventajas: son sencillas de calcular y de com
prender, incluso por personas sin capacitación técnica. Más aún, son de aplicación
universal, pueden usarse lo mismo con adultos que con niños y son adecuados para
cualquier prueba, sea que mida variables de aptitud o de personalidad.
Su principal desventaja está en la marcada disparidad de sus unidades, en especial
en los extremos de la distribución. Si la distribución de las puntuaciones crudas se
aproxima a la curva normal (como sucede con los resultados de la mayor parce de las
pruebas), las diferencias en las puntuaciones crudas cercanas al centro de la distribu
ción (o mediana) aparecen exageradas al transformarsea percenciles; por el contrario,
las diferencias en las puntuaciones crudas próximas a los extremos quedan considera
blemente acortadas. En la figura 3.4 puede verse esta distorsión. Como recordará, en
una curva normal los casos se agrupan cerca del centro y su dispersión aumenta al
aproximarsea los extremos; en consecuencia, cualquier porcentaje de casos cercanos
al centro cubre una distancia más corta en la línea horizontal que el mismo porcenta
je cerca de los extremos de la distribución. En la figura 3.4 puede verse fácilmente es
ta discrepancia en los intervalos entre los rangos percentiles (RP) si se compara la
distancia entre un RP de 40 y uno de 50 con la distancia entre un RP de 10 y uno de
20. Todavíamás sorprendente es la discrepancia entre esas distancias y la que hay en
o, '1d Os
RP 10 20 30 40 50 60 70 80 90 99
99
95
90
80
75
70
j 60
~ 50
~G) 40
o..
30
25
20
10
5
!!º""*
:Ículo de puntuaciones estándares
M=60 DE=5
de usar en cálculos o informes, por lo que suele aplicarse alguna otra transformación
lineal para poner las puntuaciones en una forma más conveniente; por ejemplo, las
puntuaciones de las Pruebas de Evaluación Académica (Scholaslic Assessmem Tests,
SAT) de la Junta Universitaria son calificaciones estándares ajustadas a una media de
500 y una DE de 100. Así, en esta prueba una calificación estándar de 1 se expresa
como 400 (500 100 ~ 400), mientras que una de +1.5 corresponde a 650 (500 + 1.5
X 100 ~ 650). Lo único que se requiere para convertir una calificación estándar origi
nal en la nueva escala es multiplicarla por la DE deseada ( 100) y sumar o restar el re
sultado de la media deseada (500). Es posible elegir arbitrariamente cualquier otra
constante conveniente para las nuevas media y DE; por ejemplo, las puntuaciones ob
tenidas en los subtests separados de las Escalas de Inteligencia de Wechsler se convier
ten en una distribución con una media de 10 y una DE de 3. Todas esas medidas son
ejemplos de calificaciones estándares transformadas en forma lineal.
Recordará que una de las razones para transformar las puntuaciones crudas en cual
quier escala derivada es la necesidad de hacer comparables los resultados de diferentes
pruebas. Las puntuaciones estándares derivadas linealmente sólo son comparables cuan
do provienen de distribuciones de más o menos la misma forma; por ejemplo, en cales
condiciones, una calificación que corresponda a una DE por encima de la media signifi
ca que el individuo ocupa la misma posición en los dos grupos. En ambas distribuciones,
la calificación supera aproximadamente al mismo porcentaje de sujetos, y este porcenta
je puede ser determinado si se conoce la forma de la distribución; sin embargo, si una
distribución es muy asimétrica y la otra es normal, una calificación 'l'. de+ 1.00 podría ex
ceder sólo al 50 por ciento de los casos en un grupo y a más del 84 por ciento en el otro.
Cuando la forma de las distribuciones es distinta, las calificaciones pueden hacerse
comparables empleando transformaciones no lineales que las ajuste a cualquier curva
de distribución. La edad mental y las puntuaciones percentilares representan rransfor
rnaciones no lineales, pero tienen otras limitaciones que ya vimos. Aunque en ciertas
circunstancias puede ser más apropiada otra distribución, la curva normal suele em
plearse con este propósito. Una de las razones para esta elección es que la mayor parte
de las distribuciones de puntuaciones crudas se aproxima a la curva normal más que a
cualquier otra. Además, las medidas físicas, corno la estatura y el peso, que utilizan es
calas de unidades iguales derivadas por operaciones físicas, en general producen distri
buciones normales. Otra ventaja de la curva normal es que tiene muchas propiedades
matemáticas útiles que facilitan los cálculos posteriores.
Las calificaciones estándares normaliwdasson calificaciones estándares expresadas en
términos de una distribución que ha sido transformada para ajustarse a una curva
normal. Dichas calificaciones pueden calcularse recurriendo a tablas que muestran el
porcentaje de casos que cae a diferentes distancias DE de la media de una curva nor
mal. Para ello, primero se encuentra el porcentaje de individuos de la muestra de es
tandarización que cae en o por encima de cada puntuación cruda, este porcentaje se
localiza luego en la tabla de frecuencia de la curva normal y se obtiene la correspon
diente calificación estándar normalizada. Las calificaciones estándares normalizadas
se expresan de la misma forma que las calificaciones estándares derivadas linealmente,
es decir, con una media igual a cero y una DE igual a l. Así, una calificación normali
zada de cero indica que el individuo cae en la media de la curva normal, que supera al
~.,.,_ Normos y significado de las puntuaciones de los tests
Porcentaje 4 7 12 17 20 17 12 7 4
Estanina 1 2 3 4 5 6 7 8 9
50 por ciento del grupo. Una calificación de 1 significa que sobrepasa aproximada
mente a 16 por ciento del grupo y una calificación de+ 1 que aventaja al 84 por ciento.
Como puede verse en la línea inferior de la figura3.4, esos porcentajes corresponden
respectivamente a una distancia de una DE por debajo y una DE por encima de la me
dia de una curva normal.
Igual que las calificacionesestándaresderivadas linealmente, las calificaciones es
tándares normalizadaspueden adoptar cualquier forma conveniente. Si la calificación
estándar normalizadase multiplica por 10 y se suma o resta de 50 se convierte en una
calificación T, una puntuación que propuso primero W. A. McCall ( 1922) y en la que
una puntuación de 50 corresponde a la media, una de 60 a una DE por encima de la
media, etc. Otra transformación conocida es la de la escala estanina, elaborada por
la aviación estadounidense durante la Segunda Guerra Mundial, que proporciona un
isrema de calificaciones de un solo dígito con una media de 5 y una DE aproximada
mente igual a 2.4 El nombre, que en inglés (stanine) es una contracción de "standard
rune" o "estándar nueve", se basa en el hecho de que las calificaciones van de 1 a 9. La
restricción de las calificaciones a númerosde un solo dígito tiene ciertas ventajas para
el cálculo, ya que cada calificación requiere una sola columna en la computadora.
Las puntuaciones crudas pueden convertirse fácilmente en estaninas si se disponen
I resultados originales en orden de tamaño y se les asignan luego cstaninas de acuer
do con los porcentajes de la curva normal reproducidos en la tabla 3.4; por ejemplo, si
el grupo consta exactamente de 100 personas, las cuatro con la calificación más baja
reciben una calificación estanina de 1, las siguientes siete una calificación de 2, las si
zuientes 12 una calificación de 3, etc. Cuando el grupo contiene más o menos 100 ca
,~. primero se calcula el número correspondiente a cada porcentaje designado y luego
recibe las estaninasapropiadas. Así, si son 200 casos, a ocho les sería asignada una es
ranina de 1 ( 4 por ciento de 200 = 8), con 150 casos seis recibirían una estanina de 1
.! por ciento de 150 = 6). Para cualquier grupo que contenga de 10 a 100 casos, Bar
den y Edgenon (1966) prepararonuna tabla que permite convertir directamente los
rangos en estaninas. Debido a sus ventajas prácticas y teóricas, las estaninas han sido
empleadas ampliamente, en especial con las pruebas de aptitud y de aprovechamiento.
Aunque las calificaciones estándares normalizadas son el tipo de puntuación más
,Jecuado para la mayor parte de los propósitos, hay ciertas objeciones técnicas a la
• Ka,ser ( 1958) propuso una modificación de la escala estanina que hace ligeros cambios en los porcentajes y pro
....:e una DE exactamente igual a 2, loque facilita su manejo cuantitativo. Otras variantes son la escala C (Guil
rd v Fruchtcr, 1978, pp. 484487), que consta de 11 unidades y también genera una DE de 2, y la escala nen de
: unidades con cinco unidades por encima y cinco por debajo de la media (Canfield, 1951 ).
64 Principios técnicos y metodológicos
Debe agregarse que el uso del término "CI" para designar a esas calificaciones es·
·.m.iares puede resultar engañosa. Estos CJ no se obtienen a partir de los mismos mé
• >Jos que se emplean para encontrar las razones Cl tradicionales¡ no son razones de
edades mentales y edades cronológicas. La justificación para su uso estriba en la fami
liaridad general del término "CI" y en el hecho de que estas calificaciones pueden in
terpretarse como CI en tanto que su DE sea aproximadamenteigual a la de los Cl ya
conocidos. Entre las primeras pruebas en expresar las calificacionesen términos de CI
de desviación están las Escalas de inteligencia de Wechsler, cuya media es de 100 y la
DE es igual a 15. El CI de desviación también se emplea en varias pruebas colectivas
de inteligencia y en la tercera revisión del SrantordBiner (1960).
Con el uso creciente del Cl de desviación se hace importante recordarque los CI de
desviación de diferentes pruebas sólo son comparables si emplean valores iguales o muy
similares para la DE, que además tienen que aparecersiempre en el manual y el usuario
de la prueba debe considerarlascon atención. Si el autor elige valores diferentespara la
DE al elaborar la escaladel CI de desviación, el significado de cualquier CI en tal prue
ha será muy diferente del que tenga en otras. Esas discrepancias se ilustran en la tabla
3.5, que muestra el porcentaje de casos que obtendrían diferentesniveles de CI en dis
::nbucionesnormales con DE que varían entre 12 y 18, valores que por cierto han sido
ealmente utilizados en las escalas CI de pruebas publicadas; por ejemplo, la tabla 3.5
muestra que un CI de 70 corta el 3.1 por ciento inferior cuando la DE es igual a 16 (co
mo el StanfordBínet), pero que puede separar apenas el O. 7 por ciento (DE= 12) o has·
ca el 5.1 (DE= 18). Por lo común, se ha empleado el CI de 70 como punto de corte para
identificar el retardo mental clínicamentesignificativo. Por supuesto, las mismas discre
panelas se aplican a los CI de 130 y superiores, que pueden usarse al seleccionar a niños
.ara programas especiales para sobredorados. Dependiendo de la prueba elegida, el CI
entre 90 y 110, descrito como el normal, puede incluir tan poco como el 42 o tanto
+65111#
Porcentaje de casos de cada intervalo de CI en las distribuciones
normales con media de 100 y diferentes desviaciones
estándares
Porcentaje de frecuencias
intervalo CI
DE=12 DE= 14 DE=16 DE=lB
como el 59.6 por ciento de la población. Para estar seguros, los editores de las pruebas se
esfuerzan por adoptar de manera uniforme una DE de 16 tanto en las nuevas pruebas co
mo en las nuevas ediciones de las anteriores; sin embargo, las variaciones aún son sufi
cientes como para hacer que la supervisión de la DE resulte imperativa.
..
§
~
e
~
·:O
z
-4a -3u -217 1<7 Media de las + 1<7 +217 +3u +4a
calificaciones de la prueba
calificación z
-4 ~ -2 -1 o +1 +2 +3 +4
calificación T
10 20 30 40 50 60 70 80 90
calificación
CEEB 200 300 400 500 600 700 800
CI de la
desviación
55 70 85 100 115 130 145
(DE" 15)
4% ¡ 7% ¡12%111%120% 117%112%¡ 7% 1 4%
Estanina
2 3 4 5 6 7 8 9
Percentiles 1 1 1 1 1 1 1 1
5 10 20 30 405060 70 80 90 95 99
mayor información. Las posiciones de esos dos estudiantes podría invertirse al cam
biar las pruebas que cada uno presentó en su respectiva escuela.
Del mismo modo, la posición relativa de un individuo en diferentes funciones pue
de ser muy mal representada por la falta de comparabilidad de las normas de una prue
'""a. Supongamos que a una estudiante se le aplica una prueba de comprensión verbal y
un tese de aptitud espacial para determinar su ubicación relativa en ambos campos. Si
la prueba de habilidad verbal se estandarizó con una muestra aleatoria de estudiantes
Je secundaria mientras que la prueba espacial se estandarizó en un grupo selecto de
asistentes a cursos para elección de carrera, el examinador podría llegar a la conclu
sión errónea de que la capacidad verbal de la chica es mucho mayor que la espacial,
cuando podrCa ser el caso contrario.
68 Prindpios técnicos y metodológicos
Otro ejemplo tiene que ver con las comparaciones longitudinales de la ejecución de
un único individuo en una prueba a lo largo del tiempo. Si el registro acumulativo
de un niño muestra un CI de 118, 115 y 101 en cuarto, quinto y sexto grados, la prime·
ra pregunta que debe hacerse antes de interpretar los datos es: "¡Qué test se aplicó al
niño en cada ocasión?" La aparente disminución puede ser un simple reflejo de las di
ferencias entre los instrumentos,en cuyo caso el niño habría obtenido las mismas ca
lificaciones aunque se le hubieran aplicado con una semana de diferencia.
Hay tres razones principales para explicar las variacionessistemáticas entre las calí
ficaciones obtenidas por los mismos individuos en pruebas distintas. Primero, a pesar
de la similitud en el nombre, el conienido de las pruebas puede diferir,como sucede con
muchos de los llamados tests de inteligencia. Aunque lleven el mismo nombre, una de
las pruebas puede abarcar únicamente contenidoverbal, otra ante todo aptitudes espa
ciales y la tercera puede cubrir contenido verbal, numérico y espacial en proporciones
iguales. Segundo, las ,midades de la escala pueden no ser comparables. Como ya expli
camos, si en una prueba el CI tiene una DE de 12 y en otra de 18, entonces es más pro·
bable que un individuo que en la primera prueba obtuvo un CI de 112 en la segunda
reciba uno de 118. Tercero, puede haber diferenciasen la composición de las m~tras
de esrandmi:¡:aciónempleadas para establecer las normas de las diferentes pruebas. Es
obvio que parecerá que los mismos individuos tuvieron un mejor rendimiento al com
pararlos con un grupo menos capaz, que cuando se hace con uno de mayorcapacidad.
La falta de comparabílídad del contenidode la prueba o de las unidades de la esca
la puede ser detectado aJ remitirse a la propia prueba o a su manual. Sin embargo, es
más probable que se pasen por alto las diferencias en las respectivas muestras norrnati
vas, diferencias que pueden ser la explicación de muchas otras discrepanciasen los re·
sultados que no pueden entenderse de otra manera.
quiere decir que no se deben obtener normas muy diferentes al aplicar la prueba a
cualquier otra muestra cuidadosamente elegida de la misma población. Las normas
con un error de muestreo grande tendrán desde luego poco valor en la interpretación
de los resultados de la prueba.
De igual importancia es el requisitode que la muestra sea representativa de la po
blación considerada, por lo que es necesario investigar con cuidado factoresselectivos
sutiles que pudieran haber disminuido la representatividad de la muestra. Algunos de
estos factores se encuentran en las muestras institucionales que, debido a su tamaño
relativamente grande y a su fácil acceso para propósitos de examinación, resultan un
campo tentador para la acumulación de datos normativos. De cualquier forma, es ne
cesario analizar con cuidado las limitaciones especiales de las muestras; por ejemplo,
al examinar a estudiantes se observará que conforme se avanza en los grados escolares
hay una selección superior de casos debido a la deserción progresiva de los estudiantes
menos aptos, eliminación que no afecta de igual manera a los diferentes subgrupos,
Así, la tasa de eliminación selectiva en la escuela es mayor para los hombres que para
las mujeres, y es mayor en los niveles socioeconómicos bajos que en los altos.
Factores selectivos similares operan en otras muestras institucionales, como es el
caso de los prisioneros, los pacientes de hospitales mentales o las personas con retardo
mental que viven en internados. Debido a los muchos factoresespeciales que deterrni
na la propia internación, esos grupos no son representativosde la población entera de
los infractores, los trastornados o los que padecen retardo; por ejemplo, es más proba
ble que se interne a los individuos retardados que sufren discapacidades físicas que a
quienes son aptos. De modo similar, la proporción relativa de personas con retardo
profundo será mayor en las muestras cornadas en instituciones de asistencia que en el
conjunto de la población.
Relacionada con la cuestión de la representatividad de la muestra, está la necesidad
de definir la población específica a la que pueden generalizarselas normas. Como es evi
dente, una forma de asegurar que una muestra es representativa consiste en restringir la
población para que se ajuste a las especificaciones de la muestra disponible; por ejemplo,
si la población se define para incluir únicamente a escolares de 14 años en lugar de a
todos los niños de 14 años, entonces una muestra escolar sería representativa. Por su
puesto, lo ideal es que la población deseada se defina de antemano en función de los
objetivos de la prueba, para formar luego una muestra adecuada. No obstante, los obs
táculos prácticos para obtener participantespuede hacer que esta meta resulte inalcan
:able. En dicho caso, es mucho mejor redefinir la población de manera más reducida que
señalar normas sobre una población ideal que no está adecuadamente representada en la
muestra de estandarización. En la práctica real, son muy pocas las pruebas que se estan
darizan sobre poblaciones tan amplias como suele suponerse, y ¡ninguna prueba ofrece
normas para la especie humana! Además, es dudoso que muchas pruebas brinden nor
mas verdaderamente adecuadas para poblaciones tan amplias como "los europeos adul
tos", "los niños mexicanos de 10 años", etc. En consecuencia, las muestras obtenidas por
diferentes autoresde pruebas pueden no ser representativasde las poblacionesalegadasy
presentar diversos sesgos, de ahí que las normas resultantes no sean comparables.
Al interpretar los resultados de la prueba, el usuario debe tornar en consideración
las influencias específicas que pueden haber actuado sobre la muestra normativa utili
\
70 Prindpios técnicos y metodológicos
zada al estandaruarla, y que incluyen factores selectivos especiales así como las condi
ciones sociales prevalecientes en el momento en que fueron obtenidos los datos nor
mativos (Anastasi, 1985b).
se refieran a una sola muestra normativa. Empero, debe observarse que existen dife
rentes grados y clases de comparabilidad de las calificaciones. La comparabilidad en
una situación particular depende de la similitud de las pruebas en cuanto a! conteni
Jo, a propiedades psicométricas como la confiabilidad y el grado de dificultad y a los
prccedímíentos estadísticos utilizados para lograr la comparabilidad (Angoff, 1984;
:\ngoff y Cowell, 1986; P. W. Holland y Rubín, 1982). Las pruebas no deben conside
rarse igualadas o equivalentes a menos que sean verdaderamente intercambiables. No
bsranre, diferentes clases y grados de comparabilidad pueden facilitar la interpreta
ción de los resultados siempre que Las puntuaciones comparables se usen de modo
apropiado y con pleno conocimiento de La forma en que se derivaron.
s Esta pn,el,e tttibocS luqo el nombtt de Test de Evaluación Escolar (Sdaolasoc ~ Tesa, SAT) para
moocrar el cambio de la onentación hacia la naturaleza de las cahficacloncs de las pruebasque surgió I finales del
si¡lo XX ( véase especialmente el caplwlo 12 paro una revisión del efecto de las d,fcrcnchu de las experiencias
pmooalcs IOln la e¡ecuclón en la prueba).
• Reconoccmc:. la ayuda de Wayne Camara de la JunlJI Un1vcrs1111na para la obtención de la 1nlormación.
Normas y significado de las puntuaciones de los tests 73
Teoría de las respuestas a los ítemes. Desde los setenta se observa un resurgi
miento del interés en una clase de procedimientosde gran complejidad matemática
para escalar la dificultad de los reactivos o itemes de una prueba (Hambleton, 1989;
Harnbleton, Swaminathan y Rogers, 1991; Jaeger, 1977). Debido a la gran cantidad
de cálculos que requieren, sólo fueron viables cuando aumentó la disponibilidad de
computadoras de alta velocidad. Aunque su complejidad y sus procedimientos mate,
máticos difieren, escasaproximacionesse agruparon originalmente con el título general
de modelos de rasgos latentes. La medida básica que utilizan es la probabilidad de que un
sujeto con determinada habilidad (el llamado rasgo latente) acierte en un reactivo de
dificultad conocida; sin embargo, ello no implica que existan rasgos latentes o habili
dades subyacentes en un sentido físico o fisiológico, ni tampoco que originen una
conducta. Los rasgos latentes son constructos estadísticos derivados matemáticamen
te de relaciones empíricas observadas entre las respuestas a la prueba. Una estimación
micial del rasgo latente de un examinado es la calificación total que obtiene en la
prueba. Para evitar la falsa impresión creada por el término "rasgo latente", algunos de
los principales exponentes de estos modelos lo han sustituido por el término más des,
criptivo y preciso de "Teoría de Respuesta al fcem" o TRI (Lord, 1980; D. J. Weiss y
Davison, 1981 ). Esta designación ha alcanzado un uso general dentro de la psicología.
En esencia, los modelos TRI se han usado para establecer una escala de medición
uniforme y "libre de muestra" que pueda aplicarse a individuos y grupos de muy diver
sos niveles de habilidad y que permita probar contenidos de distintos niveles de difi
cultad. Como en el caso del grupo fijo de referencia que explicamos en la sección
anterior, los modelos TRI requieren de reactivos ancla o una prueba común como
puente entre las muestras examinadas y las pruebas o conjuntos de reactivos; sin ern
bargo, en lugar de usar la media y DE de un grupo específicode referencia para definir
el origen y tamaño de las unidades de la escala, los modelos TRI los establecen en tér
minos de los datos que representan una amplia gama de habilidades y dificultades de
los reactivos, que pueden provenir de varias muestras. Por lo general, el origen se esca,
blece cerca del centro de este rango. La unidad común de la escala se deriva matemá
ticamente de los datos de los reactivos, lo que tiene varias ventajas teóricas y prácticas
74 Principios técnicosy metodológicos
del examinado. Los usuarios que tienen acceso a sus propias computadoras pueden ad
quirir programas que además de las calificaciones numéricas también proporcionan
informes interpretativos para ciertos tests, como las Escalas de Inteligencia para niños
de Wechsler, Revisadas (WlSCR) y para adultos (WAISR).
Los sistemas interactivos de cómputo ilustran un nivel más complejo de interpreta
ción individualizada de las puntuaciones de los tests. En éstos, el individuo está en
contacto directo con la computadora por medio de estaciones de respuesta y entabla
de hecho un diálogo con la computadora (J. A. Harris, 1973; Holurnan, 1970; M. R.
Katz, 1974; Super et al., 1970). Esta técnica ha sido investigada en relación con la
planeación educativa y profesional y en la toma de decisiones. En escas situaciones,
los resultados suelen incorporarse a la base de datos de la computadora junto con la
información proporcionada por el estudiante o el cliente. En esencia, la computadora
combina toda la información disponible sobre el individuo con los datos almacenados
acerca de los programas educativos y ocupacionales, y utiliza todos los hechos y rela
ciones pertinentes para responder a las preguntas del individuo y ayudarlo a tomar
una decisión. Un ejemplo de esos programas es el Sistema Interactivo de Guía e In
formación ( System for lnteractive Guidance Information, "SI GI", 197 4197 5). El siste
ma, en uso por más de una década en universidades, se ha actualizado y revisado para
ayudar no sólo a los estudiantes y a los adultos a prepararse para ingresar o regresar al
mercado de trabajo, o para sopesar ascensos o cambios de carrera (M. R. Katz, 1993;
Norris, Schott, Shatkin y Bennett, 1986).
davfa desde otro punto de vista, otra muestra de los tests referidos a dominio se ilustra
en los exámenes para el cumplimiento de las condiciones mínimas requeridas, por
ejemplo para obtener una licenciade conducción o de piloto. Una aplicación relacio
nada es el examen de la pericia para el trabajo, que evalúa la maestría de un pequeño
número de habilidades bien definidas, como en las ocupaciones militares especializa
das (Maier y Hírshfeld, 1978; Swezey y Pearlsteín, 1975).
Por último, la familiaridad con los conceptos de los tests referidos a dominio puede
contribuir a la mejora de los exámenes tradicionales informales preparados por los
maestros para su uso en el aula. Linn y Gronlund (1995) ofrecen una guía detallada
para este propósito, así como un tratamiento sencillo y equilibrado de tales pruebas.
Una reseña breve y excelente de las principales limitaciones de esa forma de examina
ción se encuentra en Ebel ( 1972); y Berk (1984a) proporciona una amplia revisión de
muchos de los problemas técnicos de su elaboración y evaluación.
7 Idealmente, escas pruebas siguen el modelo simplex de la escala de Guttman (véase Popham y Husek, 1969),
como es el caso de las escalas ordinales de Piager que estudiaremos en el capitulo 9.
78 Principios técnicos y metodológicos
nas menos estructuradas. A estos niveles, es probable que tanto el contenido como la
secuencia de aprendizaje sean mucho más flexibles.
Por otro lado, al subrayar el significado del contenido en la interpretación de los re
sultados, la examinación referida a dominio puede ejercer un efecto saludable sobre la
aplicación general de pruebas, por ejemplo para la interpretación de los resultados de
un test de inteligencia. Describir la ejecución de un niño en un test de inteligencia en
términos de las habilidades intelectuales específicas y del conocimiento que representa
puede ayudar a contrarrestar las confusiones y los errores que han quedado vinculados
al Cl tradicional; de todas formas, cuando se plantea en esos términos generales, la
aproximación referida a dominio equivale a interpretar las calificaciones de las prue
bas a la luz de la validez demostrada de la prueba particular, más que en términos de
vagas entidades subyacentes. Por supuesto, dicha interpretación puede combinarse
con calificaciones referidas a normas.
Pruebas de destreza. Otro rasgo que suele asociarse con la evaluación referida a
dominio es el procedimiento para examinar la destreza. En esencia, el procedimiento
da una calificación de todo o nada que indica si el individuo ha alcanzado o no el ni
vel establecido de habilidad. Cuando se examinan habilidades básicas, en general se
espera una destreza casi completa (por ejemplo, 8085 por ciento de respuestas co
rrectas). También puede emplearse una distinción de tres niveles que incluye destreza,
no destreza y un intervalo intermedio dudoso o de "revisión".
En relación con la instrucción individualizada, algunos educadores han afirmado
que si se cuenta con tiempo suficiente y métodos educativos apropiados, casi cualquie
ra puede lograr la completa destreza de los objetivos elegidos. Las diferencias indivi
duales se manifestarían en el tiempo requerido para el aprendizaje más que en el
rendimiento final, como sucede en los exámenes tradicionales (Carroll, 1963, 1970;
Cooley y Glaser, 1969; Gagné, 1965). De todo esto se dice que en las pruebas de des
treza las diferencias individuales son de poco o ningún interés. En consecuencia, se
acostumbra elaborar los tests referidos a dominio de modo que, luego de la capacita
ción apropiada, minimicen las diferencias individuales en la ejecución. La evaluación
de la destreza se emplea regularmente en los programas de instrucción personalizada, y
también es característica de los tests referidos a dominio para habilidades básicas, ade
cuadas para la instrucción elemental.
En la elaboración de esas pruebas hay dos preguntas importantes: ( 1) ¿cuántos
reactivos deben usarse para la evaluación confiable de cada objetivo educativo cubier
to por la prueba], y (2) ¿qué proporción de reactivos hay que responder correctamen
te para determinar en forma confiable la destreza/ En buena parte de los primeros tests
referidos a dominio, decisiones de criterio daban las respuestas; no obstante, el progre
so sustancial alcanzado en el desarrollo de técnicas estadísticas puede proporcionar
respuestas objetivas empíricas (Berk, 1984a; R. L. Ferguson y Novick, 1973; Hamble
ton, l984a, 1989; Hambleton y Novick, 1973). Bastará con algunos ejemplos para
ilustrar la naturaleza y el alcance de esos esfuerzos.
Estas dos preguntas pueden plantearse en una sola hipótesis que se prueba en el mar
co de la teoría de la toma de decisiones y el de un análisis secuencial (Hambleton,
l 984a; Wald, 194 7). En concreto, deseamos probar la hipótesis de que el examinado ha
alcanzado el nivel requerido de destreza en el contenido del dominio u objetivo educa
tivo muestreado por los reactivos de la prueba. El análisis secuencial consiste en hacer
Normas y significado de las puntuaciones de los tests 79
observaciones, una tras otra, y decidir después de cada una si ( l) se acepta la hipótesis,
(2) se rechaza,o (3) hay que hacer otras observaciones. Así, el número de observaciones
(en este caso, el número de reactivos) necesario para llegar a una conclusión confiable
se determina durante el proceso de evaluación. En lugar de presentar un número fijo y
predeterminado de reactivos, el examinado continúa resolviendo la prueba hasta que
se alcance una decisión de destreza o no destreza. En este momento se interrumpe el
examen y el estudiante es dirigido al siguiente nivel de instrucción o se le regresa a estu
diar el nivel no dominado. Con las facilidades de las computadoras, los procedimientos
de decisión secuencial son factibles y pueden reducir el tiempo total de examinación a
la vez que producen estimaciones confiables de la destreza.
Algunos investigadores han explorado los métodos bayesianos de estimación que
incorporan datos colaterales y son adecuados para las decisiones que requieren las
pruebas de destreza. Debido al gran número de objetivos educativos que hay que pro
bar, en general los tests referidos a dominio incluyen un pequeño número de reactivos
por cada objetivo. Para completar esta limitada informaciónse han establecido procedi
mientos que comprenden datos colateralesde la historiadel desempeño del estudiante
así como los resultados de otros alumnos (R. L. Ferguson y Novick, 1973; Hambleton,
1984a; Hambleton y Novick, 1973).
Cuando los procedimientos confeccionados individualmente no resultan prácti
cos, es posible establecerde manera empírica puntuaciones de corte al analizar los re
sultados de grupos apropiados antes y después de la instrucción. Luego se selecciona
la puntuación de corteque haga una mejor discriminación entre los que han recibido la
educación adecuada y los que no lo han hecho (Panell y Laabs, 1979; L. A. Shepard,
1984). En ciertas situaciones se requiere de juicio para evaluar la relativa gravedad de
"aprobar" a una persona no calificada contra "reprobar" a alguien que sí lo está. En
tonces, se elevaría o disminuiría el punto de corte para responder a las consecuencias
de la mala clasificación.
Tests referidos a normas. Más allá de las habilidades básicas, las pruebas de destreza
son inaplicables o insuficientes,ya que en las materiasmás avanzadas y menosestructu
radas el rendimiento es abierto. El individuo puede progresar casi ilimitadamente en
funciones como la comprensión, el pensamiento crítico, la apreciación y la originali
dad. Más aún, la cobertura del contenido puede seguir muchas direcciones diferentes
dependiendo de las habilidades, los intereses y las metas del individuo, así como de las
facilidades locales de educación. En esas condiciones, la destreza total es poco realista e
innecesaria, por lo que en tales casos suele utilizarse la evaluación referida a normas pa
ra determinar el grado de rendimiento. Se han elaborado algunos instrumentos para
permitir tanto las aplicaciones referidas a normas como las referidas a dominio. Un
ejemplo se encuentra en las pruebas Stanford de diagnóstico para lectura y matemáti
cas, que además de proporcionar normas apropiadas para cada nivel, permiten un aná
lisis cuantitativo del aprovechamientodel niño en objetivos educativos detallados.
Observe que la evaluación referidaa dominio no es tan nueva ni tan distinta de los
exámenes referidos a normas como implican algunos de sus exponentes. Evaluar la
ejecución del individuo en una prueba en términos absolutos, como una letra o el
porcentaje de aciertos, desde luego es más antiguo que las interpretaciones normati
vas. Tentativas más precisas por describir el desempeño en una prueba en términos
80 Prindpios técnicos y metodológicos
del significado del contenido también son anteriores a la introducción del término
"test referido a criterio" (Ebel, 1962; J. C. Flanagan, 1962; Nitko, 1984, pp. 1416).
Otros ejemplos se hallan en las primeras escalas formadas para evaluar la calidad de la
escritura, la redacción o el dibujo al igualar la muestra de trabajo del individuo contra
un espécimen estándar. Ebel ( 1972) observó además que el concepto de destreza o ha
bilidad en educación ~n el sentido del aprendizaje de todo o nada de unidades espe
dficas fue muy popular en los veinte y los treinta, antes de ser abandonado.
En todas las formas de evaluación está implícito un marco normativo, independien
temente de cómo se expresen los resultados (Angoff, 1974; Nitko, 1984). La mera elec
ción del contenido o bien las habilidades por medir está influida por el conocimiento
del examinador de lo que puede esperarse de seres humanos en determinada etapa
educativa o de desarrollo. Dicha elección presupone que se cuenta con infonnación
acerca de lo que otras personas han hecho en situaciones similares. Más aún, al impo
ner puntuaciones de corte uniformes sobre un continuo de habilidad, las pruebas de
destreza no eliminan las diferencias individuales. Describir el nivel de lectura de coro=
prensión de un individuo como "la habilidad de comprender el contenido del diario
The New York Times" deja espacio para una amplia gama de diferencias individuales
en grado y comprensión. Aplicar un punto de corte para establecer una dicotomía en
la ejecución simplemente ignora las diferencias individuales que permanecen dentro
de las dos categorías y descarta información potencialmente útil.
30 v por encama
22 5 o 36 59
20-29 104 9 21 43 27
10-19 71 37 37 24 3
Meno.de 10 14 43 36 14 7
(Adaptado de Tecluucal Manual Í"' Diffmnáol A¡,cuu,k Tests, 5• ed., p. 152. Reproducido con automactón.
uiwight" 1992 por la PS)'Chological Corporarion.)
al final del primer semestre. El criterio fue las calificaciones finales del segundo semos
rre, la correlación entre los resultados de la prueba y el criterio fue de .60.
La primera columna de la tabla 3.6 muestra las calificaciones de la prueba dividí
das en cuatro intervalos de clase; en la segunda columna se presenta el número de es·
tudiantes cuyas puntuaciones caen en cada intervalo. Las entradas restantes en cada
hilera de la tabla indican el porcentaje de casos dentro de cada intervalo de calificaclo
nes que recibió cada grado al final del curso. Así, de los 22 estudiantes con califica·
dones iguales o superiores a 30 en la prueba de razonamiento numérico, cinco por
ciento recibió calificaciones iguales o inferiores a O, ninguno recibió C, 36 por ciento
recibió By 59 por ciento A. En el otro extremo, de los 14 estudiantes con una califica·
ción inferior a I O en la prueba, 43 por ciento recibió calificaciones iguales o inferiores
a D, 36 por ciento C y 14 por ciento B. El anómalo siete por ciento que recibió A, que
representa un solo caso, finalmente es información inútil para propósitos de generali
zación, como es el caso del cinco por ciento con calificaciones iguales o superiores a
30 que recibió una calificación igual o menor a O, nuevamente representado por un
caso. No obstante, dentro de las Limitaciones de los datos disponibles, los porcentajes
de la tabla 3.6 proporcionan estimaciones de la probabilidad de que un individuo reci
birá una determinada calificación criterio. Por ejemplo, si un nuevo estudiante recibe
una puntuación de 24 en la prueba de razonamiento numérico del DAT (es decir, cae
en el intervalo 2029), debemos concluir que la probabilidad de que obtenga en el
curso una calificación de A es de 27 por ciento, la de que obtenga una calificación de
Bes 43 por ciento, etcétera.
En muchas situaciones practicas, los criterios pueden dicotornizarse como "éxito" y
"fracaso" en un trabajo, un curso o en otra empresa. En cales condiciones, puede pre
pararse una grdfica de expeccabilidodque muestre la probabilidad de éxito o fracaso que
corresponde a cada intervalo de calificación. La figura 3. 7 es un ejemplo de dicha gro·
flca, la cual se basa en una batería para la selección de pilotos elaborada por la fuerza
aérea de los Estados Unidos. La gráfica muestra el porcentaje de cadetes que califican
dentro de cada escanina de la batería y que no lograron completar el entrenamiento de
Normas y significado de las puntuaciones de los tests 83
5 34975 30%
4 23699 4°"
3 11 209 I s: 1%
2 2139 67%
1
904 I t77%
O 10 20 30 40 50 60 70 80 90 100
vuelo. Puede verse que el 77 por ciento de los cadetesque recibieron una estanina de l
fue eliminado del curso de entrenamiento, miencras que sólo cuatro por ciento de los
que obtuvieron una estanina 9 no logró completar el entrenamientosatisfactoriamen
te. Entre esos extremos, el porcentaje de fracasos disminuyó en forma constante a lo
largo de las estaninas sucesivas. Sobre la base de esta gráfica de expectabilidades pue
de predecirse, por ejemplo, que alrededor del 40 por ciento de los cadetes que obtie
nen una calificación estanina de 4 fracasaráy que cerca del 60 por ciento completará
satisfactoriamenteel entrenamiento de vuelo. Pueden hacerse afirmaciones similares
acerca de la probabilidad de éxito o fracaso de los individuosque reciben cada estani
na. Así, la probabilidad de que complete el entrenamiento un individuo con una cali
ficación estanina de 4 es de 60:40 o 3:2. Además de brindar una interpretación
referida al criterio de los resultados de la prueba, puede observarse que tanto las tablas
como las gráficas de expectabilidaddan una idea general de la validez de una prueba
para predecir un criterio determinado.Es por ello que al final del capítulo 6, en una
secciónsobre los modelosde decisión para el uso justo de las pruebas, haremos una re
visión más detallada de los procedimientosempíricos empleados para establecer pun
tuaciones de corte. En dicha sección también nos referimosa los procedimientos
matemáticos para el establecimiento de calificacionesde corte óptimas en diversas
condiciones.Las aplicacionesespecíficasde las puntuacionesde corteen las principa
les áreas de la práctica psicológica también pueden encontrarse en el capítulo 17.