You are on page 1of 31

Standards and Criteria*

Gene V Glass
 University of Colorado, Boulder

Una expresión común de ilusión es basar un gran esquema en un problema fundamental, no


resuelto. Los políticos delinean la política energética bajo el supuesto de que los físicos pronto
podrán controlar el intenso calor generado por la fusión nuclear. Los planificadores trazan el curso
futuro de la investigación del cáncer con la fe de que los descubrimientos básicos se harán en un
lugar. Aquellos que piensan en niveles elevados son propensos a subestimar la complejidad de lo
que parecen ser problemas menores. El utilitarismo en la ética es un ejemplo. “El mayor bien para
el mayor número” no solo es lógicamente inconsistente, ya que uno no puede maximizar dos
funciones simultáneamente, sino que, como política social, cae en el último obstáculo: no existe un
cálculo social por el cual se pueda calcular la cantidad. De buen resultado de una política social.
Los movimientos educativos contemporáneos presentan una situación similar: rendición de cuentas,
aprendizaje de dominio, evaluación basada en competencias educativas, requisitos mínimos de
graduación de competencias. Una búsqueda bibliográfica en cualquiera de estas categorías trae
consigo una gran cantidad de informes, discursos y documentos de posición. Los movimientos han
generado leyes, empleos, conferencias y comisiones distinguidas. Y, gran parte del lenguaje y el
pensamiento se basan en una noción común: que se puede especificar un nivel mínimo aceptable
de rendimiento en una tarea. Ya sea por el nombre de "dominio", "competencia" o "dominio", es la
misma noción fundamental. Un juez (técnico, profesional, etc.) inspecciona un ejercicio o tarea o
prueba y de alguna manera determina que el puntaje Cx representa dominio, competencia mínima,
competencia, etc. Un incidente reciente en Nueva Inglaterra podría ser un referente para los
distritos escolares de todo el país :

Por una votación de 6 a 2, la junta de educación en Stamford, Connecticut, ha adoptado una resolución que
requiere que los solicitantes para trabajos docentes "demuestren dominio del inglés escrito y hablado como
un requisito previo para ser contratados". La resolución también estipula los maestros que ahora trabajan en
las escuelas de Stamford se examinarían en inglés y los que se encuentren con "deficiencia en la comunicación"
recibirán instrucción de recuperación.

He leído los escritos de aquellos que afirman la capacidad de determinar el dominio o la


competencia de manera estadística o psicológica. Ellos no pueden Al menos, no pueden determinar
"niveles de criterio" o estándares que no sean arbitrariamente. Las consecuencias de las decisiones
arbitrarias son tan variadas que es necesario para reducir la arbitrariedad y, por lo tanto, la
impredecibilidad de las consecuencias de la aplicación de las normas, o bien abandonar la búsqueda
de niveles de criterio en favor de formas de utilizar los datos de prueba que son Menos arbitrario y,
por tanto, más seguro.
Esta monografía surgió de una serie de discusiones y de un período de seis meses de lectura y
reflexión sobre la literatura iniciada por las sugerencias de Fritz Mosher a la Evaluación Nacional del
Progreso Educativo (NAEP) para examinar la pregunta de los "estándares". Las conversaciones con
el propio Mosher y el personal de la NAEP han sido las más influyentes. El Comité Asesor de Análisis
de NAEP, bajo la presidencia de Fred Mosteller, demostró ser un riguroso campo de pruebas para
muchas de las ideas.
En las páginas siguientes, (a) examinaremos el uso habitual de las palabras "estándares" y "criterios"
en la literatura de medición; (b) rastrear la evolución de la noción de estándares de desempeño en
el movimiento de prueba con referencia al criterio; (c) analizar y criticar seis métodos para
establecer estándares de desempeño en pruebas basadas en criterios; y (d) reflexionar brevemente
sobre las fuerzas políticas que se han centrado en el tema de las normas.

"Normas" en el lenguaje común


El establecimiento de estándares o niveles de dominio se escribe con frecuencia como si fuera una
fase bien establecida y rutinaria de desarrollo instruccional. En conversaciones con especialistas en
medición y expertos en desarrollo instruccional durante los últimos años, me he quedado
literalmente estupefacto por la indiferencia con la que manejan el problema de las normas. Uno
informará que siempre establece un estándar de dos tercios de los ítems correctos para el dominio
porque es una especie de "tipo liberal". Otro experto informará que mantiene a los alumnos con un
70% de dominio, y un tercero avanza su estándar del 90% Con un aire de dureza mental y respeto
por la excelencia. Ninguno de ellos se molesta con consideraciones aparentemente extrañas como
la composición de los elementos de prueba y si serán abstrusos u obvios. En uno de los escritos
sagrados del movimiento de objetivos instruccionales, Robert F. Mager (1962) identificó el
establecimiento de normas como parte integral de la definición correcta de un objetivo:

Si podemos especificar al menos el desempeño mínimo aceptable para cada objetivo, tendremos un estándar
de desempeño con el cual probar nuestros programas de instrucción; tendremos un medio para determinar si
nuestros programas tienen éxito en lograr nuestra intención de instrucción. Lo que debemos tratar de hacer,
entonces, es indicar en nuestra declaración de objetivos cuál será el desempeño aceptable, agregando
palabras que describan el criterio de éxito. (p. 44)

Mager continuó para ilustrar lo que quería decir con un objetivo de comportamiento y su estándar
asociado:

El estudiante debe ser capaz de resolver correctamente al menos siete ecuaciones lineales simples dentro de
un período de treinta minutos. Dado un esqueleto humano, el estudiante debe poder identificarse
correctamente al etiquetar al menos 40 de los. . . huesos; No habrá penalización por adivinar. El estudiante
debe ser capaz de deletrear correctamente al menos el 80 por ciento de las palabras que se le llaman durante
un período de examen. (p. 44)

Este lenguaje de estándares de desempeño es pseudo-cuantificable, una aplicación sin sentido de


números a una pregunta no preparada para el análisis cuantitativo. Un maestro, un psicólogo o un
lingüista simplemente no puede establecer estándares significativos de desempeño para las
actividades como imprecisamente definidas como "deletrear correctamente las palabras que se
mencionan durante un período de examen". Y, se hace un pequeño avance hacia una solución al
problema especificando mayores detalles sobre Cómo se construirán las preguntas, tareas o
ejercicios.
¿Se puede establecer un estándar de rendimiento más significativo para un objetivo tan molecular
como "el alumno podrá discriminar la combinación de grafema‘ vocal + r ’escrita" ir "de otros
grafemas"? ¿Se puede afirmar con confianza sobre este objetivo estrecho de que un alumno debería
poder realizar 9 de cada 10 discriminaciones correctas? De hecho, este objetivo aparece en la prueba
de lectura de Stanford, donde se evalúa mediante dos ítems diferentes:

a) "Marque la palabra" firma "(leído por el supervisor)


___ firma ___ forma ___farm
b) “Marque la palabra 'niña'” (leído por el supervisor)
___ objetivo ___ niña ___grill

Los porcentajes de alumnos de segundo grado en la población normal que respondieron a los ítems
a) y b) correctamente fueron 56% y 88%, respectivamente. Cualquier estándar de rendimiento, por
ejemplo, "8 de 10 correctos", para un grupo de elementos como el elemento "a" sería bastante
inadecuado para un grupo de elementos como el elemento "b", ya que son muy diferentes en
dificultad. Los resultados de una evaluación de séptimo grado realizada por el Departamento de
Educación de Nueva Jersey ilustran el mismo punto. Los alumnos promediaron 86% en la suma
vertical, pero solo 46% en la suma horizontal. Los caprichos de la enseñanza y la medición son tan
poco conocidos que la declaración a priori de los estándares de desempeño es temeraria.
Benjamin S. Bloom (1968), cuyo nombre se ha asociado estrechamente con la noción de
"aprendizaje de la maestría", ha escrito sobre psicología de la instrucción de maneras que dependen
fundamentalmente de las nociones de estándares de desempeño:

La mayoría de los estudiantes (quizás más del 90 por ciento) pueden dominar lo que tenemos que enseñarles.
(p. 1)
Hay pocas dudas de que las escuelas ahora proporcionan experiencias de aprendizaje exitosas para algunos
estudiantes, tal vez tan alto como un tercio de los estudiantes. Si las escuelas deben proporcionar experiencias
de aprendizaje satisfactorias y satisfactorias para al menos el 90 por ciento de los estudiantes, se deben
realizar cambios importantes en las actitudes de los estudiantes, maestros y administradores ... (p.2)
Por lo tanto, estamos expresando la opinión de que, dado el tiempo suficiente (y los tipos de ayuda
adecuados), el 95 por ciento de los estudiantes ... puede aprender un tema hasta un alto nivel de dominio.
Estamos convencidos de que el grado de A como índice de dominio de una materia puede, bajo condiciones
apropiadas, alcanzarse por hasta el 95 por ciento de los estudiantes en la clase. (p. 4)

Popham (1973), escribiendo sobre objetivos de instrucción para maestros en capacitación, reafirmó
la centralidad de los estándares de desempeño:

Sin embargo, hay otra dimensión en la escritura objetiva, una dimensión que ayuda al maestro a planificar y
evaluar su instrucción. Implica establecer estándares de desempeño, es decir, especificar antes de la
instrucción los niveles mínimos de rendimiento de los alumnos. (p. 3)

La noción de estándares de desempeño se ilustra repetidamente en el manual para maestros de


Popham:

En una clase de matemáticas, el estudiante podrá resolver diez de los quince problemas del perímetro. (p. 3)
El estudiante podrá identificar correctamente, a través de procedimientos de análisis químico, al menos cinco
sustancias desconocidas. (p. 6)
Wiersma y Jurs (1976), al describir el componente de evaluación instruccional de Educación guiada
individualmente (el plan instructivo del Centro de Investigación y Desarrollo de la Universidad de
Wisconsin), dieron la siguiente descripción de las pruebas: referenciado por criterios

Cuando la puntuación de desempeño de un individuo se interpreta con referencia a un criterio establecido y


sin referencia al nivel de desempeño de un grupo, tenemos una interpretación de referencia de criterio. El
criterio generalmente se establece antes de realizar cualquier medición real. El criterio o criterios
generalmente se establecen en los objetivos de instrucción o en suplementos a los objetivos establecidos. Por
ejemplo, una lista de objetivos puede tener una declaración adjunta que indique que cuando los estudiantes
obtienen una puntuación del 90 por ciento correcta en la prueba relacionada, se debe considerar que han
alcanzado los objetivos. (p. 14)

Al detallar el papel de las pruebas en los programas de evaluación, Ralph W. Tyler (1973) ilustró un
estándar de desempeño para determinar el dominio:

Por ejemplo, en la lectura primaria, los niños que ingresan sin haber aprendido a distinguir letras y sonidos
pueden ser evaluados para el final del año en reconocimiento de letras, asociación de letras con sonidos y
reconocimiento de palabras de las cien palabras más comunes. Para cada una de estas "cosas por aprender"
específicas, al niño se le presentará una muestra lo suficientemente grande de ejemplos para proporcionar
evidencia confiable de que podría reconocer las letras del alfabeto, podría asociar los sonidos apropiados con
cada letra, solo y en palabras, y él podía reconocer las cien palabras más comunes. Un niño ha demostrado
dominio de conocimientos, habilidades o habilidades específicas cuando realiza correctamente el 85 por
ciento de las veces. (Se necesita una pequeña asignación, como el 15 por ciento, para los lapsos comunes a
todas las personas). (P. 105)

El personal de la Evaluación Nacional del Progreso Educativo ha lidiado con el problema de los
estándares de desempeño durante años para casi la satisfacción de nadie. Aunque nunca han
adoptado una posición oficial al respecto, sí cooperaron con el Consejo Nacional para los Estudios
Sociales en un esfuerzo por aplicar estándares de desempeño a los resultados de las evaluaciones
de ciudadanía y estudios sociales (Feria, 1975). Se formó un panel totalmente representativo de
nueve jueces (3 minorías, 5 mujeres, 3 menores de 30 años). A cada juez se le mostró un ítem de
evaluación y luego se le preguntó: “¿Qué nivel de rendimiento a nivel nacional para el nivel de edad
que se considera sería más satisfactorio para este ejercicio?

(1) menos del 20% correcto, (2) 20-40%, (3) 41-60%, (4) 61-80%, o (5) más del 80%? "El panel emitió
más de 5,000 juicios en una sesión de tres días, y se informó que "... los miembros del panel
estuvieron de acuerdo más a menudo que no, pero a veces distribuyeron sus respuestas en todas
las categorías disponibles" (Feria, 1975, p. 45). Alrededor de la mitad de los ejercicios recibieron un
"nivel de rendimiento satisfactorio" de "más del 80%". Alrededor del 35% de los ejercicios satisfarían
al panel si entre el 60% y el 80% de los examinados respondieran correctamente. Los niveles de
rendimiento deseados generalmente estaban por encima de las tasas reales de respuesta correcta.
¿Qué se debe hacer de la brecha? Debe ser leído como evidencia de la deficiencia del sistema
educativo; ¿O es un testimonio de las aspiraciones del panel, el ajetreo estadounidense y el espíritu
humano indomable ("El alcance del hombre debe exceder su alcance, etc.")?
El lector puede preguntar de manera justificable: “¿Qué tipo de discurso están realizando estos
expertos?”. ¿Cómo se puede considerar tales afirmaciones como “el estudiante debe ser capaz de
resolver correctamente al menos siete ecuaciones lineales simples en treinta minutos”?
o "¿el 90 por ciento de todos los estudiantes pueden dominar lo que tenemos que enseñarles?" Si
tales declaraciones deben ser cuestionadas, ¿deberían ser cuestionadas como afirmaciones que
emanan de la psicología, las estadísticas o la filosofía? ¿Mantienen algo sobre el aprendizaje o algo
sobre la medición? ¿Son afirmaciones empíricas incomprensibles o son simplemente retórica
educativa hablada más por efecto que por sustancia?

La Evolución de las Pruebas de Criterio de Referencia


Una digresión histórica puede contribuir mucho a aclarar la evolución de la noción contemporánea
de una "prueba de referencia de criterio". El primer uso conocido del término "prueba de referencia
de criterio" fue realizado por Robert Glaser en un capítulo sobre evaluación del desempeño humano,
que fue coautor de David Klaus y publicado en un libro editado por Robert Gagne en 1962. Este
tratamiento inicial del tema fue precedido por un año de la ampliamente leída y mejor conocida
publicación de Glaser, "Tecnología de instrucción y la medición de los resultados de aprendizaje" en
la American Psicóloga, 1963.
Glaser (1963) trató de enfatizar la importancia de hacer que los puntajes sean informativos sobre el
comportamiento en lugar de simplemente sobre el desempeño relativo en dimensiones poco
especificadas y vagamente conocidas que se asume que están detrás de un puntaje de prueba:

El concepto de medición de logros se basa en la noción de un continuo de adquisición de conocimientos que


va desde la no competencia hasta el desempeño perfecto. El nivel de logro de un individuo cae en algún punto
de este continuo, como lo indican los comportamientos que muestra durante las pruebas. El grado en que su
logro se asemeja al desempeño deseado en cualquier nivel específico se evalúa mediante medidas de logro o
competencia basadas en criterios. El estándar contra el cual se compara el desempeño de un estudiante
cuando se mide de esta manera es el comportamiento que define cada punto a lo largo del continuo de logros.
El término "criterio", cuando se usa de esta manera, no necesariamente se refiere al comportamiento final de
final de curso. Los niveles de criterio se pueden establecer en cualquier punto de la instrucción donde sea
necesario obtener información sobre la idoneidad del desempeño de un individuo. El punto es que los
comportamientos específicos implícitos en cada nivel de competencia pueden identificarse y usarse para
describir las tareas específicas que un estudiante debe ser capaz de realizar antes de lograr uno de estos
niveles de conocimiento. Es en este sentido que las medidas de competencia pueden ser basadas en criterios.

A lo largo de este continuo de logros, la puntuación de un estudiante en una medida basada en criterios
proporciona información explícita sobre lo que el individuo puede o no puede hacer. Las medidas referidas al
criterio indican el contenido del repertorio de comportamiento, y la correspondencia entre lo que hace un
individuo y el continuo subyacente de logros. Las medidas que evalúan los logros de los estudiantes en
términos de un criterio de criterio proporcionan información sobre el grado de competencia alcanzado por un
estudiante en particular que es independiente de la referencia al desempeño de otros. (pp. 519- 520)

En los escritos tempranos de Glaser, había algunos indicios de que las pruebas referidas a criterios
podían usarse para establecer puntajes de corte entre competencia e incompetencia, o que las
distinciones entre pasar y fallar y dominio y no dominio tienen sentido psicológico. Más bien, como
lo revela la cita anterior, se asume que hay "... un continuo de adquisición de conocimientos que va
desde la ausencia de competencia hasta el desempeño perfecto" y el "... grado de competencia
alcanzado por un estudiante en particular [énfasis agregado] Es lo que se valora. La competencia se
concibe como una característica del continuo.

Hay, a lo sumo, sugerencias ambiguas de que existe un solo punto en el que la competencia se
convierte en incompetencia. Solo una vez en su papel inicial, Glaser (1963) se adueñó de la retórica
de las puntuaciones de corte:

Necesitamos especificar niveles de desempeño mínimos que describan la menor cantidad de competencia de
final de curso que se espera que el estudiante alcance, o que necesita para continuar con el siguiente curso
en una secuencia. (p. 520)

Casi al mismo tiempo que Glaser estaba desarrollando sus pensamientos acerca de la medición
basada en criterios, Mager (1962) publicó lo que pronto sería su exposición ampliamente leída y
muy influyente sobre objetivos de comportamiento, Preparación de objetivos instructivos. El pasaje
en el texto de Mager (1962) más pertinente para rastrear el desarrollo de ideas contemporáneas de
pruebas basadas en criterios fue citado anteriormente en esta monografía y se repite aquí:

Si podemos especificar al menos el desempeño mínimo aceptable para cada objetivo, tendremos un estándar
de desempeño con el cual probar nuestros programas de instrucción; tendremos un medio para determinar si
nuestros programas tienen éxito en lograr nuestra intención de instrucción. (p. 44, énfasis añadido)

Por lo tanto, Mager agregó la idea del estándar de desempeño a la larga noción del objetivo de
comportamiento.
Los escritos de Glaser y Mager fueron influyentes en el desarrollo de las pruebas y la evaluación a
mediados de los años sesenta. Entre las personas significativamente influenciadas por ambos estaba
W. James Popham. De hecho, Popham parece haber desempeñado un papel primordial en la fusión
del lenguaje de Glaser y Mager.

En 1969, Popham y Husek escribieron uno de los artículos más citados sobre pruebas basadas en
criterios. Escribieron sobre la "medición basada en criterios" y utilizaron el término "estándar de
rendimiento" de Mager:

Las medidas referidas a criterios son aquellas que se utilizan para determinar el estado de un individuo con
respecto a algún criterio, es decir, el estándar de desempeño. (p. 2)

El uso de la palabra "criterio" por parte de Glaser con su significado coloquial de "estándar", la
publicación simultánea de las nociones bastante simples de Mager de los estándares de rendimiento
y la mezcla de Glaser y Mager de Popham en el mismo bote combinados para crear la impresión de
que el "criterio" en las pruebas de referencia de criterio no fue la escala de comportamiento
articulada a una prueba y la elaboración del significado de las puntuaciones, sino que el "criterio"
fue la puntuación de corte, la división entre aprobación-falla, dominio-no dominio y competencia
incompetencia. Esta interpretación de la palabra "criterio" es evidente en la conversación informal
de educadores y especialistas en medición. Este significado se entiende cuando las personas hablan,
como lo hacen ahora habitualmente, de "establecer el criterio en una prueba o ítem de prueba con
referencia a criterios". Además, está claro que los estadísticos y psicométricos que se han dirigido al
análisis matemático de criterios Las pruebas referenciadas han tenido en mente este significado de
"criterio". Axiomatizan el problema de las pruebas de referencia según el criterio de la siguiente
manera: "Considere una calificación Cx en una prueba de tal manera que las personas con
puntuaciones verdaderas por encima de Cx" pasen "la prueba".
Cuando Glaser y Nitko (1971) buscaron aclarar el significado de “referencia a criterios” unos ocho
años después de los documentos originales de Glaser, la noción de
El estándar de rendimiento se arrastró al final de la definición:

Una prueba de referencia de criterio es aquella que se construye deliberadamente para obtener mediciones
que se puedan interpretar directamente en términos de estándares de desempeño especificados ... Los
estándares de desempeño generalmente se especifican al definir algún dominio de tareas que el estudiante
debe realizar. Muestras representativas de las tareas de este dominio se organizan en una prueba. Las
mediciones se toman y se utilizan para hacer una declaración sobre el rendimiento de cada individuo en
relación con ese dominio. (p. 653)

El concepto de una norma de desempeño estuvo ausente de la definición de Harris y Stewart (1971)
de una prueba de criterio de referencia:

Una prueba basada en criterios puros es una que consiste en una muestra de tareas de producción extraídas
de una población bien definida de desempeños, una muestra que puede usarse para estimar la proporción de
desempeños en esa población en la que el estudiante puede tener éxito. (p. 1)

La definición de Iven (1970) evitó de manera similar cualquier sugerencia de un estándar de


desempeño y una evaluación no comparativa: una prueba basada en criterios es una "que
comprende elementos relacionados con un conjunto de objetivos de comportamiento" (p. 2).
Lindvall y Nitko (1975) enumeraron cuatro características definitorias de una prueba basada en
criterios, ninguna de las cuales sugiere un estándar de desempeño o puntaje de corte:

... hay cuatro características inherentes a las pruebas de referencia de criterio:


1. Las clases de comportamientos que definen diferentes niveles de logro se especifican lo más claramente
posible antes de que se construya la prueba.
2. Cada clase de comportamiento se define por un conjunto de situaciones de prueba (es decir, elementos de
prueba o tareas de prueba) en las que se pueden mostrar los comportamientos y todos sus matices
importantes.
3. Dado que se han especificado las clases de comportamiento y que se han definido las situaciones de prueba,
se diseña y utiliza un plan de muestreo representativo para seleccionar las tareas de prueba que aparecerán
en cualquier forma de la prueba.
4. El puntaje obtenido debe ser capaz de ser referenciado objetivamente y de manera significativa a las
características de desempeño del individuo en estas clases de comportamiento. (p. 76)

En la actividad de principios de la década de 1970, se olvidó en gran medida que los primeros
principios de las pruebas basadas en criterios eran inciertos y tentativos. La creencia llegó a ser
ampliamente aceptada de que las pruebas basadas en criterios llevan consigo un estándar de
desempeño o puntaje de corte que indica dominio. Para 1976, la interpretación del "puntaje de
corte" de las pruebas referidas a criterios había avanzado tanto que en un simposio de AERA titulado
Pruebas con criterios de referencia, cuatro de los cinco artículos eran esencialmente tratamientos
psicométricos del problema de puntajes de corte (AERA 1976 Programa de la Reunión Anual, página
187, sesión 27.03).
El pensamiento de Glaser después de su artículo seminal de 1963 ha evolucionado hacia una
apreciación más completa del complejo y variado tejido del comportamiento y las pruebas. La
elección de Glaser del término "criterio" fue sugerida con bastante sensatez por el uso del término
en psicometría clásica. Allí, la palabra "criterio" denota una escala de medición utilizada para validar
una prueba o una escala psicométrica. Generalmente es una escala formada por la observación o el
registro de la conducta que el instrumento psicométrico debe predecir. Por ejemplo, la prueba
psicométrica podría ser un inventario de interés vocacional de papel y lápiz, y el criterio, una escala
de las elecciones ocupacionales reales de las personas. O, la prueba podría ser el rendimiento en un
tablero de formularios, y el criterio, una evaluación de la velocidad y precisión de los empleados en
el manejo de una caja registradora.
Fue en este sentido psicométrico clásico que Glaser (comunicación personal, 1976) intentó que se
entendiera el término "criterio" en las pruebas basadas en criterios. Visualizó pruebas
estrechamente articuladas a los comportamientos relevantes que la psicometría tradicional
incorporaba en la escala de criterio, pero rara vez en la prueba en sí.
La evolución del significado de "criterio" en las pruebas de referencia de criterio es, de hecho, un
estudio de caso en confusión y corrupción de significado. Encontramos que una lectura cuidadosa
de los pensamientos de Glaser sobre la naturaleza y el uso de las pruebas basadas en criterios es
convincente, y contienen poca de la sugerencia de Mager de que los estándares de rendimiento se
crearán ex nihilo y se utilizarán para decidir el dominio o el no dominio. La coincidencia en el tiempo
del trabajo de Glaser y Mager, y el entusiasmo entusiasta de Popham en ambas posiciones han
creado la confusión contemporánea de los dos. Además, la mezcla indiscriminada del pensamiento
de Glaser y Mager ha dado fuerza a las observaciones convincentes de Glaser sobre las pruebas de
las recomendaciones menos defendibles de Mager sobre "estándares de desempeño".
Jackson (1970) probablemente describió mejor la concepción actual de Glaser de las pruebas
basadas en criterios cuando escribió: "... el término 'referenciado por criterios' se usará aquí para
aplicar solo a una prueba diseñada y construida de una manera que defina reglas explícitas. vincular
los patrones de rendimiento de las pruebas con los referentes de comportamiento ”(p. 3). Son los
matemáticos y otros simplificadores quienes tradujeron prematuramente una noción tentativa, una
que debe esperar el desarrollo de una psicología instructiva y de aprendizaje más sofisticada, en la
idea de "puntajes de corte" y "niveles de dominio". Si alguna vez hubo una El concepto educativo
mal preparado para el tratamiento matemático, es la idea de la referencia a criterios.
Varias personas que leyeron borradores anteriores de esta monografía me instaron a hacer el mismo
punto. Temían que las críticas a los métodos para establecer estándares o puntos de corte pudieran
interpretarse descuidadamente como críticas a nociones asociadas que están lógicamente
separadas, en especial las "pruebas de referencia de dominio". Estaba convencido de que se
necesitaba una advertencia. Pero dónde colocarlo es un problema; uno no puede predecir dónde
alguien podría dibujar una asociación injustificada. La advertencia tendrá que caber aquí, ya sea que
parezca o no el lugar adecuado.
Las objeciones planteadas contra las pruebas de referencia de criterio hasta este punto y más allá
se refieren a la noción de puntaje de corte, estándar o nivel de criterio. No se aplican a las nociones
de pruebas de referencia de dominio ni a ninguna otra sugerencia sensata para escribir pruebas.

Métodos de determinación del criterio

Dejando a un lado las cuestiones del significado previsto de "prueba referenciada a criterio",
debemos analizar detenidamente el trabajo que ha generado el significado corrompido de la palabra
"criterio", es decir, el sentido de criterio como estándar, nivel de dominio, puntuación de corte, o
marca de aprobación-falla. La palabra "criterio" por ahora se toma como sinónimo de "estándar" o
"corte" y no en el sentido de una escala de comportamiento ligada o articulada a una escala de
prueba.
Hemos identificado seis clases de técnica para determinar el puntaje de criterio en una prueba de
referencia de criterio:

1. Rendimiento de los demás;


2. "Contando hacia atrás desde el 100%";
3. Arranque en otras puntuaciones de criterios;
4. Juzgar la competencia mínima;
5. Enfoques teóricos de decisión;
6. Métodos de “Investigación de Operaciones”.

El desempeño de los demás como criterio


Algunos niveles de criterio se establecen por referencia a los parámetros de las poblaciones
existentes de examinados. Por lo tanto, el criterio o nivel de dominio en una prueba puede
establecerse como la puntuación de la prueba mediana obtenida por personas de cierto tipo. Hay
algunos ejemplos destacados de este método de establecimiento de criterios.
El Examen de Competencia de la Escuela Secundaria de California se creó como un instrumento para
determinar si los estudiantes mayores de 16 años deben ser certificados (no "graduados") y ser
dados de alta de la escuela secundaria. La implementación de este examen creó el problema de
establecer una calificación aprobatoria. Se determinó que el percentil 50 de los graduados de la
tercera edad constituiría el puntaje de criterio. Por lo tanto, el criterio se determinó normativamente
y no por referencia directa a los comportamientos exhibidos en la prueba (solo en la medida en que
los comportamientos se reflejen en el percentil 50).
En Arizona, se instituyó un examen de último año para posibles graduados. Se estableció un nivel de
competencia como 9,0 unidades de grado equivalente en una prueba de rendimiento de lectura
estandarizada. Pero como 9.0 unidades equivalentes de grado en la prueba de rendimiento es una
puntuación de escala definida como la puntuación media obtenida por los estudiantes de noveno
grado en septiembre, lo que para algunos puede parecer una puntuación informativa sobre el
comportamiento es, de hecho, meramente normativo.
Estos ejemplos revelan que usar el desempeño de otros en estas formas para establecer un puntaje
de criterio es, de hecho, pura referencia a normas; y, por lo tanto, como un medio para establecer
el criterio, esto seguramente debe ser una ligera vergüenza para los proponentes de las pruebas
basadas en criterios que han intentado a menudo construir su propia casa derribando la de los
evaluadores referenciados a las normas.

“Contando hacia atrás desde el 100%”

Muchos puntajes de criterio parecen haber sido establecidos de una manera apropiada, aunque tal
vez de forma simpática, se refirió a un "conteo hacia atrás desde el 100%". Se establece un objetivo
y se escribe un elemento de prueba para corresponderlo. Dado que se considera que el objetivo es
importante, o de lo contrario no se habría declarado, su autor respalda fácilmente la proposición de
que todos deberían poder responder a la pregunta de la prueba basada en ella, es decir, el "nivel de
rendimiento deseado" es del 100%. . Pero la razón y la experiencia prevalecen y se reconoce
rápidamente que la perfección es imposible y se deben hacer concesiones para la enfermedad
mental, los errores de oficina, la desinformación, la falta de atención, etc. El hecho de que se haga
una concesión se vuelve angustiosamente arbitrario, y algunos permiten un 5%. Deficiencia y otros
que permiten un 20% o más. Por ejemplo,

Un niño ha demostrado dominio de conocimientos, habilidades o habilidades específicas cuando


realiza correctamente el 85 por ciento de las veces. (Se necesita una pequeña asignación, como el
15 por ciento, para los lapsos comunes a todas las personas). (Tyler, 1973, p. 105)

Si el criterio se establece en términos de porcentaje de elementos de prueba (por ejemplo, el 95%


de estos elementos serán respondidos por cada estudiante), entonces la arbitrariedad al contar al
revés desde el 100% puede tener consecuencias aún más graves. Si el Experto A establece el criterio
en el 95% y el Experto B lo establece en el 90%, la diferencia en el porcentaje de examinados que
alcanzan los dos niveles diferentes de criterio puede variar mucho (por ejemplo, de 10% en el primer
caso a 50% en el último). ).
Cuando se deja de contar (por ejemplo, al 99% o al 95% u 80%) se controla de forma manifiesta el
porcentaje que se considera que ha alcanzado el criterio. Pero la diferencia entre fallar un 5% y fallar
un 25% de los alumnos puede ser crucial; y si es así, no debe decidirse por un proceso de juicio tan
sujeto a caprichos e idiosincrasia como este.

Bootstrapping en otras puntuaciones de criterio


Según esta técnica, rara vez, si es que alguna vez he empleado, pero sugerida rápidamente por una
consideración del problema, el puntaje de un criterio en una prueba se determina al articular la
prueba con una designación externa de "éxito" o "dominio". Por ejemplo, uno podría primero
identificar a aquellos candidatos para la barra (o para la certificación como barberos, cosmetólogos,
actuarios, agentes de bienes raíces, dentistas, etc.) que lograron la certificación con éxito. Este
grupo, entonces, es un grupo de personas “competentes”, juzgadas por otros medios. Estudiando la
distribución de sus puntuaciones en la prueba en cuestión, tal vez se pueda establecer una
puntuación de criterio en la prueba para separar a los competentes de los incompetentes.
Hay al menos dos problemas con esta técnica. Primero, suponga que se realizó un examen a los
posibles agentes inmobiliarios y que la junta de licencias de agentes de bienes raíces estableció el
puntaje límite. Si la segunda prueba en la que el evaluador con criterio de referencia quería
establecer el puntaje de criterio está menos que perfectamente correlacionada con el examen de
licenciamiento (como seguramente lo sería), entonces cualquier puntaje en la prueba de criterio de
referencia (CRT) será superado por algunos de los agentes inmobiliarios autorizados, pero no
superado por otros (como en la Figura 1, a continuación).
El posicionamiento de la puntuación de criterio en la prueba de referencia de criterio no se puede
hacer para que exista una correspondencia perfecta entre los que aprueban el examen de
licenciamiento y los que aprueban la prueba de criterio de referencia. Por lo tanto, se convierte en
arbitrario cuando en la prueba de referencia de criterio se dibuja el corte. La arbitrariedad puede
disimularse parcialmente mediante la adopción de técnicas teóricas de decisión para minimizar o
maximizar varias funciones de costo de "falsos negativos" y "falsos positivos" (consulte la Figura 1),
pero nunca se eliminarán. (El enfoque de la teoría de la decisión para establecer el puntaje de
criterio se discute en Enfoques de la Teoría de la Decisión).
La segunda dificultad para establecer puntajes de criterio en pruebas de referencia de criterio por
articulación con puntaje de aprobación en algún otro examen o juicio externo es que al hacerlo, uno,
en efecto, plantea la cuestión de la posibilidad de establecer tal estándar en primer lugar. Uno podría
preguntarse: "¿Cómo puede el agente de licencias racionalizar su elección?" Si la elección puede ser
racionalizada, entonces los métodos por los cuales se derivó deberían ser identificables, y por lo
tanto podrían aplicarse al problema de establecer el puntaje de criterio en Las pruebas de criterio
de referencia.
Cuando uno pregunta qué métodos se utilizan para establecer puntajes de corte en instrumentos
tales como pruebas de servicio civil, exámenes de licencias, etc., se encuentra que los métodos
tienen poco que ver con el análisis psicológico-conductual. Contrariamente a la concepción popular,
los exámenes de la administración pública no tienen puntajes de "aprobación"; más bien, se
examinan los candidatos, se clasifican sus puntajes y uno realiza una cuenta regresiva desde la parte
superior de la lista de examinados hasta que se llenan todos los trabajos disponibles. Los exámenes
escritos para licenciar a los conductores de automóviles tienen puntajes de aprobación,
generalmente alrededor del 90% de las preguntas. Si la cantidad de errores permitidos es 2 o 5 o 10
es completamente arbitrario, y hay pocas razones para creer que las autopistas serían menos
seguras si la tasa de error permitida en la prueba se duplicara o triplicara. Los puntajes de aprobación
de los exámenes de licenciatura (para barberos, dentistas, médicos, psicólogos, etc.) se rigen casi
exclusivamente por los principios de la oferta y la demanda de mano de obra en el mercado laboral.
Estos puntos de corte no tienen prácticamente nada que ver con juicios defendibles de competente
frente a incompetente. Por lo tanto, es como si uno alcanzara a levantarse por sus botas y no
encontrara ninguno allí.

No mantengo que la licencia o que estas pruebas no permitan una evaluación sensata, no personal,
no están correlacionadas con la demarcación arbitraria de las puntuaciones en dos con vlid, criterios
importantes, en las categorías descritas por palabras e ideas de sentido psicométrico clásico.

Por lo general, les gusta "competente frente a incompetente", "hábil es experto y por ley (Griggs
contra Duke Power contra no calificado", "conocedor de vs. co.) Debe serlo. Me mantengo, sin
embargo, sin saberlo ".
Nota:
A Personas en el cuadrante II aprueban el CRT pero suspenden el examen de licencia.
B Las personas en el cuadrante IV aprueban el examen de licencia, pero no pasan el CRT.

Figura 1. Relación entre una prueba basada en criterios y un examen externo

Juzgando la competencia mínima


En este enfoque, los expertos estudian una prueba o un ítem o un ejercicio y luego declaran que una
persona "mínimamente competente" debería calificar tal y cual. Esta ha sido la dirección adoptada
en la legislación de Oregón y Nueva Jersey para intentar controlar la graduación de la escuela
secundaria. Dos refinamientos de esta técnica se deben a Nedelsky (1954) y Ebel (1972).
Nedelsky describió su técnica de la siguiente manera:
La técnica propuesta para obtener el puntaje mínimo de aprobación en una prueba objetiva, cada
uno de los cuales tiene una única respuesta correcta, es la siguiente:

Instrucciones para instructores

Antes de dar la prueba, los instructores del curso reciben copias de la prueba y las siguientes instrucciones:

En cada ítem de la prueba, tache las respuestas que el estudiante con la D más baja debería poder rechazar
como incorrectas. A la izquierda del elemento, escriba el recíproco del número de las respuestas restantes.
Por lo tanto, si tachas una de cada cinco respuestas, escribe 1/4.
Ejemplo. (El ejemplo debe ser preferiblemente uno de los ítems de la prueba en cuestión).
La luz tiene características de onda. ¿Cuál de las siguientes es la mejor evidencia experimental para esta
afirmación?

A La luz puede ser reflejada por un espejo.


B La luz forma bandas oscuras y claras al pasar por una pequeña abertura.
C Un rayo de luz blanca se puede dividir en sus colores componentes mediante un prisma.
D La luz transporta energía.
1/4 E La Luz opera una célula fotoeléctrica.

Acuerdo Preliminar de Normas

Después de que los instructores hayan marcado unos cinco o seis elementos siguiendo las
instrucciones anteriores, se recomienda que celebren una breve conferencia para comparar y
discutir los estándares que han utilizado. También puede ser bueno que en este momento estén de
acuerdo en un valor tentativo de k constante (consulte la sección sobre la puntuación de aprobación
mínima). Después de una conferencia de este tipo, los instructores deben proceder de forma
independiente.

Terminología

Al describir el método para calcular la puntuación correspondiente al grado más bajo de D, es


conveniente la siguiente terminología:

a. Las respuestas que el estudiante D más bajo debería poder rechazar como incorrectas, y que, por
lo tanto, deberían ser atractivas para los estudiantes F, se llaman respuestas F. En el ejemplo
anterior, la respuesta E fue la única respuesta F en la opinión del instructor que marcó el elemento.
b. Los estudiantes que poseen el conocimiento suficiente para rechazar las respuestas F y deben
elegir entre las respuestas restantes al azar, se llaman estudiantes F-D, para sugerir el conocimiento
de la línea de frontera entre F y D.
c. La puntuación media más probable de los estudiantes de F-D en una prueba se llama puntuación
de conjetura de F-D y se denota por MFD. Como se mostrará más adelante, MFD es igual a la suma
de los recíprocos de los números de respuestas que no sean F-respuestas.

(En el ejemplo anterior, el recíproco es 1/4.)


d. El valor más probable de la desviación estándar correspondiente a MFD se denota por σFD.
Debe quedar claro que "estudiantes de F-D" es una abstracción estadística. El estudiante que puede
rechazar las respuestas F para cada elemento de una prueba y, sin embargo, elegirá al azar entre el
resto de las respuestas probablemente no exista; más bien, los estudiantes cuyos patrones de
respuestas varían ampliamente, obtendrán puntuaciones iguales a las de la DMF.

El puntaje mínimo de aprobación

Los siguientes párrafos están citados de Nedelsky (1954). “La puntuación correspondiente a la D más
baja se establece igual a MFD + kσFD, donde MFD es la media del MFD obtenido por varios
instructores, y k es una constante cuyo valor está determinado por varias consideraciones. Los
estudiantes de F-D se caracterizan no tanto por el conocimiento positivo que poseen como por ser
capaces de evitar ciertos juicios erróneos. La mayoría de los instructores que han utilizado la técnica
de puntuación de conjetura F-D han considerado que esta norma de "ausencia de ignorancia" es
leve, y que, por lo tanto, la puntuación mínima para aprobar debe ser tal que la mayoría de los
estudiantes de F-D no aprueben. Al asignar a k los valores -1, 0, 1 y 2 (en promedio) fallarán
respectivamente 16 por ciento, 50 por ciento, 84 por ciento y 98 por ciento de los estudiantes de F-
D. Se puede llegar a una decisión final informada sobre el valor de k después de que los instructores
hayan elegido las respuestas F, ya que en ese momento se encuentran en una mejor posición para
estimar el rigor de los estándares que han estado usando. Sin embargo, manteniendo el espíritu de
los estándares absolutos, el valor de k debería acordarse antes de que se calculen los valores de
MFD y, sin duda, antes de que se conozcan los puntajes de los estudiantes.
Es la esencia de la técnica propuesta que se llega a la norma de logro mediante una consideración
detallada de los elementos individuales de la prueba. Solo se deben realizar ajustes menores
variando el valor de k. La razón para introducir k constante, con la flexibilidad y ambigüedad que lo
acompaña, es que las respuestas F en la mayoría de los exámenes varían entre dos extremos; el muy
incorrecto, cuya elección indica una ignorancia grave, y el moderadamente incorrecto, el rechazo de
la cual indica un conocimiento pasajero. Si una prueba en particular tiene predominantemente el
primer tipo de respuestas F, esta peculiaridad de la prueba puede corregirse dando a k un valor alto.
De manera similar, un valor bajo de k corregirá el predominio del segundo tipo de respuestas F. Se
espera que en la mayoría de los casos, un cambio de no más de + .5 en el valor tentativo de k
acordado durante la conferencia preliminar debería introducir la corrección necesaria. Sería difícil
encontrar una justificación teórica para valores de k tan altos como dos; para más pruebas, el valor
k = 0 es probablemente demasiado bajo. Esto sugiere un rango de valores de trabajo bastante
estrecho, digamos entre 0.5 y 1.5 con el valor k = 1 como un buen punto de partida.
“Si una parte A de una prueba dada consta de ítems de NA, cada uno de los cuales tiene respuestas
de SA no F (una de las cuales es la respuesta correcta), el puntaje de conjetura de FD para cada ítem,
es decir, la probabilidad de que un estudiante de FD obtener la respuesta correcta en cualquier
elemento, es PA = 1 / SA. Los valores más probables de la media y el cuadrado de la desviación
estándar en esta parte de la prueba están dados por MA = PANA y σA: = PA (1 - PA) NA. MFD = ΣMFD,
A y σFD = ΣσA. los

El valor de MFD debe calcularse con precisión para cada prueba. σFD, sin embargo, se le puede dar
un valor aproximado. En una prueba de cinco ítems de respuesta, S puede variar de uno a cinco. Si
estos cinco valores son igualmente frecuentes, σFD = .41 (N). Si, por otro lado, los valores extremos,
S = 1 y S = 5, son menos frecuentes que los otros tres valores, como parece probable que sea cierto
para la mayoría de las pruebas, .41 (N) <σFD <.50 N. Como kσFD suele ser mucho más pequeño que
el MFD, las aproximaciones están en orden. Con k = 1 y σFD = .45 (N), la ecuación, Puntuación de
aprobación mínima = MFD + .45 N, debería funcionar bastante bien en la mayoría de los casos y, por
lo tanto, se recomienda como punto de partida para experimentar con la técnica propuesta . “(Pp.
4-7)
La técnica de Ebel (1972) es la siguiente: "La segunda debilidad de la definición
de la puntuación de aprobación como un porcentaje de la puntuación total es que todavía deja
elementos sustanciales de azar en la determinación del puntaje de aprobación. Los elementos
pueden ser más difíciles, o menos difíciles o menos discriminatorios, de lo que pretendía el
constructor de prueba. Si un examen pasa o no, un examen específico puede ser determinado por
las preguntas en el examen en lugar de por su nivel de competencia profesional.

Tabla 19.7 (Después de Ebel, 1972)


Relevancia, dificultad y éxito esperado en los elementos de prueba

Relevance Categories Easy Difficulty


Levels Hard
Medium
Essential 100% _ _
Important 90% 70% _
Acceptable 90% 60% 40%
Questionabl 70% 50% 30%
e

Supongamos, por ejemplo, que la cantidad de ítems en una prueba de 100 ítems que cae
en cada categoría cuando se agrupan las calificaciones de cinco jueces fue como se
muestra en el
segunda columna del cuadro 19.8. La suma de estos productos dividida por 500 da una
estimación del puntaje de aprobación apropiado ”(Ebel, 1972, pp. 493-494).

Table 19.8
Passing Score Estimated from Item
Characteristics

Item Number of Expected Number x


Category Items3 Success Success

Essential 94 100% 9400

Important

Easy 106 90% 9540

Medium 153 70% 10710

Acceptable

Easy 24 80% 1920

Medium 49 60% 2940

Hard 52 40% 2080

Questionable

Easy 4 70% 280

Medium 11 50% 50
Hard 7 30% 210

500

37130 =74.26%

500 or 74% =passing score

Angoff (1971) presentó una técnica esencialmente equivalente a la de Ebel pero que no se
molestó en desglosar la relevancia por dificultad de los elementos:

... pídale a cada juez que indique la probabilidad de que la "persona mínimamente aceptable"
responda a cada elemento correctamente. En efecto, los jueces pensarían en una cantidad de
personas mínimamente aceptables, en lugar de solo en una de ellas, y estimarían la proporción de
personas mínimamente aceptables que responderían a cada elemento correctamente. La suma de
estas probabilidades, o proporciones, representaría la puntuación mínimamente aceptable. (p.
515)

Hay dos problemas potenciales: (a) ¿Pueden los jueces hacer tales determinaciones de
manera consistente y confiable ?; (b) ¿Cuál es el estado lógico-psicológico del concepto de
"competencia mínima"?
Se ha reportado poca investigación empírica sobre el primer problema. Pero un estudio
reciente y sólido produjo resultados sorprendentes. Andrews y Hecht (1976) llevaron a
cabo una comparación empírica de los métodos de Nedelsky y Ebel. Se seleccionó un
grupo de ocho jueces de entre un comité de individuos que habían contribuido con 180
ítems de cuatro opciones a un examen de opción múltiple que se administró a nivel
nacional para certificar a los trabajadores profesionales.

Los jueces se reunieron en dos ocasiones separadas para establecer estándares una vez
por el método Nedelsky y luego por el método Ebel. El estudio fue cuidadosamente
diseñado con contrapeso de orden y mitades de la prueba para controlar el orden y los
efectos de la memoria. Los hallazgos fueron asombrosos. Según el método de Ebel, el
porcentaje de preguntas que, en opinión de los jueces, deberían haber sido respondidas
correctamente por una persona "mínimamente competente" fue del 69%. El porcentaje
correspondiente determinado por el método de Nedelsky fue del 46%. Esta diferencia es
desconcertantemente grande. Sin embargo, la situación es más grave de lo que indicaría
una brecha de 23 puntos en el porcentaje de elementos correctos. Esta diferencia
porcentual en la cantidad de elementos correctos requeridos para "aprobar" el examen de
certificación no indica directamente la diferencia en porcentajes de los examinados que
"aprobarían" la prueba según el criterio de Ebel del 69% (de los artículos correctos) versus
el criterio de Nedelsky del 46% .
Podemos estimar estos dos porcentajes de examinados que "pasan" haciendo algunas
suposiciones razonables. Supongamos que los 180 elementos de prueba son de dificultad
promedio, es decir, p = .50 para cada elemento; entonces la media de la prueba de 180
ítems sería 90. Además, suponga que el rango de puntajes es desde un puntaje de
oportunidad hasta un puntaje perfecto, y que la distribución de puntajes totales es
aproximadamente normal. En estas condiciones, la desviación estándar de los puntajes
totales de la prueba sería igual a aproximadamente una sexta parte del rango, de modo
que σX = (Puntuación perfecta - Puntuación de probabilidad) / 6 = (180 - 45) / 6 = 135/6 =
22.5.
Se puede estimar aproximadamente, entonces, que los puntajes totales de las pruebas
probablemente tengan una distribución normal con una media de 90 y una desviación
estándar de 22.5. Esta distribución se muestra en la Figura 2, donde también se indican los
"puntajes de aprobación" de Ebel y Nedelsky.
La figura revela una enorme discrepancia entre los estándares de Ebel y Nedelsky. Solo el
7% de los examinados serían certificados por el estándar Ebel, mientras que el 63% de los
examinados serían certificados usando el estándar Nedelsky. La impresión de lo científico
la objetividad creada por el rigmarole de las cuadrículas y las correcciones de adivinación
se evaporan rápidamente cuando uno ve la asombrosa discrepancia entre las tasas de
aprobación de los dos métodos de configuración estándar.

Figura 2. Comparación de las puntuaciones de corte de Nedelsky y Ebel

El estado lógico y psicológico del concepto de competencia mínima debe ser cuestionado.
La historia de la toxicología presenta un caso del uso infructuoso de un concepto análogo,
la "dosis letal mínima". Trevan (1927) descartó el concepto hace casi cincuenta años:
El uso común de esta expresión [dosis letal mínima] en la literatura del sujeto implicaría
lógicamente las suposiciones de que existe una dosis, para cualquier veneno dado, que
solo es suficiente para matar a todos o la mayoría de los animales de una especie dada , y
que las dosis muy pequeñas no matarían a ningún animal de esa especie. Cualquier
trabajador, sin embargo, acostumbrado a las estimaciones de toxicidad, sabe que estas
suposiciones no representan la verdad. (p. 484)
El uso común del término "competencia mínima" por parte de los educadores sugiere un
sentido del nivel más pequeño posible de habilidad o conocimiento en el que uno todavía
puede funcionar adecuadamente. "Competencia mínima" sugiere tal sinónimo
construcciones como nivel de habilidad "esencial", o "nivel más alto que aún es
inadecuado" o "menos permisible". Por ejemplo, en su explicación del aprendizaje de la
maestría, Bloom (1968) escribió:

El problema básico es determinar cómo la mayor proporción del grupo de edad puede aprender de
manera efectiva las habilidades y los temas que se consideran esenciales para su propio desarrollo
en una sociedad compleja. (p. 2)

Supongamos que asumimos una comprensión compartida del significado de la palabra


"competencia" en su forma de nombre, sin estar necesariamente de acuerdo en que el
significado de la forma de adjetivo es claro, y nos centramos en el término "mínimo".
"Mínimo" y las formas de nombre " Mínimo ”y“ minimización ”recuerdan sus opuestos:“
máximo ”,“ máximo ”,“ óptimo ”y la espantosa formación hacia atrás“ optimiza ”, que
también se aplica retóricamente a los asuntos humanos para sugerir un grado de precisión
y determinación. que puede no existir. (“Este nuevo plan debe maximizar la recompensa
de nuestro personal de campo regional”, “¿Cómo podemos minimizar el peligro que
podremos alcanzar si aumentamos el precio 10 ¢ por galón?”) Para hablar de maximizar o
minimizar algunos Un aspecto del comportamiento humano es hablar pseudo-
matemáticamente sobre el mundo natural que no permite el tratamiento absoluto que
ofrecen las matemáticas.
Es bueno darse cuenta de que muchas funciones en matemáticas y casi todas las cosas en
el mundo natural no tienen "máximo", por ejemplo:
1. La función f (x) = x-1 para x> 0;
2. El récord mundial de salto de altura;
3. La cantidad de vocabulario alemán (medido como el número de palabras reconocidas)
que un estudiante de Berlitz puede adquirir.
El Oxford English Dictionary ofrece la siguiente definición sorprendente de
"maximización": "Maximización: la acción de elevar al punto más alto posible, posición o
condición". La primera ilustración del uso de la palabra por parte de la OED es de las obras
del filósofo utilitario. Jeremy Bentham: "La maximización de la felicidad del mayor número
(1802, Principios del procedimiento judicial)".
Es significativo que una de las primeras aplicaciones del lenguaje matemático a los
asuntos humanos haya sido el fundador de Utilitarianism. La debilidad reconocida en el
utilitarismo es que se basa en la noción de un cálculo social que, de hecho, no existe. No
existe un "utile" como unidad de medida de la felicidad o el bienestar; no hay ecuaciones
que se puedan diferenciar para maximizar la felicidad del mayor número. Hablar como si
hay, es hablar metafóricamente. La metáfora puede haber sido valiosa en una etapa, pero
confundirla con la realidad ahora pone a uno en peligro de desperdiciar sus esfuerzos con
precisión falsa y detalles inútiles.
La noción de “competencia mínima” es un concepto educativo. Los educadores esperan
usar el concepto para apoyar un deseo educativo, es decir, cuando un maestro puede
dejar de enseñar a un niño porque ha alcanzado el nivel mínimo de habilidad que necesita
(para ir a la universidad, ser un ciudadano, ser promovido al siguiente nivel). grado, etc.)?
En este sentido, la idea de "competencia mínima" plantea los mismos problemas de
definición y práctica que el concepto de "cura" en psicoterapia. ¿Cuándo se cura el cliente
del psicoterapeuta para que pueda abandonar la terapia? El hecho de que los
psicoterapeutas nunca hayan dado una respuesta satisfactoria a esta pregunta debería
alertar a los educadores sobre la posible dificultad de responder a la pregunta: "¿Cuándo
se educa a un estudiante de forma mínima?" Sospechamos que el 99% de todas las
terapias se terminan, no porque el terapeuta certifique el cliente es "saludable", pero
como el cliente (a) se gradúa o cambia de escuela, (b) se queda sin dinero, (c) obtiene un
divorcio, un nuevo trabajo, un lavado de cara, etc., o (d) se cansa de hablar con el
terapeuta o viceversa.
Para la mayoría de las habilidades y actuaciones, uno puede imaginar razonablemente un
continuo que va desde la "ausencia de la habilidad" a la "excelencia visible".

Pero, no se sigue de la capacidad de reconocer la ausencia de la habilidad (por ejemplo,


este parapléjico puede escribir cero palabras por minuto con una precisión del 0%) que se
puede reconocer el nivel más alto de habilidad por debajo del cual la persona no podrá
tener éxito (en la vida, en el siguiente nivel de escolaridad, o en su oficio elegido). ¿Cuál es
el nivel mínimo de habilidad requerido en esta sociedad para ser ciudadano, padre,
carpintero, profesor universitario, operador clave? Si alguien se atrevería a especificar el
nivel más alto de rendimiento de lectura por debajo del cual ninguna persona podría tener
éxito en la vida como padre, se pueden proporcionar ejemplos de personas cuyo
rendimiento de lectura está por debajo del nivel "mínimo" a los que se considera padres
exitosos. abundancia. Y la situación no es diferente con una secretaria o un electricista, en
caso de que alguien quisiera argumentar que los niveles de competencia mínimos son
posibles para la "capacitación", si no para la "educación". ¿Cuál es el nivel más bajo de
competencia en el que una persona puede escribir y escribir? ¿Sigue trabajando como
secretaria? Cualquier velocidad de escritura por encima del punto cero trivial admitirá
excepciones; y si uno fuera forzado a especificar un nivel mínimo, la tasa de excepciones
tolerable sería un juicio arbitrario.
Greenbaum (1976) aludió a una observación de Alfred Garvin en el sentido de que el
dominio o los criterios mínimos de competencia pueden ser imposibles de determinar en
"áreas de la materia":
Bien puede ser como Alfred Garvin ha sugerido, que los criterios de rendimiento en
algunas áreas temáticas no se pueden establecer, ya que no se requiere un rendimiento
específico extraescolar en estas áreas. (p. 87)
Este comentario sugiere una distinción más o menos entre lo que algunos hablan de
entrenamiento frente a educación. Pero esto es en gran parte una distinción sin un
esencial
diferencia, y dudo seriamente que las objeciones que he planteado sobre la lógica del
"dominio" y la "competencia mínima" puedan responderse cambiando el área del discurso
de la química al entrenamiento del conductor o de la literatura inglesa a la música
instrumental.
La idea de competencia mínima es mala lógica e incluso peor psicología. Recientemente,
en una discusión sobre estas ideas, John Tukey concluyó una ordenada lucha desde la
posición de "habilidades mínimas esenciales para la competencia" en este epigrama
conciso: "La vida es como un doble crostic; podemos hacer mucho más de lo que sabemos
”. Cuando uno lee por primera vez las definiciones de las palabras en el Double-crostic,
descubre que solo conoce una media docena más o menos entre cincuenta o sesenta.
Pero eventualmente, a través del complejo e interconectado sistema de pistas semánticas
y lingüísticas del rompecabezas, se identifican todas las palabras y la cita. ¿Quién sería tan
tonto como para sugerir un número mínimo de definiciones que uno debe saber en el
primer paso a través del Double-crostic antes de que el enigma pueda resolverse?
El intento de basar las puntuaciones de los criterios en un concepto de competencia
mínima falla por dos razones: (1) prácticamente no tiene fundamento en psicología; (2)
cuando se concede su arbitrariedad pero los jueces intentan, sin embargo, especificar una
competencia mínima, están en desacuerdo.

Enfoques teóricos de decisión

Las posibilidades matemáticas de las pruebas basadas en criterios no se han pasado por
alto. Con una fecundidad característica, los estadísticos han escrito numerosos artículos
sobre la precisión psicométrica del puntaje de criterio en las pruebas de referencia de
criterio (Kefer y Bramble, 1974; Huynh, 1976; Swaminathan, Hambleton y Algina, 1974,
1975), la confiabilidad y validez del criterio. pruebas referenciadas, y la maximización de
las relaciones beneficio-pérdida a través de la clasificación de los examinados con pruebas
basadas en criterios (Besel, 1973; Emrick, 1971; Hambleton y Novick, 1973; Kriewall,
1969).
Sin excepción, estos investigadores aceptan una interpretación de "puntaje de corte" de
las pruebas basadas en criterios. Evitan las preguntas sobre cómo se justifica cualquier
"puntaje de criterio" en particular o cómo se selecciona. Más bien, proceden del punto en
el que alguien (maestro, padre, miembro de la junta escolar o quien sea) ha determinado
una puntuación de criterio, Cx. El tratamiento del problema por Hambleton y Novick
(1973) es ilustrativo:

El problema principal en los nuevos modelos de instrucción, ..., es determinar si πi, el


verdadero nivel de dominio del estudiante, es mayor que un estándar específico, πo. (p.
163)
El problema abordado con las técnicas de la teoría de la decisión por parte de estos
investigadores es de la siguiente forma general: las personas se clasifican en dos clases
según algún criterio externo de interés principal, por ejemplo, "graduados versus no
graduados de la universidad", "contratados y no contratados por un empleador ”. Las
proporciones de personas en estos dos estados se indican por PE y 1 - PE. Si a estas
mismas personas se les administró una prueba de referencia de criterio por adelantado y
se estableció una puntuación de criterio Cx según la cual las personas se clasificarían como
"aprobadas" o "no aprobadas", entonces cuatro combinaciones de aprobar o no la prueba
de referencia de criterios y el criterio externo es posible. Las probabilidades de que las
personas estén en cada uno de estos estados se pueden denotar de la siguiente manera:

Figura 3. Visualización de probabilidades.


PA denota la proporción de "falsos negativos", es decir, personas que no pasan la prueba
de referencia de criterio pero "pasan" el criterio externo. PD denota la proporción de
"falsos positivos".
El puntaje de corte en el criterio externo se asume convenientemente como "dado" y no
sujeto a cambios. En el tratamiento teórico por decisión del problema, se permite que el
puntaje de criterio en la prueba de referencia de criterio varíe con el resultado de que PA,
..., PD y PC variarán como resultado. Claramente, es posible fabricar alguna función
agregada de consecuencias buenas (PB y PC) y malas (PA y PD) de establecer el puntaje de
criterio, Cx, y tratar de minimizar (o maximizar) la pena (o satisfacción) de una persona.
Por ejemplo, uno podría minimizar:

f (Cx) = (PA + PD) / (PB + PC) [1]

Si existiera un mínimo, el puntaje de criterio "racional" parece haberse encontrado. Sin


embargo, esta construcción del problema es altamente arbitraria ya que asume que los
costos de los falsos positivos y los falsos negativos son los mismos. Si, por el contrario, las
personas que fallan en la prueba de referencia de criterio que hubieran pasado el criterio
externo tienen un costo α y las personas que pasan que fallan el criterio externo tiene un
costo β, la función adecuada para minimizar al elegir Cx es:
f (Cx) = (αPA + βPD) / (PB + PC) [2]
Esta función es claramente sensible a los valores de α y β, que tendrían que determinarse
mediante un juicio y que sin duda variarían considerablemente dependiendo de quién les
asignó los valores. Asignar números a α y β implicaría, por ejemplo, responder a una
pregunta como “¿Cuál es el costo en dólares de pasar a un estudiante en esta prueba
basada en criterios que finalmente abandonará la universidad frente al costo en dólares
de no aprobar a un estudiante en este prueba de referencia de criterio, ¿quién se hubiera
graduado de la universidad? ”. Por lo tanto, la arbitrariedad en esta técnica de establecer
un puntaje de criterio no se encuentra hasta la etapa final, pero, inevitablemente, se
encuentra.
El lector con formación psicométrica reconocerá que la afirmación de la teoría de la
decisión del problema de puntuación de corte de la prueba referida a criterios es un caso
especial de la teoría de selección de personal, como se explica más detalladamente en
Cronbach y Gleser (1965).

En mi opinión, todos aquellos que se han ocupado estadísticamente y psicométricamente


de los problemas de las pruebas basadas en criterios son culpables de una precisión
errónea y de una axiomatización. Las preguntas interesantes sobre criterio-referenciado.
las pruebas son "¿De dónde viene Cx?" "¿Cómo se justifica un puntaje de criterio sobre
otro?" La teoría de la decisión y las preguntas psicométricas son rutinarias, y las técnicas
estándar simplemente se han vestido con el lenguaje de las pruebas de referencia de
criterio y se han ofrecido como respuestas. Las respuestas son correctas y válidas dadas
las premisas. Pero todo el esfuerzo (es decir, tratar las pruebas con criterios basados en
criterios estadísticos y psicométricos) se ha emprendido sin un sentido de la preocupación
crítica. ¿Qué motivo de preocupación es que se deban muestrear n elementos o
establecer una puntuación de corte en Cx para minimizar los falsos negativos, si en la
parte inferior de todo esto la decisión de “aprobar” 30% contra 80% es crítica, caprichosa,
y esencialmente sin examinar? En las fantasías de uno, la situación sugiere una viñeta en
la que R. A. Fisher les pide a los agricultores que diseñen experimentos para que tenga
datos sobre los cuales aplicar sus métodos estadísticos.

Métodos de “Investigación de Operaciones”

Esta técnica para establecer un puntaje de criterio se llama así porque se basa en el
enfoque general de la investigación operativa de maximizar un producto valioso al
encontrar un punto óptimo en una curva matemática o en una gráfica. Una ilustración
aclarará este significado.
De acuerdo con la aplicación de la estrategia de investigación de operaciones de Bormuth
(1971) para determinar la "legibilidad" óptima de los pasajes de instrucción, Block (1972)
presentó un método que supuestamente era la técnica racionalmente justificable para
determinar el puntaje de criterio en las pruebas de referencia de criterio. En teoría, el
investigador enseñaría a muchos grupos diferentes aleatoriamente equivalentes hasta
que alcanzaran varios niveles de competencia en una "prueba de referencia de criterio",
por ejemplo, 10%, 15%, 20%, ..., 95%, 100%. Además, todos los grupos se medirían en una
medida externa de resultados valiosos, por ejemplo, rendimiento en una escala de
retención o transferencia de aprendizaje, ingresos a la edad de 40 años, "éxito en la vida",
etc. A continuación, una gráfica que relaciona el grado de dominio en la prueba de
referencia de criterio y el rendimiento en la escala de resultados valorados se dibuja (ver
Figura 4).
Ese nivel de desempeño en la prueba de referencia de criterio para la cual se maximiza el
puntaje de resultado valorado se convierte en el puntaje de criterio determinado
"racionalmente". Inmediatamente queda claro que este método no resuelve
satisfactoriamente el problema de determinación del puntaje de criterio a menos que la
curva de la Figura 4 no sea monotónica, es decir, a menos que en algún punto entre 0% y
100% se doble y comience a regresar a la línea de base de la gráfica. Porque a menos que
ocurra esta curva, la puntuación del criterio en la prueba de referencia de criterio que
maximiza el resultado valorado será del 100%, un nivel de perfección imposible y un
estándar trivial e irreflexivo. Sospechamos que las gráficas no monotónicas serán raras
excepciones cuando tanto la prueba de referencia de criterio como la escala de resultados
valorados son medidas de rendimiento cognitivo. Es decir, esperamos que el rendimiento
en la escala de resultados valorados aumente monótonamente a medida que aumenta el
rendimiento en la prueba de referencia de criterio.

Figura 4. Relación hipotética entre una prueba basada en criterios y un resultado valioso

Una forma de solucionar este problema es introducir un segundo resultado valorado que
tenga una relación inversa con el grado de dominio en la prueba de criterio de referencia,
por ejemplo, interés o actitud hacia el tema aprendido, y los estudiantes desarrollan
actitudes más pobres a medida que estudian el tema. Considere los gráficos en la Figura 5.

Figura 5. Relaciones separadas y compuestas entre una prueba basada en criterios y dos
resultados valiosos

Bajo las condiciones en la Figura 5, se puede encontrar un "puntaje de criterio" único para
el cual se maximiza el resultado compuesto (1 + 2). Esto parece proporcionar un método
"racional" y no arbitrario para establecer un puntaje de criterio en la prueba de referencia
de criterio. Pero, la eliminación de la arbitrariedad es ilusoria. El elemento de juicio poco
confiable en este método está oculto en el resultado compuesto. Para ponderar los
resultados cognitivos y afectivos por igual en la formación del compuesto es una elección
arbitraria de compuestos de entre la siguiente clase general de compuestos:
Resultado compuesto = a (Resultado 1) + b (Resultado 2)
Esta arbitrariedad es muy similar al problema de ponderar los falsos positivos y los falsos
negativos en el enfoque de la "teoría de la decisión".
Hay poco en la cara del problema para recomendar el compuesto "desenlace1 +
desenlace2" sobre el compuesto "2x desenlace1 + desenlace2". Este último compuesto
cambiaría sustancialmente el "puntaje de criterio" en la Figura 5 a la derecha a lo largo de
la línea de base. El único intento empírico de establecer puntajes de criterio por el método
de "investigación de operaciones" resultó precisamente en esta ambigüedad.
Los resultados del estudio empírico de Block (1972) aparecen en la Figura 6. Noventa y un
estudiantes de octavo grado recibieron enseñanza de álgebra matricial. Los sujetos se
asignaron casi por igual a cinco grupos: control, 65%, 75%, 85% y 95% de dominio, según
lo medido por una prueba de referencia de criterio. En los cuatro grupos de “dominio del
porcentaje”, los estudiantes recibieron enseñanza y repasaron la lección hasta que
pudieron responder correctamente el porcentaje designado de preguntas en la prueba de
dominio; el grupo de control simplemente estudió la lección y tomó el examen de
dominio. Se desarrolló una medida de criterio de "resultado valorado"; incluía veinte
artículos. Esta prueba externa se administró después de que todos los sujetos hubieran
aprendido hasta o sobrepasando el nivel de dominio designado por su grupo. En segundo
lugar, al finalizar el estudio se administró una escala de "actitud hacia el álgebra". Las
medidas en la prueba de logros externos y la escala de actitud para los cinco grupos de
nivel de dominio aparecen en la Figura 6.
Uno primero inspecciona la Figura 6 en busca de cualquier evidencia de relaciones no
monotónicas. Aunque Block hizo gran parte de la curva en la curva de "actitud" en la
Figura 6, la relación entre la prueba de criterio de referencia y la escala de actitud es no
convincentemente curvilínea.6 La curva de "logro" definitivamente no es no monotónica,
como se esperaba. Bloque (1972) concluyó:
... el mantenimiento del nivel del 95 por ciento [de dominio] es el mejor maximizado [sin importar
la calificación de un absoluto] el aprendizaje representado por los criterios cognitivos, mientras que
el mantenimiento del nivel del 85 por ciento maximiza el aprendizaje representado por los criterios
afectivos. Dado un modelo para relacionar puntuaciones en los criterios cognitivos [sic] con
puntuaciones en los criterios afectivos [sic], por lo tanto, habría sido posible establecer un estándar
de dominio para la secuencia de álgebra. (p. 14)
Nota: Después del Bloque (1972).
Figura 6. Actitud y Logro para cinco grupos de niveles de estilo

Incluso si uno acepta la evidencia tenue de no monotonicidad para la curva de "actitud"


en la Figura 6, uno se queda con el problema de la ponderación arbitraria del logro y la
actitud en un resultado compuesto antes de que se pueda determinar el "puntaje de
criterio". Esta aplicación del enfoque de “investigación de operaciones” ha reducido la
apariencia, pero no la esencia, de un juicio arbitrario al establecer un puntaje de criterio.
Existe una forma más débil del argumento de "investigación de operaciones" para
determinar la puntuación de un criterio. Supongamos que más allá de algún punto de
competencia en una prueba de referencia de criterio, uno logra no hay ganancias en un
resultado externo valorado (como en la Figura 7).
Luego, se podría avanzar un argumento persuasivo en el sentido de que el punto Cx en la
escala de prueba basada en criterio representaba un "punto de dominio", en el sentido de
que una vez que un alumno alcanzó Cx, uno debería dejar de enseñarle ya que tiene una
mayor competencia en el La prueba de referencia de criterio aporta cero retornos sobre el
resultado externo valorado. Este razonamiento tiene un valor práctico en la medida en
que uno se encuentra con la forma general de curva representada en la Figura 7, es decir,
una curva con una curva o esquina abrupta. Uno es poco probable que encuentre tales
anomalías psicométricas.
Figura 7. Relación hipotética entre la prueba basada en criterios y un resultado valioso

Robert Glaser y John Tukey (comunicaciones personales, 1976) señalaron algunos


fenómenos psicológicos que sugieren que alguna modificación de este razonamiento
podría ser útil. Glaser señaló que los niños pequeños, de 6 a 8 años de edad, pueden ser
entrenados con una precisión de aproximadamente el 70% en una suma de un dígito.
Entrenar más allá de ese nivel no produce mayor precisión; La precisión mejorada viene
solo con la edad. Tukey informó que no importa la intensidad con la que se entrena a los
operadores telefónicos, nunca llegan a ser más del 98% exactos. Ambos ejemplos sugieren
algún límite psicofísico de atención y precisión humana. ¿Podrían estos valores servir
como niveles de criterio natural? ¿Es el 70% un puntaje de criterio psicológicamente
justificado para un niño de ocho años en una prueba de suma de un solo dígito? ¿Es el
98% un nivel de criterio justificado racionalmente para la capacitación de operadores
telefónicos? Por más atractivos que sean estos casos, en un examen más detenido, sus
implicaciones para la toma de decisiones y las pruebas de instrucción serán, a la vez,
complejas y poco claras.

Vivir sin “estándares”

En una conversación reciente sobre la cuestión del establecimiento de puntajes de criterio


en las pruebas, Michael Scriven reconoció la angustia arbitraria de establecer estándares
según los métodos existentes. Pero continuó diciendo que algo era mejor que nada, es
decir, que la injusticia y la ineptitud resultantes de la ausencia de estándares son peores
que las consecuencias de adoptar arbitrarias. Emrick (1971) adoptó la misma posición por
escrito:
No es difícil demostrar que los procedimientos de medición tradicionales son inadecuados o, en el
mejor de los casos, arbitrarios como método para identificar el dominio de habilidades de los
estudiantes. Por ejemplo, utilizando procedimientos referenciados por criterios, IPI ha sugerido un
mínimo correcto del 85% como criterio de dominio para cualquier prueba de habilidad (de los
cuales hay más de 400). Si bien este criterio [sic] tiene un atractivo intuitivo, no existe una
justificación analítica o empírica conveniente para ello. Al igual que varias habilidades pueden
diferir en el nivel de dificultad en términos de dominio, también pueden variar los criterios de
rendimiento óptimo en la situación de la prueba. Fácilmente puede ser que para algunas
habilidades, un puntaje de prueba del 60% sea indicativo de dominio, mientras que, para otros, se
requeriría un puntaje de 90% o más. En resumen, el problema no es si un procedimiento de prueba
con referencia a criterios es o no apropiado para el IPI, sino más bien cómo y a qué nivel se debe
establecer cada criterio. (p. 321)

En la última oración de la cita, Emrick expone el nudo del argumento con el que tomo la
excepción. La pregunta más general sugerida por la afirmación de Emrick es una que no
podemos abordar adecuadamente aquí. Sin embargo, debe ser recomendado a la
atención de los filósofos y empiristas de la educación. "¿Hay algún aumento en la
precisión, al afirmar de manera conductual lo que uno desea enseñar, al cuantificar las
decisiones que ahora se toman de manera menos formal, un bien incondicional que,
aunque no necesariamente represente una ganancia de valor, seguramente no puede ser
peor que la imprecisión?" ( "Un hombre educado no exige más exactitud de la permitida
por el tema tratado". [Kaplan, 1964, pág. 283.]) Pedir más precisión de la que permiten las
circunstancias es una tontería, y puede ser imprudente como bien. El problema, tal como
lo veo, es precisamente si es apropiado un procedimiento de prueba con referencia a
criterios que implique niveles de dominio o de criterio. Yo creo que no. Con respecto al
establecimiento de puntajes de criterio en pruebas de referencia de criterio, nada puede
ser más seguro y mejor que algo arbitrario.
Que yo sepa, todo intento de derivar un puntaje de criterio es descaradamente arbitrario
o se deriva de un conjunto de premisas arbitrarias. Pero la arbitrariedad no es un
fantasma, y uno no debería encogerse de una tarea necesaria porque implica decisiones
arbitrarias. Sin embargo, las decisiones arbitrarias a menudo conllevan riesgos
sustanciales de interrupción y dislocación. Menos arbitrariedad es más segura.
Considere un ejemplo real pertinente. Un gran distrito escolar en Florida en el verano de
1975 decidió reexaminar su definición de "retraso mental". Uno imagina que sus motivos
se originaron tanto en el Zeitgeist para la "integración" como en la preocupación pública
sobre el uso excesivo de la etiqueta de "retraso mental" . Los administradores en el
distrito decidieron sustituir una nueva definición de "retraso mental" (que había sido
establecida por la Asociación Americana para la Deficiencia Mental) por la antigua
definición de "coeficiente intelectual por debajo de 75". El nuevo estándar AAMD para
"retraso mental" involucraba una conjunción de varios indicadores, cada uno con un
punto de corte arbitrario. (Probablemente sea seguro decir que se organizó alrededor de
una mesa de comité con poca idea de qué porcentaje de la población escolar se designaría
como "retrasado mental"). Aunque es de esperar que el porcentaje de personas que se
encuentran por debajo del recorte Los puntajes de descuento en varias variables, incluso
moderadamente correlacionadas, son extremadamente pequeños, el personal del distrito
escolar se sorprendió desagradablemente en septiembre de 1975 cuando hubo un vaciado
masivo de alumnos desde personas con retraso mental hacia las clases regulares. Las aulas
regulares estaban inundadas de antiguos alumnos con "retraso mental" para los cuales los
maestros no tenían ni capacitación, ni experiencia, ni materiales. El primer mes de clases
fue caótico. Luego, la administración rescindió la orden y se restableció la antigua
definición de retraso mental.
Todo el asunto podría haber sido tratado de manera más inteligente y menos arbitraria. La
preocupación con la que la administración intentó lidiar fue que demasiados alumnos,
alrededor del 10%, fueron clasificados como "mentalmente retrasados" por la definición
de "IQ por debajo de 75". El curso menos perturbador habría sido planificar el cambio del
porcentaje de los alumnos en clases con retraso mental del 10% al 8% o el 7%, ya sea
reduciendo ligeramente el límite de la prueba de CI o pidiendo a los maestros de
educación especial que nominen a los mejores prospectos para integrarse en las aulas
regulares, vea cómo respondió el sistema a esto Cambia, y procede.
En este ejemplo se encuentra un medio para hacer frente al problema de las normas.
Quizás el único criterio que sea seguro y convincente en la educación sea el cambio. Los
aumentos en el rendimiento cognitivo generalmente se consideran buenos y disminuyen
como malos. Aunque uno no puede hacer juicios absolutos satisfactorios de desempeño
(¿es este nivel de desempeño de lectura bueno o magistral?), Uno puede juzgar
fácilmente una mejora en el desempeño como buena y una disminución como mala.
Mi posición sobre este asunto se justifica apelando a una pregunta metodológica más
general en la evaluación. ¿Es comparativa toda evaluación significativa? ¿O existen
estándares absolutos de valor? Siento que en la educación prácticamente no existen
estándares absolutos de valor. La “bondad” y la “maldad” deben ser reemplazadas por los
conceptos esencialmente comparativos de “mejor” y “peor”. La evaluación absoluta en
educación, como se refleja en esfuerzos como la acreditación escolar y la licencia
profesional, ha sido caprichosa y autoritaria. Por otro lado, los juicios de valor basados en
evidencia comparativa nos impresionan como convincentes y justos. Los datos de los
experimentos comparativos, las pruebas de referencia a las normas y las evaluaciones
longitudinales del cambio son pruebas comparativas, y por lo tanto disfrutan de una en la
misma conversación mencionada anteriormente, se le preguntó a Michael Scriven si creía
que todas las evaluaciones eran necesariamente comparativas. Él respondió: "No, solo
toda buena evaluación es comparativa".
Presunta superioridad sobre la evidencia no comparativa. El economista Kenneth Boulding
(1953) hizo la misma observación sobre los sistemas sociales en general: “Casi todo el
mundo es sensible a las estadísticas comparativas. A menudo, no es el valor absoluto de
una variable lo que es significativo, sino la diferencia entre su valor y el de otra persona u
organización comparable ”(p. Xxxii).
Estoy seguro de que las únicas interpretaciones sensatas de los datos de los programas de
evaluación se basarán únicamente en si la tasa de rendimiento aumenta o disminuye. Las
interpretaciones y decisiones basadas en niveles absolutos en el rendimiento de los
ejercicios no tendrán ningún significado, ya que estos niveles absolutos varían de manera
inexplicable en función del contenido y la dificultad del ejercicio, ya que los jueces no
estarán de acuerdo sobre la cuestión de qué consecuencias deberían derivarse del mismo
nivel absoluto de rendimiento. y ya que no hay manera de relacionar los niveles absolutos
de desempeño en los ejercicios con el éxito en el trabajo, en los niveles más altos de
educación o en la vida. Establecer estándares de desempeño en pruebas y ejercicios por
métodos conocidos es una pérdida de tiempo o algo peor.
En educación, uno puede reconocer la mejora y la decadencia, pero uno no puede hacer
juicios absolutos convincentes de lo bueno y lo malo. Es bueno reconocer que al proponer
el "cambio" como la solución al problema de los estándares, uno introduce un problema
de estándares, o juicio absoluto, en un segundo nivel, es decir, ¿cuánto aumento es bueno
o suficiente? ¿Cuánta pérdida se tolera antes de tomar acción? En este caso, uno se
enfrenta precisamente al problema de la puntuación de un criterio, ¿cuántos puntos
porcentuales puede tolerarse, lo que se evitó al sustituir el criterio de cambio por una
puntuación de criterio absoluta? Pero la sustitución no fue en vano. Se adquirió
considerable claridad y consenso cuando "cambio" se sustituyó por "nivel absoluto de
rendimiento", incluso si no se resolvían todos los problemas.

You might also like