Professional Documents
Culture Documents
Este trabajo explora como instructores y organizaciones pueden utilizar las evaluaciones para mejora del
proceso de aprendizaje. Se destina a ayudar los lectores en la distinción de los diferentes tipos y estilos de
evaluación, en la comprensión de las varias herramientas para este fin y en el aprendizaje de como desarrollar
evaluaciones eficaces, como analizar sus resultados y aprovechar los beneficios de las evaluaciones
computarizadas.
La manera de capacitar y el material usado en las salas de clase han cambiado mucho en los últimos cinco
años. Mientras tanta atención ha sido dada a la forma de presentar el contenido, es obvio que la práctica de
búsqueda y recuperación, bien como otros factores importantes, influencian el como y lo que los alumnos
aprenden y aplican en sus tareas específicas.
Algunas organizaciones han intentado mudar la totalidad de sus cursos a una distribución online, sin embargo
no todo el mundo es apto para trabajar de esta forma. Una parte significativa de la población, principalmente los
considerados Gen X o Gen Y, adoran aprender a través de la computadora. Hasta pasan su tiempo libre
delante de la computadora. Otros aprenden mejor en sesiones de entrenamiento más tradicionales donde las
personas se reúnen, se dividen en grupos y conversan entre sí. Un gran parte de nosotros todavía preferimos el
contexto de sala de clase con toda la interacción humana.
Por eso es fundamental entender cómo las personas aprenden, lo que aprendieron y si este conocimiento es
específicamente útil para su trabajo. Es por este motivo que la base para un desarrollo exitoso del
entrenamiento educacional y de los materiales de certificación pasa por el uso eficaz de las evaluaciones.
Antes, las evaluaciones consistían en simples hojas de papel en los cuales los alumnos rellenaban pequeños
cuadrados, hoy las empresas e instituciones de enseñanza tienen una oportunidad real de usar la tecnología
no solamente para hacer las evaluaciones más accesibles, pero también para hacer el proceso de aprendizaje
mucho más eficaz.
Estas organizaciones pueden usar las evaluaciones para llevar a las personas a tener experiencias de
aprendizaje eficaces; reduciendo las curvas de aprendizaje; extendiendo las curvas de olvido; confirmando
habilidades, conocimientos y actitudes; y motivándolas puesto que proporcionan un sentimiento de realización.
El propósito de este trabajo es ilustrar como las organizaciones y los instructores pueden utilizar las
evaluaciones para mejorar el proceso de aprendizaje y alcanzar mayores resultados. Este documento está
diseñado para ayudar a los lectores:
Examen Una evaluación de suma usada para medir los conocimientos o habilidades del
alumno, con el propósito de documentar su nivel actual de conocimiento o
habilidad.
Prueba Una evaluación de diagnóstico para medir los conocimientos o habilidades del
alumno, con el propósito de informarle a él o a los profesores sobre su nivel actual
de conocimiento o habilidad.
Quiz Una evaluación formativa usada para medir los conocimientos o habilidades del
alumno, con el propósito de proporcionar feedback/retroalimentación sobre su nivel
actual de conocimiento o habilidad.
Encuesta
Una evaluación de diagnóstico o de reacción para medir los conocimientos, las
habilidades y/o actitudes de un grupo, con el propósito de determinar las
necesidades requeridas para cumplir un propósito definido.
• Altas
• Medias
• Bajas
El nivel de complejidad de una evaluación se refiere a las consecuencias para el candidato. Por
ejemplo, un examen normalmente tiene consecuencias mayores, mientras que una encuesta tiene pocas o casi
ninguna.
En evaluaciones de bajo nivel de complejidad, tales como pruebas y encuestas, las consecuencias para
el candidato son pocas y entonces las responsabilidades son menores. Tales evaluaciones son frecuentemente
contestadas a solas puesto que no hay ninguna motivación para hacer trampa o compartir sus respuestas con
otros, por lo tanto no es necesario tener ningún tipo de supervisión. Esto significa que los administradores de
tests no verificarían documentos de identidad, este no sería el caso para exámenes más complejos.
Las exigencias de validez y confiabilidad para tests o encuestas son muy bajas, pero una prueba con altas
consecuencias debe ser confiable y válida. Este tipo de evaluaciones requieren más planificación. La regla
general es que el ambiente de una prueba o de un examen debe parecerse al del trabajo; en una institución
académica debe parecerse al currículo.
Las evaluaciones de poca complejidad requieren poca planificación. Especialistas Del Tema (EDT)
simplemente escriben las preguntas y las hacen disponibles para los alumnos. Sin embargo, una prueba de
mucha complejidad requiere mucha más planificación, como análisis de tareas, establecimiento de puntuación
para aprobación/suspensión, especificación de métodos, consistencia de distribución y como los resultados
serán guardados y distribuidos. El análisis de tarea muestra cuales tareas están asociadas con el trabajo, con
que frecuencia son ejecutadas y cuales son sus grados de importancia. Los creadores de tests planifican por
tópico cuales preguntas deben constar en la prueba, cuales materias son más importantes, cuales son menos
importantes y el nivel de competencia requerido. Los puntos para aprobación/suspensión o eliminación
determinan el umbral entre pasar y reprobar.
Finalmente, en las evaluaciones de alta complejidad, profesionales especializados analizarán los resultados
estadísticos y propondrán directrices sobre como mejorar el lenguaje usado en las preguntas, la prueba en
general y las alternativas posibles. En evaluaciones de poca complejidad, sin embargo, es raro realizar una tal
verificación.
Como se puede ver en el la tabla de arriba, las consecuencias de los diferentes tipos de evaluación
varían. Un examen de alto nivel de complejidad puede determinar o no si una persona está empleada o
despedida o si irá a terminar su carrera en la facultad. Como podría esperarse, las decisiones basadas en
evaluaciones de complejidad baja son pocas y fácilmente reversibles. Si la persona obtiene un resultado bajo
en un quiz, podrá fácilmente contestar el resultado, pero si es reprobada en un examen de enfermería, será
muy difícil poder contestar el resultado. Las opciones del participante varían conforme el nivel de complejidad.
Obviamente en una encuesta no hay motivación para hacer trampa, lo mismo sucede con un test de
bajo nivel de complejidad y de consecuencia. Las pruebas con pocas consecuencias son herramientas
eficaces para mejorar el aprendizaje, la persona que hace trampa en este tipo de pruebas solamente se está
engañando a si mismo. Sin embargo, en un examen de enfermería, arquitectura o ingeniería, el nivel de
complejidad es mayor, entonces puede existir una motivación para hacer trampa. Una consecuencia directa de
esto es que se vuelve más importante identificar cada candidato. De hecho, para pruebas con alto nivel de
complejidad relacionadas a la seguridad nacional, tales como para ingresar a la CIA o al ejército, se utiliza el
escaneo biométrico de la retina para asegurarse que los candidatos son realmente quienes dicen ser.
Obviamente si hay la motivación para hacer trampa es baja, no habrá necesidad de supervisar una
evaluación, pero si existe una gran motivación para hacer trampa, entonces deberá haber una vigilancia
permanente.
El esfuerzo para el desarrollo de un quiz es bien menor, sin embargo no se puede decir lo mismo para
evaluaciones de nivel de complejidad/consecuencia medio o alto. Una regla de oro para pruebas de nivel de
complejidad media es que el especialista en la materia creará tres preguntas en una hora, de las cuales una sola
será incluida en la evaluación. Para las evaluaciones de alto nivel de complejidad (por ej. certificaciones) se
necesita más tiempo para crear las preguntas. ¡El costo medio de una evaluación de alto nivel de
complejidad/consecuencia gira en torno a los US$500 y US$1,500 por pregunta! Cuando el nivel de complejidad
es alto, es importante verificar que cada pregunta sea adecuada en relación a la totalidad de la prueba. De esta
manera los candidatos más capacitados tienden a contestar correctamente, mientras que los menos capacitados
o preparados no tendrán buenos resultados. Consecuentemente lleva tiempo, esfuerzo e inteligencia conseguir
la combinación correcta de preguntas en una prueba o examen de alto nivel de complejidad.
Por ejemplo, los tests de clasificación son un ejemplo popular de evaluación del tipo diagnóstico. Las personas
emplean este tipo de evaluación para posicionarse en una experiencia de aprendizaje adecuada. Como las otras
evaluaciones, algunos tests de clasificación tienen un bajo nivel de complejidad y otros pueden tener un nivel de
complejidad más alto. Por ejemplo, un examen de admisión es una prueba de clasificación de nivel de
complejidad/importancia mayor, mientras que un guía de conocimiento y de recursos de aprendizaje tiene un
nivel de complejidad bajo.
Si una empresa tiene 100 empleados, y desea proponer programas de capacitación adecuados, será necesario
descubrir cuales son las carencias existentes al nivel de las habilidades, la empresa empleará una evaluación
con un nivel bajo de complejidad. No habrá consecuencias para el candidato. Podrá haber algunas
consecuencias para la organización, pero generalmente aun eso es considerado como un nivel bajo de
complejidad. Lo mismo se aplica a las auto-evaluaciones, pues ayudan a que las personas se den cuenta como
les está yendo, si están aprendiendo o no. Algunas empresas realizan un test los lunes por la mañana a sus
empleados. Estos generalmente no trabajan el fin de semana y al volver a las oficinas no están en estado de
alerta. Un test realizado el lunes por la mañana los pone en el “modo pensar”. Es una evaluación formativa de
complejidad baja que les posibilita practicar la búsqueda y recuperación de la información.
Las evaluaciones de complejidad media, por otro lado, miden el nivel de conocimiento y habilidades de los
empleados. Cuanto más personal sean estas evaluaciones, mayor será el nivel de complejidad/importancia
puesto que tendrán mayores consecuencias. Exámenes de complejidad media tendrán consecuencias porque
algunas personas probablemente tendrán mejores salarios por enfrentar problemas más difíciles. En un
contexto académico, los instructores usan este nivel de evaluación para atribuir puntuaciones.
Los exámenes de alto nivel de complejidad son certificaciones regulatórias para grupos tales como plomeros,
electricistas, policías, terapeutas, doctores o enfermeras. Estas profesiones son todas reguladas por la ciudad,
el estado, o gobiernos federales, por lo tanto son consideradas de alto nivel de complejidad/importancia. Sin
embargo, exámenes no regulatórios, tales como certificaciones de Microsoft, Cisco o Linux también tienen un
alto grado de complejidad. Por no tener consecuencias inmediatas, tienen nivel de complejidad inferior con
respecto a las certificaciones regulatórias, pero como pueden dar acceso a empleos y oportunidades de
promoción, tienen consecuencias para el candidato, podemos entonces clasificarla como teniendo un alto nivel
de complejidad. De la misma manera un examen de entrada o pre-empleo tiene un alto nivel de complejidad.
Obviamente si un candidato es reprobado en el examen de admisión de la facultad de derecho, este examen es
de un nivel alto de complejidad/importancia.
Finalmente, algunas empresas hacen lo que es conocido como permiso concedido. Si los empleados pasan el
examen pueden operar un tipo específico de maquinaria. Generalmente cuanto más peligroso es el manejo,
más alto es el nivel de complejidad; cuanto menos peligroso es el manejo, menor es el nivel de complejidad.
Otro ejemplo de la relación entre credibilidad y validez está representado por las figuras de arriba. La Figura 1
muestra que todos los dardos están en la misma área, ilustrando que el tirador —analogía de una evaluación —
es confiable y consistente, pero lamentablemente sus disparos no son válidos. Si sus disparos fuesen válidos,
todos los dardos estarían en el centro. En la Figura 2 los dardos están por todo el cuadro. Esta evaluación no es
confiable porque no es consistente. Por fin, el último ejemplo muestra una evaluación confiable y válida, todos
los dardos están juntos en el centro de la mira. Observe que puede haber credibilidad sin validez, pero es
imposible tener validez sin credibilidad.
2.1 Interpretación de la puntuación de las Evaluaciones
Cuando las personas responden a una evaluación, es importante que comprendan las implicaciones de sus
puntuaciones, particularmente cuando la aprobación o la suspensión ingieran una gran diferencia en sus vidas.
Existen dos formas de puntuar las evaluaciones. Una se refiere a los criterios y la otra se refiere a las normas.
Con una interpretación de puntuaciones refiriéndose a criterios, los diseñadores de la prueba establecen un
estándar para la aprobación y la suspensión. Si la persona aprueba, quiere decir que es calificada (ej: cirujano o
plomeros).
Figura 4
Curva de dominio común para una prueba refiriéndose a criterios
Esta curva muestra el número de personas que contestaron la evaluación y sus puntuaciones. La escala
horizontal califica de 0 a 100, mientras que la escala vertical muestra el número de personas que alcanzaron una
puntuación específica. La puntuación de aprobación determinada por los expertos es de 70%.
Lo importante en este tipo de evaluaciones es que se ha establecido un cierto nivel de conocimientos para
poder realizar un trabajo específico. Por ejemplo, un evaluación para conductores de vehículos empleará una
interpretación de las puntuaciones refiriéndose a criterios, considerando que un cierto nivel de conocimientos y
habilidades son necesarios para aprobar.
Una prueba refiriéndose a una norma, por otro lado, compara las puntuaciones de los candidatos entre sí.
Frecuentemente las puntuaciones obtenidas por los alumnos son publicadas. Las pruebas refiriéndose a
normas son usadas para tomar “decisiones de selección”. Por ejemplo, un examen de admisión puede ser
diseñado para seleccionar candidatos y ocupar 100 vacantes en una facultad. El equipo de selección usa las
puntuaciones obtenidas en la prueba para determinar cuales serán los 100 mejores y así atribuir las
vacantes. El nivel de los candidatos será diferente cada año.
El punto clave es que la prueba servirá para comparar las puntuaciones de los candidatos y al final se
identificarán a los 100 mejores (ej: un concurso para entrar a un escuela de diplomacia).
Figura 5
Curva típica para una prueba de referencia a una norma
¿Cuál la importancia de estas referencias? Si una ciudad decide contratar un arquitecto para diseñar un edificio,
la comisión de planificación va a querer tener las garantías de que el arquitecto ha sido aprobado en una prueba
de referencia de criterio. Ellos no van a aceptar un profesional basándose solamente en el hecho del que es uno
de los mejores alumnos del año ‘77. Por otro lado, una prueba de referencia a la norma podría seleccionar los 10
mejores representantes de ventas o los 10 mejores alumnos del año.
Como consumidores nos sentimos confortables en saber que nuestros médicos, enfermeros y farmacéuticos
fueron aprobados en un examen de certificación que verificó sus competencias, conocimientos y habilidades
para ejercer sus funciones. Sería triste saber que su médico fue formado por una universidad desconocida que
siempre concedió certificados a sus 50 mejores alumnos independientemente de sus habilidades.
Lectura Recomendada:
Criterion Referenced Test Development: Technical and Legal Guidelines for Corporate Training and Certification
por Sharon A. Shrock and William C. Coscarelli (ISBN 1-890289-09-4)Evaluating Training Programs: The Four
Levels por Donald L. Kirkpatrick (ISBN: 1-576750-42-6)Tests That Work por Odin Westgaard (ISBN 0-7879-4596-
X)Work-Learning Research white papers por Will Thalheimer (at www.work-learning.com)
Trabajos publicados en el sitio de Questionmark:
Delivering Computerized Assessments Safely and Securely
http://www.questionmark.com/communities/getresource.asp?file=DeliveringComputerisedAssessmentsSecurely.p
df&group_id=5
The Learning Benefits of Asking Questions por Dr. Will Thalheimer
http://www.questionmark.com/communities/getresource.asp?file=LearningBenefitsOfQuestions.pdf&group_id=5
Creating and Deploying Computerized Level 1 Assessments
http://www.questionmark.com/communities/getresource.asp?file=Level%201%20assessments.pdf&group_id=5
Improving Training Evaluations in Organizations por Dr. Paul Squires
http://www.questionmark.com/communities/getresource.asp?file=training_evaluation.pdf&group_id=5
Glosario
Evaluación Cualquier método sistemático para obtener evidencia por medio de preguntas para inferencias
sobre el conocimiento, las habilidades, actitudes y otras características de personas para un propósito
específico.
Examen Una evaluación de suma usada para medir conocimientos o habilidades del alumno para
documentar su nivel actual.
Prueba/Test Una evaluación diagnóstico para medir los conocimientos y las habilidades de un alumno
para informar sobre su nivel actual.
Quiz Una evaluación formativa usada para medir los conocimientos y las habilidades de un alumno para darle
feedback sobre su nivel actual de conocimiento o habilidad.
Encuesta Una evaluación de diagnóstico o de reacción para medir los conocimientos, las habilidades y/o
actitudes de un grupo para determinar las necesidades requeridas para atender a un propósito definido.
Diagnóstico
Una evaluación que es primariamente usada para identificar las necesidades y conocimientos de los
participantes para dirigirlos a la experiencia de aprendizaje más apropiado.
Formativa Una evaluación que tiene el objetivo primario de proporcionar práctica de búsqueda y recuperación
para un alumno y feedback preceptivo (tema, tópico y/o nivel de evaluación).
Escala de Likert (Lykert) Un método para llevar el participante a expresar su opinión sobre una cuestión. Las
escalas de Likert son frecuentemente de 4 puntos (completamente de acuerdo, de acuerdo, en desacuerdo,
completamente en desacuerdo) de a 5 puntos (completamente de acuerdo, de acuerdo, neutro, en desacuerdo,
completamente en desacuerdo), pero algunas veces puede traer hasta 10 opciones.
Necesidades
Una evaluación usada para determinar los conocimientos, las habilidades y las actitudes de un grupo y
así analizar las carencias y desarrollar el material de curso. El análisis de carencias determina la variación entre
lo qué el alumno sabe y lo que debe saber.
Reacción Una evaluación usada para determinar el nivel de satisfacción con una experiencia de aprendizaje.
Estas evaluaciones son frecuentemente conocidas como Nivel 1(Según el Dr. Kirkpatrick), evaluaciones de
curso, hojas con “caras”. Son rellenadas al final de una experiencia de aprendizaje o certificación.
De suma Una evaluación donde el propósito primario es dar una nota cuantitativa y hacer un juicio sobre la
realización de los participantes. Es normalmente conocido como un evento de certificación si la meta es
documentar que el candidato tiene conocimiento especializado.
Questionmark:
Questionmark, con más de 1,800 clientes a nivel mundial, ofrece a la industria del aprendizaje las capacidades
más óptimas para realizar evaluaciones en línea, estas capacidades incluyen herramientas de autoría, reporte y
análisis. Questionmark produce software de evaluación y de prueba desde 1988, permitiendo a los educadores y
formadores de redactar, administrar, y evaluar tests y encuestas, de forma segura, usando PC individuales,
redes locales, intranets e Internet. El programa Questionmark™ Perception™ permite, sin conocimientos
informáticos o experiencia al nivel del HTML, crear archivos de preguntas. Los usuarios pueden crear varios
bancos de pregunta a partir de los cuales juntan las preguntas en pruebas y encuestas, organizando las
preguntas en temas y subtemas. Para más detalles visite http://www.questionmark.com/esp