Evaluaciones

LAS EVALUACIONES EN EL PROCESO DE APRENDIZAJE/CAPACITACIÓN
Autores: Eric Shepherd

Janet Godwin
Adaptación: Rafael Lami Dozo
Con la asistencia de: Dr. Will Thalheimer, Work-Learning Research
Dr. William Coscarelli, Southern Illinois University
Dr. Sharon Shrock, Southern Illinois University
Este trabajo explora como instructores y organizaciones pueden utilizar las evaluaciones para mejora del
proceso de aprendizaje. Se destina a ayudar los lectores en la distinción de los diferentes tipos y estilos de
evaluación, en la comprensión de las varias herramientas para este fin y en el aprendizaje de como desarrollar
evaluaciones eficaces, como analizar sus resultados y aprovechar los beneficios de las evaluaciones
computarizadas.
La manera de capacitar y el material usado en las salas de clase han cambiado mucho en los últimos cinco
años. Mientras tanta atención ha sido dada a la forma de presentar el contenido, es obvio que la práctica de
búsqueda y recuperación, bien como otros factores importantes, influencian el como y lo que los alumnos
aprenden y aplican en sus tareas específicas.
Algunas organizaciones han intentado mudar la totalidad de sus cursos a una distribución online, sin embargo
no todo el mundo es apto para trabajar de esta forma. Una parte significativa de la población, principalmente los
considerados Gen X o Gen Y, adoran aprender a través de la computadora. Hasta pasan su tiempo libre
delante de la computadora. Otros aprenden mejor en sesiones de entrenamiento más tradicionales donde las
personas se reúnen, se dividen en grupos y conversan entre sí. Un gran parte de nosotros todavía preferimos el
contexto de sala de clase con toda la interacción humana.
Por eso es fundamental entender cómo las personas aprenden, lo que aprendieron y si este conocimiento es
específicamente útil para su trabajo. Es por este motivo que la base para un desarrollo exitoso del
entrenamiento educacional y de los materiales de certificación pasa por el uso eficaz de las evaluaciones.
Antes, las evaluaciones consistían en simples hojas de papel en los cuales los alumnos rellenaban pequeños
cuadrados, hoy las empresas e instituciones de enseñanza tienen una oportunidad real de usar la tecnología
no solamente para hacer las evaluaciones más accesibles, pero también para hacer el proceso de aprendizaje
mucho más eficaz.
Estas organizaciones pueden usar las evaluaciones para llevar a las personas a tener experiencias de
aprendizaje eficaces; reduciendo las curvas de aprendizaje; extendiendo las curvas de olvido; confirmando
habilidades, conocimientos y actitudes; y motivándolas puesto que proporcionan un sentimiento de realización.
El propósito de este trabajo es ilustrar como las organizaciones y los instructores pueden utilizar las
evaluaciones para mejorar el proceso de aprendizaje y alcanzar mayores resultados. Este documento está
diseñado para ayudar a los lectores:
• En la distinción de tipos y estilos de evaluaciones
• En la comprensión de la credibilidad y validez
• En la comprensión de los beneficios de las evaluaciones computarizadas

1. Una Introducción a las Evaluaciones
Es importante definir el contexto de las evaluaciones en el proceso de aprendizaje. Existen muchos estilos de
evaluaciones que no son abordados en este documento como, para citar algunas, evaluaciones médicas
realizadas por un médico, evaluaciones de riesgos en hospitales y evaluaciones para acreditamiento de
facultades y universidades. En este documento empleamos términos genéricos de evaluaciones para describir
pruebas, tests, encuestas y exámenes. Estos instrumentos evalúan los conocimientos, las habilidades y las
actitudes de los alumnos.
La siguiente tabla define estos términos:
Evaluación Cualquier método sistemático de obtención de evidencia desde la realización de
preguntas para generar inferencias sobre el conocimiento, las habilidades, las
actitudes y otras características de las personas para un propósito específico.
Examen Una evaluación de suma usada para medir los conocimientos o habilidades del
alumno, con el propósito de documentar su nivel actual de conocimiento o
habilidad.
Prueba Una evaluación de diagnóstico para medir los conocimientos o habilidades del
alumno, con el propósito de informarle a él o a los profesores sobre su nivel actual
de conocimiento o habilidad.
Quiz Una evaluación formativa usada para medir los conocimientos o habilidades del
alumno, con el propósito de proporcionar feedback/retroalimentación sobre su nivel
actual de conocimiento o habilidad.
Encuesta
Una evaluación de diagnóstico o de reacción para medir los conocimientos, las
habilidades y/o actitudes de un grupo, con el propósito de determinar las
necesidades requeridas para cumplir un propósito definido.
1.1 Usos de la Evaluación

Existen cinco propósitos primarios o usos de evaluaciones:
Diagnóstico Evaluación creada para identificar las necesidades y los conocimientos que los
participantes ya tienen, con el propósito de dirigirlos hacia una experiencia de aprendizaje
más apropiada.
Formativa Evaluación que tiene como objetivo primario probar la capacidad de memorización del
alumno y ofrecer un feedback preceptivo (por ítem, tópico y/o nivel de valuación).
Necesidades Evaluación usada para determinar el conocimiento, las habilidades y las actitudes de un
grupo, permitiendo de esta manera el análisis de las carencias y ayudar al desarrollo del
curso. El análisis de las carencias determina la diferencia entre lo que el alumno sabe y lo
que debe saber.
Reacción Evaluación creada para determinar el nivel de satisfacción en relación a una
experiencia de aprendizaje o de evaluación. Estas evaluaciones son
generalmente conocidas como evaluaciones de Nivel 1 (en la clasificación
realizada por el Dr. Donald Kirkpatrick), son evaluaciones sobre el curso o de
satisfacción; son completadas al final de una experiencia de aprendizaje o de
certificación.
De suma Evaluación generalmente cuantitativa, cuyo objetivo primario es atribuir una nota
definitiva y/o hacer un juicio sobre los conocimientos del participante. Si el
resultado muestra que el participante alcanzó un estándar determinado, esto
señala un nivel de conocimiento especial, la “certificación” le podrá ser entonces
conferida.
1.1.1 Evaluaciones de Diagnóstico

Si usted fuese al médico y solamente dijese, “Siento un dolor”, y el médico le respondiera, “OH, aquí
tiene una pastilla”, usted empezaría a preocuparse. Pero lo qué el médico hace en realidad es preguntar,
“¿Adónde duele? ¿Con qué frecuencia le duele? ¿Hizo algo recientemente qué podría haber causado este
dolor?” Estas son preguntas que el médico hace para poder hacer un diagnóstico y prescribir una receta. Esto es
exactamente lo que sucede con las evaluaciones de diagnóstico.
Las evaluaciones de diagnóstico son normalmente usadas en evaluaciones de pre-aprendizaje, antes
que la persona inicie una experiencia de aprendizaje, o en un test de clasificación de nivel. Por ejemplo, un
alumno universitario cuyo segundo idioma es el español puede hacer un test para descubrir si sus habilidades
con el idioma son adecuadas para asistir a cursos dados en la lengua de Cervantes. El test mide el conocimiento
y las habilidades actuales de la persona proporcionando un feedback que ayuda el instructor a crear un curso
eficaz. Estos tipos de tests también despiertan el interés, aumentando así los beneficios de la experiencia de
aprendizaje. Por ejemplo, si un instructor pregunta algo que el alumno no sabe contestar este puede sentir
curiosidad en encontrar la respuesta. Por ende va a prestar más atención en clase.
Las evaluaciones de diagnóstico son usadas para determinar el conocimiento e identificar las
necesidades y las carencias al nivel de las habilidades. Tal evaluación puede mostrar que un alumno domina
100% Microsoft Word, pero solamente domina 50 % Excel. Los resultados de la evaluación prescribirán un
curso en Excel. Además, este tipo de evaluación permite enviar a los alumnos hacia experiencias de
aprendizaje adecuadas, esto se puede hacer simplemente preguntándoles, “¿Prefiere entrenamiento con
instructor u online?”
1.1.2 Evaluaciones Formativas

Las evaluaciones formativas proporcionan feedback a los individuos y a sus formadores durante el
proceso de aprendizaje mediante la práctica de búsqueda y recuperación de información. Cuando las personas
necesitan dar respuestas a las preguntas sobre el material estudiado, sus cerebros deben realizar una búsqueda
en sus memorias y recuperar la información. Estos procesos de búsqueda y recuperación ayudan a solidificar el
conocimiento del alumno y a mantener aquella información en un estado accesible para búsquedas posteriores.
Si una persona contesta incorrectamente, el instructor tendrá la oportunidad de enseñarle o de darle un feedback
y decir, “No, estás equivocado… ésta es la respuesta correcta” o “No, pero piensa en este problema de esta otra
forma…” La práctica de búsqueda y recuperación es siempre usada para:
• Tests de práctica y exámenes
• Auto-evaluación del conocimiento, de las habilidades y de las actitudes en relación los objetivos
de aprendizaje.
Las evaluaciones formativas ayudan a garantizar que los alumnos estén realmente aprendiendo o
alertan cuando el aprendizaje no está ocurriendo, también proporcionan retroalimentación para corregir
cualquier concepto erróneo. Una encuesta realizada a través de la Web reveló que las personas tienden a
contestar los tests primero y a usar el feedback para poder decir, “Hey, me está yendo muy bien en esta
materia. Voy a continuar”, o “Necesito estudiar más este tema”. Ellos no solamente aprendieron su nivel de
conocimiento, pero también redujeron su curva de olvido, esto lo han hecho sin darse cuenta a través de la
práctica de búsqueda y recuperación. Estas evaluaciones formativas son a veces usadas para colectar datos
que serán agregados a las puntuaciones finales. No son un examen final, pero una serie de pequeños tests
ofreciendo evidencias que el instructor pueda utilizar para tomar decisiones.
1.1.3 Evaluaciones de Necesidades

Las evaluaciones de necesidades examinan los conocimientos, las habilidades y las aptitudes de un
grupo, estas evaluaciones ofrecen datos que ayudarán a determinar las necesidades de la capacitación. Son
evaluaciones permitiendo reconocer y solucionar las carencias. Permiten que gerentes de capacitación,
diseñadores e instructores planifiquen los cursos que necesitan ser desarrollados o administrados de modo a
satisfacer las necesidades de los participantes.
1.1.4 Evaluaciones de Reacción

La evaluación de reacción ocurre cuando evaluamos reacciones y opiniones de los alumnos sobre su
aprendizaje. Generalmente se trata de hojas con preguntas del tipo "¿Qué le pareció el profesor?", según el
modelo de Donald Kirkpatrick son las evaluaciones de Nivel 1. En facultades y universidades se las conoce como
la evaluación de curso. Este tipo de evaluación reúne las opiniones de los alumnos al nivel de los materiales
usados durante el curso, del instructor, del ambiente de aprendizaje, de la ubicación...etc. Con esta información
el instructor puede mejorar las futuras experiencias de aprendizaje.
1.1.5 Evaluaciones De Suma

Las evaluaciones de suma son exactamente lo que parecen ser: suman los conocimientos o las habilidades de
quien las conteste. Este tipo de evaluación ofrece una nota cuantitativa y juzga los conocimientos de una
persona, sus habilidades y sus logros. Pueden ser exámenes regulatorios y no regulatorios que proporcionan
una puntuación cuantitativa y muestran el nivel de conocimiento y habilidad de una persona.
1.2 Las Consecuencias de una Evaluación

Antes de analizar como las evaluaciones pueden ser más efectivamente usadas en el proceso de
aprendizaje, es importante comprender que las evaluaciones pueden ser clasificadas según el nivel de
importancia de la prueba y sus implicaciones. Podemos distinguir 3 tipos de consecuencias.
• Altas
• Medias
• Bajas
El nivel de complejidad de una evaluación se refiere a las consecuencias para el candidato. Por
ejemplo, un examen normalmente tiene consecuencias mayores, mientras que una encuesta tiene pocas o casi
ninguna.
En evaluaciones de bajo nivel de complejidad, tales como pruebas y encuestas, las consecuencias para
el candidato son pocas y entonces las responsabilidades son menores. Tales evaluaciones son frecuentemente
contestadas a solas puesto que no hay ninguna motivación para hacer trampa o compartir sus respuestas con
otros, por lo tanto no es necesario tener ningún tipo de supervisión. Esto significa que los administradores de
tests no verificarían documentos de identidad, este no sería el caso para exámenes más complejos.
Las exigencias de validez y confiabilidad para tests o encuestas son muy bajas, pero una prueba con altas
consecuencias debe ser confiable y válida. Este tipo de evaluaciones requieren más planificación. La regla
general es que el ambiente de una prueba o de un examen debe parecerse al del trabajo; en una institución
académica debe parecerse al currículo.
Las evaluaciones de poca complejidad requieren poca planificación. Especialistas Del Tema (EDT)
simplemente escriben las preguntas y las hacen disponibles para los alumnos. Sin embargo, una prueba de
mucha complejidad requiere mucha más planificación, como análisis de tareas, establecimiento de puntuación
para aprobación/suspensión, especificación de métodos, consistencia de distribución y como los resultados
serán guardados y distribuidos. El análisis de tarea muestra cuales tareas están asociadas con el trabajo, con
que frecuencia son ejecutadas y cuales son sus grados de importancia. Los creadores de tests planifican por
tópico cuales preguntas deben constar en la prueba, cuales materias son más importantes, cuales son menos
importantes y el nivel de competencia requerido. Los puntos para aprobación/suspensión o eliminación
determinan el umbral entre pasar y reprobar.
Finalmente, en las evaluaciones de alta complejidad, profesionales especializados analizarán los resultados
estadísticos y propondrán directrices sobre como mejorar el lenguaje usado en las preguntas, la prueba en
general y las alternativas posibles. En evaluaciones de poca complejidad, sin embargo, es raro realizar una tal
verificación.
1.3 Factores Determinantes del Nivel de Complejidad de una Evaluación

El nivel de complejidad de una evaluación también determina otros factores, desde las consecuencias generales
hasta la validez de la prueba propiamente dicha.
Baja Media Alta
Consecuencias Pocas Algunas Mayores
Decisiones Pocas y Pueden ser revertidas Dificilmente

facilmente reversibles
reversibles
Opçiones para Mejorar estudio Pasar, reprobar o Pasar o reprobar

participantes esforsarze más
¿Motivación para Baja Media Alta

hacer trampa?
Identificación No importante Tal vez importante Muy importante

Individual
No Algunas Veces Siempre y constante

Supervisión requerida
Esfuerzo para Menor Medio Mayor

contestar
Raramente Especialistas Del Especialistas en

Verificar credibilidad Tema psicometría
y validez
Como se puede ver en el la tabla de arriba, las consecuencias de los diferentes tipos de evaluación
varían. Un examen de alto nivel de complejidad puede determinar o no si una persona está empleada o
despedida o si irá a terminar su carrera en la facultad. Como podría esperarse, las decisiones basadas en
evaluaciones de complejidad baja son pocas y fácilmente reversibles. Si la persona obtiene un resultado bajo
en un quiz, podrá fácilmente contestar el resultado, pero si es reprobada en un examen de enfermería, será
muy difícil poder contestar el resultado. Las opciones del participante varían conforme el nivel de complejidad.
Obviamente en una encuesta no hay motivación para hacer trampa, lo mismo sucede con un test de
bajo nivel de complejidad y de consecuencia. Las pruebas con pocas consecuencias son herramientas
eficaces para mejorar el aprendizaje, la persona que hace trampa en este tipo de pruebas solamente se está
engañando a si mismo. Sin embargo, en un examen de enfermería, arquitectura o ingeniería, el nivel de
complejidad es mayor, entonces puede existir una motivación para hacer trampa. Una consecuencia directa de
esto es que se vuelve más importante identificar cada candidato. De hecho, para pruebas con alto nivel de
complejidad relacionadas a la seguridad nacional, tales como para ingresar a la CIA o al ejército, se utiliza el
escaneo biométrico de la retina para asegurarse que los candidatos son realmente quienes dicen ser.
Obviamente si hay la motivación para hacer trampa es baja, no habrá necesidad de supervisar una
evaluación, pero si existe una gran motivación para hacer trampa, entonces deberá haber una vigilancia
permanente.
El esfuerzo para el desarrollo de un quiz es bien menor, sin embargo no se puede decir lo mismo para
evaluaciones de nivel de complejidad/consecuencia medio o alto. Una regla de oro para pruebas de nivel de
complejidad media es que el especialista en la materia creará tres preguntas en una hora, de las cuales una sola
será incluida en la evaluación. Para las evaluaciones de alto nivel de complejidad (por ej. certificaciones) se
necesita más tiempo para crear las preguntas. ¡El costo medio de una evaluación de alto nivel de
complejidad/consecuencia gira en torno a los US$500 y US$1,500 por pregunta! Cuando el nivel de complejidad
es alto, es importante verificar que cada pregunta sea adecuada en relación a la totalidad de la prueba. De esta
manera los candidatos más capacitados tienden a contestar correctamente, mientras que los menos capacitados
o preparados no tendrán buenos resultados. Consecuentemente lleva tiempo, esfuerzo e inteligencia conseguir
la combinación correcta de preguntas en una prueba o examen de alto nivel de complejidad.
1.4 La Naturaleza de las Evaluaciones

Como podemos ver en la siguiente tabla, cada tipo de evaluación puede ser clasificada según usos específicos y
niveles de importancia:
Tipo de Evaluación Importancia/Complejidad de

Uso de la Evaluación
la Evaluación
Exámen De suma Media, Alta
Test Diagnóstico Baja, Média
Quiz Formativa Baja
Encuesta Necesidades, Reacciones, Baja

Diagnóstico
Por ejemplo, los tests de clasificación son un ejemplo popular de evaluación del tipo diagnóstico. Las personas
emplean este tipo de evaluación para posicionarse en una experiencia de aprendizaje adecuada. Como las otras
evaluaciones, algunos tests de clasificación tienen un bajo nivel de complejidad y otros pueden tener un nivel de
complejidad más alto. Por ejemplo, un examen de admisión es una prueba de clasificación de nivel de
complejidad/importancia mayor, mientras que un guía de conocimiento y de recursos de aprendizaje tiene un
nivel de complejidad bajo.
Si una empresa tiene 100 empleados, y desea proponer programas de capacitación adecuados, será necesario
descubrir cuales son las carencias existentes al nivel de las habilidades, la empresa empleará una evaluación
con un nivel bajo de complejidad. No habrá consecuencias para el candidato. Podrá haber algunas
consecuencias para la organización, pero generalmente aun eso es considerado como un nivel bajo de
complejidad. Lo mismo se aplica a las auto-evaluaciones, pues ayudan a que las personas se den cuenta como
les está yendo, si están aprendiendo o no. Algunas empresas realizan un test los lunes por la mañana a sus
empleados. Estos generalmente no trabajan el fin de semana y al volver a las oficinas no están en estado de
alerta. Un test realizado el lunes por la mañana los pone en el “modo pensar”. Es una evaluación formativa de
complejidad baja que les posibilita practicar la búsqueda y recuperación de la información.
Las evaluaciones de complejidad media, por otro lado, miden el nivel de conocimiento y habilidades de los
empleados. Cuanto más personal sean estas evaluaciones, mayor será el nivel de complejidad/importancia
puesto que tendrán mayores consecuencias. Exámenes de complejidad media tendrán consecuencias porque
algunas personas probablemente tendrán mejores salarios por enfrentar problemas más difíciles. En un
contexto académico, los instructores usan este nivel de evaluación para atribuir puntuaciones.
Los exámenes de alto nivel de complejidad son certificaciones regulatórias para grupos tales como plomeros,
electricistas, policías, terapeutas, doctores o enfermeras. Estas profesiones son todas reguladas por la ciudad,
el estado, o gobiernos federales, por lo tanto son consideradas de alto nivel de complejidad/importancia. Sin
embargo, exámenes no regulatórios, tales como certificaciones de Microsoft, Cisco o Linux también tienen un
alto grado de complejidad. Por no tener consecuencias inmediatas, tienen nivel de complejidad inferior con
respecto a las certificaciones regulatórias, pero como pueden dar acceso a empleos y oportunidades de
promoción, tienen consecuencias para el candidato, podemos entonces clasificarla como teniendo un alto nivel
de complejidad. De la misma manera un examen de entrada o pre-empleo tiene un alto nivel de complejidad.
Obviamente si un candidato es reprobado en el examen de admisión de la facultad de derecho, este examen es
de un nivel alto de complejidad/importancia.
Finalmente, algunas empresas hacen lo que es conocido como permiso concedido. Si los empleados pasan el
examen pueden operar un tipo específico de maquinaria. Generalmente cuanto más peligroso es el manejo,
más alto es el nivel de complejidad; cuanto menos peligroso es el manejo, menor es el nivel de complejidad.
1.5 Consumidores teniendo consecuencias a partir de las Evaluaciones

¿Cuándo el plomero vaya a su casa, acabará rompiendo un caño? ¿Un cirujano está calificado para extraer
una vejiga? ¿Una persona está calificada para conducir un vehículo? La mayor preocupación no debe ser si un
alumno fue reprobado, sino si será capaz de ejecutar una tarea determinada.
Como resultado de estas situaciones, un tipo de alianza ha sido desarrollada entre los consumidores, los que
contestan los exámenes y los que los crean. Los consumidores quieren estar seguro de que pueden confiar en
las personas que emplean; diseñadores de pruebas de alto nivel de complejidad quieren medir precisamente con
tests válidos y confiables, y los candidatos quieren que los tests sean justos.
Debe haber comunicación a cada nivel para garantizar que todos comprendan que los diseñadores están
intentando producir un sistema justo y funcional de evaluación. Tales cuestiones están relacionadas con la
Validez de Cara - percepción entre los no-especialistas de que una prueba mide lo que debe medir. Una prueba
no debe tener solamente Validez de Contenido – determinación documentada por especialistas de que la prueba
mide las competencias deseadas para la tarea, pero también necesita tener la credibilidad del consumidor y del
candidato que esté contestando el examen. El autor de la prueba necesita ser entrenado adecuadamente; los
alumnos necesitan ser educados sobre el valor de una evaluación y ser asegurados de que están listos para la
experiencia; y los consumidores necesitan ser educados sobre la validez de la evaluación para que puedan tener
confianza en las personas que realizan su trabajo.
2. Credibilidad y Validez de las Evaluaciones

Una evaluación es confiable cuando funciona consistentemente. Si una encuesta indica que los empleados están
satisfechos con un curso, esta debe mostrar el mismo resultado tres días después. (Este tipo de credibilidad es
llamado de credibilidad de test, re-test.) Si un instructor clasifica los empleados que están realizando una prueba
de desempeño, la puntuación deberá ser igual a la de cualquiera otro instructor que haga la misma evaluación.
(Eso es denominado credibilidad intra-nota). Una evaluación es válida si mide lo que debe medir. Si una prueba
o encuesta es aplicada a personas felices, los resultados deben mostrar que todos son felices. De manera
similar si un grupo de personas con grandes conocimientos es evaluado, los resultados de la prueba deben
mostrar que todos tienen un tal nivel de conocimientos. Las buenas evaluaciones son las consideradas como
fiables y válidas.
Si una evaluación es válida, será parecida al trabajo y el contenido se alineará, a los ojos de los profesionales
del área, con las tareas del trabajo. Este tipo de validez es conocido como Validez de Contenido. Para asegurar
tal validez, las personas que crean la evaluación deben en un primer lugar hacer un análisis de la tarea para
saber lo que es requerido para un trabajo específico. Esto es hecho a través de una encuesta realizada a los
especialistas en el asunto o a las personas ejerciendo el trabajo. Esta encuesta va a determinar que
conocimientos y habilidades son necesarios para ejecutar las tareas relacionadas al trabajo. Desde estas
informaciones es posible producir una prueba válida.
La validez de la prueba requiere credibilidad. Sin embargo, una prueba puede ser fiable, pero no válida. Este
ejemplo ilustra como la credibilidad y la validez de una evaluación están relacionadas. Si aplicásemos dos veces
una evaluación de francés a un grupo de enfermeras y la puntuación fuese exactamente la misma, la prueba
sería considerada altamente fiable. Sin embargo, el hecho de que la puntuación de la prueba es fiable no induce
a que la prueba mida la competencia al nivel de los conocimientos en enfermería. La prueba es fiable, pero es
inválida para medir las habilidades en enfermería. La prueba simplemente confirma un conocimiento al nivel del
francés. Ahora imagínese si una prueba de habilidades en enfermería fuese aplicada dos veces a un grupo de
enfermeras y la puntuación fuese diferente cada vez. La prueba sería considerada no confiable, y si no es
confiable no puede ser válida; puntuaciones flotantes indican que nada está siendo medido. De esta manera la
prueba se muestra no confiable e inválida. Una prueba de habilidades en enfermería confiable y válida es aquella
que muestra puntuaciones semejantes todas las veces que es aplicada al mismo grupo de candidatos y que
permite mostrar las diferencias existentes entre las enfermeras competentes y las incompetentes. Es consistente
y mide lo que debe ser medido.
Figura 1 Figura 2 Figura 3

Confiable (Consistente) No es confiable Confiable y Válida
Pero no es válida (Consistente) y por lo tanto
no es válida
Otro ejemplo de la relación entre credibilidad y validez está representado por las figuras de arriba. La Figura 1
muestra que todos los dardos están en la misma área, ilustrando que el tirador —analogía de una evaluación —
es confiable y consistente, pero lamentablemente sus disparos no son válidos. Si sus disparos fuesen válidos,
todos los dardos estarían en el centro. En la Figura 2 los dardos están por todo el cuadro. Esta evaluación no es
confiable porque no es consistente. Por fin, el último ejemplo muestra una evaluación confiable y válida, todos
los dardos están juntos en el centro de la mira. Observe que puede haber credibilidad sin validez, pero es
imposible tener validez sin credibilidad.
2.1 Interpretación de la puntuación de las Evaluaciones
Cuando las personas responden a una evaluación, es importante que comprendan las implicaciones de sus
puntuaciones, particularmente cuando la aprobación o la suspensión ingieran una gran diferencia en sus vidas.
Existen dos formas de puntuar las evaluaciones. Una se refiere a los criterios y la otra se refiere a las normas.
Con una interpretación de puntuaciones refiriéndose a criterios, los diseñadores de la prueba establecen un
estándar para la aprobación y la suspensión. Si la persona aprueba, quiere decir que es calificada (ej: cirujano o
plomeros).
Figura 4
Curva de dominio común para una prueba refiriéndose a criterios
Esta curva muestra el número de personas que contestaron la evaluación y sus puntuaciones. La escala
horizontal califica de 0 a 100, mientras que la escala vertical muestra el número de personas que alcanzaron una
puntuación específica. La puntuación de aprobación determinada por los expertos es de 70%.
Lo importante en este tipo de evaluaciones es que se ha establecido un cierto nivel de conocimientos para
poder realizar un trabajo específico. Por ejemplo, un evaluación para conductores de vehículos empleará una
interpretación de las puntuaciones refiriéndose a criterios, considerando que un cierto nivel de conocimientos y
habilidades son necesarios para aprobar.
Una prueba refiriéndose a una norma, por otro lado, compara las puntuaciones de los candidatos entre sí.
Frecuentemente las puntuaciones obtenidas por los alumnos son publicadas. Las pruebas refiriéndose a
normas son usadas para tomar “decisiones de selección”. Por ejemplo, un examen de admisión puede ser
diseñado para seleccionar candidatos y ocupar 100 vacantes en una facultad. El equipo de selección usa las
puntuaciones obtenidas en la prueba para determinar cuales serán los 100 mejores y así atribuir las
vacantes. El nivel de los candidatos será diferente cada año.
El punto clave es que la prueba servirá para comparar las puntuaciones de los candidatos y al final se
identificarán a los 100 mejores (ej: un concurso para entrar a un escuela de diplomacia).
Figura 5
Curva típica para una prueba de referencia a una norma
¿Cuál la importancia de estas referencias? Si una ciudad decide contratar un arquitecto para diseñar un edificio,
la comisión de planificación va a querer tener las garantías de que el arquitecto ha sido aprobado en una prueba
de referencia de criterio. Ellos no van a aceptar un profesional basándose solamente en el hecho del que es uno
de los mejores alumnos del año ‘77. Por otro lado, una prueba de referencia a la norma podría seleccionar los 10
mejores representantes de ventas o los 10 mejores alumnos del año.
Como consumidores nos sentimos confortables en saber que nuestros médicos, enfermeros y farmacéuticos
fueron aprobados en un examen de certificación que verificó sus competencias, conocimientos y habilidades
para ejercer sus funciones. Sería triste saber que su médico fue formado por una universidad desconocida que
siempre concedió certificados a sus 50 mejores alumnos independientemente de sus habilidades.
2.2 Evaluaciones Cronometradas Versus Evaluaciones Veloces

La mayoría de las pruebas son cronometradas, sin embargo estudios muestran que 95% de los alumnos
concluyen una prueba dentro del tiempo límite, siempre y cuando el tiempo establecido sea razonable. Sin
embargo, existen pruebas que necesitan ser veloces porque la velocidad es una parte importante en el
desempeño del trabajo.
Por ejemplo, la prueba de un técnico encargado de un reactor nuclear. Un objeto dentro de la prueba puede
simular una situación peligrosa al accionar alarmas y/o mostrar gráficos de paneles de control. Este estímulo
requiere que la persona actúe dentro de un cierto límite de tiempo. La situación requiere una acción inmediata y
no permite que la persona consulte a nadie para determinar la mejor acción. La persona debe saber como actuar
y hacerlo dentro del tiempo disponible. Ésta es una prueba del tipo veloz porque el tiempo de reacción de los
candidatos es un punto-clave del trabajo y por ende debe ser medido para mantener la validez de la prueba.
3. Los Beneficios de las Evaluaciones Computarizadas
Claramente las evaluaciones de todos los tipos pueden causar un impacto mayor sobre el que y el como los
alumnos aprenden, sea en un ambiente corporativo o en un campus universitario. También es cierto que si esas
mismas organizaciones tuviesen que realizar estos tipos de evaluaciones sobre papel – evaluación formativa,
de necesidades, de reacción y de suma—sería un proceso muy lento y muy difícil al nivel de la recolección de
los resultados.
Al computarizar las evaluaciones, es posible obtener resultados valiosos casi instantáneamente. Este feedback
rápido mejora la calidad de aprendizaje e incrementa la satisfacción de los alumnos. Proporcionar ejercicios de
práctica con feedback instantáneo enriquece considerablemente el proceso de aprendizaje.
Tener estos tipos de resultados puede causar un impacto enorme no solo en el resultado final, pero también en
la productividad y el respeto de los reglamentos. Por ejemplo, organizaciones que deben probar el respeto de
reglamentos - veracidad en empréstitos, economías, seguridad de los alimentos —pueden emplear evaluaciones
computarizadas para demostrar rápidamente que están dentro de las normas.
Para usufructuar los beneficios reales de las técnicas de evaluación aquí descritos, comience
identificando sus metas: necesita identificar personas calificadas, mejorar el servicio al cliente, ¿mejorar
el tiempo de respuesta o seguir las normas de reglamento?
Es importante documentar los tópicos y los objetivos del aprendizaje. También debe determinar el tipo de
evaluación que su organización necesita para alcanzar las metas establecidas. Estas evaluaciones servirán para
capacitar su organización y ayudarán a sus alumnos a alcanzar sus propios objetivos y los de su
universidad/empresa.
Lectura Recomendada:
Criterion Referenced Test Development: Technical and Legal Guidelines for Corporate Training and Certification
por Sharon A. Shrock and William C. Coscarelli (ISBN 1-890289-09-4)Evaluating Training Programs: The Four
Levels por Donald L. Kirkpatrick (ISBN: 1-576750-42-6)Tests That Work por Odin Westgaard (ISBN 0-7879-4596-
X)Work-Learning Research white papers por Will Thalheimer (at www.work-learning.com)
Trabajos publicados en el sitio de Questionmark:
Delivering Computerized Assessments Safely and Securely
http://www.questionmark.com/communities/getresource.asp?file=DeliveringComputerisedAssessmentsSecurely.p
df&group_id=5
The Learning Benefits of Asking Questions por Dr. Will Thalheimer
http://www.questionmark.com/communities/getresource.asp?file=LearningBenefitsOfQuestions.pdf&group_id=5
Creating and Deploying Computerized Level 1 Assessments
http://www.questionmark.com/communities/getresource.asp?file=Level%201%20assessments.pdf&group_id=5
Improving Training Evaluations in Organizations por Dr. Paul Squires
http://www.questionmark.com/communities/getresource.asp?file=training_evaluation.pdf&group_id=5
Glosario
Evaluación Cualquier método sistemático para obtener evidencia por medio de preguntas para inferencias
sobre el conocimiento, las habilidades, actitudes y otras características de personas para un propósito
específico.
Examen Una evaluación de suma usada para medir conocimientos o habilidades del alumno para
documentar su nivel actual.
Prueba/Test Una evaluación diagnóstico para medir los conocimientos y las habilidades de un alumno
para informar sobre su nivel actual.
Quiz Una evaluación formativa usada para medir los conocimientos y las habilidades de un alumno para darle
feedback sobre su nivel actual de conocimiento o habilidad.
Encuesta Una evaluación de diagnóstico o de reacción para medir los conocimientos, las habilidades y/o
actitudes de un grupo para determinar las necesidades requeridas para atender a un propósito definido.
Diagnóstico
Una evaluación que es primariamente usada para identificar las necesidades y conocimientos de los
participantes para dirigirlos a la experiencia de aprendizaje más apropiado.
Formativa Una evaluación que tiene el objetivo primario de proporcionar práctica de búsqueda y recuperación
para un alumno y feedback preceptivo (tema, tópico y/o nivel de evaluación).
Escala de Likert (Lykert) Un método para llevar el participante a expresar su opinión sobre una cuestión. Las
escalas de Likert son frecuentemente de 4 puntos (completamente de acuerdo, de acuerdo, en desacuerdo,
completamente en desacuerdo) de a 5 puntos (completamente de acuerdo, de acuerdo, neutro, en desacuerdo,
completamente en desacuerdo), pero algunas veces puede traer hasta 10 opciones.
Necesidades
Una evaluación usada para determinar los conocimientos, las habilidades y las actitudes de un grupo y
así analizar las carencias y desarrollar el material de curso. El análisis de carencias determina la variación entre
lo qué el alumno sabe y lo que debe saber.
Reacción Una evaluación usada para determinar el nivel de satisfacción con una experiencia de aprendizaje.
Estas evaluaciones son frecuentemente conocidas como Nivel 1(Según el Dr. Kirkpatrick), evaluaciones de
curso, hojas con “caras”. Son rellenadas al final de una experiencia de aprendizaje o certificación.
De suma Una evaluación donde el propósito primario es dar una nota cuantitativa y hacer un juicio sobre la
realización de los participantes. Es normalmente conocido como un evento de certificación si la meta es
documentar que el candidato tiene conocimiento especializado.
Questionmark:
Questionmark, con más de 1,800 clientes a nivel mundial, ofrece a la industria del aprendizaje las capacidades
más óptimas para realizar evaluaciones en línea, estas capacidades incluyen herramientas de autoría, reporte y
análisis. Questionmark produce software de evaluación y de prueba desde 1988, permitiendo a los educadores y
formadores de redactar, administrar, y evaluar tests y encuestas, de forma segura, usando PC individuales,
redes locales, intranets e Internet. El programa Questionmark™ Perception™ permite, sin conocimientos
informáticos o experiencia al nivel del HTML, crear archivos de preguntas. Los usuarios pueden crear varios
bancos de pregunta a partir de los cuales juntan las preguntas en pruebas y encuestas, organizando las
preguntas en temas y subtemas. Para más detalles visite http://www.questionmark.com/esp

Evaluaciones

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Evaluaciones

Uploaded by

Copyright:

Available Formats

LAS EVALUACIONES EN EL PROCESO DE APRENDIZAJE/CAPACITACIÓN

Autores: Eric Shepherd

• En la distinción de tipos y estilos de evaluaciones

• En la comprensión de la credibilidad y validez

• En la comprensión de los beneficios de las evaluaciones computarizadas

1.1 Usos de la Evaluación

1.1.1 Evaluaciones de Diagnóstico

1.1.2 Evaluaciones Formativas

1.1.3 Evaluaciones de Necesidades

1.1.4 Evaluaciones de Reacción

1.1.5 Evaluaciones De Suma

1.2 Las Consecuencias de una Evaluación

1.3 Factores Determinantes del Nivel de Complejidad de una Evaluación

Baja Media Alta

Consecuencias Pocas Algunas Mayores

Decisiones Pocas y Pueden ser revertidas Dificilmente

Opçiones para Mejorar estudio Pasar, reprobar o Pasar o reprobar

¿Motivación para Baja Media Alta

Identificación No importante Tal vez importante Muy importante

No Algunas Veces Siempre y constante

Esfuerzo para Menor Medio Mayor

Raramente Especialistas Del Especialistas en

1.4 La Naturaleza de las Evaluaciones

Tipo de Evaluación Importancia/Complejidad de

Exámen De suma Media, Alta

Test Diagnóstico Baja, Média

Quiz Formativa Baja

Encuesta Necesidades, Reacciones, Baja

1.5 Consumidores teniendo consecuencias a partir de las Evaluaciones

2. Credibilidad y Validez de las Evaluaciones

Figura 1 Figura 2 Figura 3

2.2 Evaluaciones Cronometradas Versus Evaluaciones Veloces

You might also like