Professional Documents
Culture Documents
instrumento efectivamente mide lo que sus actores declaran que mide (Cohen, Manion y
Morrison 2000; Darr, 2005). Sin embargo, más recientemente los especialistas en
evaluación han considerado que la validez no es una propiedad fija e inherente del
instrumento, sino que es un juicio, basado en evidencia, sobre qué tan apropiadas son
interpretación de los resultados del test para determinados usos, cuando se pretende usar
un test de varias maneras, la validez de cada uso se debe analizar de forma separada
ítems: ¿Los ítems son una muestra adecuada del constructo que se quiere evaluar?
También hay preguntas relativas a la interpretación de los resultados: ¿Qué nos dicen
estos puntajes?,¿Cómo se relacionan estos puntajes con los de otros instrumentos que
dicen medir lo mismo? (Cohen y Swerdlik, 2009). En este caso como se relaciona la
prueba PRUN con el promedio semestral de los estudiantes, ya que ambos miden lo
evaluación de aprendizajes. Es crítico que la evaluación permita hacer juicios sobre los
progresos de los estudiantes que sean robustos y útiles, y tengan consecuencias
positivas. Estar consciente de la validez y de cómo esta se puede ver amenazada puede
ayudar a tomar decisiones sobre qué evaluaciones vale la pena hacer y qué usos se les
ocasiones, puede ser apropiado que el usuario conduzca estudios extras de validación
local. Esta validación local se vuelve imprescindible cuando se planea hacer alguna
pretende aplicarlo a una población que sea significativamente diferente a aquella en que
el test fue estandarizado, o si se le quiere dar un uso diferente de aquello para que fue
Tipos de Validez
teórico que pretende medir y si se puede utilizar con el fin previsto. Es decir, un test es
medida. Un instrumento puede ser fiable pero no válido; pero si es válido ha de ser
también fiable. Se puede decir, que la validez tiene tres grandes componentes:
- Validez de contenido
- Validez de constructo
- Validez de criterio o criterial
desarrollados a partir de las teorías planteadas por el filósofo francés Auguste Comte
concibe en términos de precisar el rasgo del aprendizaje del evaluado que se pretende
medir, como aprendizaje a través de pruebas o test, predecir algún rasgo del aprendizaje
adicional a lo que se pretende medir, y finalmente medir lo que se dice medir de cierto
Validez de contenido
Juicio lógico sobre la correspondencia que existe entre el rasgo del aprendizaje
adecuación de cada ítem al rasgo a evaluar. Hogan (2004) plantea que para
Cohen & Swerdik, 2001 plantea que la validez de contenido consiste en qué tan
adecuado es el muestreo que hace una prueba del universo, cuyos miembros son
reactivos o ítem, en relación a posibles conductas que se pretenden medir. Los ítems
deben capturar las dimensiones que la prueba pretende medir, un error de validez de
contenido sería que alguna de las dimisiones no tuviera ningún ítems que la evaluara,
o que los ítems evaluaran una parte es ésta. Es decir, el concepto esencial de validez
especialmente con los tests educativos y tests referidos al criterio. En este tipo de
El estudio describe las ventajas de utilizar una herramienta virtual diseñada para
de juicio). Se define como el grado en que los ítems que componen el test
contenido se basa en (a) la definición precisa del dominio y (b) en el juicio sobre el
2002). En concordancia con esto Utkin (2005) plantea que el juicio de experto en
muchas áreas es una parte importante para determinar la validez cuando las
define el juicio de experto como una opinión informada de personas con trayectoria
en el tema, que son reconocidas por otros como expertos, y que pueden dar
b) Reputación en la comunidad
McGartland, Berg, Tebb, Lee y Rauch (2003), propone como criterio básico de
Gable y Wolf (1993), Grant y Davis (1997) y Lynn (1986) sugieren que se debe
emplear entre 2 a 20 expretos, por otro lado, Hyrkäs et al. (2003) señala que diez
evaluadores y se utiliza cuando las variables están dadas en una escala nominal, es
decir únicamente clasifican. Por ejemplo, un juez clasifica los ítems de una prueba de
clasificar a pacientes entre los que requieren seguimiento permanente y los que no.
negativo el nivel se acuerdo es inferior al esperado por el azar (Sim & Wright, 2005).
Selección de expertos
El método de obtención de juicios de expertos puede ser clasificado en dos según
Delphi se le envía la mediana y se le pide que reconsidere su juicio hasta que se logre
un consenso (de Arquer, 1995), ofreciendo este último método un alto nivel de
los expertos, pero en la última se exige mayor nivel de acuerdo. Esta técnica puede
diferencias individuales.
pide individualmente a cada experto que dé una estimación directa de los ítems del
exige que se reúna a los expertos en un lugar determinado. Puede parecer un método
limitado porque los expertos no pueden intercambiar sus opiniones, puntos de vista y
puede ser precisamente lo que se esté buscando para evitar los sesgos de los datos
de juicio de experto.
diferentes objetivos.
b) Seleccionar los jueces considerando la formación académica de los expertos,
experiencia y reconocimientos.
c) Explicitar tanto las dimensiones como loa indicadores que está midiendo
necesario conocer el grado de acuerdo que existe entre ellos, ya que un juicio
de expertos de cada uno de los ítems del test como innecesario, útil y esencial. El
mejor validez de contenido. Un índice IVC = 0 indica que la mitad de los expertos
han evaluado el ítems como esencial. Los ítems con una bajo IVC serán eliminados.
Lawshe (1975) sugiere que un IVC = .29 será adecuado cuando se hayan utilizado
40 expertos, un IVC = .51 será suficiente con 14 expertos, pero un IVC de, al menos,
Validez de constructo:
La validez de constructo no sólo sirve para justificar los usos de una prueba
educativa, sino que puede proporcionar una articulación entre líneas de investigación
Por tanto, la mayoría de los nombres de rasgos se refieren a constructos. Para las
valores, se pudiera pensar más bien en unificar las tres categorías de validez en una
sola: la de constructo; debido a que las otras dos categorías también contribuyen al
(Cronbach, 1984; p.126) señala que «la meta final de la validación es la explicación
y comprensión y, por tanto, esto nos lleva a considerar que toda validación es
validación de constructo».
haber un consenso emergente acerca del papel central desempeñado por la validez de
representatividad de los contenidos, así como las relaciones con los criterios, ya que
ambas dan significado a las puntuaciones de los tests’ (Martínez Arias, 1995, p.335).
donde entraría tanto lo empírico como los juicios racionales: las hipótesis serían las
interpretaciones de las puntuaciones del test. ‘La validación de un test abarca todas
Psicólogos como Samuel Messick (1989) han impulsado una visión unificada de
la validez de constructo "... como un juicio evaluativo integral del grado en que la
(criterios) con lo que se espera por hipótesis que debe correlacionar de determinado
modo. Un criterio es una variable distinta del test que se toma como referencia, que
se sabe que es un indicador de aquello que el test pretende medir o que se sabe que
debe presentar una relación determinada con lo que el test pretende medir. Se
mismo test puede tener más de un tipo de validez, es decir puede estar validado con
respecto a varios criterios y los diferentes coeficientes de validez que resultan pueden
Validez Instruccional
Según Hogan (2004), esta validez corresponde a una aplicación particular de la
con lo que los estudiantes han tenido oportunidad de aprender durante las clases para
educativo este tipo de validez es clave, dado que representa la relación entre lo que
problemas, por una parte, los estudiantes no tienen posibilidad de demostrar lo que
aprendieron durante las clases y, por otra, son evaluados en aspectos que no se les
enseñaron (Himmel et al, 1999; McMillan, 2003). Esta última idea se ve reflejada
clases se enseñan los conceptos, sus definiciones y luego en la evaluación se les pide
que apliquen dichos conceptos en situaciones que nunca han sido trabajadas durante
las clases, aludiendo a que se espera que los estudiantes sean capaces de hacerlo
Juzgar si un instrumento es válido no es algo que pueda ser medido en una escala
refleja un juicio sobre qué tan adecuadamente el test mide lo que se supone que mide
(Cohen y Swerdlik, 2009). Otros autores, como Darr (2005), sugieren que se categorice
según el uso que se le quiera dar al test pueden tener distinta relevancia (Cohen y
relativa a criterios, concurrente, etc., aclarando que no es necesario usar siempre todas
las formas de validez (Wilson, 2005). Además se tiene que la validez está referida a
contenido y de costructo.
que más que hablar de tipos de validez, se habla de tipos de evidencia sobre la validez, o
estructura interna, las relaciones con otras variables, y las consecuencias (Joint
conocimientos de los estudiantes, sino solo una muestra de ellos, por lo tanto es
muy importante que esta sea una muestra adecuada del área de aprendizaje que
2005)
Este tipo de evidencia requiere mirar el contenido del instrumento para
es bueno, tendrá ítems que evalúan diferentes aspectos del tema evaluado, y
con constructos que son irrelevantes para lo que se está midiendo, por ejemplo
Testing, 1999).
sobre la relación entre estos procesos y los constructos que se desean evaluar.
sobre el grado en que las relaciones entre los ítems de un test y sus componentes
se adecúan al constructo que supuestamente buscan evaluar, el que puede
implicar una sola dimensión, o varias. Para mirar esto se puede revidar si los
una sola dimensión, esto también se puede probar a través del análisis de ítems
determinado test con los obtenidos por los mismos estudiantes en test que midan
1
Algunos autores identifica este tipo de validez como externa.
2
En el enfoque tradicional, se habla de validez concurrente, que es l grado en que el puntaje de un test se
relaciona con otra medida obtenida al mismo tiempo, es decir, cuanto se relacionan los puntajes de un
test que declara medir “x” con los de otro test que dice medir lo mismo. Y la validez predictiva, que se
refiere al grado en que el puntaje en un test predice alguna conducta relativa al criterio medida por otro
test en el futuro (Cohen- Swerdlik, 2009; Darr, 2005). Por ejemplo, a nivel de estudios secundarios o
terciarios, una evaluación predictiva podría tener sentido para ver qué tan bien las evaluaciones a nivel
escolar predicen el desempeño académico o laboral futuro (Darr, 2005).
La evidencia relativa a la validez discriminatoria se obtiene comparando los
poco con los test que declaran medir constructos diferentes (Wilson, 2005;
1999).
Testing, Esta validez desde el punto de vista de las consecuencias de ude usar
motivación de los estudiantes (Darr, 2005). Para analizar este tipo de evidencia
al instrumento específico que está utilizando para pedirlo. Para poder dilucidar
esto se debe ver si otro instrumento que mida el mismo constructo presenta las
mismas consecuencias indeseables. Si este es el caso, es más probables que el
Por último, hay que distinguir las consecuencias que tienen que ver con
Bibliografía
Cohen, L., Manion, L., & Morrison, K. 2000. Research Methods in Education (6th edition).
London, RoutledgeFalmer.
http://toolselector.tki.org.nz/Assessment-fundamentals/Criteria-for-choosing-
anassessment-tool
Joint Committee on Standards for Educational and Psychological Testing, 1999. Standards for
Washington DC.
Comte, A. (1896). The positive philosophy. Londres: George Bell & Son.
Hogan, T. (2004). Pruebas psicológicas. Una introducción práctica. México: El Manual
Moderno
Ding, C. & Hershberger, S. (2002). Assessing content validity and content equivalence using
structural equation
Skjong, R. & Wentworth, B. (2000). Expert Judgement and risk perception. Recuperado el 15
de Enero de 2006, de
http://research.dnv.com/skj/Papers/SkjWen.pdf
McGartland, D. Berg, M., Tebb, S. S., Lee, E. S. & Rauch, S. (2003). Objectifying content
validity: Conducting a content validity study in social work research. Social Work
Sim, J. & Wright, C. (2005) The Kappa statistic in reliability studies: Use, interpretation, and
http://www.mtas.es/insht/ntp/ntp_401.htm
Sim, J. & Wright, C. (2005) The Kappa statistic in reliability studies: Use, interpretation, and
Jakobsson, U. &y Westergren, A. (2005). Statistical methods for assessing agreement for
Messick, S. (1989). Validity. En R. L. Linn (Ed.), Educational measurement (pp. 13-103). New
York: Macmillan
http://toolselector.tki.org.nz/Assessment-fundamentals/Criteria-for-choosing-
anassessment-tool
Grant, J., Davis, L. (1997). Selection and use of content experts for instrument
Joint Committee on Standards for Educational and Psychological Testing, 1999. Standards for
Washington DC.
Síntesis