Validez Autores

Validez de un instrumento de evaluación
Evolución del concepto validez
El concepto de validez ha ido sufriendo transformaciones a lo largo del tiempo.
Tradicionalmente, la validez de un instrumento se ha entendido como hasta qué punto el
instrumento efectivamente mide lo que sus actores declaran que mide (Cohen, Manion y
Morrison 2000; Darr, 2005). Sin embargo, más recientemente los especialistas en
evaluación han considerado que la validez no es una propiedad fija e inherente del
instrumento, sino que es un juicio, basado en evidencia, sobre qué tan apropiadas son
las inferencias realizadas o acciones implementadas a partir de los puntajes de una
prueba en un determinado contexto (Cohen y Swerdlik, 2009).
Entonces, no se juzga la validez del instrumento ni de sus puntajes, sino de la
interpretación de los resultados del test para determinados usos, cuando se pretende usar
un test de varias maneras, la validez de cada uso se debe analizar de forma separada
(Joint Committee on Standards for Educational and Psychological Testing, 1999).
Algunas preguntas relativas a la validez de un test se cuestionan la calidad de sus
ítems: ¿Los ítems son una muestra adecuada del constructo que se quiere evaluar?
También hay preguntas relativas a la interpretación de los resultados: ¿Qué nos dicen
estos puntajes?,¿Cómo se relacionan estos puntajes con los de otros instrumentos que
dicen medir lo mismo? (Cohen y Swerdlik, 2009). En este caso como se relaciona la
prueba PRUN con el promedio semestral de los estudiantes, ya que ambos miden lo
mismo, el nivel de logro de ciertas habilidades desarrolladas durante el semestre.
La validez debería estar como prioridad al diseñar o seleccionar instrumentos para la
evaluación de aprendizajes. Es crítico que la evaluación permita hacer juicios sobre los
progresos de los estudiantes que sean robustos y útiles, y tengan consecuencias
positivas. Estar consciente de la validez y de cómo esta se puede ver amenazada puede
ayudar a tomar decisiones sobre qué evaluaciones vale la pena hacer y qué usos se les
puede dar a estas evaluaciones (Darr, 2005).
Responsabilidades en la validez de un instrumento
Es responsabilidad del desarrollador del test entregar evidencia sobre la validez de su
instrumento, especificando la población en la que fue validado. Pero es responsabilidad
del usuario si el instrumento es apropiado al contexto particular en que lo aplicará. En
ocasiones, puede ser apropiado que el usuario conduzca estudios extras de validación
local. Esta validación local se vuelve imprescindible cuando se planea hacer alguna
modificación al instrumento en sus instrucciones, idioma del instrumento, o si se
pretende aplicarlo a una población que sea significativamente diferente a aquella en que
el test fue estandarizado, o si se le quiere dar un uso diferente de aquello para que fue
diseñado (Joint Committee on Standards for Educational and Psychological Testing,
1999; Cohen y Swerdlik, 2009).
Tipos de Validez
La validez de un test indica el grado de exactitud con el que mide el constructo
teórico que pretende medir y si se puede utilizar con el fin previsto. Es decir, un test es
válido si "mide lo que dice medir". Es la cualidad más importante de un instrumento de
medida. Un instrumento puede ser fiable pero no válido; pero si es válido ha de ser
también fiable. Se puede decir, que la validez tiene tres grandes componentes:
- Validez de contenido
- Validez de constructo
- Validez de criterio o criterial
Las tres se refieren a aspectos diferentes y la utilización de uno u otro concepto de
validez depende del tipo de test.
Bajo un enfoque cuantitativo la validez se orienta fundamentalmente hacia las
técnicas e instrumentos de medición elaborados por el evaluador, supuestos
desarrollados a partir de las teorías planteadas por el filósofo francés Auguste Comte
(1798-1857). En esa perspectiva, la validez asociada a la evaluación del aprendizaje se
concibe en términos de precisar el rasgo del aprendizaje del evaluado que se pretende
medir, como aprendizaje a través de pruebas o test, predecir algún rasgo del aprendizaje
adicional a lo que se pretende medir, y finalmente medir lo que se dice medir de cierto
rasgo (Comte, 1896).
Validez de contenido
Juicio lógico sobre la correspondencia que existe entre el rasgo del aprendizaje
del evaluado y lo que se incluye en la prueba, recurriendo a expertos para valorar la
adecuación de cada ítem al rasgo a evaluar. Hogan (2004) plantea que para
determinar la validez de constructo de un instrumento se requiere analizar
su estructura interna y los procesos de respuesta. Como ambos procedimientos son
muy difíciles de llevar a cabo en el aula y el contexto es un elemento importante que
condiciona las situaciones de evaluación, se presenta la validez de contenido como
un elemento clave a considerar para resguardar la calidad de una evaluación.
Cohen & Swerdik, 2001 plantea que la validez de contenido consiste en qué tan
adecuado es el muestreo que hace una prueba del universo, cuyos miembros son
reactivos o ítem, en relación a posibles conductas que se pretenden medir. Los ítems
deben capturar las dimensiones que la prueba pretende medir, un error de validez de
contenido sería que alguna de las dimisiones no tuviera ningún ítems que la evaluara,
o que los ítems evaluaran una parte es ésta. Es decir, el concepto esencial de validez
de contenido es que los ítems de un instrumento de medición dben ser relevantes y
representativos para un propósito evaluativo particular (Mitchell, 1986 citado en
Ding & Hershberger, 2002)
La validez de contenido se utiliza principalmente con tests de rendimiento, y
especialmente con los tests educativos y tests referidos al criterio. En este tipo de
tests se trata de comprobar los conocimientos respecto a una materia o un curso.
El estudio describe las ventajas de utilizar una herramienta virtual diseñada para
validar el contenido de instrumentos de investigación, a través de la técnica del juicio
de expertos, y se presenta los resultados de una encuesta aplicada a expertos que
participaron como jueces en la validación de contenido y expusieron su opinión y
experiencias en los procesos de validación de instrumentos.
Validez de contenido a través de juicio de expertos

La validez de contenido descansa generalmente en el juicio de expertos (métodos
de juicio). Se define como el grado en que los ítems que componen el test
representan el contenido que el test trata de evaluar. Por tanto, la validez de
contenido se basa en (a) la definición precisa del dominio y (b) en el juicio sobre el
grado de suficiencia con que ese dominio se evalúa.
Hay que considerar que, la validez de contenido no puede expresarse
cuantitativamente es más bien una cuestión de juicio, se estima de manera subjetiva o
intersubjetiva empleando, usualmente, el denominado Juicio de Expertos.
La validez de contenido generalmente se evalúa a través de un panel o un juicio
de expertos, y en muy raras ocasiones en datos empíricos (Ding & Hershberger,
2002). En concordancia con esto Utkin (2005) plantea que el juicio de experto en
muchas áreas es una parte importante para determinar la validez cuando las
observaciones experimentales están limitadas, como por ejemplo de la psicología. Se
define el juicio de experto como una opinión informada de personas con trayectoria
en el tema, que son reconocidas por otros como expertos, y que pueden dar
información, evidencia, juicios y valoraciones.
Para seleccionar dichos expertos Skjong y Wentworht (2000) proponen los
siguientes criterios de selección:
a) Experiencia en la relaización de juicios y toma de desiciones basadas em
evidencia o experiencia (grado, investigaciones, publicaciones, posición y
premios entre otros).
b) Reputación en la comunidad
c) Disponibilidad y motivación para participar-
d) Imparcialidad, educación similar.
McGartland, Berg, Tebb, Lee y Rauch (2003), propone como criterio básico de
selección únicamente el número de publicaciones o la experiencia.
Gable y Wolf (1993), Grant y Davis (1997) y Lynn (1986) sugieren que se debe
emplear entre 2 a 20 expretos, por otro lado, Hyrkäs et al. (2003) señala que diez
brindarían una estimación confiable de la validez de contenido de un
instrumento. Es decir el número de jueces que se deben emplear en un juicio de
experto depende del nivel de experiencia y de la diversidad del conocimiento y
la cantidad exacta variara según el autor.

Además es importante destacar que si el 80% de los expertos han estado de acuerdo
con la validez de un ítem éste puede ser incorporado al ainstrumento. (
Voutilainen & Liukkonen, 1995, citados en Hyrkas et al. (2003)
Coeficiente de acuerdo entre jueces
Estadístico Kappa: Este estadístico genera una medida de acuerdo entre
evaluadores y se utiliza cuando las variables están dadas en una escala nominal, es
decir únicamente clasifican. Por ejemplo, un juez clasifica los ítems de una prueba de
conocimientos en contestables o no contestables por una persona que tenga un nivel
adecuado de conocimiento en el área, o el caso de psicólogos clínicos que tienen que
clasificar a pacientes entre los que requieren seguimiento permanente y los que no.
El estadístico tiene un rango entre -1 y 1, pero generalmente se ubica entre 0 y 1. Si
el coeficiente es 1 indica acuerdo perfecto entre los evaluadores, si es 0 indica que el
acuerdo no es mayor que el esperado por el azar, y si el valor del coeficiente es
negativo el nivel se acuerdo es inferior al esperado por el azar (Sim & Wright, 2005).
No obstante, obtener estos valores extremos es improbable, lo común es obtener un
amplio espectro de valores intermedios que se interpretan teniendo como referencia
la complejidad de la evaluación y el número de categorías a evaluar, es decir, la
interpretación es relativa al fenómeno medido.
Selección de expertos
El método de obtención de juicios de expertos puede ser clasificado en dos según
si la evaluación se realiza de manera individual o grupal.
Dinámica individual, tenemos el método de agregados individuales y el método
Delphi, donde cada juez realiza la evaluación individualmente, pero en el método de
Delphi se le envía la mediana y se le pide que reconsidere su juicio hasta que se logre
un consenso (de Arquer, 1995), ofreciendo este último método un alto nivel de
interacción, superando la desventaja de la dinámica grupal.
Dinámica grupal, tenemos la nominal y el consenso, en ambos se requiere reunir a
los expertos, pero en la última se exige mayor nivel de acuerdo. Esta técnica puede
tener problemas si se generan discusiones tensa o se generen sesgo en relación a las
diferencias individuales.
En esta investigación trabajaremos con el Método de Agregados Individuales: Se
pide individualmente a cada experto que dé una estimación directa de los ítems del
instrumento. Éste es un método económico porque, al igual que el método Delphi, no
exige que se reúna a los expertos en un lugar determinado. Puede parecer un método
limitado porque los expertos no pueden intercambiar sus opiniones, puntos de vista y
experiencia, ya que se les requiere individualmente; no obstante, esta limitación
puede ser precisamente lo que se esté buscando para evitar los sesgos de los datos
ocasionados por conflictos interpersonales, presiones entre los expertos, etc.
El juicio de expertos es un procedimiento que nace de la necesidad de estimar la
validez de contenido de una prueba. Para la recaudación de información se propone
pasos que permiten organizar la información asegurando la eficiencia en el proceso
de juicio de experto.
a) Definir el objetivo del juicio de expertos ya que puede utilizarse con
diferentes objetivos.
b) Seleccionar los jueces considerando la formación académica de los expertos,
experiencia y reconocimientos.
c) Explicitar tanto las dimensiones como loa indicadores que está midiendo
cada uno de los ítems.
d) Especificar el objetico de la prueba, El autor debe proporcionar a los jueces
la información relacionada con el uso de la prueba, es decir, para qué van a
ser utilizados los puntajes obtenidos.
Aiken (2003) afirma que para estimar la confiabilidad de un juicio de expertos, es
necesario conocer el grado de acuerdo que existe entre ellos, ya que un juicio
incluye elementos subjetivos. Para determinar el grado de acuerdo se han
determinado diferentes procedimientos, calcular el porcentaje de acuerdo (Jakobsson
& Westergren, 2005).
Índice de validez de contenido (IVC)
Lawshe (1975) propuso un índice de validez basado en la valoración de un grupo
de expertos de cada uno de los ítems del test como innecesario, útil y esencial. El
índice se calcula a través de la siguiente fórmula:
Donde ne es el número de expertos que han valorado el ítem como esencial y N es
el número total de expertos que han evaluado el ítem.

El IVC oscila entre +1 y -1, siendo las puntuaciones positivas las que indican una
mejor validez de contenido. Un índice IVC = 0 indica que la mitad de los expertos
han evaluado el ítems como esencial. Los ítems con una bajo IVC serán eliminados.
Lawshe (1975) sugiere que un IVC = .29 será adecuado cuando se hayan utilizado
40 expertos, un IVC = .51 será suficiente con 14 expertos, pero un IVC de, al menos,
.99 será necesario cuando el número de expertos sea 7 o inferior.
Validez de constructo:
El término constructo se usa en psicología para referirse a algo que no es
observable, pero que literalmente es construido por el investigador para resumir o
explicar las regularidades o relaciones que él observa en la conducta.
La validez de constructo no sólo sirve para justificar los usos de una prueba
educativa, sino que puede proporcionar una articulación entre líneas de investigación
de la psicología educativa con la psicología cognoscitiva, colocando el énfasis en los
procesos cognoscitivos y las estructuras de memoria desarrolladas mediante el
proceso de instrucción (Greeno, 1980; Snow, 1980).
Por tanto, la mayoría de los nombres de rasgos se refieren a constructos. Para las
preguntas acerca de si el instrumento revela algo significativo respecto de las
personas, se usa el término validez de constructo.
Basada en la integración de cualquier evidencia que fundamenta la
interpretación o significado de las puntuaciones de la prueba o test, medida a través
del análisis correlacional y de covarianza inter-ítem. Tomar en consideración la

pertinencia, el significado y la utilidad de las inferencias específicas derivadas de las
pruebas o test, conjuntamente con las consecuencias sociales y personales, y los
valores, se pudiera pensar más bien en unificar las tres categorías de validez en una
sola: la de constructo; debido a que las otras dos categorías también contribuyen al
significado de las puntuaciones de la prueba o test, reconociéndolas así como
aspectos de la validez de constructo (Messick,1989: 20). Por su parte, las
puntuaciones de la prueba pudieran llevar a emitir juicios erróneos del evaluador
sobre el evaluado, al no considerar otros aspectos de tipo humano, social o cultural
referidos al evaluado y, además, la información susceptible de ser medida limita su
existencia, dejando afuera otros aspectos que pudieran ser de significativa
importancia para validar el juicio.
La validez de constructo es la principal de los tipos de validez, en tanto que «la
validez de constructo es el concepto unificador que integra las consideraciones de
validez de contenido y de criterio en un marco común para probar hipótesis acerca de
relaciones teóricamente relevantes» (Messick, 1980; p.1015), en este mismo sentido
(Cronbach, 1984; p.126) señala que «la meta final de la validación es la explicación
y comprensión y, por tanto, esto nos lleva a considerar que toda validación es
validación de constructo».
La génesis de la validez de constructo como un concepto integrador de validez
hay que situarla en la primera versión de los Standards forEducational and
Psychological Testing (APA, 1954) y en la publicación del influyente trabajo de
Cronbach y Meehl (1955).
señala Martínez Arias (1995), este nuevo concepto de validez se empieza a
percibir fundamental y básico y, aún más importante, como integrando a los

anteriores enfoques de validez —heredados de las tradiciones empirista (validez
criterial) y racionalista (validez de contenido)—, poniéndose así los ci mientos para
este enfoque globalizador que va a echar por tierra la concepción tripartita de la
validez y va a defender una concepción unificada de la misma, en la cual parece
haber un consenso emergente acerca del papel central desempeñado por la validez de
constructo (Moss, 1992).
Dicho de otro modo,‘la validez de constructo subsume la relevancia y
representatividad de los contenidos, así como las relaciones con los criterios, ya que
ambas dan significado a las puntuaciones de los tests’ (Martínez Arias, 1995, p.335).
Por consiguiente, desde este planteamiento la validez de constructo puede ser
conceptualizada en términos de un proceso científico de contrastación de hipótesis,
donde entraría tanto lo empírico como los juicios racionales: las hipótesis serían las
inferencias realizadas a partir de las puntuaciones de los tests y la validación el
proceso de acumulación de evidencias que apoyen dichas inferencias, usos o
interpretaciones de las puntuaciones del test. ‘La validación de un test abarca todas
las cuestiones experimentales, estadísticas y filosóficas por medio de las cuales se
evalúan las hipótesis y teorías científicas’ (Messick, 1989, p. 14).
Psicólogos como Samuel Messick (1989) han impulsado una visión unificada de
la validez de constructo "... como un juicio evaluativo integral del grado en que la
evidencia empírica y fundamentos teóricos apoyan la idoneidad y adecuación de las
inferencias y acciones basadas en resultados de las pruebas..."8

Validez de criterio o criterial
Se refiere al grado en que el test correlaciona con variables ajenas al test
(criterios) con lo que se espera por hipótesis que debe correlacionar de determinado
modo. Un criterio es una variable distinta del test que se toma como referencia, que
se sabe que es un indicador de aquello que el test pretende medir o que se sabe que
debe presentar una relación determinada con lo que el test pretende medir. Se
denomina coeficiente de validez a la correlación del test con un criterio externo.
La elección del criterio es el aspecto crítico en este procedimiento de
determinación de la validez, ya que es muy difícil obtener buenos criterios. Un
mismo test puede tener más de un tipo de validez, es decir puede estar validado con
respecto a varios criterios y los diferentes coeficientes de validez que resultan pueden
tener valores diferentes.
Dentro del concepto de validez de criterio cabe distinguir a su vez entre:
- Validez externa y validez interna
- Validez concurrente y validez predictiva
Validez Instruccional
Según Hogan (2004), esta validez corresponde a una aplicación particular de la
validez de contenido y es conocida también como validez curricular. Tiene relación
con lo que los estudiantes han tenido oportunidad de aprender durante las clases para
responder correctamente en una evaluación (Crocker et al, 1988). En el ámbito
educativo este tipo de validez es clave, dado que representa la relación entre lo que
se enseña y lo que se evalúa. Cuando esta relación es débil se presentan dos
problemas, por una parte, los estudiantes no tienen posibilidad de demostrar lo que
aprendieron durante las clases y, por otra, son evaluados en aspectos que no se les
enseñaron (Himmel et al, 1999; McMillan, 2003). Esta última idea se ve reflejada
especialmente cuando se cambia el énfasis de lo que se enseñó, por ejemplo, en
clases se enseñan los conceptos, sus definiciones y luego en la evaluación se les pide
que apliquen dichos conceptos en situaciones que nunca han sido trabajadas durante
las clases, aludiendo a que se espera que los estudiantes sean capaces de hacerlo
como parte de la “construcción” de su propio aprendizaje.
¿Cómo se mide la validez?
Juzgar si un instrumento es válido no es algo que pueda ser medido en una escala
absoluta. Frecuentemente se categoriza la validez como débil versus aceptable lo que
refleja un juicio sobre qué tan adecuadamente el test mide lo que se supone que mide
(Cohen y Swerdlik, 2009). Otros autores, como Darr (2005), sugieren que se categorice
como débil, moderada o fuerte.
Existen diferentes enfoques, orientados a probar diferentes tipos de validez. Estos
enfoques no son mutuamente excluyentes, y todos contribuyen a la validez total, aunque
según el uso que se le quiera dar al test pueden tener distinta relevancia (Cohen y
Swerdlik, 2009). Clásicamente, se habla de validez de constructo, contenido y criterio.

Distintos autores hacen distintas clasificaciones de los tipos de validez que se deben
considerar, por ejemplo, validez de constructo, contenido, ítem, predictiva, “face”,
relativa a criterios, concurrente, etc., aclarando que no es necesario usar siempre todas
las formas de validez (Wilson, 2005). Además se tiene que la validez está referida a
inferencias y decisiones hechas para un grupo específico en un contexto específico, para
juzgar la validez de un instrumento se requiere reunir mucha información (Darr, 2005).
Es por ello que debido a la diversas clasificaciones y formas de medir la validez de un
instrumento de evaluación y por la complejidad que tienen algunas de ellas se ha
decidió medir la validez de los instrumentos de evaluación en relación a la validez de
contenido y de costructo.
El enfoque propuesto en los Estándares para la Evaluación Educativa y Psicológica
(Joint Committee on Standards for Educational and Psychological Testing, 1999), en
que más que hablar de tipos de validez, se habla de tipos de evidencia sobre la validez, o
líneas de evidencia, basadas en el contenido del test, los procesos de respuesta, la
estructura interna, las relaciones con otras variables, y las consecuencias (Joint
Committee on Standards for Educational and Psychological Testing, 1999; Wilson,
2005). Estos tipos de evidencia se describen a continuación:
a) Evidencia basada en el contenido: En los test no se pueden evaluar todos los
conocimientos de los estudiantes, sino solo una muestra de ellos, por lo tanto es
muy importante que esta sea una muestra adecuada del área de aprendizaje que
interesa evaluar. Si esto se logra, aumenta nuestra posibilidad de hacer
inferencias válidas sobre los logros de aprendizaje en un cierto dominio (Darr,
2005)
Este tipo de evidencia requiere mirar el contenido del instrumento para
analizar la relación con el constructo que se requiere medir (Joint Committee on
Standards for Educational and Psychological Testing, 1999). Si un instrumento
es bueno, tendrá ítems que evalúan diferentes aspectos del tema evaluado, y
expertos en el área, que no están familiarizados de antemano con los ítems,
estarán de acuerdo en qué evalúa cada ítem.
Existen dos riesgos que deben ser evitados. Uno es la sub-representación
del constructo, es decir, que elementos importantes del constructo que se
quiere evaluar no estén siendo evaluados. El otro es la varianza relacionada
con constructos que son irrelevantes para lo que se está midiendo, por ejemplo
en una prueba de lectura, el conocimiento previo del tema o la respuesta
emocional frente al texto, o un test de matemática, la velocidad de lectura o el
vocabulario (Joint Committee on Standards for Educational and Psychological
Testing, 1999).
b) Evidencia basada en los proceso de respuesta: Los análisis teóricos y empíricos
sobre los procesos de respuesta de los examinados pueden entregar información
sobre la relación entre estos procesos y los constructos que se desean evaluar.
Por ejemplo, si un test busca evaluar razonamiento matemático, es importante
que el test efectivamente evalúe eso y no simplemente la aplicación de
algoritmos. Observar estrategias de respuesta o entrevistar a los examinadores
sobre los procesos puede entregar esta información. (Joint Committee on
Standards for Educational and Psychological Testing, 1999).
c) Evidencia basada en la estructura interna: Este análisis busca recoger evidencia
sobre el grado en que las relaciones entre los ítems de un test y sus componentes
se adecúan al constructo que supuestamente buscan evaluar, el que puede
implicar una sola dimensión, o varias. Para mirar esto se puede revidar si los
ítems efectivamente cumplen con el mapa de contenidos. Si el constructo tiene
una sola dimensión, esto también se puede probar a través del análisis de ítems
por ejemplo, que a los estudiantes con un buen desempeño en el total de la
prueba, obtengan un buen desempeño en el ítem). Otra forma de mirarlo es
comprobar que los ítems funcionen de manera diferente en distintos grupos, de
acuerdo a lo que predice la teoría (Joint Committee on Standards for Educational
and Psychological Testing, 1999).
d) Evidencia basada en relaciones con otras variables1: Este tipo de evidencia se
desglosa en validez convergente2 y discriminatoria. La evidencia relativa a la
validez convergente implica comparar los resultados obtenidos en un
determinado test con los obtenidos por los mismos estudiantes en test que midan
el mismo constructo, o constructos similares. Se espera que los puntajes de un
cierto instrumento se correlacionen con otros que declaran medir constructos
iguales o parecidos (Wilson, 2005; Joint Committee on Standards for
Educational and Psychological Testing, 1999): si dos evaluaciones que
supuestamente miden el mismo constructo están entregando resultados muy
diferentes, es motivo de preocupación (Darr, 2005). Una posible dificultada es
que muchas veces no existen otros instrumentos parecidos (Wilson, Joint
Committee on Standards for Educational and Psychological Testing, 1999).
1
Algunos autores identifica este tipo de validez como externa.
2
En el enfoque tradicional, se habla de validez concurrente, que es l grado en que el puntaje de un test se
relaciona con otra medida obtenida al mismo tiempo, es decir, cuanto se relacionan los puntajes de un
test que declara medir “x” con los de otro test que dice medir lo mismo. Y la validez predictiva, que se
refiere al grado en que el puntaje en un test predice alguna conducta relativa al criterio medida por otro
test en el futuro (Cohen- Swerdlik, 2009; Darr, 2005). Por ejemplo, a nivel de estudios secundarios o
terciarios, una evaluación predictiva podría tener sentido para ver qué tan bien las evaluaciones a nivel
escolar predicen el desempeño académico o laboral futuro (Darr, 2005).
La evidencia relativa a la validez discriminatoria se obtiene comparando los
resultados obtenidos en el test con otras evacuaciones que midan constructos
opuestos o diferentes. En este caso, se espera que los puntajes se correlaciones
poco con los test que declaran medir constructos diferentes (Wilson, 2005;
Joint Committe on Standards for Educational and Psychological Testing,
1999).
e) Evidencia basada en las consecuencias: Más allá de toda información técnica
recogida, si el uso de una evaluación particular tiene o puede tener
consecuencias negativas, o las consecuencias de usar sus resultados pueden ir en
contra del objetivo educativo final, es una consideración que de tomarse en
cuenta para cuestionarse la validez de un instrumentos y decidir su usarlo o no
(Wilson, 2005; Joint Committee on Standards for Educational and Psychological
Testing, Esta validez desde el punto de vista de las consecuencias de ude usar
los resultados de los test.
Por ejemplo el peso que se le dé a los resultados puede tener un impacto en
las maneras de enseñar y aprender. Algunas de las consecuencias negativas
pueden ser estrechamiento curricular “teaching to the test” o reducción en la
motivación de los estudiantes (Darr, 2005). Para analizar este tipo de evidencia
es necesario considerar tanto los efectos intencionados como los no
intencionados de los test (Wilson, 2005; Joint Committee on Standards for
Educational and Psychological Testing, 1999). También es necesario analizar
su las consecuencias indeseables se deben al constructo que se quiere medir, o
al instrumento específico que está utilizando para pedirlo. Para poder dilucidar
esto se debe ver si otro instrumento que mida el mismo constructo presenta las
mismas consecuencias indeseables. Si este es el caso, es más probables que el
problema se deba al constructo que al instrumento (Wilson, 2005)
Por último, hay que distinguir las consecuencias que tienen que ver con
decisiones de política educativa, pero no necesariamente con la validez. En
general, la evidencia relacionada con consecuencias se relaciona directamente
la validez si tienen que ver con la subrepresentación de un constructo o con la
irrelevancia de constructo descritas anteriormente (Wilson, 2005; Joint
Committee on Standards for Educational and Psychological Testing, 1999).
Bibliografía
Cohen, L., Manion, L., & Morrison, K. 2000. Research Methods in Education (6th edition).
London, RoutledgeFalmer.
Cohen, R. & Swerdlik, M. 2009. Psychological Testing and Assessment: An Introduction to
Tests and Measurement (7th Edition). Boston: McGraw-Hill Higher Education.
Darr, C., 2005. A Hitchhiker’s Guide to Validity. Available at:
http://toolselector.tki.org.nz/Assessment-fundamentals/Criteria-for-choosing-
anassessment-tool
Joint Committee on Standards for Educational and Psychological Testing, 1999. Standards for
Educational and Psychological Testing. American Educational Research Association,
Washington DC.
Comte, A. (1896). The positive philosophy. Londres: George Bell & Son.
Hogan, T. (2004). Pruebas psicológicas. Una introducción práctica. México: El Manual
Moderno
Cohen, R. y Swerdlik, M. (2001). Pruebas y Evaluaciones Psicológicas. Introducción a
laspruebas de medición. México, DF: McGraw-Hill.
Ding, C. & Hershberger, S. (2002). Assessing content validity and content equivalence using
structural equation
Skjong, R. & Wentworth, B. (2000). Expert Judgement and risk perception. Recuperado el 15
de Enero de 2006, de
http://research.dnv.com/skj/Papers/SkjWen.pdf
McGartland, D. Berg, M., Tebb, S. S., Lee, E. S. & Rauch, S. (2003). Objectifying content
validity: Conducting a content validity study in social work research. Social Work
Research, 27 (2), 94-104.
Hyrkäs, K., Appelqvist-Schmidlechner, K & Oksa, L. (2003). Validating an instrument for
clinical supervision using an expert panel. International Journal of nursing studies, 40
(6), 619 -625.
Sim, J. & Wright, C. (2005) The Kappa statistic in reliability studies: Use, interpretation, and
sample size requirements. Physical Therapy, 85 (3), 257-268.
de Arquer, M. (1995). Fiabilidad Humana: métodos de cuantificación, juicio de expertos.
Centro Nacional de Condiciones de Trabajo. Recuperado el 3 de Junio de 2006, de
http://www.mtas.es/insht/ntp/ntp_401.htm
Sim, J. & Wright, C. (2005) The Kappa statistic in reliability studies: Use, interpretation, and
sample size requirements. Physical Therapy, 85 (3), 257-268.

Aiken, Lewis (2003). Test psicológicos y evaluación. México: Pearson Education.
Jakobsson, U. &y Westergren, A. (2005). Statistical methods for assessing agreement for
ordinal data. Scandinavian Journal of sCaring Science, 19(4), 427-431.
Messick, S. (1989). Validity. En R. L. Linn (Ed.), Educational measurement (pp. 13-103). New
York: Macmillan
Cohen, R. & Swerdlik, M. 2009. Psychological Testing and Assessment: An Introduction to
Tests and Measurement (7th Edition). Boston: McGraw-Hill Higher Education.
McMillan, J.H. (2003). Understanding and Improving Teachers‘ Classroom Assessment
Decision Making: Implications for Theory and Practice. Educational Measurement:
Issues and Practice, 22 (4), 34-43.
Wilson, M. 2005. Constructing measures, an ítem response modeling approach. Lawrence
Erlbaum Associates Inc., Publishers. Mahwah, New Jersey.
Darr, C., 2005. A Hitchhiker’s Guide to Validity. Available at:
http://toolselector.tki.org.nz/Assessment-fundamentals/Criteria-for-choosing-
anassessment-tool
Grant, J., Davis, L. (1997). Selection and use of content experts for instrument
development. Research in Nursing & Health, 20, 269-274.
Joint Committee on Standards for Educational and Psychological Testing, 1999. Standards for
Educational and Psychological Testing. American Educational Research Association,
Washington DC.
Greeno, J.G. (1980), "Psychology of Learning, 1960–1980: One participant observation",
American Psychologist, vol. 35, pp. 713–728.

Martínez, R. (1995). Psicometría: teoría de los test psicológicos y educativos. Madrid: Editorial
Síntesis

Validez Autores

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Validez Autores

Uploaded by

Copyright:

Available Formats

Validez de un instrumento de evaluación

Evolución del concepto validez

El concepto de validez ha ido sufriendo transformaciones a lo largo del tiempo.

Tradicionalmente, la validez de un instrumento se ha entendido como hasta qué punto el

las inferencias realizadas o acciones implementadas a partir de los puntajes de una

prueba en un determinado contexto (Cohen y Swerdlik, 2009).

Entonces, no se juzga la validez del instrumento ni de sus puntajes, sino de la

(Joint Committee on Standards for Educational and Psychological Testing, 1999).

Algunas preguntas relativas a la validez de un test se cuestionan la calidad de sus

mismo, el nivel de logro de ciertas habilidades desarrolladas durante el semestre.

La validez debería estar como prioridad al diseñar o seleccionar instrumentos para la

puede dar a estas evaluaciones (Darr, 2005).

Responsabilidades en la validez de un instrumento

Es responsabilidad del desarrollador del test entregar evidencia sobre la validez de su

instrumento, especificando la población en la que fue validado. Pero es responsabilidad

del usuario si el instrumento es apropiado al contexto particular en que lo aplicará. En

modificación al instrumento en sus instrucciones, idioma del instrumento, o si se

diseñado (Joint Committee on Standards for Educational and Psychological Testing,

1999; Cohen y Swerdlik, 2009).

La validez de un test indica el grado de exactitud con el que mide el constructo

válido si "mide lo que dice medir". Es la cualidad más importante de un instrumento de

Las tres se refieren a aspectos diferentes y la utilización de uno u otro concepto de

validez depende del tipo de test.

Bajo un enfoque cuantitativo la validez se orienta fundamentalmente hacia las

técnicas e instrumentos de medición elaborados por el evaluador, supuestos

(1798-1857). En esa perspectiva, la validez asociada a la evaluación del aprendizaje se

rasgo (Comte, 1896).

del evaluado y lo que se incluye en la prueba, recurriendo a expertos para valorar la

determinar la validez de constructo de un instrumento se requiere analizar

su estructura interna y los procesos de respuesta. Como ambos procedimientos son

muy difíciles de llevar a cabo en el aula y el contexto es un elemento importante que

condiciona las situaciones de evaluación, se presenta la validez de contenido como

un elemento clave a considerar para resguardar la calidad de una evaluación.

de contenido es que los ítems de un instrumento de medición dben ser relevantes y

representativos para un propósito evaluativo particular (Mitchell, 1986 citado en

Ding & Hershberger, 2002)

La validez de contenido se utiliza principalmente con tests de rendimiento, y

tests se trata de comprobar los conocimientos respecto a una materia o un curso.

validar el contenido de instrumentos de investigación, a través de la técnica del juicio

de expertos, y se presenta los resultados de una encuesta aplicada a expertos que

participaron como jueces en la validación de contenido y expusieron su opinión y

experiencias en los procesos de validación de instrumentos.

Validez de contenido a través de juicio de expertos

representan el contenido que el test trata de evaluar. Por tanto, la validez de

grado de suficiencia con que ese dominio se evalúa.

Hay que considerar que, la validez de contenido no puede expresarse

cuantitativamente es más bien una cuestión de juicio, se estima de manera subjetiva o

intersubjetiva empleando, usualmente, el denominado Juicio de Expertos.

La validez de contenido generalmente se evalúa a través de un panel o un juicio

de expertos, y en muy raras ocasiones en datos empíricos (Ding & Hershberger,

observaciones experimentales están limitadas, como por ejemplo de la psicología. Se

información, evidencia, juicios y valoraciones.

Para seleccionar dichos expertos Skjong y Wentworht (2000) proponen los

siguientes criterios de selección:

a) Experiencia en la relaización de juicios y toma de desiciones basadas em

evidencia o experiencia (grado, investigaciones, publicaciones, posición y

premios entre otros).

c) Disponibilidad y motivación para participar-

d) Imparcialidad, educación similar.

selección únicamente el número de publicaciones o la experiencia.

brindarían una estimación confiable de la validez de contenido de un

instrumento. Es decir el número de jueces que se deben emplear en un juicio de

experto depende del nivel de experiencia y de la diversidad del conocimiento y