You are on page 1of 21

Validez de un instrumento de evaluación

Evolución del concepto validez

El concepto de validez ha ido sufriendo transformaciones a lo largo del tiempo.

Tradicionalmente, la validez de un instrumento se ha entendido como hasta qué punto el

instrumento efectivamente mide lo que sus actores declaran que mide (Cohen, Manion y

Morrison 2000; Darr, 2005). Sin embargo, más recientemente los especialistas en

evaluación han considerado que la validez no es una propiedad fija e inherente del

instrumento, sino que es un juicio, basado en evidencia, sobre qué tan apropiadas son

las inferencias realizadas o acciones implementadas a partir de los puntajes de una

prueba en un determinado contexto (Cohen y Swerdlik, 2009).

Entonces, no se juzga la validez del instrumento ni de sus puntajes, sino de la

interpretación de los resultados del test para determinados usos, cuando se pretende usar

un test de varias maneras, la validez de cada uso se debe analizar de forma separada

(Joint Committee on Standards for Educational and Psychological Testing, 1999).

Algunas preguntas relativas a la validez de un test se cuestionan la calidad de sus

ítems: ¿Los ítems son una muestra adecuada del constructo que se quiere evaluar?

También hay preguntas relativas a la interpretación de los resultados: ¿Qué nos dicen

estos puntajes?,¿Cómo se relacionan estos puntajes con los de otros instrumentos que

dicen medir lo mismo? (Cohen y Swerdlik, 2009). En este caso como se relaciona la

prueba PRUN con el promedio semestral de los estudiantes, ya que ambos miden lo

mismo, el nivel de logro de ciertas habilidades desarrolladas durante el semestre.

La validez debería estar como prioridad al diseñar o seleccionar instrumentos para la

evaluación de aprendizajes. Es crítico que la evaluación permita hacer juicios sobre los
progresos de los estudiantes que sean robustos y útiles, y tengan consecuencias

positivas. Estar consciente de la validez y de cómo esta se puede ver amenazada puede

ayudar a tomar decisiones sobre qué evaluaciones vale la pena hacer y qué usos se les

puede dar a estas evaluaciones (Darr, 2005).

Responsabilidades en la validez de un instrumento

Es responsabilidad del desarrollador del test entregar evidencia sobre la validez de su

instrumento, especificando la población en la que fue validado. Pero es responsabilidad

del usuario si el instrumento es apropiado al contexto particular en que lo aplicará. En

ocasiones, puede ser apropiado que el usuario conduzca estudios extras de validación

local. Esta validación local se vuelve imprescindible cuando se planea hacer alguna

modificación al instrumento en sus instrucciones, idioma del instrumento, o si se

pretende aplicarlo a una población que sea significativamente diferente a aquella en que

el test fue estandarizado, o si se le quiere dar un uso diferente de aquello para que fue

diseñado (Joint Committee on Standards for Educational and Psychological Testing,

1999; Cohen y Swerdlik, 2009).

Tipos de Validez

La validez de un test indica el grado de exactitud con el que mide el constructo

teórico que pretende medir y si se puede utilizar con el fin previsto. Es decir, un test es

válido si "mide lo que dice medir". Es la cualidad más importante de un instrumento de

medida. Un instrumento puede ser fiable pero no válido; pero si es válido ha de ser

también fiable. Se puede decir, que la validez tiene tres grandes componentes:

- Validez de contenido

- Validez de constructo
- Validez de criterio o criterial

Las tres se refieren a aspectos diferentes y la utilización de uno u otro concepto de

validez depende del tipo de test.

Bajo un enfoque cuantitativo la validez se orienta fundamentalmente hacia las

técnicas e instrumentos de medición elaborados por el evaluador, supuestos

desarrollados a partir de las teorías planteadas por el filósofo francés Auguste Comte

(1798-1857). En esa perspectiva, la validez asociada a la evaluación del aprendizaje se

concibe en términos de precisar el rasgo del aprendizaje del evaluado que se pretende

medir, como aprendizaje a través de pruebas o test, predecir algún rasgo del aprendizaje

adicional a lo que se pretende medir, y finalmente medir lo que se dice medir de cierto

rasgo (Comte, 1896).

Validez de contenido

Juicio lógico sobre la correspondencia que existe entre el rasgo del aprendizaje

del evaluado y lo que se incluye en la prueba, recurriendo a expertos para valorar la

adecuación de cada ítem al rasgo a evaluar. Hogan (2004) plantea que para

determinar la validez de constructo de un instrumento se requiere analizar

su estructura interna y los procesos de respuesta. Como ambos procedimientos son

muy difíciles de llevar a cabo en el aula y el contexto es un elemento importante que

condiciona las situaciones de evaluación, se presenta la validez de contenido como

un elemento clave a considerar para resguardar la calidad de una evaluación.

Cohen & Swerdik, 2001 plantea que la validez de contenido consiste en qué tan

adecuado es el muestreo que hace una prueba del universo, cuyos miembros son

reactivos o ítem, en relación a posibles conductas que se pretenden medir. Los ítems

deben capturar las dimensiones que la prueba pretende medir, un error de validez de
contenido sería que alguna de las dimisiones no tuviera ningún ítems que la evaluara,

o que los ítems evaluaran una parte es ésta. Es decir, el concepto esencial de validez

de contenido es que los ítems de un instrumento de medición dben ser relevantes y

representativos para un propósito evaluativo particular (Mitchell, 1986 citado en

Ding & Hershberger, 2002)

La validez de contenido se utiliza principalmente con tests de rendimiento, y

especialmente con los tests educativos y tests referidos al criterio. En este tipo de

tests se trata de comprobar los conocimientos respecto a una materia o un curso.

El estudio describe las ventajas de utilizar una herramienta virtual diseñada para

validar el contenido de instrumentos de investigación, a través de la técnica del juicio

de expertos, y se presenta los resultados de una encuesta aplicada a expertos que

participaron como jueces en la validación de contenido y expusieron su opinión y

experiencias en los procesos de validación de instrumentos.

Validez de contenido a través de juicio de expertos


La validez de contenido descansa generalmente en el juicio de expertos (métodos

de juicio). Se define como el grado en que los ítems que componen el test

representan el contenido que el test trata de evaluar. Por tanto, la validez de

contenido se basa en (a) la definición precisa del dominio y (b) en el juicio sobre el

grado de suficiencia con que ese dominio se evalúa.

Hay que considerar que, la validez de contenido no puede expresarse

cuantitativamente es más bien una cuestión de juicio, se estima de manera subjetiva o

intersubjetiva empleando, usualmente, el denominado Juicio de Expertos.

La validez de contenido generalmente se evalúa a través de un panel o un juicio

de expertos, y en muy raras ocasiones en datos empíricos (Ding & Hershberger,

2002). En concordancia con esto Utkin (2005) plantea que el juicio de experto en
muchas áreas es una parte importante para determinar la validez cuando las

observaciones experimentales están limitadas, como por ejemplo de la psicología. Se

define el juicio de experto como una opinión informada de personas con trayectoria

en el tema, que son reconocidas por otros como expertos, y que pueden dar

información, evidencia, juicios y valoraciones.

Para seleccionar dichos expertos Skjong y Wentworht (2000) proponen los

siguientes criterios de selección:

a) Experiencia en la relaización de juicios y toma de desiciones basadas em

evidencia o experiencia (grado, investigaciones, publicaciones, posición y

premios entre otros).

b) Reputación en la comunidad

c) Disponibilidad y motivación para participar-

d) Imparcialidad, educación similar.

McGartland, Berg, Tebb, Lee y Rauch (2003), propone como criterio básico de

selección únicamente el número de publicaciones o la experiencia.

Gable y Wolf (1993), Grant y Davis (1997) y Lynn (1986) sugieren que se debe

emplear entre 2 a 20 expretos, por otro lado, Hyrkäs et al. (2003) señala que diez

brindarían una estimación confiable de la validez de contenido de un

instrumento. Es decir el número de jueces que se deben emplear en un juicio de

experto depende del nivel de experiencia y de la diversidad del conocimiento y

la cantidad exacta variara según el autor.


Además es importante destacar que si el 80% de los expertos han estado de acuerdo

con la validez de un ítem éste puede ser incorporado al ainstrumento. (

Voutilainen & Liukkonen, 1995, citados en Hyrkas et al. (2003)

Coeficiente de acuerdo entre jueces

Estadístico Kappa: Este estadístico genera una medida de acuerdo entre

evaluadores y se utiliza cuando las variables están dadas en una escala nominal, es

decir únicamente clasifican. Por ejemplo, un juez clasifica los ítems de una prueba de

conocimientos en contestables o no contestables por una persona que tenga un nivel

adecuado de conocimiento en el área, o el caso de psicólogos clínicos que tienen que

clasificar a pacientes entre los que requieren seguimiento permanente y los que no.

El estadístico tiene un rango entre -1 y 1, pero generalmente se ubica entre 0 y 1. Si

el coeficiente es 1 indica acuerdo perfecto entre los evaluadores, si es 0 indica que el

acuerdo no es mayor que el esperado por el azar, y si el valor del coeficiente es

negativo el nivel se acuerdo es inferior al esperado por el azar (Sim & Wright, 2005).

No obstante, obtener estos valores extremos es improbable, lo común es obtener un

amplio espectro de valores intermedios que se interpretan teniendo como referencia

la complejidad de la evaluación y el número de categorías a evaluar, es decir, la

interpretación es relativa al fenómeno medido.

Selección de expertos
El método de obtención de juicios de expertos puede ser clasificado en dos según

si la evaluación se realiza de manera individual o grupal.

Dinámica individual, tenemos el método de agregados individuales y el método

Delphi, donde cada juez realiza la evaluación individualmente, pero en el método de

Delphi se le envía la mediana y se le pide que reconsidere su juicio hasta que se logre

un consenso (de Arquer, 1995), ofreciendo este último método un alto nivel de

interacción, superando la desventaja de la dinámica grupal.

Dinámica grupal, tenemos la nominal y el consenso, en ambos se requiere reunir a

los expertos, pero en la última se exige mayor nivel de acuerdo. Esta técnica puede

tener problemas si se generan discusiones tensa o se generen sesgo en relación a las

diferencias individuales.

En esta investigación trabajaremos con el Método de Agregados Individuales: Se

pide individualmente a cada experto que dé una estimación directa de los ítems del

instrumento. Éste es un método económico porque, al igual que el método Delphi, no

exige que se reúna a los expertos en un lugar determinado. Puede parecer un método

limitado porque los expertos no pueden intercambiar sus opiniones, puntos de vista y

experiencia, ya que se les requiere individualmente; no obstante, esta limitación

puede ser precisamente lo que se esté buscando para evitar los sesgos de los datos

ocasionados por conflictos interpersonales, presiones entre los expertos, etc.

El juicio de expertos es un procedimiento que nace de la necesidad de estimar la

validez de contenido de una prueba. Para la recaudación de información se propone

pasos que permiten organizar la información asegurando la eficiencia en el proceso

de juicio de experto.

a) Definir el objetivo del juicio de expertos ya que puede utilizarse con

diferentes objetivos.
b) Seleccionar los jueces considerando la formación académica de los expertos,

experiencia y reconocimientos.

c) Explicitar tanto las dimensiones como loa indicadores que está midiendo

cada uno de los ítems.

d) Especificar el objetico de la prueba, El autor debe proporcionar a los jueces

la información relacionada con el uso de la prueba, es decir, para qué van a

ser utilizados los puntajes obtenidos.

Aiken (2003) afirma que para estimar la confiabilidad de un juicio de expertos, es

necesario conocer el grado de acuerdo que existe entre ellos, ya que un juicio

incluye elementos subjetivos. Para determinar el grado de acuerdo se han

determinado diferentes procedimientos, calcular el porcentaje de acuerdo (Jakobsson

& Westergren, 2005).

Índice de validez de contenido (IVC)

Lawshe (1975) propuso un índice de validez basado en la valoración de un grupo

de expertos de cada uno de los ítems del test como innecesario, útil y esencial. El

índice se calcula a través de la siguiente fórmula:

Donde ne es el número de expertos que han valorado el ítem como esencial y N es

el número total de expertos que han evaluado el ítem.


El IVC oscila entre +1 y -1, siendo las puntuaciones positivas las que indican una

mejor validez de contenido. Un índice IVC = 0 indica que la mitad de los expertos

han evaluado el ítems como esencial. Los ítems con una bajo IVC serán eliminados.

Lawshe (1975) sugiere que un IVC = .29 será adecuado cuando se hayan utilizado

40 expertos, un IVC = .51 será suficiente con 14 expertos, pero un IVC de, al menos,

.99 será necesario cuando el número de expertos sea 7 o inferior.

Validez de constructo:

El término constructo se usa en psicología para referirse a algo que no es

observable, pero que literalmente es construido por el investigador para resumir o

explicar las regularidades o relaciones que él observa en la conducta.

La validez de constructo no sólo sirve para justificar los usos de una prueba

educativa, sino que puede proporcionar una articulación entre líneas de investigación

de la psicología educativa con la psicología cognoscitiva, colocando el énfasis en los

procesos cognoscitivos y las estructuras de memoria desarrolladas mediante el

proceso de instrucción (Greeno, 1980; Snow, 1980).

Por tanto, la mayoría de los nombres de rasgos se refieren a constructos. Para las

preguntas acerca de si el instrumento revela algo significativo respecto de las

personas, se usa el término validez de constructo.

Basada en la integración de cualquier evidencia que fundamenta la

interpretación o significado de las puntuaciones de la prueba o test, medida a través

del análisis correlacional y de covarianza inter-ítem. Tomar en consideración la


pertinencia, el significado y la utilidad de las inferencias específicas derivadas de las

pruebas o test, conjuntamente con las consecuencias sociales y personales, y los

valores, se pudiera pensar más bien en unificar las tres categorías de validez en una

sola: la de constructo; debido a que las otras dos categorías también contribuyen al

significado de las puntuaciones de la prueba o test, reconociéndolas así como

aspectos de la validez de constructo (Messick,1989: 20). Por su parte, las

puntuaciones de la prueba pudieran llevar a emitir juicios erróneos del evaluador

sobre el evaluado, al no considerar otros aspectos de tipo humano, social o cultural

referidos al evaluado y, además, la información susceptible de ser medida limita su

existencia, dejando afuera otros aspectos que pudieran ser de significativa

importancia para validar el juicio.

La validez de constructo es la principal de los tipos de validez, en tanto que «la

validez de constructo es el concepto unificador que integra las consideraciones de

validez de contenido y de criterio en un marco común para probar hipótesis acerca de

relaciones teóricamente relevantes» (Messick, 1980; p.1015), en este mismo sentido

(Cronbach, 1984; p.126) señala que «la meta final de la validación es la explicación

y comprensión y, por tanto, esto nos lleva a considerar que toda validación es

validación de constructo».

La génesis de la validez de constructo como un concepto integrador de validez

hay que situarla en la primera versión de los Standards forEducational and

Psychological Testing (APA, 1954) y en la publicación del influyente trabajo de

Cronbach y Meehl (1955).

señala Martínez Arias (1995), este nuevo concepto de validez se empieza a

percibir fundamental y básico y, aún más importante, como integrando a los


anteriores enfoques de validez —heredados de las tradiciones empirista (validez

criterial) y racionalista (validez de contenido)—, poniéndose así los ci mientos para

este enfoque globalizador que va a echar por tierra la concepción tripartita de la

validez y va a defender una concepción unificada de la misma, en la cual parece

haber un consenso emergente acerca del papel central desempeñado por la validez de

constructo (Moss, 1992).

Dicho de otro modo,‘la validez de constructo subsume la relevancia y

representatividad de los contenidos, así como las relaciones con los criterios, ya que

ambas dan significado a las puntuaciones de los tests’ (Martínez Arias, 1995, p.335).

Por consiguiente, desde este planteamiento la validez de constructo puede ser

conceptualizada en términos de un proceso científico de contrastación de hipótesis,

donde entraría tanto lo empírico como los juicios racionales: las hipótesis serían las

inferencias realizadas a partir de las puntuaciones de los tests y la validación el

proceso de acumulación de evidencias que apoyen dichas inferencias, usos o

interpretaciones de las puntuaciones del test. ‘La validación de un test abarca todas

las cuestiones experimentales, estadísticas y filosóficas por medio de las cuales se

evalúan las hipótesis y teorías científicas’ (Messick, 1989, p. 14).

Psicólogos como Samuel Messick (1989) han impulsado una visión unificada de

la validez de constructo "... como un juicio evaluativo integral del grado en que la

evidencia empírica y fundamentos teóricos apoyan la idoneidad y adecuación de las

inferencias y acciones basadas en resultados de las pruebas..."8


Validez de criterio o criterial

Se refiere al grado en que el test correlaciona con variables ajenas al test

(criterios) con lo que se espera por hipótesis que debe correlacionar de determinado

modo. Un criterio es una variable distinta del test que se toma como referencia, que

se sabe que es un indicador de aquello que el test pretende medir o que se sabe que

debe presentar una relación determinada con lo que el test pretende medir. Se

denomina coeficiente de validez a la correlación del test con un criterio externo.

La elección del criterio es el aspecto crítico en este procedimiento de

determinación de la validez, ya que es muy difícil obtener buenos criterios. Un

mismo test puede tener más de un tipo de validez, es decir puede estar validado con

respecto a varios criterios y los diferentes coeficientes de validez que resultan pueden

tener valores diferentes.

Dentro del concepto de validez de criterio cabe distinguir a su vez entre:

- Validez externa y validez interna

- Validez concurrente y validez predictiva

Validez Instruccional
Según Hogan (2004), esta validez corresponde a una aplicación particular de la

validez de contenido y es conocida también como validez curricular. Tiene relación

con lo que los estudiantes han tenido oportunidad de aprender durante las clases para

responder correctamente en una evaluación (Crocker et al, 1988). En el ámbito

educativo este tipo de validez es clave, dado que representa la relación entre lo que

se enseña y lo que se evalúa. Cuando esta relación es débil se presentan dos

problemas, por una parte, los estudiantes no tienen posibilidad de demostrar lo que

aprendieron durante las clases y, por otra, son evaluados en aspectos que no se les

enseñaron (Himmel et al, 1999; McMillan, 2003). Esta última idea se ve reflejada

especialmente cuando se cambia el énfasis de lo que se enseñó, por ejemplo, en

clases se enseñan los conceptos, sus definiciones y luego en la evaluación se les pide

que apliquen dichos conceptos en situaciones que nunca han sido trabajadas durante

las clases, aludiendo a que se espera que los estudiantes sean capaces de hacerlo

como parte de la “construcción” de su propio aprendizaje.

¿Cómo se mide la validez?

Juzgar si un instrumento es válido no es algo que pueda ser medido en una escala

absoluta. Frecuentemente se categoriza la validez como débil versus aceptable lo que

refleja un juicio sobre qué tan adecuadamente el test mide lo que se supone que mide

(Cohen y Swerdlik, 2009). Otros autores, como Darr (2005), sugieren que se categorice

como débil, moderada o fuerte.

Existen diferentes enfoques, orientados a probar diferentes tipos de validez. Estos

enfoques no son mutuamente excluyentes, y todos contribuyen a la validez total, aunque

según el uso que se le quiera dar al test pueden tener distinta relevancia (Cohen y

Swerdlik, 2009). Clásicamente, se habla de validez de constructo, contenido y criterio.


Distintos autores hacen distintas clasificaciones de los tipos de validez que se deben

considerar, por ejemplo, validez de constructo, contenido, ítem, predictiva, “face”,

relativa a criterios, concurrente, etc., aclarando que no es necesario usar siempre todas

las formas de validez (Wilson, 2005). Además se tiene que la validez está referida a

inferencias y decisiones hechas para un grupo específico en un contexto específico, para

juzgar la validez de un instrumento se requiere reunir mucha información (Darr, 2005).

Es por ello que debido a la diversas clasificaciones y formas de medir la validez de un

instrumento de evaluación y por la complejidad que tienen algunas de ellas se ha

decidió medir la validez de los instrumentos de evaluación en relación a la validez de

contenido y de costructo.

El enfoque propuesto en los Estándares para la Evaluación Educativa y Psicológica

(Joint Committee on Standards for Educational and Psychological Testing, 1999), en

que más que hablar de tipos de validez, se habla de tipos de evidencia sobre la validez, o

líneas de evidencia, basadas en el contenido del test, los procesos de respuesta, la

estructura interna, las relaciones con otras variables, y las consecuencias (Joint

Committee on Standards for Educational and Psychological Testing, 1999; Wilson,

2005). Estos tipos de evidencia se describen a continuación:

a) Evidencia basada en el contenido: En los test no se pueden evaluar todos los

conocimientos de los estudiantes, sino solo una muestra de ellos, por lo tanto es

muy importante que esta sea una muestra adecuada del área de aprendizaje que

interesa evaluar. Si esto se logra, aumenta nuestra posibilidad de hacer

inferencias válidas sobre los logros de aprendizaje en un cierto dominio (Darr,

2005)
Este tipo de evidencia requiere mirar el contenido del instrumento para

analizar la relación con el constructo que se requiere medir (Joint Committee on

Standards for Educational and Psychological Testing, 1999). Si un instrumento

es bueno, tendrá ítems que evalúan diferentes aspectos del tema evaluado, y

expertos en el área, que no están familiarizados de antemano con los ítems,

estarán de acuerdo en qué evalúa cada ítem.

Existen dos riesgos que deben ser evitados. Uno es la sub-representación

del constructo, es decir, que elementos importantes del constructo que se

quiere evaluar no estén siendo evaluados. El otro es la varianza relacionada

con constructos que son irrelevantes para lo que se está midiendo, por ejemplo

en una prueba de lectura, el conocimiento previo del tema o la respuesta

emocional frente al texto, o un test de matemática, la velocidad de lectura o el

vocabulario (Joint Committee on Standards for Educational and Psychological

Testing, 1999).

b) Evidencia basada en los proceso de respuesta: Los análisis teóricos y empíricos

sobre los procesos de respuesta de los examinados pueden entregar información

sobre la relación entre estos procesos y los constructos que se desean evaluar.

Por ejemplo, si un test busca evaluar razonamiento matemático, es importante

que el test efectivamente evalúe eso y no simplemente la aplicación de

algoritmos. Observar estrategias de respuesta o entrevistar a los examinadores

sobre los procesos puede entregar esta información. (Joint Committee on

Standards for Educational and Psychological Testing, 1999).

c) Evidencia basada en la estructura interna: Este análisis busca recoger evidencia

sobre el grado en que las relaciones entre los ítems de un test y sus componentes
se adecúan al constructo que supuestamente buscan evaluar, el que puede

implicar una sola dimensión, o varias. Para mirar esto se puede revidar si los

ítems efectivamente cumplen con el mapa de contenidos. Si el constructo tiene

una sola dimensión, esto también se puede probar a través del análisis de ítems

por ejemplo, que a los estudiantes con un buen desempeño en el total de la

prueba, obtengan un buen desempeño en el ítem). Otra forma de mirarlo es

comprobar que los ítems funcionen de manera diferente en distintos grupos, de

acuerdo a lo que predice la teoría (Joint Committee on Standards for Educational

and Psychological Testing, 1999).

d) Evidencia basada en relaciones con otras variables1: Este tipo de evidencia se

desglosa en validez convergente2 y discriminatoria. La evidencia relativa a la

validez convergente implica comparar los resultados obtenidos en un

determinado test con los obtenidos por los mismos estudiantes en test que midan

el mismo constructo, o constructos similares. Se espera que los puntajes de un

cierto instrumento se correlacionen con otros que declaran medir constructos

iguales o parecidos (Wilson, 2005; Joint Committee on Standards for

Educational and Psychological Testing, 1999): si dos evaluaciones que

supuestamente miden el mismo constructo están entregando resultados muy

diferentes, es motivo de preocupación (Darr, 2005). Una posible dificultada es

que muchas veces no existen otros instrumentos parecidos (Wilson, Joint

Committee on Standards for Educational and Psychological Testing, 1999).

1
Algunos autores identifica este tipo de validez como externa.
2
En el enfoque tradicional, se habla de validez concurrente, que es l grado en que el puntaje de un test se
relaciona con otra medida obtenida al mismo tiempo, es decir, cuanto se relacionan los puntajes de un
test que declara medir “x” con los de otro test que dice medir lo mismo. Y la validez predictiva, que se
refiere al grado en que el puntaje en un test predice alguna conducta relativa al criterio medida por otro
test en el futuro (Cohen- Swerdlik, 2009; Darr, 2005). Por ejemplo, a nivel de estudios secundarios o
terciarios, una evaluación predictiva podría tener sentido para ver qué tan bien las evaluaciones a nivel
escolar predicen el desempeño académico o laboral futuro (Darr, 2005).
La evidencia relativa a la validez discriminatoria se obtiene comparando los

resultados obtenidos en el test con otras evacuaciones que midan constructos

opuestos o diferentes. En este caso, se espera que los puntajes se correlaciones

poco con los test que declaran medir constructos diferentes (Wilson, 2005;

Joint Committe on Standards for Educational and Psychological Testing,

1999).

e) Evidencia basada en las consecuencias: Más allá de toda información técnica

recogida, si el uso de una evaluación particular tiene o puede tener

consecuencias negativas, o las consecuencias de usar sus resultados pueden ir en

contra del objetivo educativo final, es una consideración que de tomarse en

cuenta para cuestionarse la validez de un instrumentos y decidir su usarlo o no

(Wilson, 2005; Joint Committee on Standards for Educational and Psychological

Testing, Esta validez desde el punto de vista de las consecuencias de ude usar

los resultados de los test.

Por ejemplo el peso que se le dé a los resultados puede tener un impacto en

las maneras de enseñar y aprender. Algunas de las consecuencias negativas

pueden ser estrechamiento curricular “teaching to the test” o reducción en la

motivación de los estudiantes (Darr, 2005). Para analizar este tipo de evidencia

es necesario considerar tanto los efectos intencionados como los no

intencionados de los test (Wilson, 2005; Joint Committee on Standards for

Educational and Psychological Testing, 1999). También es necesario analizar

su las consecuencias indeseables se deben al constructo que se quiere medir, o

al instrumento específico que está utilizando para pedirlo. Para poder dilucidar

esto se debe ver si otro instrumento que mida el mismo constructo presenta las
mismas consecuencias indeseables. Si este es el caso, es más probables que el

problema se deba al constructo que al instrumento (Wilson, 2005)

Por último, hay que distinguir las consecuencias que tienen que ver con

decisiones de política educativa, pero no necesariamente con la validez. En

general, la evidencia relacionada con consecuencias se relaciona directamente

la validez si tienen que ver con la subrepresentación de un constructo o con la

irrelevancia de constructo descritas anteriormente (Wilson, 2005; Joint

Committee on Standards for Educational and Psychological Testing, 1999).

Bibliografía

Cohen, L., Manion, L., & Morrison, K. 2000. Research Methods in Education (6th edition).

London, RoutledgeFalmer.

Cohen, R. & Swerdlik, M. 2009. Psychological Testing and Assessment: An Introduction to

Tests and Measurement (7th Edition). Boston: McGraw-Hill Higher Education.

Darr, C., 2005. A Hitchhiker’s Guide to Validity. Available at:

http://toolselector.tki.org.nz/Assessment-fundamentals/Criteria-for-choosing-

anassessment-tool

Joint Committee on Standards for Educational and Psychological Testing, 1999. Standards for

Educational and Psychological Testing. American Educational Research Association,

Washington DC.

Comte, A. (1896). The positive philosophy. Londres: George Bell & Son.
Hogan, T. (2004). Pruebas psicológicas. Una introducción práctica. México: El Manual

Moderno

Cohen, R. y Swerdlik, M. (2001). Pruebas y Evaluaciones Psicológicas. Introducción a

laspruebas de medición. México, DF: McGraw-Hill.

Ding, C. & Hershberger, S. (2002). Assessing content validity and content equivalence using

structural equation

Skjong, R. & Wentworth, B. (2000). Expert Judgement and risk perception. Recuperado el 15

de Enero de 2006, de

http://research.dnv.com/skj/Papers/SkjWen.pdf

McGartland, D. Berg, M., Tebb, S. S., Lee, E. S. & Rauch, S. (2003). Objectifying content

validity: Conducting a content validity study in social work research. Social Work

Research, 27 (2), 94-104.

Hyrkäs, K., Appelqvist-Schmidlechner, K & Oksa, L. (2003). Validating an instrument for

clinical supervision using an expert panel. International Journal of nursing studies, 40

(6), 619 -625.

Sim, J. & Wright, C. (2005) The Kappa statistic in reliability studies: Use, interpretation, and

sample size requirements. Physical Therapy, 85 (3), 257-268.

de Arquer, M. (1995). Fiabilidad Humana: métodos de cuantificación, juicio de expertos.

Centro Nacional de Condiciones de Trabajo. Recuperado el 3 de Junio de 2006, de

http://www.mtas.es/insht/ntp/ntp_401.htm

Sim, J. & Wright, C. (2005) The Kappa statistic in reliability studies: Use, interpretation, and

sample size requirements. Physical Therapy, 85 (3), 257-268.


Aiken, Lewis (2003). Test psicológicos y evaluación. México: Pearson Education.

Jakobsson, U. &y Westergren, A. (2005). Statistical methods for assessing agreement for

ordinal data. Scandinavian Journal of sCaring Science, 19(4), 427-431.

Messick, S. (1989). Validity. En R. L. Linn (Ed.), Educational measurement (pp. 13-103). New

York: Macmillan

Cohen, R. & Swerdlik, M. 2009. Psychological Testing and Assessment: An Introduction to

Tests and Measurement (7th Edition). Boston: McGraw-Hill Higher Education.

McMillan, J.H. (2003). Understanding and Improving Teachers‘ Classroom Assessment

Decision Making: Implications for Theory and Practice. Educational Measurement:

Issues and Practice, 22 (4), 34-43.

Wilson, M. 2005. Constructing measures, an ítem response modeling approach. Lawrence

Erlbaum Associates Inc., Publishers. Mahwah, New Jersey.

Darr, C., 2005. A Hitchhiker’s Guide to Validity. Available at:

http://toolselector.tki.org.nz/Assessment-fundamentals/Criteria-for-choosing-

anassessment-tool

Grant, J., Davis, L. (1997). Selection and use of content experts for instrument

development. Research in Nursing & Health, 20, 269-274.

Joint Committee on Standards for Educational and Psychological Testing, 1999. Standards for

Educational and Psychological Testing. American Educational Research Association,

Washington DC.

Greeno, J.G. (1980), "Psychology of Learning, 1960–1980: One participant observation",

American Psychologist, vol. 35, pp. 713–728.


Martínez, R. (1995). Psicometría: teoría de los test psicológicos y educativos. Madrid: Editorial

Síntesis

You might also like