You are on page 1of 7

MDULO 2202- EL MTODO EXPERIMENTAL EN PSICOLOGA

VALIDEZ .......................................................................... 1
Validez del constructo ................................................ 2
Validez referida al criterio .......................................... 3
Validez de contenido .................................................. 4
VALIDEZ

UNIDAD III.
Validez

Lectura 1
Aragn, B., L., E y Silva, R. A. y, (2002).
Fundamentos Tericos de la Evaluacin
Psicolgica. Editorial Pax: Mxico. pp.
45-56.

Determinar el significado de una medida se centra en el concepto de


validez. En un sentido muy general, un instrumento de medicin es
valido si hace aquello para lo que esta concebido. La validez de un test
concierne a lo que el test mide y a que tan bien lo hace; nos revela lo
que podemos inferir de las puntuaciones del test.
El estudio de la validez de un instrumento nos permite contestar si
este es til para medir cierto comportamiento; sin embargo, siempre
debemos tener presente que lo validado no es el instrumento, sino la
interpretacin de los datos obtenidos por medio de un procedimiento
especifico. Aunque segn la definicin de validez de un instrumento esta
es referida tpicamente a si la conducta mostrada en la situacin de test
es o no un reflejo de la conducta habitual del sujeto en situaciones
naturales, hay otras metas de la validez igualmente importantes; la
evaluacin de la validez de un instrumento implica considerar tambin
los siguientes aspectos: la adecuacin con que mide la conducta sujeta
a estudio, la capacidad para diagnosticar la conducta real de una
persona, la sensibilidad para detectar el objetivo, la seguridad de las
decisiones y la utilidad (Martnez, 1981).
La validacin requiere siempre investigaciones empricas, y el tipo de
datos necesario para ello depende de la clase de validez. La validez es
una cuestin de grado (no se trata de una propiedad que existe o no) y
la validacin es un proceso continuo. La validez de un test no puede ser
reportada en trminos generales; tampoco es valido decir de ninguna
prueba que posea una validez alta o baja en lo abstracto; su validez
debe ser establecida con referencia al uso particular para el cual el test
esta siendo considerado (Nunnally, 1970; Anastasi, 1988).
Fundamentalmente, todos los procedimientos para determinar la
validez de un test conciernen a las relaciones entre la ejecucin en una
prueba y otros hechos observables independientemente, acerca de las
caractersticas de la conducta por considerar. Los mtodos especficos
empleados para investigar estas relaciones son numerosos y han sido
descritos con varios nombres. Tradicionalmente, la validez ha sido

Para profundizar en este tipo de contenidos consulte la obra:


Aragn, B., L., E y Silva, R. A. y, (2002). Fundamentos Tericos de la Evaluacin Psicolgica. Editorial Pax:
Mxico.

UNIDAD III VALIDEZ

MDULO 2202- EL MTODO EXPERIMENTAL EN PSICOLOGA

tratada en la literatura con algunos de los tipos siguientes, establecidos


en los Standards of the American Psychological Association (1966,
citado por Nunnally, 1970; Martnez, 1981; Anastasi, 1988), segn el tipo
de test y el uso a que este destinado:
a.
Validez del constructo, analizada al investigar que cualidades o
rasgos psicolgicos mide un test, es decir, determina el grado en que
algunos conceptos explicativos o constructos desarrollan los resultados
del test.
b.
Validez relativa al criterio o emprica, que compara las
puntuaciones de los tests o las predicciones derivadas de ellos con una
variable externa (criterio), considerada una medida directa de la
caracterstica o conducta en cuestin.
c.
Validez del contenido, que valora hasta que punto es valido el
contenido del test de una muestra representativa de la clase de situaciones o problemas sobre los que llegaremos a las conclusiones.
Histricamente, los evaluadores conductuales han criticado la
metodologa de evaluacin tradicional debido a su limitada validez y
utilidad; sin embargo, no es sino hasta recientemente cuando el inters
por desarrollar mtodos de evaluacin conductual ha sido asociado al
inters correspondiente por examinar las propiedades psicomtricas
pertinentes de los mtodos diseados. En parte, la carencia del nfasis
en la explicacin de medidas y el reporte de la validez de las pruebas
conductuales es el resultado de la nocin antigua de que cuando la
conducta criterio es muestreada directamente, no hay necesidad de
demostrar la validez, pues cabe suponer que no hay inferencias de los
datos de la prueba; no obstante, este es un anlisis inexacto de los usos
de los datos en evaluacin conductual. Ciertamente excepto en raras
circunstancias, el evaluador conductual suele estar interesado en
hacer algn nmero de inferencias basadas en las respuestas
observadas durante la situacin de prueba. Como mnimo, el proceso de
evaluacin supone o infiere que una muestra de conducta observada en
un punto en el tiempo es comparable con la que podra ser observada en
algn otro punto en el tiempo en condiciones un poco diferentes de
aquellas en las cuales fueron obtenidas las puntuaciones de muestra
(Linehan, 1980).
As, uno de los temas de inters fundamental en la evaluacin
conductual es precisamente el de la validacin de las tcnicas de
evaluacin. Los tericos de la evaluacin comenzaron a plantearse la
cuestin de si todas estas tcnicas desarrolladas en el marco terico de

la psicometra serian o no adecuadas para la evaluacin conductual,


diseadas con esquemas tericos totalmente distintos. Por una parte, los
tests tradicionales han sido construidos para poner de manifiesto
diferencias interindividuales, mientras que lo que interesa con los
instrumentos de evaluacin conductual es revelar diferencias intrasujeto,
esto es, antes y despus de un tratamiento (Martnez, 1981).
Con el transcurso del tiempo y ya demostrada la aparente utilidad de
los tratamientos derivados de la evaluacin conductual, cabe plantear en
este enfoque problemas metodolgicos, formulndose diversas
preguntas, como: hasta qu punto podemos considerar eficaz el
tratamiento?, cul es el mejor de varios tratamientos, teniendo en
cuenta los resultados obtenidos?, reflejan las diferencias entre las
puntuaciones pretratamiento y postratarniento, cambios males en la
conducta o simplemente errores de medida de los procedimientos
utilizados en su obtencin?, son los instrumentos utilizados los
adecuados para poner de relieve las conductas de inters?
Evidentemente, cualquier instrumento de medicin, cualquiera que sea
el enfoque o sin importar a que disciplina pertenezca, debe presentar
ciertas cualidades que demuestren su valor cientfico: su confiabilidad y
su validez. En este sentido, tanto los instrumentos de medicin
procedentes de la evaluacin tradicional como los construidos desde el
enfoque conductual participan de la misma teora de la medicin. El
asunto est en preguntarse cules procedimientos de obtencin de la
confiabilidad y la validez de un instrumento deben ser utilizados por uno
u otro enfoque en la construccin de sus dispositivos de medida
(Martnez, 1981).
Para contestar la pregunta de qu tipo de validez corresponde segn
la orientacin terica en que hayamos construido un instrumento de
medicin, en seguida explicaremos ms ampliamente los tres tipos de
validez considerados.
Validez del constructo
En la medida en que una variable es abstracta en vez de concreta,
decimos que es un constructo. Una variable as constituye literalmente
un constructo, pues representa algo que el cientfico compone con su
imaginacin, algo que no existe como dimensin de conducta
observable. La mayora de los constructos estn en el mismo caso: los
lmites del dominio de conductas observables relacionadas no son netos.
La validez del constructo de una prueba es la extensin en la cual la

Para profundizar en este tipo de contenidos consulte la obra:


Aragn, B., L., E y Silva, R. A. y, (2002). Fundamentos Tericos de la Evaluacin Psicolgica. Editorial Pax:
Mxico.

UNIDAD III VALIDEZ

MDULO 2202- EL MTODO EXPERIMENTAL EN PSICOLOGA

prueba dice medir un constructo o rasgo terico. Todo constructo esta


diseado para explicar y organizar consistencias de respuestas y es
derivado de relaciones establecidas entre medidas conductuales. La
validez del constructo requiere la acumulacin gradual de informacin de
una variedad de fuentes.
Cualquier dato que arroje luz sobre la naturaleza del rasgo
considerado y de las condiciones que afectan su desarrollo y sus
manifestaciones representa una evidencia apropiada para este tipo de
validacin (Nunnally, 1970; Anastasi, 1988).
La validez del constructo esta' basada en el significado psicolgico de
la puntuacin de una prueba y en la explicacin terica de una buena o
mala ejecucin en ella. Cuando el experto en medicin indaga la validez
de las construcciones hipotticas de una prueba, desea saber que
propiedades psicolgicas y de otra ndole pueden explicar la varianza de
dicha prueba, esto es, procura explicar las diferencias individuales
observadas en las puntuaciones de un instrumento de medicin. Casi
siempre le interesa ms la propiedad que pretende medir que la prueba.
No se trata simplemente de validar una prueba, sino que es preciso
validar la teora en la cual esta descansa (Kerlinger, 1985; Kirsch y
Guthrie, 1980).
Dado que la medicin de constructos es una parte vital de la actividad
cientfica, cmo se establecen y validan esas medidas? En el proceso
hay tres aspectos principales: a) especificar el domino de las conductas
observables, b) determinar hasta que punto todas o algunas de esas
conductas se correlacionan entre s, y c) determinar si una, algunas o
todas las medidas de tales variables actan como si midieran el
constructo (Nunnally, 1970).
La prueba suficiente de la validez del constructo la constituye el
hecho de que las medidas del constructo (trtese de una sola medida de
conductas observables o de una combinacin de ellas) se comportan
como cabe esperar que lo hagan, por ejemplo: si suponemos que una
medida determinada esta' relacionada con el constructo ansiedad, el
sentido comn ha de sugerir muchos resultados obtenibles mediante
esta medida. Las puntuaciones mayores (mayor ansiedad) ocurren en el
caso de: a) pacientes clasificados como neurticos ansiosos con mayor
probabilidad que en pacientes no catalogados como ansiosos; b)
examinados en un experimento amenazados con un shock elctrico y no
en el caso de pacientes no amenazados, y c) estudiantes de doctorado
antes de pasar su examen oral final mas que en el caso de estos
despus de que han aprobado su examen. Otro ejemplo: si creemos que
determinada medida esta' relacionada con el constructo inteligencia,

podramos esperar que este correlacionada por lo menos


moderadamente con las calificaciones escolares, con las evaluaciones
de la inteligencia hechas por los profesores y con los niveles de
realizacin profesional. As sucede con todos los constructos:
esperamos ciertas relaciones con otras variables y esperamos ciertos
efectos en los experimentos controlados (Nunnally, 1970). En resumen,
el propsito de la validez de constructo es validar la teora subyacente al
sistema de evaluacin y a la medida misma; los constructos determinan
que conductas han de seleccionarse para su observacin. Un
instrumento de medida estar ligado al sistema de constructos dentro del
que fue construido y este tipo de validez nos indicara en que grado el
instrumento de evaluacin es una medida adecuada del constructo y en
que medida las hiptesis derivadas de el pueden confirmarse mediante
la utilizacin del instrumento en cuestin.
Validez referida al criterio
La validez referida al criterio o predictiva interviene cuando se utiliza
un instrumento para estimar alguna forma importante de conducta, que
recibe el nombre de criterio. Una vez obtenido el criterio, la validez de
una funcin de prediccin es determinada de manera directa y con
mucha facilidad; consiste primordialmente en correlacionar las
puntuaciones del test predictivo con las puntuaciones de la variable
criterio. El tamao de la correlacin es una indicacin directa de la
magnitud de la validez (Nunnally, 1970).
La validez referida al criterio valora el grado en que el instrumento de
evaluacin puede utilizarse para estimar la conducta de una persona en
otras situaciones, sean concurrentes con la aplicacin del test o futuras.
Para este propsito, la ejecucin en la prueba es comparada con un
criterio, o sea, con una medida directa e independiente de lo que el test
esta diseado a predecir (Martnez, 1981; Anastasi, 1988). Existen en el
mercado diferentes pruebas cuya meta es predecir a futuro el
comportamiento de los evaluados, por ejemplo: pruebas utilizadas para
predecir el xito escolar, pruebas que predicen la mejor opcin a seguir
para la eleccin de carrera o pruebas que predicen aptitudes o madurez
para distintas facetas del aprendizaje escolarizado bsico.
Lo que importa en este tipo de validez es la capacidad predictiva de
la prueba y no aquello que mide; en pocas palabras, lo importante es el
criterio y su valor de prediccin. Es fcil hablar de correlacionar un test
predictivo con su criterio, pero obtener un buen criterio puede ser ms

Para profundizar en este tipo de contenidos consulte la obra:


Aragn, B., L., E y Silva, R. A. y, (2002). Fundamentos Tericos de la Evaluacin Psicolgica. Editorial Pax:
Mxico.

UNIDAD III VALIDEZ

MDULO 2202- EL MTODO EXPERIMENTAL EN PSICOLOGA

difcil que lograr un test predictivo. En muchos casos, no disponemos de


criterio alguno o aquellos con los que contamos adolecen de distintos
defectos (Nunnally, 1970; Kerlinger, 1975). En resumen, la validez
referida al criterio esta caracterizada por la prediccin relacionada con
un criterio externo y porque recurre a la comprobacin del instrumento
de medicin, ya sea en el momento presente o en el futuro,
comparndolo con algn resultado o medida.
Validez de contenido
Para algunos instrumentos, la validez depende, primordialmente, de
la suficiencia con que mostramos un domino especifico de contenido. El
test debe bastarse a si mismo para ser una medida adecuada de lo que
suponemos que mide.
La validez de contenido es la representatividad o adecuacin
muestral del contenido del instrumento de medicin. Toda propiedad
psicolgica o pedaggica posee un universo terico de contenido
constituido por aquello que cabe afirmar u observar acerca de ella. La
validez de contenido esta dada por la pregunta: es la sustancia o el
contenido de este instrumento de medicin representativa del contenido
o del universo del contenido de la propiedad por medir? (Kerlinger,
1975).
La validez de contenido incluye esencialmente el examen sistemtico
del contenido del test para determinar si cubre una muestra representativa del domino de conductas por medir. Como tal, la validez de contenido ha sido requerida tpicamente para pruebas de evaluacin de aprovechamiento escolar y para medir que tan bien domina un individuo una
habilidad especfica (Linehan, 1980; Anastasi, 1988).
Como suponemos que la conducta no es generalizada por medio de
estmulos diferentes, una adecuada representacin de factores de
estmulos relevantes es necesaria para hacer una evaluacin con validez
de contenido, en la cual interesa si las condiciones en que la conducta
de la persona es observada representan a aquellos conjuntos de
condiciones a los cuales estamos interesados en generalizar. Por tanto,
la principal contribucin que aporta un instrumento de medida con
validez de contenido es dar una data descripcin del domino de
conductas de inters (Linehan, 1980; Martnez, 1981).
As, el objetivo de la validez de contenido es demostrar que los
reactivos del test son una muestra representativa de un universo. La
validez de contenido est interesada en lo que examinamos y compara

esto con una especificacin previamente definida, mas que con alguna
nocin vaga en la mente de un experto (Hoste, 1981). El nfasis
principal en la construccin de pruebas orientadas al contenido no esta
en la evaluacin e interpretacin de las puntuaciones, sino en asegurar
un muestreo cuidadoso de un dominio de contenido pertinente. Las
normas principales que es necesario satisfacer para asegurar la validez
de contenido son: a) un conjunto representativo de temes o reactivos, y
b) mtodos sensatos de construccin de la prueba. A menudo existe una
imposibilidad lgica o real de muestrear el contenido; para asegurarnos
de que los reactivos representen realmente la conducta por evaluar, es
necesario tener un bosquejo muy detallado de las clases de cuestiones y
problemas que debemos incluir (Nunnally, 1970).
Denominemos U el universo de conductas que queremos evaluar.
Una prueba de alta validez de contenido seria, en teora, una muestra
representativa de U. Si U consta de los subconjuntos A, B y C, toda
muestra lo bastante amplia de U representara aproximadamente de igual
forma a A, B y C; y as ser satisfactoria la validez de contenido de la
prueba. De este modo, la definicin conceptual de una conducta debe
especificar en detalle el universo o dominio de contenido conductual y
sus estmulos asociados. Una vez que la definicin conceptual ha sido
determinada, un asunto de validacin importante es si la muestra de los
estmulos y las muestras observadas y registradas durante el
procedimiento de medida es representativa del universo conductual que
conceptualmente define a la conducta al respecto (Kerlinger, 1975;
Linehan, 1980).
Normalmente y por fortuna, es imposible extraer de manera aleatoria
muestras de reactivos de un universo de contenido; tales universos solo
existen en teora. Si bien es posible y recomendable reunir varias colecciones de reactivos, sobre todo en el mbito del aprovechamiento, y
extraer de ellas muestras aleatorias para someterlas a prueba, siempre
quedara la duda de su validez de contenido por numerosos y buenos
que sean los reactivos. Adems, en la mayora de las situaciones, el
ejemplo simple de un muestreo al azar del contenido no es realista por
una segunda razn: la seleccin del contenido suele implicar asuntos de
valores. Habra que formular explcitamente los valores que intervinieron
en la elaboracin de una medida y sealar como estructuraron la
formulacin del plan del test y la construccin de los reactivos; adems,
la validez de contenido se vuelve algo compleja cuando intentamos
asegurar que empleamos mtodos razonables de construccin de la
prueba (Nunnally, 1970; Kerlinger, 1975).
En la construccin de pruebas orientadas al contenido, las inferencias

Para profundizar en este tipo de contenidos consulte la obra:


Aragn, B., L., E y Silva, R. A. y, (2002). Fundamentos Tericos de la Evaluacin Psicolgica. Editorial Pax:
Mxico.

UNIDAD III VALIDEZ

MDULO 2202- EL MTODO EXPERIMENTAL EN PSICOLOGA

se hacen acerca de la pertinencia y la cobertura de un domino de


contenido especifico. La precisin con que cierto domino y sus lmites
son definidos es derivada de la pertinencia del contenido elegido. El
domino debe ser delineado suficientemente con el propsito de
determinar que reactivos le pertenecen o no; tambin es importante
evitar la tendencia a sobregeneralizar considerando el domino
muestreado por la prueba, por ejemplo: con una prueba de eleccin
mltiple de ortografa podemos medir la habilidad para reconocer
palabras escritas correctas e incorrectas, pero no podemos suponer que
tal prueba tambin mida la habilidad para escribir correctamente en un
dictado, la frecuencia de errores en composiciones escritas, ni otros
aspectos de la habilidad en ortografa (Lieberman y Michael, 1986;
Anastasi, 1988).
Aunque asegurar la validez de contenido suele conllevar problemas,
inevitablemente este tipo de validez recae sobre todo en un juicio
racional acerca de la suficiencia con que ha sido muestreado el
contenido importante y de lo adecuado de la manera en que este fue
expresado como reactivos del test; adems, existen varios mtodos para
analizar los datos obtenidos mediante el test que han de proporcionar
pruebas circunstanciales. Cabe esperar, por lo menos, un moderado
nivel de coherencia interna entre los reactivos que forman parte de una
prueba; as, estos deben tender a medir algo en comn (Nunnally, 1970).
Como Hoste (1981) menciona, uno de los problemas que pueden
contribuir a la carencia de progreso en el estudio terico de la validez del
contenido es que no existe algn modo aceptable de cuantificarlo. No
hay evidencia cuantitativa obtenible de la validez del contenido ni puede
ser expresada como un coeficiente de validez. Aunque por el anlisis de
los resultados experimentales obtenemos indicios tiles, la validez de
contenido recae sobre todo en demostrar la correccin del contenido y el
modo en que es representado. As, dada la carencia de instrumentos o
ndices estadsticos para su determinacin, la validez de contenido ha de
ser determinada por medio de procedimientos racionales en vez de
empricos. Ante la ausencia de medidas estadsticas, la validez de
contenido es determinada por un examen cuidadoso por los
procedimientos de construccin de la prueba. En la extensin con que el
investigador siga los procedimientos justificados como requisitos para la
validez del contenido y que el muestreo del universo original
corresponda al universo de generalizacin, ser probable encontrar las
suposiciones de validez de contenido.
De lo anterior deducimos que la validacin del contenido es
bsicamente de criterio; debemos estudiar los reactivos de la prueba y

ponderar su supuesta representatividad del universo, lo cual significa


que debemos juzgar la supuesta relacin de cada reactivo con la
propiedad al respecto. Por lo general, otros jueces competentes han de
ponderar el contenido de los reactivos. Si las circunstancias lo permiten,
definiremos con claridad el universo del contenido, es decir, los jueces
recibirn las instrucciones especificas para que emitan sus juicios y
tambin sern comunicados con precisin de lo que van a juzgar; por
tanto, es factible aplicar un mtodo que agrupe juicios independientes
(Kerlinger, 1975).La validez de contenido es construida en una prueba
desde el principio, mediante la eleccin de reactivos apropiados. Las
especificaciones de la prueba deben mostrar las reas o temas de
contenido por tratar, los objetivos o procesos instruccionales por probar y
la importancia relativa de los temas y procesos individuales. Con base
en ello, establecemos el numero de reactivos de cada clase a ser
preparados en cada tema (Anastasi, 1988).
En resumen, la validez de contenido proporciona una tcnica adecuada para evaluar pruebas de aprovechamiento educativo y ocupacional y
de medicin de habilidades, a la vez que permite contestar dos preguntas bsicas para la validez de las pruebas: a) incluye la prueba una
muestra representativa de habilidades y conocimientos especficos?, y b)
fiesta la ejecucin en la prueba razonablemente libre de variables
irrelevantes?
Como menciona Martnez (1981), existen dos aspectos importantes y
complementarios de la validez de contenido de un instrumento que
debemos tener en cuenta: a) que el instrumento no incluya aspectos
irrelevantes de la conducta de inters, y b) que el instrumento incluya
aspectos importantes que definen el domino intelectual.
Goldfried y D'Zurilla (1969; citados por Goldfried y Linehan, 1977;
Martnez, 1981) proponen un procedimiento para el muestreo de los
comportamientos de inters, a fin de justificar la validez de contenido del
instrumento de evaluacin. Las fases de este procedimiento son:
a. Un anlisis situacional, que supone un muestreo de las
respuestas tpicas en las que la conducta de inters tiene mayor
probabilidad de ocurrencia.
b. Una enumeracin de la respuesta, que supone un muestreo de
las respuestas tpicas a cada situacin determinada en la fase anterior.
c. Una evaluacin de las respuestas, la cual se realiza para juzgar
cada respuesta determinada en la fase anterior respecto a su calidad;
generalmente, estos juicios son emitidos por expertos, los cuales
debern juzgar la calidad de las respuestas en cuanto a su eficacia.

Para profundizar en este tipo de contenidos consulte la obra:


Aragn, B., L., E y Silva, R. A. y, (2002). Fundamentos Tericos de la Evaluacin Psicolgica. Editorial Pax:
Mxico.

UNIDAD III VALIDEZ

MDULO 2202- EL MTODO EXPERIMENTAL EN PSICOLOGA

Este criterio de las tres etapas podemos utilizarlo para seleccionar los
reactivos del instrumento de medicin y para proporcionar criterios
empricamente derivados con el fin de puntear esa medicin. Con
cualquiera de los procedimientos que vayamos a seguir para construir
instrumentos de evaluacin con validez de contenido, conviene adems
tener en cuenta una serie de sugerencias que, si las seguimos, pueden
mejorarla. Dichas sugerencias son (Martnez, 1981):
a. La garanta de un buen instrumento no esta dada por el hecho de
constar de un conjunto de buenos elementos, sino que es necesario
considerar si ese conjunto es una muestra representativa de las
conductas de inters.
b. Debern estar claramente recogidas las especificaciones de los
objetivos de la evaluacin.
c. Debemos subdividir los objetivos iniciales.
d. Es necesario establecer claramente los tipos de respuesta
posibles para cada elemento o estmulo.
e. Una vez especificadas las condiciones de los estmulos y
respuestas, el constructor de un test deber elegir una de las posibles
definiciones de universo de conductas, que generara los elementos u
observaciones por incluir en el instrumento.
f. No es correcto sustituir un conjunto de tareas u observaciones
por otras que guarden una elevada correlacin con las primeras. Esto
seria permisible solo en el enfoque de los tests normativos, centrados en
las diferencias individuales.
g. En evaluacin conductual, adems de estudiar y analizar las conductas seleccionadas para la construccin del instrumento, es necesario
tener presentes otros aspectos que afectaran la validez de contenido:
tiempo en que se realizar la evaluacin, duracin de aquel, etctera.
h. Por ltimo, una elevada validez aparente del instrumento de
evaluacin no es una prueba de la validez de contenido del mismo. Este
es un hecho puesto de relieve con frecuencia en evaluacin conductual;
muchas veces, el instrumento de medida parece una muestra de una
extensa variedad de situaciones, pero en realidad solo refleja intuiciones
de los autores del instrumento.
La validez aparente alude al grado en que un instrumento parece
como si midiera aquello que pretendemos que mida. Tal validez se
refiere a los juicios acerca del instrumento despus de que este ha sido
construido (Hoste, 1981); adems, se centra en determinar si la
evaluacin luce adecuada a los propsitos para los cuales est

diseada; esta es probablemente la prueba ms comn de validez


utilizada. Sin embargo, la validez del contenido no debe ser confundida
con la validez aparente, la cual no es una validez en el sentido tcnico,
sino que alude a lo que superficialmente parece que mide y no a lo que
el test en realidad mide. La validez aparente responde al requisito de si
el test parece vlido a quien va a tomarlo, al personal administrativo que
decide su uso y a otros observadores tcnicamente no entrenados.
Aunque el uso comn del termino validez en esta conexin puede crear
confusiones, la validez aparente por si misma es una caracterstica
deseable de las pruebas. No es suficiente que una prueba sea
objetivamente vlida, sino tambin necesita validez aparente para que
funcione de manera efectiva en situaciones prcticas. En contextos
aplicados, la validez aparente est vinculada en cierta medida con las
relaciones publicas; por ejemplo: los maestros utilizarn de mala gana
un test de rendimiento, a menos que los temes tengan buen aspecto
(Nunnally, 1970; Hoste, 1981; Anastasi, 1988).De lo anterior colegimos
que la validez aparente puede ser mejorada si formulamos los reactivos
de la prueba en trminos que parezcan adecuados y plausibles en el
ambiente particular donde tendr aplicacin la prueba (Anastasi, 1988).
Por ltimo, cabe mencionar, por la importancia que tiene para la
validacin de las medidas en general y en particular para la validez de
contenido, la teora de la generalizacin de Cronbach (1972, citado por
Linehan, 1980; Martnez, 1981). La ciencia se distingue de las
observaciones casuales en que intenta formular enunciados generales
acerca de los acontecimientos naturales. La ciencia esencialmente
intenta explicar todos los hechos naturales en funcin de un conjunto
relativamente pequeo de principios. Tales principios son generalizables
con amplitud, es decir, se cumplen sin importar la naturaleza de los
objetos y otras circunstancias particulares. En la ciencia psicolgica es
buscada de modo semejante la generalidad de la explicacin (Nunnally,
1970). Esencialmente, la teora de la generalizacin es un modo de
reconceptualizar las cuestiones clsicas de confiabilidad y validez en
trminos de la generalizacin de puntuaciones mediante dominios o
universos de inters. Un universo alude a la coleccin completa o total
de medidas admisibles que pudieron haber sido hechas; a su vez, la
puntuacin observada en cualquier instrumento de evaluacin es una
estimacin de la puntuacin del universo, esto es, la puntuacin que
podramos obtener si hubiramos observado exhaustivamente, de
manera hipottica, desde todas las condiciones admisibles dentro de ese
universo.
Con medidas que requieren validez de contenido, la probabilidad de

Para profundizar en este tipo de contenidos consulte la obra:


Aragn, B., L., E y Silva, R. A. y, (2002). Fundamentos Tericos de la Evaluacin Psicolgica. Editorial Pax:
Mxico.

UNIDAD III VALIDEZ

MDULO 2202- EL MTODO EXPERIMENTAL EN PSICOLOGA

generalizacin esta relacionada con la correccin y amplitud con que el


instrumento abarca el contenido que debe medir. Por tanto, en medidas
que requieren validez del contenido, tambin es necesario ocuparse de
la posibilidad de generalizacin; sin embargo, con tales medidas, la
generalidad o representatividad de la amplitud del contenido se
determina sobre todo por las opiniones de los expertos mas que por la
experimentacin (Nunnally, 1970).
Cone (1977, citado por Linehan, 1980) ha listado las siguientes
facetas de universo mediante las cuales suele ser de inters la
generalizacin en la evaluacin conductual: a) puntuaciones, b) tiempo,
c) ambiente, d) mtodo, e) reactivos (esto es, una clase de respuestas
semejantes), y f) dimensin (esto es, una clase de respuestas
diferentes). Por su parte Nelson (1977, citado por Linehan, 1980) ha
argumentado que la generalizacin por medio de estas facetas no es
una caracterstica necesaria de procedimientos de evaluacin
conductual tiles y precisos, ni la carencia de generalizacin mediante
una o la ausencia de una o ms facetas un signo de invalidez. Sin
embargo, sugiere que la ausencia de generalizacin puede ser atribuida
a una falla para representar adecuadamente en el muestreo de la
evaluacin el universo conceptual a ser predicho. Por ejemplo, si los
ambientes incluidos en la especificacin del universo de inters no son
muestreados durante la medicin, el procedimiento de evaluacin tendr
poca relevancia en ese universo.
As, en la construccin de instrumentos en la evaluacin conductual,
para garantizar validez de contenido debe haber un muestreo
representativo de todos los ambientes, clases de respuesta,
dimensiones, etctera, esto es, un muestreo representativo de todas las
facetas de inters. Por ende, es importante definir de manera precisa la
habilidad que va a ser evaluada, disear una forma de ejercicios de
prueba con los que esa habilidad pueda ser exhibida simple y
eficientemente y acordar el nivel que ser aceptado como indicador de
competencia satisfactoria en esa habilidad; en otras palabras, el objetivo
del test debe revelar claramente lo que mide el instrumento, el propsito
para el que fue construido.

Para profundizar en este tipo de contenidos consulte la obra:


Aragn, B., L., E y Silva, R. A. y, (2002). Fundamentos Tericos de la Evaluacin Psicolgica. Editorial Pax:
Mxico.

UNIDAD III VALIDEZ

You might also like