You are on page 1of 7

Psicothema 2003. Vol. 15, n 2, pp.

315-321 ISSN 0214 - 9915 CODEN PSOTEG


www.psicothema.com Copyright 2003 Psicothema

Sobre la validez de los tests

Paula Elosua Oliden


Universidad del Pas Vasco

Han transcurrido ms de dos aos desde la publicacin de los ltimos estndares sobre el uso de tests
psicolgicos y educativos (AERA, APA y NCME, 1999). Su contenido es el referente ms claro y or-
todoxo para la evaluacin, construccin y utilizacin de los tests. Desde la versin anterior, publica-
da en 1985, la aportacin ms relevante se centra en la necesidad de garantizar un uso correcto de los
tests. Es un nuevo matiz que otorga al usuario responsabilidades hasta ahora no consideradas. Como
consecuencia irrumpen nuevas fuentes de evidencia en el anlisis de la validez: el funcionamiento di-
ferencial de los tems y la validez consecuencial. El objetivo de este trabajo es ofrecer una panormi-
ca general sobre la validez centrada en los ltimos estndares, que la definen como el aspecto ms re-
levante tanto en el desarrollo como en la evaluacin de los tests.

About test validity. More than two years have passed since the publication of the last standards for edu-
cational and psychological testing (AERA, APA y NCME, 1999). This publication is the best and fo-
remost reference for test evaluation, construction and use. The most important contribution to the pre-
vious version published in 1985 is the emphasis in guaranteeing proper use of the tests, thus bestowing
upon the user new responsibilities in the process. As a result of this, new sources of evidence for vali-
dity analysis such as differential item functioning and consequential validity have prouted strongly.
The objective of this study is to provide a general overview on validity based on the latest standards,
which is the most relevant feature for both test development and test evaluation.

La validez es el aspecto de la medicin psicopedaggica vin- para ello la validez predictiva y concurrente en la validez re-
culado con la comprobacin y estudio del significado de las pun- ferida al criterio. La visin tripartita admitida no se romper
tuaciones obtenidas por los tests. Acorde a una orientacin marca- oficialmente hasta la publicacin de los estndares de 1985.
damente emprica, la psicologa actual centra su estudio en el exa- Un segundo estadio terico marcado por la importancia
men de las variables definidas en y por el test, y de sus relaciones concedida a la teora psicolgica, en el que se adopta una vi-
con variables externas, observadas o latentes, con el objeto de sus- sin integradora. Se impone el anlisis de la validez de
tentar las interpretaciones propuestas. constructo como concepto unificador que abarca aspectos
La evolucin de su significado desde un origen pragmtico y de contenido y de relaciones con otras variables. (..toda va-
operacional, hasta la complejidad de la visin que hoy impera, re- lidacin es validacin de constructo; Cronbach, 1984; p.
fleja el carcter progresivo de la ciencia que la cobija. Se ha re- 126). Supone el reconocimiento de la validez como proceso
vestido de mil formas, acepciones o enfoques (convergente, dis- nico de recogida de evidencias a travs de estrategias de
criminante, factorial, sustantiva, estructural, externa, de poblacin, investigacin diferentes relacionadas con el constructo, con
ecolgica, temporal, de tarea (Messick, 1980)) bajo las cuales es el contenido o con el criterio.
posible delimitar grosso modo, tres etapas que han quedado im- La fase actual, a la que podramos denominar, contextual, en
presas en la redaccin de los estndares de 1974, 1985 y 1999: la que se ampla la acepcin anterior y se delimita con el
concepto de uso propuesto. Su objetivo sera dotar a los
Una primera etapa operacional dominada por una visin tests de avales tanto cientficos como ticos. (Una visin
pragmtica que prima la validez externa (Un test es vlido integradora de la validezdebe distinguir dos facetas inter-
para aquello con lo que correlaciona; Guilford, 1946; p. conectadas del concepto unitario de validez. Una faceta es
429). Esta perspectiva diferencia entre 4 tipos de validez: la fuente de justificacin La otra faceta es la funcin o re-
contenido, predictiva, concurrente y de constructo.(APA; sultado del test; Messick, 1989; p. 20). En esta nueva re-
AERA; NCME, 1954), que las ediciones de 1966 y 1974 visin no se encuentran referencias a distintas formas de va-
(APA, AERA, NCME, 1966; 1974) reducen a tres agrupando lidez. Se incorpora a la connotacin terica anterior un as-
pecto hasta entonces olvidado, el uso. Ya no es suficiente la
justificacin sustantiva de las puntuaciones, es necesario de-
Fecha recepcin: 28-5-02 Fecha aceptacin: 8-11-02 limitar los fundamentos tericos en un contexto externo,
Correspondencia: Paula Elosua Oliden con relacin al propsito o interpretacin propuesta. Como
Facultad de Psicologa
consecuencia, dentro de los mbitos de uso de un test (Tabla
Universidad del Pas Vasco
20009 San Sebastin (Spain) 1) habrn de especificarse las condiciones de la situacin de
E-mail: pspelolp@sc.ehu.es medida, que entre otros aspectos, tendrn en cuenta la rele-
316 PAULA ELOSUA OLIDEN

vancia y utilidad de las puntuaciones para los fines pro- de estos aspectos dentro del proceso de validacin se adopta un
puestos. punto de vista multidimensional sobre el origen del sesgo. Un ins-
trumento de medida, o en este caso sera ms correcto hablar del
Bajo esta postura descansa la aseveracin de que interpretar un uso de un instrumento de medida, puede ser origen de sesgo si su
test es usarlo, y de que todos los usos incluyen una interpretacin estructura interna y distribucin difieren entre grupos.
del test. De ah que se confiera a la persona responsable de la ad- El objetivo de los estudios de validez sera por todo ello reco-
ministracin del test un estatus privilegiado e irremplazable para ger las suficientes evidencias que pueden prestar una base cient-
el anlisis del significado y relevancia de las puntuaciones. Aun- fica a la interpretacin de las puntuaciones en un uso concreto. Es-
que la descripcin de las variables que influyen sobre stas forma tas pueden provenir de diversas fuentes. La importancia otorgada
parte de la fase de construccin, el usuario habr de reconocer los a cada una de ellas depender de los objetivos del test, que sern
posibles factores contaminantes que operan en cada situacin par- en cada caso los que determinarn las ms significativas. Los lti-
ticular. De este modo, sobre ste recae una carga tanto tica como mos estndares diferencian entre fuentes relacionadas con el con-
interpretativa. El constructor justificar tericamente el uso, pero tenido, el proceso de respuesta, la estructura interna, las relaciones
es el agente final el que habr de valorar la adecuacin del con- con otras variables y las consecuencias del test. Podemos agrupar-
texto a los requerimientos de validez. las en fuentes de evidencia internas y externas. Las primeras su-
La importancia concedida a las implicaciones derivadas de una ponen un anlisis individualizado de los tems, mientras que las
contextualizacin prctica o uso est estrechamente ligada al con- segundas analizan el test en conjunto.
cepto de sesgo. Es un trmino con connotaciones polticas, socia-
les, estadsticas y psicomtricas, que comienza a cobrar relevancia Fuentes de evidencia internas
en la dcada de los 20 debido a la controversia surgida en Estados
Unidos acerca de la parcialidad de los tests respecto a determina- Contenido
dos grupos (Jensen, 1980).
Desde un punto de vista estrictamente psicomtrico el sesgo es El anlisis del contenido aglutina dos tipos de estudios suple-
un error sistemtico originado por deficiencias en el test o en el mentarios. Unos encaminados a evaluar las relaciones entre el
modo en que ste es usado, que produce una distorsin en el sig- constructo y el contenido del test, y otros dirigidos a valorar los
nificado de las puntuaciones y que adultera la interpretacin pro- factores contextuales internos y externos que puedan aadir va-
puesta. Sesgo y validez se convierten en aspectos afines. El sesgo rianza no deseada.
siempre supondr falta de validez, y la falta de validez puede ser El objetivo de los primeros es garantizar que la muestra de
el origen del sesgo. Para maximizar una y consecuentemente mi- tems que componen la prueba es adems de relevante, represen-
nimizar otra, el test habr de incorporar una descripcin detallada tativa del constructo. Su anlisis incluye tres aspectos, la defini-
de cada uno de los mbitos de uso propuestos, que servir de mar- cin del dominio, y el estudio de su representacin y de su rele-
co conceptual bsico para la recopilacin de evidencias e interpre- vancia (Sireci, 1998). El primero se centra en la definicin opera-
tacin de puntuaciones. El fin es comprobar que no existen ni in- cional del dominio del contenido, que tradicionalmente se sirve de
frarrepresentacin del constructo ni varianza irrelevante para el una tabla bidimensional en la que se especifican las reas de con-
mismo causadas por la intervencin de variables ajenas tanto al tenido y las reas cognitivas que se pretenden evaluar. La repre-
marco terico como a los objetivos propuestos. Con la inclusin sentacin y relevancia, por su parte, consisten en la evaluacin de

Tabla 1
mbitos de uso de los tests (AERA, APA, NCME, 1999)

mbitos de uso Propsito

Evaluacin psicolgica Diagnstico


Intervencin
Decisiones jurdicas
Crecimiento personal
Seleccin individual

Evaluacin educativa Diagnstico individual Rendimiento y cambio en un dominio de contenido


Carencias
Planificacin de intervenciones
Inclusin en programas de apoyo
Seleccin de candidatos
Certificaciones

Diagnstico colectivo Evaluacin de programas educativos


Evaluacin de polticas o intervenciones educativas

Empleo y acreditacin Seleccin


Promocin
Ubicacin
Evaluacin de aptitudes y competencias
Evaluacin de Programas
SOBRE LA VALIDEZ DE LOS TESTS 317

cada uno de los tems en funcin de la definicin dada. La evi- La metodologa descansa en los protocolos de respuesta, entre-
dencia basada en el contenido, aunque en su mayora cualitativa y vistas, y en general procedimientos que permitan el anlisis indi-
sustentada en anlisis lgicos, puede incluir, sobre todo en tests de vidualizado del par sujeto/tem. Desde la teora de respuesta al
rendimiento y referidos al criterio, ndices empricos de congruen- tem se han propuesto diversos modelos, los componenciales, pa-
cia basados en pruebas inter-jueces o en tcnicas de escalamiento ra acometer este fin. Son formulaciones que anan la representa-
uni- y multidimensional (Hambleton, 1980). cin formal y la psicolgica, descomponiendo la dificultad de los
El estudio de los factores contextuales cubre un amplio abani- tems en parmetros representativos de sus componentes (Embret-
co de condiciones que abarcan entre otras, el formato de los tems, son, 1997). Se trata de instrumentos tiles para la constatacin de
el tipo de tareas exigidas, y la evaluacin de la propia situacin de modelos cognitivos que permiten adems indagar posibles discre-
test. Dentro de esta ltima se incluiran las instrucciones para la pancias entre grupos referidas al procesamiento de las respuestas.
administracin y correccin de la prueba, la interaccin entre exa-
minador-examinado, la familiaridad con la situacin, las diferen- Estructura interna
cias de motivacin o ansiedad o el tipo de material utilizado. El
objetivo es evitar fuentes de dificultad irrelevantes o un uso ses- En el intervalo de 14 aos transcurrido entre las dos ltimas re-
gado del lenguaje para lo cual se aconseja evaluar las distintas visiones de los estndares, los aspectos relacionados con el anlisis
acepciones o significados que un mismo trmino puede poseer pa- de la estructura interna son tal vez los que ms literatura especiali-
ra diferentes grupos y asegurar que la experiencia curricular de los zada han originado. Esta fuente de evidencia evala el grado en que
sujetos sea la misma. las relaciones entre los tems y los componentes del test conforman
el constructo que se quiere medir y sobre el que se basarn las in-
Proceso de respuesta terpretaciones. Podra asimilarse al aspecto interno de la validez de
constructo definida por Loevinger (1957), o a la representacin del
La influencia ejercida por la psicologa cognitiva sobre la psi- constructo apuntada por Embretson (1983). Segn los ltimos es-
cometra tradicional est obligando a reanalizar la medicin por tndares, se centra en la evaluacin de la dimensionalidad de la
medio de tests para que fije su atencin ms que en la utilidad del prueba, y del funcionamiento diferencial de los tems.
constructo en su representacin (Prieto y Delgado, 1999; Snow y
Lohman, 1993). En la bsqueda de instrumentos de medida que se Dimensionalidad
ajusten a un marco que no sea estrictamente estadstico, el estudio
de los procesos cognitivos implicados en la resolucin de los tems El estudio del nmero de factores, dimensiones o habilidades
es un importante foco de informacin. subyacentes a un conjunto determinado de variables es uno de los

Tabla 2
Fuentes de evidencia

Evidencia Tipo Mtodo

INTERNA (TEMS) CONTENIDO Definicin del dominio. Representacin y relevancia


Situacin de test (formato, administracion, puntuacin)

PROCESO DE RESPUESTA Protocolos


Entrevistas
Modelos componenciales

ESTRUCTURA INTERNA
Dimensionalidad Modelos de estructura latente
Modelo Factor Comn
Modelo Respuesta tem
Paramtrico
No-paramtrico

F.D.I. Invarianza observada


Delta, chi-cuadrado, Mantel-Haenszel, Regresin
logstica, Log-Lineal, SIBTEST
Invarianza Latente
Modelo Respuesta al tem
Modelo Factor Comn

EXTERNA (TEST) RELACIONES


Convergente/discriminante Matriz multirrasgo/multimtodo
Factorial Confirmatorio
Test/criterio Modelo lineal generalizado
Generalizacin Meta-anlisis

CONSECUENCIAS
318 PAULA ELOSUA OLIDEN

temas ms recurrentes de la psicometra. Su objetivo es la deter- de sujetos que proviniendo de diferentes grupos (referencia y fo-
minacin del mnimo nmero de estructuras necesario para expli- cal) presentan el mismo nivel en el rasgo medido. Es posible agru-
car la mxima varianza observada. Se tratara de definir un mode- parlos en funcin del carcter observado o latente de la variable
lo linealmente independiente y montono a travs de un nmero sobre la que se comparan las respuestas. La utilizacin de puntua-
reducido de factores (Stout, 1990). ciones empricas como criterio de equiparacin de sujetos da lugar
Las perspectivas que pueden adoptarse para la especificacin a los procedimientos conocidos como Delta, chi-cuadrado, Man-
dimensional pueden englobarse bajo el trmino genrico de mo- tel-Haenszel, estandarizacin, modelos log-lineales, SIBTEST y
delos de rasgo latente (McDonald, 1999). Dentro de ellos situar- regresin logstica. Dentro del segundo grupo se incluyen los pro-
amos los modelos lineales derivados del modelo del factor comn, cedimientos derivados de los modelos de respuesta al tem, y del
y los no-lineales procedentes de los modelos de respuesta al tem. modelo factorial. Entre todos ellos, el estadstico Mantel-Haenszel
De entre todos ellos, el anlisis factorial es el que ha gozado de (MH) es el que mayor difusin ha alcanzado. Es un procedimien-
mayor popularidad. Basado en el modelo lineal del factor comn to simple para el estudio de tablas de contingencia que compara la
de Spearman, integra un conjunto de tcnicas de anlisis multiva- igualdad/diferencia en la plausibilidad de la respuesta entre grupos
riadas cuya finalidad es resumir la informacin contenida en un en funcin del nivel de los sujetos en la variable medida.
conjunto de variables observadas por medio de un nmero reduci- A pesar de la estrecha relacin entre los conceptos de sesgo y
do de variables hipotticas, conocidas habitualmente como facto- FDI, es importante anotar que no existe correspondencia biunvo-
res. El objetivo es reproducir las matrices de covarianzas o corre- ca entre ambos. Aunque consideremos los ndices de FDI defini-
laciones entre variables observadas . ciones operacionales del sesgo, el (in)cumplimiento de las condi-
Sin embargo, la linealidad en las relaciones variable/factor que ciones empricas que en cada caso exigen los procedimientos de
asume este modelo se viola en muchas de las situaciones analiza- estimacin son el origen de falsas detecciones (errores tipo I) que
das en psicologa. La relacin entre una variable dicotmica y un pueden llevarnos a conclusiones errneas. Es menester comple-
factor, por ejemplo, nunca es lineal. Ante estos casos, y desde los mentar todo estudio emprico de deteccin de FDI (Elosua, Lpez,
modelos de respuesta al tem se desarrollan los modelos multidi- y Torres, 2000) con procedimientos de juicio e inferenciales que
mensionales compensatorios, que se han mostrado especialmente en cada caso evalen y contextualicen los resultados antes de con-
tiles en la determinacin de la estructura interna de datos dicot- cluir la presencia o ausencia de sesgo. La deteccin estadstica del
micos (Elosua y Lpez, 2002; Hambleton y Rovinelli, 1986; Hat- funcionamiento diferencial del tem no es un fin en s mismo, es
tie, 1984). Son modelos no-lineales, logsticos o de ojiva, que per- un instrumento til que adquiere relevancia dentro de un marco
mitiendo una doble parametrizacin (factorial, de respuesta al sustantivo de estudio de la validez.
tem), ejercen una funcin de nexo entre dos acercamientos que
aunque aparentemente divergentes presentan grandes similitudes Fuentes de evidencia externas
estructurales.
El estudio de la dimensionalidad no se agota con estas dos pers- Relaciones con otras variables
pectivas. Existe otra tendencia que construida sobre la asuncin de
covarianza condicional entre pares de tems puede incluirse dentro El estudio de las relaciones entre la medida obtenida por el test
del conjunto de modelos de respuesta al tem no paramtricos. Es- y variables externas, conocida como el aspecto externo de la vali-
ta es la base de DIMTEST y DETECT. El primero evala la uni- dez por Loevinger (1957), o como amplitud nomottica por Em-
dimensionalidad esencial de datos binarios, a saber, la presencia bretson (1983), tal vez sea el tipo de evidencia ms utilizado en el
de un factor dominante responsable de las respuestas observadas proceso de validacin. Su defensa como fuente de validez por el
(Stout, 1990). El segundo es un procedimiento exploratorio que enfoque funcionalista en la construccin de tests ha avalado su uso
estima el nmero de dimensiones latentes dominantes, identifica desde los primeros estndares de la APA.
clusters dimensionalmente homogneos para cada dimensin y Esta fuente de informacin se nutre de evidencias que relacio-
cuantifica la multidimensionalidad presente en los datos (Zhang y nan la puntuacin con algn criterio que se espera pronostique el
Stout, 1999). test, con otros tests que hipotticamente midan el mismo cons-
tructo, constructos relacionados o constructos diferentes (AERA,
Funcionamiento diferencial del tem APA y NMCE, 1999). Los resultados de estos anlisis serviran
para evaluar el grado en que las relaciones hipotetizadas son con-
La importancia de garantizar la equidad en el proceso de medi- sistentes con la interpretacin propuesta. Este aspecto de la vali-
cin, implcita en el concepto de validez, es el origen de la multi- dez integra la evidencia convergente/discriminante, las relaciones
tud de trabajos destinados tanto a la elaboracin y estudio de tc- test/criterio y los estudios de generalizacin de la validez, que ya
nicas diseadas para la deteccin del funcionamiento diferencial en los estndares de 1985 ocuparon un apartado independiente.
del tem (FDI) (Camilli y Shepard, 1994; Holland y Wainer, 1993),
como a la bsqueda de teoras explicativas que analicen sus cau- Evidencia convergente y discriminante
sas (Hambleton, Clauser, Mazor, y Jones, 1993).
La presencia de funcionamiento diferencial en un tem supone Una de las caractersticas, y no por ello deseable, de la medi-
que la probabilidad de respuesta correcta no depende nicamente cin psicolgica clsica es la dependencia entre la medida obteni-
del nivel del sujeto en el espacio latente medido, sino que sta se da y el instrumento utilizado. El alcance de esta supeditacin se ha
haya adems condicionada por la pertenencia a un determinado estudiado habitualmente a travs de la matriz multirrasgo/multi-
grupo social, cultural, lingstico, instruccional, que genera una mtodo (Campbell y Fiske, 1959). Su objetivo es evaluar la con-
falta de equivalencia mtrica entre puntuaciones. Su deteccin se vergencia o divergencia esperada entre las correlaciones obtenidas
apoya en procedimientos estadsticos que comparan las respuestas en la medicin de una/s variable/s por mtodo/s diferente/s. La va-
SOBRE LA VALIDEZ DE LOS TESTS 319

lidez convergente (valores monorrasgo-heteromtodo) se refiere al dencia ms controvertida. La discusin no se ha centrado en la ne-
grado de relacin entre distintos procedimientos que miden el mis- cesidad de evaluar las consecuencias del uso de un test, punto en
mo constructo, mientras que la validez discriminante (valores he- el que todos los autores estn de acuerdo, sino en la consideracin
terorasgo-monomtodo) hace referencia a la evaluacin de distin- de sta como parte integrante de un estudio de validez. Los teri-
tas variables medidas con el mismo mtodo. Aunque en primera cos que ms se oponen a esta perspectiva (Meherens, 1997; Pop-
instancia se trate de un procedimiento heurstico se estn propo- ham, 1997) opinan que entremezclar ambos aspectos, pertinencia
niendo modelos interesantes para su estudio derivados del anlisis de la inferencia y consecuencias del test, enturbia excesiva e inne-
factorial confirmatorio (Browne, 1984; Marsh y Bailey, 1991). cesariamente el significado de validez, que se ha de centrar en la
justificacin de la inferencia sobre una puntuacin, independiente-
Relaciones test-criterio mente de qu se haga con ella.
La integracin del test con sus consecuencias en los e studios
El anlisis de las relaciones test-criterio adquiere una gran rele- de validacin ha sido espec ialmente defendida por Messick
vancia en contextos de utilidad donde es fundamental la precisin (1989) . Este autor propone un ma rco terico en e l que integr a un
con que se efecta una prediccin. Su estudio incluye la evaluacin componente pragmtico con e l que enfatiza: a) la importancia
de los factores que inciden en la relacin estadstica entre dos o mas de la rela cin entre la connotacin terica y las connotaciones
variables. Entre ellos las caractersticas propias del instrumento pr cticas a tribuidas a las puntuaciones; b) la necesidad de va lo-
evaluado, el tamao muestral, la restriccin del rango, o la rele- rar la re levancia y la utilidad de las puntuaciones en cada uno de
vancia, fiabilidad y validez del criterio que se quiere pronosticar. los usos propuestos; c)la necesidad de conocer y en su caso c on-
Los diseos utilizados para la obtencin de ndices de validez, tr olar las consecuencias sociales del uso propuesto. C on ello se
propios de este aspecto, dependen del tiempo transcurrido entre la busca un e quilibrio entre el valor instrumental del test o su fi-
recogida de datos en el test y en el criterio, siendo habitualmente na lida d y los efec tos deriva dos de su uso, que slo se consigue
conocidos como predictivo, concurrente o retrospectivo. ha ciendo al usuario cmplice y responsable de l valor terminal
En funcin tanto del nmero de variables empleadas como de de l te st.
su carcter sera posible la utilizacin de prcticamente la totali- La postura adoptada por los estndares al respecto remarca la
dad de tcnicas de anlisis multivariado, que podramos incluir ba- diferencia entre la evidencia relevante a la validez, y la evidencia
jo el trmino genrico de modelo lineal generalizado. Entre ellas, que aunque relacionada con decisiones sobre las puntuaciones cae
regresin y correlacin simple (un test / un criterio), regresin fuera de los lmites de un estudio de validez. De esta suerte, la va-
mltiple, regresin logstica, anlisis discriminante (varios predic- lidacin de un instrumento ha de considerar el anlisis de la posi-
tores / un slo criterio) o la correlacin cannica y el anlisis de ble infrarrepresentacin del constructo o de la existencia de com-
regresin multivariante para el caso de varias variables predictoras ponentes irrelevantes para el mismo; aspectos que pueden ser de-
y varios criterios. La aplicacin de estas tcnicas en los estudios tectados a veces, como consecuencia del uso del test. No olvide-
de validez pueden consultarse en las obras de Martnez Arias mos que son precisamente las consecuencias sociales derivadas de
(1995), Muiz (1998), Paz (1996) o Santisteban, (1990) . un uso indiscriminado de los tests la raz de un rea de estudio
psicomtrico de especial relevancia social relacionada con la equi-
Generalizacin de la validez dad en el proceso de medicin.

La posibilidad de que los procesos de validacin locales pue- Discusin


dan extenderse a nuevas situaciones est ya reconocida en los es-
tndares desde 1985. El objetivo es la generalizacin de resultados En definitiva, el proceso de validacin aglutina un conjunto de
sin necesidad de nuevos estudios de validacin. La base de la ge- estudios encaminados a proveer a las puntuaciones del test de una
neralizacin est constituida por los estudios de meta-anlisis, que interpretacin terica coherente con relacin a un contexto de uso
en este mbito cumplen dos objetivos complementarios. Por un la- bien delimitado. Es un anlisis que se inicia en el momento previo
do, unificar los resultados de aplicaciones particulares de un mis- a la construccin del instrumento, y que gua y acompaa su desa-
mo test, y por otro, estimar la variabilidad de los resultados loca- rrollo y vigencia, asegurando interpretaciones sostenidas por un
les obtenidos debidos a artefactos estadsticos. Hunter y Schmidt cmulo suficiente de evidencias que garanticen equidad tanto en la
(1991) diferencian los siguientes artefactos que sera necesario administracin como en la puntuacin.
neutralizar en los estudios de validacin: los errores de medida, la El concepto de validez se torna con esta definicin amplio y
dicotomizacin, la variacin en el rango y la validez de construc- comple jo, tanto c omo la comprobacin de teoras cientfica s con
to tanto de las variables independientes como dependientes, la va- la que se equipara. Esta similitud aceptada y asumida por toda la
rianza debida a factores extraos, el error muestral y los errores de comunidad psicomtrica tiene una doble incidenc ia, aplicada y te-
informe o transcripcin. rica, que nos gustara resaltar. La equivalencia por un lado, con-
En definitiva se trata de estimar un promedio de validez corri- vierte a los estudios de validez en reas imprecisas. La compro-
giendo los efectos de cada uno de los factores mencionados, que bacin de la validez del uso de un instrumento carece de un lmi-
en nuestro entorno todava no ha adquirido un lugar propio en la te inferior objetivamente determinable, y como es lgico, es im-
investigacin psicomtrica aplicada. posible f ijar una cota superior. Por otro, la analoga hace referen-
cia a un aspecto defendido desde la medicin representacional,
Consecuencias que fue olvidado desde una perspectiva operacional fuertemente
arraigada en psicologa, la importancia de la teora en la medida,
Citada por primera vez en la revisin de 1999 tras un debate so- o la vinculacin directa entre la puntuacin y su significacin psi-
bre su adecuacin, la validez consecuencial es la fuente de evi- colgica.
320 PAULA ELOSUA OLIDEN

El binomio puntuacin-interpretacin explicita adems que Las nuevas aplicaciones multimedia, que posibilitan la cons-
siendo la validez uno de los pilares sobre los que se asienta un test, truccin de tems complejos (msica, sonido, movimiento, anima-
no es el nico. La interpretacin psicolgica de una puntuacin no cin), abren la puerta al estudio y evaluacin de nuevos meca-
puede sostenerse sin una representacin formal rigurosa; aspecto nismos y acciones de respuesta (Parshall, Davey y Pashley, 2000).
del que se ocupan los modelos psicomtricos (Fig. 1). Estos no son Es un campo de trabajo todava virgen, en proceso de estudio, y
sino modelos matemticos para la estimacin de puntuaciones (V, del que se tendrn que valorar las aportaciones que suponen y aca-
q) que contemplan entre otros aspectos el error de medida. Sus es- rrean a la medicin tradicional.
timaciones son la base sobre la que opera el componente de repre- Los problemas planteados por la teleevaluacin vuelven a re-
sentacin sustantiva aportando la significacin psicolgica nece- flejar la interconexin entre los pilares apuntados, puntuacin-re-
saria para demarcar el valor de las inferencias. presentacin. Aunque en los cuestionarios distribuidos por Inter-
net los tems utilizados corresponden en su mayora a formatos
tradicionales, este medio se ha planteado nuevos problemas rela-
Rasgo
Uso propuesto cionados fundamentalmente con la calidad de la m uestra, el cues-
tionable anonimato de los participantes, la falta de credibilidad de
Modelo muchos de ellos o la ausencia de control sobre la situacin de ad-
Modelo Formal Estimacin psicolgico ministrac in que dificulta ve rificar la correcta comprensin de las
Validez
V instrucciones o las condiciones en que e l participante en la inves-
tigacin responde a la prueba. Son todos ellos aspectos que re-
percuten directamente en la calidad del dato recogido y conse-
cuentemente en las inferencias y ge neralizaciones que de ellos se
derivan.
Test A este panorama general habra que aadir la utilizacin de sis-
temas expertos para la correccin de tems abiertos (Bennet y Be-
Figura 1. Construccin de tests jar, 1999) o la generacin automtica de tems (GAI) (Bjar, 1990)
a partir de un modelo terico propuesto. Ambos son instrumentos
La conjuncin entre ambos ejes de la medicin se torna ms que se perfilan como tiles en la mejora de la calidad de la eva-
evidente si cabe en las reas de investigacin psicomtrica actual, luacin psicopedaggica, aunque todava se estn valorando la in-
donde todava quedan por solucionar aspectos tanto formales co- fluencia que los algoritmos utilizados en la correccin automati-
mo sustantivos. La incorporacin al panorama educativo de la me- zada ejercen sobre la instruccin, los efectos de la generacin de
dicin autntica, los tests adaptativos informatizados, la genera- tems sin modelo en la construccin de tests, o los problemas de la
cin automtica de tems, la utilizacin de Internet como medio estimacin de parmetros sin muestra.
para la creacin/aplicacin de cuestionarios de evaluacin, o la En el siglo transcurrido entre la publicacin del primer test de
aplicacin de las ltimas innovaciones multimedia al proceso de Binet-Simon y la incorporacin de los avances tecnolgicos ms
construccin de tems, estn aadiendo nuevos matices a las reas recientes, las exigencias cientficas y ticas demandadas a la dupla
psicomtricas tradicionales. puntuacin-significacin han evolucionado en la bsqueda de una
La medicin autntica ha de solucionar problemas de represen- medicin precisa y sustantiva. Los ltimos desarrollos de los mo-
tacin formal relacionados por un lado con, qu y cmo puntuar, delos formales, y la importancia otorgada a los requerimientos de
qu criterios aplicar y el modo de hacerlo (Clauser, 2000) y por validez dan fe del empeo en una medicin equitativa y significa-
otro, con la intervencin de nuevas fuentes de error de las que se tiva. Las consecuencias de la irrupcin de nuevas perspectivas en
hace eco la teora de la generalizabilidad (Brennan, 2000). Ade- el panorama psicomtrico con el objetivo de mejorar la calidad de
ms debe de responder a la posible falta de representatividad de la medicin actual sern objeto de estudio y discusin las prxi-
una sola tarea y a la elevada validez heteromtodo del diseo que mas dcadas. Aunque nuestro entorno es todava ajeno a ellas, co-
utiliza. mo bien apunta Bennet (1999) para que produzcan los frutos au-
La presentacin de un nmero reducido de tems en los tests gurados, habrn de estar siempre guiadas por una slida funda-
adaptativos informatizados, independientemente de cuestiones de mentacin terica. Slo sta podr marcar las vas tcnicas y ti-
arranque, seleccin o parada intensifica los problemas referidos a cas para un correcto desarrollo que ser probablemente recogido
aspectos de validez interna. El estudio de la relevancia o el fun- en una futura edicin de los estndares para el uso de los tests.
cionamiento diferencial (Zwick, 2000) adquieren una trascenden-
cia mayor que en la medicin tradicional, pues a medida que se re- Agradecimientos
duce el nmero de tems sus efectos sobre la estimacin final se
acentan. Desde una perspectiva aplicada tienen que vencer la fal- Trabajo financiado por el Ministerio de Ciencia y Tecnologa
ta de validez aparente de tests que por individualizados y por tan- dentro del Plan Nacional de Investigacin Cientfica, Desarrollo e
to diferentes, son percibidos como incompletos. Innovacin Tecnolgica. BSO2002-00490.
SOBRE LA VALIDEZ DE LOS TESTS 321

Referencias

American Psychological Association, American Educational Research As- Holland, P.W. y Wainer, H. (Eds.) (1993). Differential item functioning.
sociation, y National Council on Measurement in Education. (1954). Hillsdale: Lawrence Erlbaum Associates.
Technical recommendations for psychological test and diagnostic tech- Hunter, J.E. y Schmidt, F.L. (1991). Meta-analysis. En R.K. Hambleton y
niques. Psychological bulletin, 51(2, Pt.2). J.N. Zaal (Eds.), Advances in Educational and Psychological Testing:
American Psychological Association, American Educational Research As- Theory and Applicaations (pp. 157-184). Boston: Kluwer Academic
sociation, y National Council on Measurement in Education (1966, Publishers.
1974, 1985, 1999). Standards for educational and psychological test y Jensen, A.R. (1980). Bias in mental testing. New York: Free Press.
manuals. Washington, DC: American Psychological Association. Loevinger, J. (1957). Objective tests as instruments of psychological the-
Bejar, I.I. (1990) A generative analysis of a three-dimensional spatial task. ory. Psychological Reports (Monograph Supp. 9), 3, 635-694.
Applied Psychological Measurement, 14, 237-245. Marsh, H.W. (1988). Multirait-multimethod analysis. En J.P. Keeves (Ed.),
Bennet, R.E. (1999) Using new technology to improve assessment. Edu - Educational Research, methodology and measurement. An internatio -
cational Measurement: Issues and Practice 18(3), 5-12. nal Handbook . Oxford: Pergamon Press.
Bennet, R.E. y Bjar, I.I. (1999) Validity and automated scoring: Its not Martnez Arias, R. (1995). Psicometra: Teora de los tests psicolgicos y
only the scoring. Educational Measurement: Issues and Practices, 17, educativos. Madrid: Sntesis, S.A.
9-17. McDonald, R.P. (1999). Test theory. A unified treatment. Mahwah, NJ:
Brennan, R.L. (2000). Performance assessments from the perspective of Lawrence Erlbaum Associates.
generalizability theory. Applied Psychological Measurement , 24(4), Meherens, W.A. (1997). The consequences of consequential validity. Edu -
339-353. cational measurement: Issues and Practice, 16, 16-19.
Browne, M.W. (1984). The descomposition of multirait-multimethod ma- Messick, S. (1980). Test validity and the ethics of assessment. American
trices. British journal of mathematical and statistical psychology, 37, Psychologist, 35, 1.012-1.027.
1-21. Messick, S. (1989). Validity. En R.L. Linn (Ed.), Educational Measu -
Camilli, G. y Shepard, L.A. (1994). Methods for identifying biased test rement (Third Edition ed., pp. 13-104). New York: American Council
items. Thousand Oaks: Sage. on Education; Macmillan Publishing Company.
Campbell, D.T. y Fiske, A.W. (1959). Convergent and discriminant vali- Muiz, J. (1998). Teora Clsica de los tests. (6 ed.). Madrid: Pirmide,
dation by the multirait-multimethod matrix. Psychological Bulletin, 56, S.A.
81-105. Parshall, C.G., Davey, T. y Pashley, P.J. (2000) Innovative item types for
Clauser, B.E. (2000). Recurrent Issues and Recent Advances in Scoring computerized testing. En van der Linden y C.A.W. Glas (Eds). Com -
Performance Asessments. Applied Psychological Measurement, 24(4), puterized adaptive testing. Theory and Practice. (pp.129-148) Dor-
310-324. drecht, The Netherlands: Kluwer Academic Publishers.
Cronbach, L.J. (1984). Essentials of psychological testing (4 ed.). New Paz, M.D. (1996). Validez. En J.Muiz (Ed.) Psicometra (pp.49-103). Ma-
York: Harper. drid. Universitas
Elosua, P. y Lpez, A. (2002) Indicadores de dimensionalidad para tems Popham, W. J. (1997). Consecuential validity: Right concern-wrong con-
binarios. Metodologa de las Ciencias del Comportamiento 4(1),121- cept. Educational measurement: Issues and practice, 16, 9-13.
137. Prieto, G. y Delgado, A.R. (1999). Medicin cognitiva de las aptitudes. En
Elosua, P., Lpez, A. y Torres, E. (2000). Desarrollos didcticos y funcio- J. Olea , V. Ponsoda y G. Prieto (Eds.), Tests informatizados. Funda -
namiento diferencial de los tems. Problemas inherentes a toda investi- mentos y aplicaciones (pp. 207-226). Madrid: Pirmide.
gacin emprica sobre sesgo. Psicothema, 12(2), 198-202. Santisteban, C. (1990). Psicometra. Teora y prctica en la constr uccin
Embretson, S.E. (1983). Construct validity: construct representation versus de tests. Madrid: Ediciones Norma, S.A.
nomothetic span. Psychological Bulletin, 93(1), 179-197. Sireci, S.G. (1998). Gathering and analyzing content validity data. Educa -
Embretson, S.E. (1997). Multicomponent response models. En W.J.v.Lin- tional Assessment, 5(4), 299-321.
den y R.K. Hambleton (Eds.), Handbook of modern item response the - Snow, R.E. y Lohman, D.F. (1993). Cogntitive Psychology, New Test De-
ory (pp. 305-321). New York: Springer. sign and new test theory: An introduction. En N. Frederiksen , R.J.
Guilford, J.P. (1946). New standards for test evaluation. Educational and Misley e I.I. Bjar (Eds.), Test theory for a new generation of tests (pp.
Psychological Measurement, 6, 427-439. 1-18). Hillsdale, New Jersey: Lawrence Erlbaum Associates.
Hambleton, R.K. (1980). Test score validity and standard-setting methods. Stout, W. (1990). A new item response theory modeling approach with ap-
En R. A. Berk (Ed.), Criterion-referenced measurement: the state of the plications to unidimensional assessment and ability estimation. Psy -
art (pp. 80-123). Baltimore: Johns Hiokins University Press. chometrika, 55, 293-326.
Hambleton, R.K., Clauser, B.E., Mazor, M. y Jones, R. (1993). Advances Zhang, J. y Stout, W. (1999). The theoretical detect index of dimensiona-
in the detection of differentially functioning test items. European jour - lity and its application to approximate simple structure. Psychometrika,
nal of psychological assessment, 9(1), 1-18. 64(2), 213-249.
Hambleton, R.K. y Rovinelli, R.J. (1986). Assessing the dimensionality of Zwick, R. (2000). The assessment of differential item functioning in com-
a set of test items. Applied psychological measurement, 10, 287-302. puter adaptive tests. En W. van der Linden y C.A. W. Glas (Eds.),
Hattie, J. (1984). An empirical study of various indices for determining Computerized Adaptive Testing. Theory and Practice (pp. 221-243).
unidimensionality. Multivariate Behavioral Research, 19, 49-78. Dordrecht, The Netherlands: Kluwer Academic Publishers.

You might also like