You are on page 1of 45

Los test en la medicin psicolgica

Construccin de pruebas objetivas


Informacin de: Universidad de Buenos
Aires:
Dra. Isabel M. Mikulic
Prof. Titular Regular,
Ctedra I : T. y T. de Exploracin y
Diagnstico

El avance en la difcil tarea de comprender la

conducta de las personas de manera


integrada se nutre del esfuerzo que realiza la
psicologa
por
articular
los
diferentes
fundamentos tericos con la diversidad de
mbitos de aplicacin, a travs de la
evaluacin psicolgica.

La Psicologa reconoce en la Psicometra esa

rama que se ocupa de las


relacionadas con la medicin.

cuestiones

Podemos encontrar contenidos tradicionales en la


Psicometra que son punto de acuerdo entre la
mayora de los autores e investigadores de la
Psicologa. Se podran sintetizar en tres ejes:
a) Los procesos operacionales de medicin en Psicologa

asociados a las escalas de medida: el objetivo de la


Psicometra ser hallar la mejor manera de observar, clasificar
y
transformar
categoras
manifiestas
en
escalas
cuantitativas (Stevens, 1951)
b) Confiabilidad o precisin de los instrumentos de medida en

Psicologa.
c) Validez de una prueba: es la propiedad fundamental en

tanto permite decir de una prueba que mide lo que pretende


medir y es un valor social sobresaliente que asume una
funcin tanto cientfica como poltica (Messick, 1995)

La evaluacin psicolgica
Proceso para verificar la medida o grado en

que se logran metas u objetivos propuestos


a travs de la categorizacin, comparacin,
anlisis y contrastacin de datos cuanticualitativos por medio de tcnicas objetivas
y proyectivas.
Su

mxima
expresin
es
el
Psicodiagnstico que utiliza el diseo del
caso nico.

Qu motiva la elaboracin de
pruebas nuevas?
No hay un listado exhaustivo de motivaciones que lleven a la

construccin de nuevos test, sin embargo, si analizamos las


tcnicas existentes encontraremos tres fuentes principales de
trabajo de desarrollo de pruebas.
La primera

seala que muchas de las pruebas de uso ms


generalizado se originaron en respuesta a cierta necesidad prctica.

Algunos test se construyen a partir de un fundamento terico

importante.
Una gran parte del trabajo de elaboracin de test se dedica a

adaptar o revisar los instrumentos ya existentes.

Otras definiciones de lo que es una


evaluacin psicolgica
Evaluacin

psicolgica como la recopilacin e


integracin de datos relacionados con la psicologa con
el propsito de hacer una valoracin psicolgica, lograda
con el uso de herramientas como pruebas, entrevistas,
estudios de caso, observacin conductual y aparatos y
procedimientos de medicin diseados en forma
especial (Cohen y Swerdlik, 2001).

Definiremos prueba psicolgica como el proceso de

medir variables relacionadas con la psicologa por medio


de dispositivos o procedimientos diseados para obtener
una muestra de comportamiento (Cohen y Swerdlik,
2001).

Qu es un test?
Siguiendo a Anastasi & Urbina (1998) entendemos que

un test es un instrumento de evaluacin cuantitativa


de los atributos psicolgicos de un individuo.
La

Asociacin de Psiclogos Americanos (1999),


propone
una
conceptualizacin
abarcativa
y
exhaustiva al definir a un Test como un
procedimiento evaluativo por medio del cual una
muestra
de
comportamiento
de
un
dominio
especificado es obtenida y posteriormente evaluada y
puntuada empleando un proceso estandarizado

Qu es un diagnstico?
Definiremos las situaciones de diagnstico

como aquellas en las que se produce el


conocimiento mediato, no directo, sino a
travs de indicadores que son observables
comportamentales y / o clnicos, de
personas concretas, no de grupos ni de
colectividades (Pelechano Barber, 1988)

Quin, qu y por qu evaluar?


Quines son las partes?
1. El que construye la prueba:
.Quienes se dedican a elaborar pruebas, brindan

una amplia variedad de antecedentes y detalles


respecto del proceso de elaboracin.
.Sin embargo, la APA (American Psychological

Association) estima que ms de 20.000 pruebas


nuevas se elaboran cada ao y abarcan pruebas
elaboradas para un estudio de investigacin
especfico, revisiones de anteriores publicadas ,
etc.

Reconociendo que las pruebas y las decisiones

tomadas como resultado de su administracin


pueden tener un impacto significativo en las vidas
de las personas que responden las pruebas, varias
organizaciones
publicaron
normas
de
comportamiento tico referidas a la elaboracin y
uso responsable de pruebas.
Las ms conocidas son las Normas o Standards for

Educational and Psychological Testing elaboradas


por la Asociacin Estadounidense de Investigacin
Educativa,
la
Asociacin
Psicolgica
Estadounidense y el Consejo Nacional sobre
Medicin en Educacin.

2. El que usa la prueba


Si bien las pruebas son usadas por una variedad de profesionales,

todos debern cumplir los principios ticos correspondientes.


La prueba debe guardarse para que su contenido especfico no

sea dado a conocer con anticipacin.


Descripciones previas a la administracin de la prueba, de los

materiales que contiene la misma, en el caso de pruebas de


inteligencia, no son aconsejables pues podran comprometer los
resultados.
El que administra la prueba debe estar familiarizado con los

materiales y procedimientos de la prueba y tener todos los


materiales necesarios para administrarla en forma apropiada.

Tambin debe asegurarse de que el saln en el que se realice la

prueba sea el adecuado, evitando condiciones distractoras como


ruido excesivo, calor, fro, interrupciones, luz solar deslumbrante,
hacinamiento, ventilacin inadecuada, etc. Es fundamental la
empata entre el evaluador y el evaluado.
En el contexto de situacin de prueba, la empata puede definirse

como una relacin de trabajo entre evaluador-evaluado.


Lograr la empata con el evaluado no debe alterar las condiciones

de administracin de la prueba.
Existen otros factores que pueden influir en el desempeo en

pruebas de inteligencia como por ejemplo que el evaluador sea


familiar o no, que est presente o ausente, y sus modales en
general. Otro factor importante ha sido el gnero.

3. El que responde la prueba:


Las personas evaluadas enfocan una situacin de evaluacin de

diferentes formas y los administradores deben ser sensibles a la


diversidad de respuestas posibles ante una situacin de prueba.
El evaluado en situacin de diagnstico o evaluacin puede
variar en:
a) ansiedad experimentada y grado en que sta podra afectar los
resultados.
b) capacidad y disposicin para cooperar con el evaluador o

comprender las instrucciones escritas.


c) el dolor fsico o la angustia emocional que est sufriendo el

evaluado.
d) malestar e incomodidad derivado de no haber comido suficiente

o por otras condiciones fsicas.

e) grado en que est alerta y despierto y no somnoliento.


f) grado en que estn predispuestos a estar de acuerdo o en

desacuerdo cuando se les presenten los reactivos.


g) grado en que han recibido preparacin previa.
h) importancia que atribuyan a describirse a s mismos en forma

buena o mala.
i) grado de suerte que tiene el evaluado al responder sin conocer

de lo que responde.
Tambin el evaluado tiene derechos en situaciones de evaluacin

como por ejemplo a dar su consentimiento para ser evaluado, a que


los resultados sean confidenciales y a ser informado de los
resultados.

En qu tipo de contextos se
realizan evaluaciones?
1. Contexto clnico
2. Contexto educativo
3. Contexto jurdico
4. Contexto organizacional
5. Otros contextos

Evaluacin de la Calidad de las pruebas: Confiabilidad y Validez

Confiabilidad
Una buena prueba es confiable, es decir es consistente y es

precisa.
Las pruebas psicolgicas son confiables en grados diversos. En

el dominio de las mediciones comportamentales, la variabilidad


es mucho mayor dada las caractersticas del objeto epistmico
y de los instrumentos de medicin utilizados.
Las diferencias en el desempeo de un sujeto en sucesivas

ocasiones pueden estar causadas por diversas razones: distinta


motivacin en las diversas situaciones en que fue evaluado,
distintos niveles de cansancio o de ansiedad, estar ms o
menos familiarizado con el contenido del test, etc.

Por todo ello, los puntajes de una persona no sern

perfectamente consistentes de una ocasin a la


siguiente y decimos que la medicin contiene cierta
cantidad de error.
Es decir que el puntaje que obtiene una persona en una

prueba incluye el puntaje real de la persona y un


margen de error que puede aumentar o disminuir dicha
puntuacin verdadera.
Este error de medicin, aleatorio e impredecible, se

distingue de los errores sistemticos que tambin


afectan el desempeo de los evaluados por un test,
pero de una manera ms consistente que aleatoria.

Factores que determinan la falta de confiabilidad

a) Al construir o adaptar un test: se

debe prestar atencin a la seleccin de los


tems y a la formulacin de las consignas,
pero principalmente se debe cuidar el
muestreo del contenido para evitar que sea
tendencioso o insuficiente.
Otra fuente importante de error son los

efectos de la adivinacin, es decir, los test


son ms confiables a medida que aumenta
el nmero de respuestas alternativas
(Cortada de Kohan, 1999).

b) Al administrar un test: se debe evaluar a todos los

sujetos en las mismas condiciones, tratando de controlar


posibles interferencias ambientales como el ruido, la
iluminacin o el confort del lugar.
Las

consignas deberan ser estandarizadas desde la


construccin del test hasta en su administracin,
especialmente en lo referido al control de los tiempos
para la realizacin del mismo.

Otro punto a considerar son las influencias fortuitas que

pueden afectar la motivacin o la atencin del evaluado


como por ejemplo preocupaciones personales, afecciones
fsicas transitorias, etc.

d) Al evaluar un test: se deben sostener

los criterios de evaluacin, no es posible


cambiar los criterios de correccin por
ejemplo luego de haber calificado a una
serie de evaluados, en funcin de un
criterio subjetivo del evaluador.

Validez
Se refiere a lo que mide una prueba y no puede expresarse en

general sino que debe consignarse el uso particular para el


que se planea utilizar el instrumento.
Histricamente, uno de los primeros usos de las pruebas fue

la evaluacin de lo que los individuos haban aprendido en


determinadas reas de contenido y por ello se comparaba el
contenido de esas categoras de pruebas con el del rea que
pretendan probar.
Luego, el nfasis recay en la prediccin y actualmente

existen dos tendencias una hacia el fortalecimiento de la


orientacin terica y la otra hacia una estrecha vinculacin
entre la teora y la verificacin psicolgicas mediante la
comprobacin emprica y experimental de las hiptesis.

1. Diseo y Elaboracin de los Test


1.1.Teoras de los Test
Existen diversos paradigmas o modelos que permiten explicar

el significado de las puntuaciones obtenidas con los Test.


El anlisis o modelado de las matrices de datos obtenidas da

como resultado:
la estimacin del nivel en que poseen los sujetos la(s)
caracterstica(s) que mide el test (valores escalares de los
sujetos)
la estimacin de los parmetros de los tems (valores
escalares de los tems).
El problema central de la teora de los test es la relacin que

existe entre:
el nivel del sujeto en la variable inobservable que se desea
estudiar y
su puntuacin observada en el test.

Es decir que el objetivo de cualquier teora de test es realizar

inferencias sobre el nivel en que los sujetos poseen la


caracterstica o rasgo inobservable que mide el test, a partir de las
respuestas que stos han dado a los elementos que forman el
mismo.
As para medir o estimar las caractersticas latentes de los sujetos

es necesario relacionar stas con la actuacin observable en una


prueba y esta relacin debe de ser adecuadamente descrita por
una funcin matemtica.
Las distintas teoras de test difieren justamente en la funcin que

utilizan para relacionar la actuacin observable en el test con el


nivel del sujeto en la variable inobservable.
Y sirven para dar cuenta del error de medida inherente a toda

medicin psicolgica o estimacin del error; y proporcionar una


estimacin del rasgo o caracterstica evaluada (estimacin del
rasgo)

a)Teora Clsica de los Test


La Teora Clsica de los Tests (TCT) es, en

sntesis, el conjunto de principios tericos y


mtodos cuantitativos derivados de ellos,
que
fundamentan
la
construccin,
aplicacin, validacin e interpretacin de
distintos tipos de tests y que permiten
derivar escalas estandarizadas aplicables a
una poblacin (Hambleton, 1994).

En otros trminos, la teora clsica de los

tests no puede predecir cmo responder


un individuo a los tems a menos que esos
tems
hayan
sido
previamente
administrados a personas similares (Lord,
1980) Durante el trabajo prctico de
elaboracin de tests, normalmente el grupo
a partir del cual se obtienen los ndices y el
grupo al cual el test va dirigido, difieren
considerablemente.

b) Teora de la Generalizabilidad
Cronbach y Glaser (1972) postularon la Teora de la

Generalizabilidad (TG) que es una extensin del


modelo clsico en el que diversas mediciones del
mismo individuo pueden variar tanto por efecto de una
variacin en lo que se mide como por el error de
medicin (Nunnally y Bernstein, 1995).
En esta teora las decisiones sobre la bondad de un

instrumento se basan en estudiar las fuentes y tipos


de error, utilizando el anlisis de varianza.
Cuando se mide una variable se trata de generalizar

los resultados a un dominio o universo confiable de


observaciones.

El puntaje del universo es semejante al

puntaje verdadero en el modelo clsico. La


diferencia es que en la TCT se considera
que la varianza de error es de una sola
clase y, en cambio, la TG reconoce que
existen otros universos de generalizacin y
por lo tanto muchos puntajes de universo
posibles.
Poblacin es el conjunto de personas de las

que se extrae una muestra; y Universo es


el conjunto de todos los tems posibles de
un constructo; y Universo de Condiciones

c)Teora de Respuesta al tem


Un desplazamiento progresivo del esquema proporcionado

por la Teora Clsica de los Tests, hacia el contexto y los


procedimientos delineados por la Teora de Respuestas al
tem (TRI) [Del ingls: tem Response Theory - IRT].
Esta teora, fue desarrollada para resolver varios de los

problemas que presentaba la TCT (Hambleton &


Swaminathan, 1985) y que no haban sido resueltos de
una manera satisfactoria.
Algunos de esos problemas son: (1) El uso de ndices de
los reactivos cuyos valores dependen de la poblacin
particular de la cul fueron obtenidos, y
(2) La estimacin de la habilidad del examinado depende
del conjunto especfico de reactivos incluidos en la prueba.

Las caractersticas del examinado en las

cuales la teora TRI est interesada, son la


"habilidad" que mide el test.
Por

lo tanto, es muy difcil comparar


examinados a quienes se aplican diferentes
tests; o an, comparar tems cuyas
caractersticas se obtuvieron utilizando
diferentes grupos de examinados. Esto
significa que los coeficientes de los
reactivos son dependientes del grupo al
mismo tiempo que son dependientes del
test. Esta clase de dependencia es la que

Las principales caractersticas de la TRI como


una alternativa a la teora clsica de los test
son:
1. Las caractersticas de los reactivos no dependen

del grupo del cul fueron obtenidos;


2. Los puntajes que describen la habilidad del
examinado no dependen del test en su conjunto;
3. El modelo se expresa a nivel del reactivo ms
que a nivel del test;
4. El modelo no requiere de pruebas paralelas para
determinar el ndice de confiabilidad; y
5. Provee una medida de la precisin de cada
ndice de habilidad.

Los postulados bsicos de la TRI son:


1) El resultado de un evaluado en un tem puede ser
explicado por un conjunto de factores llamados rasgos
latentes o aptitudes
2) La relacin entre la respuesta de un sujeto a un tem y el

rasgo latente que subyace puede describirse como una


funcin monotnica creciente que se llama funcin
caracterstica del tem o curva caracterstica del tem (CCI)
Esta funcin especfica que a medida que la aptitud aumenta
la probabilidad de una respuesta correcta al tem tambin
aumenta.
3) Las estimaciones de la aptitud obtenidas con distintos

tems seran iguales y las estimaciones de los parmetros de


los tems obtenidos en distintas muestras de examinados
sern iguales. Es decir que en la TRI los parmetros de
aptitud y de los tem son invariantes.

Son supuestos de la TRI:


1. La unidimensionalidad del rasgo latente: que
las
respuestas
del
examinado
estn
determinadas por una nica variable denominada
Rasgo. Ej.: Un tem de un test espacial medir
solo habilidad espacial y no ninguna otra cosa
(Ferreres Traver, 2005)
2. La independencia local: Las respuestas de un

evaluado a cualquier par de tem son


independientes y la probabilidad de responder
correctamente a un tem es independiente de la
probabilidad
de
responder
correctamente
cualquier otro tem (Ferreres Traver, 2005).

Para construir una prueba de acuerdo a los principios de la


TRI, es necesario construir un banco de reactivos con
parmetros estimados para cada tem, de acuerdo al modelo
seleccionado. El procedimiento recomendado por Lord
(1977) consiste en los siguientes cuatro pasos:
1. Decidir acerca de la forma deseada de la funcin de informacin
de la prueba o curva de informacin deseada (target information
curve).
2. Seleccionar los reactivos del banco cuya curva de informacin

deseada cae bajo el rea de la curva de informacin de la prueba,


de tal manera que saturen el rea bajo la curva de la funcin
deseada de la prueba.
3. Conforme se adicionan reactivos a la prueba, se recalcula la

curva de informacin de la prueba con los reactivos seleccionados


hasta ese momento.
4. Continuar la seleccin de los reactivos hasta que la funcin de

informacin de la prueba se aproxime a la funcin de informacin


deseada con un grado satisfactorio." (p. 23)

1.2. Definicin del Dominio del Test


Siguiendo a Tornimbeni et al. (2004) la construccin de una

escala de medicin de algn aspecto del comportamiento


humano requiere previamente un exhaustivo anlisis
conceptual del dominio o rasgo a medir.
Por dominio debe entenderse el conjunto de conductas

que debera exhibir el alumno en relacin con un objetivo


dado, si ste ha sido alcanzado.
El dominio puede ser de conductas, objetivos, destrezas

y competencias y la amplitud del dominio vara en funcin


de la finalidad del test. Si el dominio comprende ms de un
objetivo pueden construirse subtests para cada objetivo, y
se evala el rendimiento de los sujetos en cada uno de
ellos.

Para la especificacin del dominio de conductas o clase de


tareas que el individuo debe realizar, seguiremos el esquema
propuesto por Tornimbeni et al (2004) que proponen:
i. Definicin del objetivo: Se establece cul o cules sern los objetivos

que se evaluarn a travs de la prueba, por ejemplo, la habilidad de


comprensin, que incluye aquellas conductas o respuestas que se
refieren nicamente a una comprensin de los mensajes literales
contenidos en la comunicacin.
ii. Descripcin del objetivo: Se define en trminos de conductas
observables el o los objetivos a ser evaluados. En el ejemplo anterior
se especificara un objetivo de la habilidad de comprensin tal como
ser capaz de analizar el propsito del autor y su punto de vista
examinando una comunicacin escrita.
iii. Especificacin de las caractersticas de la situacin de evaluacin:
se especifican todos aquellos aspectos a tener en cuenta en la
situacin de evaluacin, por ejemplo, en un texto de divulgacin
cientfica, seleccionar el prrafo e identificar la oracin donde se
expresa la intencin del autor.
iv. Caractersticas de la respuesta: Se especifica cul es la respuesta
que se espera del sujeto, en este caso, que seleccione de manera
correcta el prrafo y la oracin correspondiente.

1.3. Seleccin y elaboracin de las Escalas


La medicin es la asignacin numrica de acuerdo con reglas

y las escalas son las reglas de medicin. La elaboracin de


escalas puede definirse como el proceso de establecimiento
de reglas para la asignacin numrica en la medicin.
Las escalas son instrumentos usados para medir algo, ese

algo en psicometra es un rasgo o atributo psicolgico.


La escala Likert se usa en forma extensa dentro de la

psicologa, por lo general en escala de actitudes.


Las escalas Likert son relativamente fciles de elaborar, cada

reactivo presenta cinco respuestas alternativas, por lo


general, en un tipo de continuo entre acuerdo y desacuerdo o
aprobacin y desaprobacin.

El

mtodo de elaboracin de escalas


particular empleado en la elaboracin de
un test depender de las variables que se
van a medir, el grupo para el que se
pretende la prueba (por ejemplo los nios
pueden requerir un mtodo de elaboracin
de escalas menos complicado que los
adultos) y las preferencias del elaborador
de la prueba.

1.4. Redaccin de tems

Segn lo afirman Tornimbeni et al. (2004) existen pautas

convencionales para la redaccin de tems de prueba. Estas


incluyen recomendaciones tales como: redactar tems
congruentes con el objetivo de medicin y evitar los tems
demasiado largos (de ms de 20 vocablos), las oraciones
complejas con ambigedades de sentido, las frases con
dobles negaciones, el uso de expresiones extremas (nunca,
siempre, todos) y utilizar el lenguaje ms apropiado al nivel
de maduracin y educativo de la poblacin (Osterlind,
1990).
Existen

formatos de seleccin de respuesta y de


construccin de respuesta, los primeros facilitan la
calificacin automatizada y pueden aplicarse con facilidad a
gran cantidad de evaluados. El formato de seleccin de
respuesta en presentar una eleccin de respuestas y
requerir la seleccin de una alternativa.

1.5. Revisin del Test por Expertos

Tal

como lo explican Tornimbeni et al.


(2004), la mayora de los autores
recomiendan que los items preliminares de
un test sean revisados por expertos en
construccin de pruebas, en el dominio o
rasgo a medir y en el nivel de comprensin
de la poblacin a la cual se apunta con la
prueba.

Las tres caractersticas que los expertos


deben evaluar en cada tem son:
a) claridad semntica y correccin gramatical
b)adecuacin
de su dificultad al nivel
educativo y evolutivo de las personas
c) congruencia con el rasgo o dominio medido
Este ltimo tem es el principal parmetro y se
refiere al grado de consistencia que debe
existir entre un tem particular y las metas
esenciales de la prueba dado que esto ser un
factor posterior de confiabilidad y validez
(Oesterlind, 1990).

A los jueces se les pide que evalen la calidad y

consistencia de los items y se descartan


aquellos con puntuaciones medias ms bajas y
con escaso grado de acuerdo, respectivamente.
Se recomienda que los tem seleccionados sean

aquellos en que, al menos, un 60% de los


jueces coinciden (Herrera Rojas, 1993).
Es til tambin incluir preguntas que demanden

informacin cualitativa sobre los tems lo que


puede facilitar un mejoramiento en el fracaso
de algunos de ellos.

1.6. Anlisis y Seleccin de tems

Siguiendo a Tornimbeni et al. (2004) podemos afirmar

que existen varios procedimientos de anlisis de los


tems de una prueba preliminar. Todos ellos se ocupan
esencialmente de: a) la distribucin de los puntajes de
cada tem y b) la relacin estadstica entre el tem y la
prueba total.
Segn Klline (2000) el anlisis factorial es un mtodo

estadstico en el cual las variaciones en los puntajes


de un nmero de variables son explicadas por un
nmero ms reducido de dimensiones o constructor
(factores). El anlisis factorial es una tcnica analtica
que permite reducir un nmero extenso de variables
interrelacionadas a una cantidad pequea de
dimensiones latentes. (Glutting et al. 2002)

2. ADAPTACIN DE LOS TESTS


2.1. Mtodos de Adaptacin de los Test

Actualmente se reconoce que la adaptacin

de un Test es un proceso mucho ms


complejo que la mera traduccin de ese
test en un idioma diferente. Una
adaptacin implica considerar no slo las
palabras utilizadas al traducir la prueba
sino tambin las variables culturales
involucradas.

Van de Vijver y Leung (1997) establecieron tres


niveles de adaptacin de las pruebas psicolgicas.
El primero corresponde al de la aplicacin, este es, la simple

y llana traduccin de un test de un idioma a otro.


La segunda alternativa es la adaptacin. En este caso a la

traduccin se agrega la transformacin, adicin


substraccin de algunos tems de la escala original.

Finalmente, la opcin ensamble puede emerger al momento

de adaptar un instrumento de evaluacin psicolgica. En


este caso el instrumento original ha sido modificado tan
profundamente que prcticamente se ha transformado en
un nuevo instrumento original con los nuevos elementos.
Esto ocurre cuando muchos de los tems del test original son
evidentemente inadecuados para representar el constructo
a medir.

You might also like