Fundamentos de Psicometria

A grandes rasgos puede decirse que el objetivo de la Psicologa cientfica es el estudio de la conducta humana y las leyes que la rigen.
Como ocurre con cualquier otra realidad, para una comprensin adecuada de la conducta humana hay que entender tanto sus aspectos cualitativos como cuantitativos. En este curso buscaremos exponer los aspectos
fundamentales implicados en la cuantificacin y medicin de las distintas variables y factores que manejan los psiclogos, tanto en sus investigaciones como en la prctica profesional, a partir de las lneas centrales de la medicin de los rasgos psicolgicos y de los instrumentos ms utilizados para ello, los test.
Medir es inherente a todas las ciencias, y la Psicologa no es una excepcin. Si bien los principios generales de la teora de la medicin son aplicables aqu como en el resto de los campos cientficos, no es menos verdad que las peculiaridades de los objetos de estudio de algunos de estos campos imponen determinadas especificidades a la lgica general, y se es el caso de lo psicolgico. El fin general de toda teora de la medicin, trtese de la ciencia que se trate, es estimar los errores aleatorios de las mediciones, pues toda medicin, mayor o menor, conlleva un cierto error. Pero seguramente estaremos de acuerdo en que, por ejemplo, no es lo mismo medir la distancia entre el Oaxaca y Puebla, cosa de la que se ocupan los fsicos, que medir la distancia entre los oaxaqueos y los poblanos, entre sus actitudes, valores, personalidad, etc., labor que ocupa a psiclogos, socilogos, antroplogos y otras ciencias sociales. Por tanto, para entender cabalmente los problemas a los que se enfrentan los psiclogos al medir sus variables de estudio es necesario tener en mente las singularidades de su campo de estudio, de lo psicolgico y por qu la metodologa general de la medicin psicolgica se aleja de la utilizada por las ciencias llamadas duras.
Caracterizacin de lo psicolgico
Cules son las caractersticas esenciales que definen a lo psicolgico como campo de estudio? La conducta humana fermenta y se desarrolla en una estrecha banda acotada
por una base neurobiolgica y un entorno sociocultural. El yo psicolgico, la individualidad, la consciencia, y por ende la conducta, surgen de la interaccin entre la estimulacin ambiental y nuestra constitucin biolgica, pero no se explican ni se agotan en ninguno de estos dos polos, son otra cosa. Precisamente es se el campo interactivo en el que se mueven los psiclogos, por eso no son ni bilogos, ni neurlogos, ni socilogos, ni filsofos, son psiclogos. Cuando desde la psicologa se explica un determinado fenmeno, ya sea una neurosis, una fobia, el fracaso escolar o la inadaptacin laboral, se tienen en cuenta tanto los aspectos neurolgicos como los culturales, sociales y educativos, pero su explicacin no se agota ni se reduce a ninguno de esos mbitos.
Naturalmente, cuanto ms avancen las ciencias afines en las que se apoya la psicologa tanto mejor, pero eso no significa abogar por un reduccionismo biolgico o cultural. Los avances en el conocimiento del cerebro ayudan sin duda a entender la psique y la conducta humanas, pero es ingenuo y errneo pensar que, cul glndula en el cerebro segrega la psique, sencillamente no es as. Algo parecido, salvando las distancias, a lo que ocurre con el software computacional, que est ntimamente relacionado con el hardware, pero ni se explica ni se reduce a l, puesto que no podemos tender todo lo que hacen las computadoras slo estudiando su hardware, lo cual tampoco significa que pueda prescindir de l. Igual de errneo es pensar que la conducta humana venga completamente determinada por el entorno cultural y social; afortunadamente pasaron los tiempos en los que aprendices de ingenieros sociales confiaron en hallar un hombre nuevo con slo modificar las circunstancias, qu ingenuidad, hoy sabemos de los nefastos resultados y del alto precio pagado. El ambiente externo est ah, y es una variable clave en la modulacin de la conducta humana, pero nunca es el responsable final de sta, nunca la determina completamente, el nico responsable es la persona. Si admitisemos lo contrario, estaramos negando de plano la libertad, y, eliminada sta, no queda lugar para la dignidad y la responsabilidad, que brotan directamente de ella.
Pues bien, en este mbito peculiar e interactivo, descrito a grandes rasgos, que caracteriza lo psicolgico, no resulta sencillo medir con rigor en sentido clsico, acorde con los axiomas de Hlder (1901) y las propuestas ortodoxas de Campbell (1920, 1921, 1928, 1938, 1940). Sin embargo, los psiclogos miden sus variables y desarrollan sofisticados instrumentos a tal efecto, los ms conocidos de los cuales para el pblico son los test, si bien los especialistas utilizan una gama mucho ms amplia en sus investigaciones e intervenciones. Y miden en campos muy diversos, segn su rea de especializacin, que van desde los procesos ms bsicos, tales como los Tiempos de Reaccin, Potenciales Evocados, Tiempo de Inspeccin, Conductancia de la piel, etc., a los rasgos de personalidad, como Neuroticismo, Depresin, Psicoticismo, Autoconcepto, por citar algunos, o aspectos cognoscitivos, como la Inteligencia, Memoria, Rapidez Perceptiva, Comprensin Verbal, etc., o variables ms conectadas con la esfera sociocultural como las actitudes y valores. Y todo ello aplicado a campos de intervencin tan variados como la Clnica, Trabajo, Educacin, Deporte, Calidad de Vida, Gerontologa, Seguridad Vial, etc.
Cada una de esas variables y campos de aplicacin tiene su problemtica especfica, que no resulta til intentar tratar aqu, sin embargo, existen unos problemas generales en la medicin de lo psicolgico que son invariantes a todos los campos y variables mencionadas. En todos los casos, por un lado, hay que estimar la cuanta de los errores cometidos al medir, y, por otro, hay que garantizar que la medicin no es ftil, que tiene entidad explicativa y predictiva. En otras palabras, hay que comprobar que las mediciones son fiables y vlidas. Adems de estas propiedades que deben de reunir todas las mediciones empricas, los tericos de la medicin se ocupan de analizar y justificar de forma rigurosa el estatus mtrico de las mediciones, contemplado a la luz de los avances de la teora de la medicin. De esos tres grandes aspectos generales de la medicin, fiabilidad, validez y fundamentos tericos, es de lo que nos ocuparemos aqu, pero antes de entrar en ellos djenme que diga unas palabras sobre cmo empez todo, sobre los orgenes de la medicin psicolgica.
Inicios de la medicin
Los primeros intentos de medir con rigor los atributos psquicos tuvieron lugar a finales del siglo pasado en los laboratorios alemanes, de la mano de Fechner, pionero de las investigaciones sobre las relaciones entre la estimulacin fsica y las sensaciones psicolgicas producidas por sta. Para estudiar la conexin entre ambos continuos, el fsico y el psicolgico, Fechner tena que medir cada uno de ellos y luego establecer la relacin correspondiente. Si bien medir los estmulos fsicos, tales como el peso, el sonido, la longitud, etc., no supona ningn problema, se encontr con que no dispona de mtodos para medir rigurosamente las sensaciones, para lo cual desarroll todo un conjunto de ellos, hoy clsicos, denominados mtodos psicofsicos indirectos. As, y basndose en los trabajos previos de Weber, Fechner estableci que la funcin que una la estimulacin fsica con las sensaciones psicolgicas suscitadas obedece a una funcin logartmica. Ello quiere decir que al aumentar la estimulacin fsica geomtricamente las sensaciones lo hacen aritmticamente. O, en otras palabras, que si bien al principio al aumentar la estimulacin fsica aumenta rpidamente las sensaciones, stas van necesitando cada vez mayor incremento de la estimulacin fsica para experimentar algn aumento. La misma ley haba sido observada con anterioridad en el campo de la economa entre el crecimiento de la fortuna y el placer experimentado por el afortunado.
Este campo de estudio iniciado por Weber y Fechner se denomina Psicofsica, pues, como su nombre indica, trata de poner en conexin las sensaciones psicolgicas con la estimulacin fsica que las suscita. La ley de Fechner ha sido revisada por la Nueva Psicofsica (Stevens, 1961, 1975), que defiende que la funcin que une ambos continuos, el fsico y el psicolgico, no es logartmica sino potencial. Para someter a prueba su hiptesis han propuesto todo un conjunto de nuevos mtodos psicofsicos alternativos a los de Fechner, denominados directos.
Leyes Psicofsicas
Funcin Logartmica (Fechner): S = C log E Funcin Potencial (Stevens): S = K Eb donde: S: es la medida de la sensacin producida E: es la medida de la estimulacin fsica C, K y b son constantes a determinar
La tradicin psicofsica llega hasta nuestros das, constituyendo un campo con grandes implicaciones aplicadas, pinsese, por ejemplo, en la importancia de conocer con precisin los efectos del ruido, la luminosidad, sabores, olores, etc., sobre nuestro sistema perceptivo. En la actualidad gran parte de las investigaciones psicofsicas se llevan a cabo dentro del marco general de la Teora de la Decisin y de la Teora de la Deteccin de Seales (Egan, 1975; Green y Swets, 1966), un modelo desarrollado originariamente por los ingenieros para la deteccin de seales con ruido de fondo, y que se ajusta bien a los humanos considerados como perceptores de seales.
El sistema perceptivo humano es muy peculiar, y la Teora de la Deteccin de Seales permite estudiar su funcionamiento bajo diferentes condiciones. El nuestro no es un sistema perceptivo neutral, pues aunque con determinados invariantes, viene influido en gran medida por las consecuencias de lo percibido, por la matriz de pagos asociada a la situacin perceptiva, es decir, el mismo sistema perceptivo acta de distinta forma en funcin de la situacin perceptiva. Esta versatilidad permite investigar y mejorar situaciones aplicadas de todo tipo en las que los humanos tienen que tomar decisiones, siendo clave, por ejemplo, para una racionalizacin y optimizacin de las condiciones de trabajo. Pinsese, sin ir ms lejos, en situaciones tales como, bajo qu condiciones se maximiza la percepcin de piezas defectuosas por un trabajador de control de calidad?, o cules son las causas de la accidentabilidad de los trabajadores en puestos aislados? Esas
preguntas y otras slo tienen respuesta correcta cuando se conoce el funcionamiento del sistema perceptivo humano bajo determinadas condiciones.
Nuestras percepciones vienen con frecuencia condicionadas por sesgos cuyo estudio es sumamente importante, tanto a nivel terico como aplicado, para entender el comportamiento humano. Para ilustrar lo anterior, citaremos un ejemplo clsico de uno de estos sesgos, imaginemos una ciudad en la que hay dos hospitales, uno grande, en el que nacen al mes unos doscientos bebs, cien nios y cien nias aproximadamente, y otro pequeo, en el que slo nacen veinte al mes, diez nios y diez nias, ms o menos. Si suponemos que el ltimo mes en uno de los dos hospitales todos los nacidos fueron nias, de qu hospital se trata? del grande o del pequeo? No hace falta que contestemos, pero una parte importante de nosotros por una curiosa razn, bien estudiada por los psiclogos, pens que se trataba del hospital grande, cuando en realidad es obvio que se trata del pequeo. Si en un caso tan claro como ste ya hay problemas, qu no ocurrir en nuestra vida diaria? Por ejemplo, por qu los vendedores de lotera agotan rpidamente los nmeros bonitos y les cuesta tanto vender los feos, si es obvio que la probabilidad de que salgan es exactamente la misma para todos? Seguramente pensaremos es que la gente no es lgica, y naturalmente tendremos razn, la gente no es lgica, y es que la conducta humana responde a las leyes de la psicologa y no de la lgica, por eso se ocupan de ella los psiclogos y no los expertos en lgica.
Otro campo de la medicin psicolgica en la que desembocan estos estudios psicofsicos es la medicin de las actitudes, en cuyo caso desaparece el continuo fsico (Thurstone, 1927, 1928; Summers, 1970; Triandis, 1971). Medir actitudes es averiguar las preferencias de las personas hacia determinados estmulos, bien sean objetos, ideas o conceptos. Las actitudes constituyen un entramado clave para entender a los humanos, son el cristal a travs del que miramos el mundo. Medir su fuerza, conocer su formacin, su relacin con la conducta y la manera de cambiarlas constituyen campos de sumo inters. Pocos
productos salen hoy al mercado sin un estudio concienzudo de las actitudes de los consumidores hacia ellos, y es que la relacin calidad/precio no lo es todo.
Seguramente todos tenemos alguna experiencia de primera mano de lo difcil que resulta que las personas cambien sus actitudes, y es que estn formadas por una trama en la que informacin, razn y emocin se entretejen de forma compleja. La razn y la informacin son importantes para que se produzca un cambio de actitudes, pero raramente son suficientes sin apelar a los aspectos emocionales. Por ejemplo, dada la informacin de la que disponemos hoy acerca de los efectos cancergenos del tabaco sobre los que fuman y los que les rodean, nadie medianamente informado debera osar tocar un cigarrillo, sin embargo la realidad es muy otra. Los psiclogos que disean las campaas antitabaco saben esto y en sus anuncios tratan ms bien de tocar la fibra sensible que de introducir nueva informacin en el sistema. De nuevo aqu observamos que la conducta se aleja de la lgica lineal, y es que como nos record certeramente Kant, nada estrictamente recto puede hacerse del torcido leo del que estn hechos los humanos.
Esta es a grandes rasgos una de las vas por las que ha entrado la medicin en psicologa, y cuyo objetivo es el escalamiento de los estmulos, bien sea con referente fsico (Psicofsica), o sin l (Actitudes). La otra gran lnea de progreso de la medicin, mucho ms conocida para el pblico en general es el escalamiento de los sujetos, es decir, los test. El origen de stos hay que ubicarlo en las primeras pruebas sensomotoras utilizadas por Galton (1822-1911) en su famoso laboratorio antropomtrico de Kensington. El primero en utilizar la palabra test mental ser James McKeen Cattell (1860-1944) en su artculo Mental Tests and Measurements publicado en la revista Minden (1890). Un giro radical lo constituye la escala individual construida por Binet y Simon (1905) para la medicin de la inteligencia, al introducir tareas de carcter ms cognoscitivo dirigidas a evaluar aspectos como el juicio, la comprensin y el razonamiento, que segn los autores constituan los componentes fundamentales del comportamiento inteligente. Pero la verdadera eclosin de los test se producir tras la primera guerra mundial. Cuando
Estados Unidos decide entrar en la guerra no dispone de ejrcito, y la seleccin y clasificacin de los soldados se lleva a cabo confiando en los test Alfa y Beta, diseados a tal efecto por un comit dirigido por el psiclogo Yerkes. Puesto que los aliados ganaron la guerra, no sabemos qu hubiera pasado con los test si la hubieran perdido, no pareca que los test hubiesen hecho un mal trabajo, de modo que la industria y las instituciones se volcaron en su uso para todo tipo de fines, especialmente en la seleccin de personal y en la orientacin profesional y educativa. Su uso masivo se extiende hasta nuestros das, siendo difcil encontrar a alguien en las sociedades desarrolladas que primero o despus no se tenga que enfrentar a ellos.
En resumen, puede decirse que las dos grandes avenidas de entrada de la medicin en Psicologa fueron a travs del escalamiento de estmulos (Psicofsica y Actitudes) y escalamiento de sujetos (Tests). Como casi toda particin, sta tiene tambin algo de arbitrario, pues la mayora de los modelos podran generalizarse tanto a estmulos como a sujetos, si bien no faltan problemas especficos que justifiquen la divisin (Muiz y Hambleton, 1992). Ambos acercamientos tendrn sus sntesis ms clsicas en los textos de Gulliksen (1950) y Torgerson (1958) respectivamente.
Ahora bien, se mida de un modo u otro, qu condiciones deben de reunir esas mediciones para que su uso sea el adecuado? Como ya se ha sealado, bsicamente tres propiedades: que sean fiables, sean vlidas, y que estn bien fundamentadas tericamente. Veamos cada una de ellas.
Fiabilidad
Bajo la denominacin genrica de fiabilidad se agrupan todo un conjunto de mtodos y tcnicas utilizadas por los psiclogos para estimar el grado de precisin con el que estn midiendo sus variables. Hace ms de cuarenta aos, Robert L. Thorndike empezaba su famoso trabajo sobre fiabilidad con estas palabras: Cuando medimos algo, bien sea en el
campo de la fsica, de la biologa o de las ciencias sociales, esa medicin contiene una cierta cantidad de error aleatorio. La cantidad de error puede ser grande o pequea, pero est siempre presente en cierto grado (Thorndike, 1951 ) Sus palabras siguen siendo tan ciertas hoy como entonces, pues en lo esencial los problemas de la medicin cambian poco, aunque los instrumentos de medida vayan y vengan.
Ahora bien, cmo estiman los psiclogos el grado de error que hay en sus mediciones? Veamos la lgica general. Cuando un psiclogo aplica un test, una escala o cualquier otro instrumento de medida a una persona, obtiene una cierta puntuacin, que por razones obvias se denomina puntuacin emprica. Cmo estar seguros de que esa puntuacin obtenida es la que verdaderamente le corresponde a esa persona en esa prueba? En otras palabras, cunto error afecta a esa puntuacin emprica? Responder estas preguntas es el objetivo de la fiabilidad. Visto as de frente, parecera que tales interrogantes son incontestables, pues, al fin y al cabo, el error cometido, sea el que sea, est diluido en la puntuacin emprica y no hay manera de separarlo. Efectivamente, no la hay directamente, como ocurre tambin con los compuestos qumicos.
Por ejemplo, sabemos que el agua del mar contiene cierta cantidad de sal, pero para estimar con precisin la cantidad de sal habr que buscar alguna tcnica indirecta que permita la separacin. Esas tcnicas en el caso de los test las proporcionarn los estudios de fiabilidad. Ntese que este problema de estimar los errores de medida es comn a todas las ciencias, pudiendo decirse que la lgica seguida tambin lo es, si bien la naturaleza de las variables medidas en las distintas ciencias impone ciertas peculiaridades. Por ejemplo, cuando pesamos un objeto y obtenemos un cierto valor, o aplicamos un test a un sujeto y saca una determinada puntuacin emprica, o medimos la distancia entre dos ciudades, en los tres casos se nos plantea la duda de cunto error estamos cometiendo. Pues bien, para el caso de las variables psicolgicas, la propuesta pionera y ms fructfera para la estimacin de los errores fue hecha ya a principios de siglo por Spearman (1904, 1907, 1913) y la denominamos hoy Modelo Lineal Clsico, dando origen
a todo un enfoque general sobre los test que suele conocerse como Teora Clsica de los Test. A partir sobre todo de los aos 60-70 aparecen nuevos modelos para abordar la estimacin de los errores de medida, agrupndose los ms utilizados bajo la denominacin genrica de Teora de Respuesta a los Items.
Modelo Clsico
La propuesta de Spearman para estimar los errores cometidos al medir es un claro ejemplo de cmo a partir de un sencillo modelo y de unas asunciones bsicas es posible deducir las frmulas ms complejas para la estimacin de los errores de medida. En primer lugar, Spearman considera que la puntuacin emprica de un sujeto en una prueba, puntuacin que llamaremos X, consta de dos componentes, la puntuacin que verdaderamente le corresponde en esa prueba, que llamaremos V, y un cierto error e. Es decir, formalmente el modelo se podra expresar as:
X=V+e
Donde X es la puntuacin emprica obtenida, V la puntuacin verdadera y e el error de medida.
Para poder derivar las frmulas necesarias para el clculo de la fiabilidad, Spearman aade al modelo tres supuestos y una definicin. Asume que 1) la verdadera puntuacin de una persona en una prueba sera la que obtendra como promedio si se le aplicase infinitas veces la prueba [V= E(X)], 2) no hay relacin entre la verdadera puntuacin de las personas y los errores de medida (ve = 0), y 3) los errores de medida de los test no estn relacionados * (ej, ek)= 0]. Adems, define el concepto de test paralelos como aqullos que miden lo mismo aunque utilizando distintos tems. Todo lo cual puede expresarse del siguiente modo:
Modelo Lineal Clsico
Modelo: X= V+e Supuestos: V= E(X) ve= 0 (ej,ek)= 0 Definicin: Dos test j, k se consideran paralelos si: Vj = Vk y 2ej = 2ek
A partir del modelo, mediante los desarrollos correspondientes, que aqu se omiten, va a ser posible llegar a frmulas operativas para la estimacin de los errores (e), y por ende de las puntuaciones verdaderas (V) de los sujetos. Todas estas deducciones necesarias son lo que conforma el corpus psicomtrico de la teora clsica de los test, cuya formulacin se recoge en textos clsicos como los de Gulliksen (1950) o Lord y Novick (1968).
Mediante los desarrollos correspondientes se obtiene la frmula del Coeficiente de Fiabilidad (xx) que permite estimar la cuanta de los errores cometidos al medir. Su frmula expresa la cantidad de varianza de verdadera medida (2 v ) que hay en la emprica (2 x ), o en trminos de la Teora de la Informacin, la proporcin seal-ruido del proceso de medicin: xx = 2v /2x
Lo ideal es que toda la varianza emprica se deba a la verdadera, lo cual ocurrira cuando 2v = 2x, en cuyo caso la fiabilidad es perfecta, la prueba mide sin ningn error.
El clculo emprico del valor del coeficiente de fiabilidad no se puede llevar a cabo mediante la frmula anterior, que es meramente conceptual; la estimacin emprica puede obtenerse utilizando varias estrategias, entre las que destacan: a) la correlacin entre dos formas paralelas del test, b) la correlacin entre dos mitades aleatorias del test
corregida mediante la frmula de Spearman-Brown, y c) la correlacin entre dos aplicaciones del mismo test a una muestra de personas. Cada uno de estos procedimientos tiene sus pros y sus contras y se ajustan mejor a unas situaciones que a otras. En todos los casos el valor obtenido es un valor numrico entre 0 y 1, indicando a medida que se acerca a 1 que el test est midiendo con precisin. Dado que la frmula (2) es conceptual, no operativa, en literatura abundan las frmulas clsicas para la obtencin del valor emprico del coeficiente de fiabilidad, entre las que cabra destacar las de Rulon (1939), Guttman (1945), Flanagan (1937), KR 20y KR21 (Kuder y Richardson, 1937), o el popular Coeficiente Alfa (Cronbach, 1951), que expresa la fiabilidad del test en funcin de su consistencia interna. Una forma alternativa pero equivalente de expresar la fiabilidad de los test es mediante el Error Tpico de Medida, o fiabilidad absoluta.
Se utilice el ndice que se utilice, y en cada caso hay razones tcnicas para utilizar uno u otro, lo importante es que toda medicin lleva asociado un grado de precisin que es empricamente calculable. Tal vez nos preguntemos por qu se cometen errores al medir, o, en otras palabras, cules son las fuentes del error ms habituales en la medicin psicolgica. Es este un asunto exhaustivamente estudiado por los especialistas, que han llegado a clasificar con todo detalle las posibles fuentes de error (Cronbach, 1947; Schmidt y Hunter, 1996; Stanley, 1971; Thorndike, 1951), si bien simplificando bastante puede decirse que son tres las grandes vertientes por las que penetra el error aleatorio en la medicin psicolgica: a) la propia persona evaluada, que viene con determinado estado de nimo, actitudes y temores ante el test, ansiedad, o cualquier tipo de evento previo a su evaluacin, todo lo cual puede influir en la cuanta de los errores. b) el instrumento de medida utilizado, que con sus caractersticas especficas puede influir diferencialmente en los evaluados, y c) la aplicacin, correccin e interpretacin hecha por los profesionales.
Si todo se hace con rigor se minimizarn los errores en todo el proceso, y es precisamente de lo que nos informa la fiabilidad de la prueba, de los errores cometidos. Una vez conocida la cuanta de estos errores, a partir de la puntuacin emprica resulta sencillo estimar a cierto nivel de confianza elegido la puntuacin verdadera de las personas en una prueba. Si la fiabilidad de una prueba es perfecta (xx =1), las puntuaciones empricas y las verdaderas de las personas en dicha prueba coincidirn, pero si no es perfecta las puntuaciones verdaderas de las personas en el test se estiman mediante un intervalo confidencial en torno a la puntuacin emprica. La implicacin prctica inmediata de todo ello es que si se toman decisiones importantes basadas en las puntuaciones de las personas en los test hay que asegurarse de que stos tienen una fiabilidad elevada.
Ahora bien, el modelo lineal clsico informa de la cuanta de los errores, pero no de la fuente originaria de stos, que asume ignota y aleatoria. Otros muchos modelos se han ocupado de desglosar el error y ofrecer as no slo la fiabilidad, sino tambin el origen de los errores (Bock y Wood, 1971; Novick, 1966; Sutcliffe, 1965), pero su complejidad tcnico-formal y las complicaciones operativas introducidas, en relacin con las ventajas ofrecidas, ha hecho que ninguno se haya consolidado en la prctica. Mencin especial al respecto merece la Teora de la Generalizabilidad propuesta por Cronbach y colaboradores (Cronbach, Rajaratnam, Glesser, 1963; Glesser, Cronbach y Rajaratnam, 1965). Mediante el uso de complejos diseos de Anlisis de Varianza, este modelo permite hacer estimaciones sobre el tamao de distintas fuentes de error previamente contempladas en el proceso de medicin. El programa GENOVA (Crick y Brennan, 1982) ha sido especialmente diseado para llevar a cabo los clculos implicados en el modelo.
Teora de Respuesta a los Items
A lo largo de este siglo la Teora Clsica de los test y sus variantes han ido dando cobertura terica a la mayora de las aplicaciones de los test, y puede decirse que, con sus luces y sus
sombras, el balance es claramente positivo, aunque ello no quiere decir que no hubiese ciertos problemas y ciertas reas en las que el enfoque clsico mostrase limitaciones. Las dos ms importantes, se refieren 1) a la ausencia de invarianza de las mediciones respecto del instrumento utilizado, es decir, bajo el modelo clsico cuando se utilizan test distintos para evaluar la misma variable no se obtienen directamente resultados en la misma escala, por lo que hay que proceder a equiparar las puntuaciones obtenidas. Y 2) a la dependencia que las propiedades del instrumento utilizado tienen de las propias personas evaluadas, lo cual no es deseable dentro de un marco riguroso de medicin.
Aparte de estas dos limitaciones de fondo, en lo que concierne al clculo de la fiabilidad de los test, el problema que no encontraba una respuesta adecuada dentro del marco clsico era el de la dependencia entre la cantidad de error y el nivel de las personas en la variable medida, ya que dentro del marco clsico se estima el coeficiente de fiabilidad de una determinada prueba y se asume que es el mismo para todas las personas a las que se aplica la prueba; sin embargo, se ha ido acumulando suficiente evidencia emprica a lo largo de los aos que demuestra que el mismo test no mide con la misma precisin a todas las personas, que su precisin est en funcin del nivel de la persona en la variable medida. Sin salirse del marco clsico la solucin ms lgica a este problema es calcular diferentes coeficientes de fiabilidad para una prueba en funcin de los distintos niveles de puntuaciones de las personas evaluadas, lo cual es prctica habitual (Feldt y Qualls, 1996; Lord, 1984; Qualls, 1992; Thorndike, 1951).
Si bien es esta una salida interesante al problema, la solucin radical y novedosa va a venir de la mano de un nuevo enfoque psicomtrico que domina la escena actual de la medicin psicolgica y educativa denominado Teora de Respuesta a los tems (TRI). Bajo la ptica de la TRI la fiabilidad de una prueba pasa a denominarse Funcin de Informacin, y es una funcin matemtica continua a lo largo de la escala de las puntuaciones de la prueba (vase su frmula matemtica ms adelante, una vez
formulados los modelos de TRI). Es decir, el test ya no tiene un coeficiente de fiabilidad determinado, ste depende, est en funcin, del nivel de la persona en la variable medida.
La fiabilidad se expresa mediante una funcin (Funcin de Informacin) que toma distintos valores segn el nivel de la persona en el test. De modo que el mismo test es ms fiable para unas personas que para otras, lo cual no es difcil de entender. Pinsese, por ejemplo, en una prueba educativa de cualquier materia que sea realmente difcil, muy difcil, ser precisa para evaluar a los muy competentes en la materia, pero todos los que posean conocimientos medios o bajos sacaran (en el caso extremo) un cero, la prueba no discrimina entre ellos, est midiendo sus conocimientos con un error elevado. Es lo mismo que ocurre cuando se desea medir con precisin la altura que salta una persona, hay que ir ajustando el listn a sus posibilidades hasta encontrar justamente lo que es capaz de superar. Lo mismo ocurre para medir con precisin el nivel de una persona en una variable psicolgica o educativa. La tecnologa evaluativa basada en la teora de respuesta a los tems nos ha liberado de la necesidad de tener que utilizar el mismo test con todas las personas para poder compararlas.
Esta nueva conceptualizacin del error permitida por el marco de la TRI ha llevado a una verdadera revolucin en la evaluacin psicolgica y educativa en los ltimos aos. Puesto que ya no es necesario utilizar el mismo test para evaluar a todas las personas, se elige aqul que mida con mayor precisin a cada cual, es lo que se ha dado en llamar Test Adaptativos Computarizados.
Ahora, en este punto es necesario abordar el procedimiento para elegir la prueba ms adecuada para cada persona. La estrategia consiste en buscar aquella prueba cuya dificultad mejor se ajuste al examinado. Para ello se van presentando uno a uno los tems extrados de un banco de tems y en funcin de las respuestas, segn sean aciertos o errores, se va aumentando o disminuyendo la dificultad de los tems subsiguientes. De este modo se evita presentar los tems muy difciles a las personas con un nivel bajo y los
muy fciles a las de nivel elevado, con el consiguiente ahorro de tiempo y mejora de la motivacin y fiabilidad de la prueba. Podra parecer que por esta regla de tres aqullos que reciben tems fciles saldran favorecidos, pero no hay tal, puesto que cara a la puntuacin final no es lo mismo acertar tems fciles que difciles, stos puntan ms.
El uso de estas pruebas est cambiando la forma tradicional de evaluar y en pases como Estados Unidos, Holanda, o Canad, por citar algunos, son de uso generalizado para el acceso a la universidad, al doctorado, o para certificaciones profesionales.
Conceptos bsicos de la TRI
Conviene sealar de entrada que los nuevos modelos de TRI no reemplazan al enfoque clsico, sino que ms bien constituyen un excelente complemento, permitiendo resolver problemas que no encontraban solucin adecuada en el marco clsico, e impulsando otros campos completamente novedosos de la medicin psicolgica y educativa. Los orgenes lejanos de la TRI (Muiz y Hambleton, 1992) pueden rastrearse en los trabajos pioneros de Richardson (1936), Lawley (1943), Tucker (1946), Lord (1952, 1953a) y Birnbaum (1957), si bien su verdadero desarrollo surge a raz del trabajo de Rasch (1960), y, sobre todo, del libro de Lord y Novick (1968). A partir de entonces se produce una eclosin de publicaciones y de software que permitirn la aplicacin de la TRI en la prctica.
Si la piedra angular del enfoque clsico era asumir que la puntuacin emprica vena dada por la verdadera ms un error aleatorio (X= V+e), la TRI va a hacer una asuncin ciertamente ms restrictiva, a saber, que existe una relacin matemtica o funcin que conecta la competencia de los sujetos con la probabilidad de que stos respondan correctamente a los tems. En otras palabras, que dada la competencia de una persona en la variable medida, conocemos la probabilidad que tiene de acertar el tem.
A la funcin matemtica asumida que une los niveles de competencia de los sujetos con las probabilidades de que acierten un tem es a lo que se denomina Curva Caracterstica del tem (CCI), dado que ciertamente califica, caracteriza al tem.
Cada tem tendr la suya propia, su caracterstica de identidad. Las CCI ms habituales adoptan la forma de S como las de la figura 1.
Curvas caractersticas de cinco tems con diferentes parmetros
En el eje de abscisas aparecen los valores de la variable medida, denominada (), que est expresada en una escala que va de a +. En ordenadas aparece la probabilidad de acertar el tem. Ello quiere decir que mediante la CCI sabemos la probabilidad de que las personas con un determinado valor de superen el tem.
La forma exacta de la CCI va a quedar especificada una vez que se elija una funcin matemtica genrica, por ejemplo la curva Normal acumulada, o la Funcin Logstica, entre otras, y se determinen los parmetros correspondientes que la singularizan. Segn el tipo de curva que se adopte y el nmero de parmetros que se contemplen se tendrn los distintos tipos de modelos de TRI. Aunque las posibilidades son casi ilimitadas, a modo de ilustracin se presentan a continuacin los tres ms utilizados en la prctica, que adoptan la Funcin Logstica como Curva Caracterstica:
Modelos Logsticos de 1, 2 y 3 parmetros Pi() = eD(-bi)/[1+eD(-bi)] Pi() = eDai(-bi)/[1+eDai(-bi)] Pi() = ci+ (1-ci)[eDai(-bi)]/[1+eDai(-bi)]
donde: : representa los valores de la variable medida Pi (): probabilidad de acertar el tem para un determinado valor de ai: ndice de discriminacin del tem bi: ndice de dificultad del tem ci: probabilidad de aciertos al azar e: base de los logaritmos neperianos (2.7182) D: constante (cuando D=1,7 los valores se acercan a los generados por la distribucin Normal)
La estimacin de los parmetros de los modelos se lleva a cabo mediante diversos programas de ordenador existentes a tal efecto (BICAL, BILOG, LOGIST, MULTILOG, RASCAL, ASCAL, etc.), la mayora de los cuales utilizan procedimientos de mxima verosimilitud o bayesianos. Aparte de los tres modelos incluidos aqu por ser de los primeros formulados y muy utilizados en la prctica, las lneas de investigacin ms activas trabajan actualmente con modelos bastante ms complejos, una buena revisin de los cuales puede consultarse en Van der Linden y Hambleton (1997).
Funcin de Informacin del test
Una vez estimados los parmetros del modelo puede calcularse la Funcin de Informacin del test, que indica la precisin con la que ste mide a lo largo de la escala de la variable medida:
donde: n: nmero de tems del test Pi(): valores de las CCI de los tems Qi(): 1- Pi() Pi(): Derivada de Pi()
Funciones de Informacin de cinco tems y del Test formado por ellos
En suma, bajo el enfoque de la teora de respuesta a los tems los errores cometidos al medir se estiman mediante la Funcin de Informacin, que permite especificar la precisin de las ediciones en funcin del nivel de las personas en la variable medida. Esto supone un avance importante respecto del coeficiente de fiabilidad clsico y abre todo un abanico nuevo de posibilidades en el campo de la medicin psicolgica y educativa.
Validez
Determinar la cantidad de error de los instrumentos de medida es bsico para cualquier ciencia, y hemos visto en lneas generales cmo se lleva a cabo para el caso de los test desde distintos enfoques psicomtricos. Pero el problema de la medicin no slo no acaba ah, casi puede decirse que empieza, pues una vez que existen garantas de que un instrumento mide con precisin, surge la pregunta clave: son vlidas las inferencias hechas a partir de l? Porque no se trata slo de medir con precisin, adems, y, sobre todo, hay que garantizar que las inferencias y decisiones que se hacen basadas en esas mediciones son correctas. Es este el problema de la validez, concepto clave de la medicin en las ciencias sociales. Que las mediciones sean fiables es una condicin necesaria, pero no suficiente para que sean vlidas. Se puede estar midiendo con gran precisin algo que no tiene ninguna capacidad explicativa o predictiva. No en vano los grandes debates acerca de la utilidad de los test, las escalas y otras mediciones psicolgicas y educativas se centran generalmente en torno al problema de su validez.
Para probar la validez de las inferencias hechas a partir de las pruebas, como ocurre para someter a prueba cualquier otra hiptesis cientfica, hay que recoger evidencia emprica que corrobore o refute las inferencias. Como seala Messick (1989), la validacin de un test abarca todas las cuestiones experimentales, estadsticas y filosficas por medio de las cuales se evalan las hiptesis y teoras cientficas. En realidad lo que se valida no es la prueba en s, sino las inferencias hechas a partir de ella. La forma estndar de validar las inferencias es derivar predicciones y contrastarlas con los datos. Con sus luces y sus sombras, el mtodo hipottico deductivo experimental sigue siendo el canon para la validacin, eso s, sin ingenuidades acerca de su infalibilidad, y conscientes de sus limitaciones.
Dentro de ese marco general hay tres procedimientos clsicos y muy utilizados para recabar informacin emprica probatoria de la validez, denominados Validez de
Contenido, Validez Predictiva y Validez de Constructo (Anastasi, 1986; Messick, 1989; Muiz, 1994; Paz, 1996; Wainer y Braun, 1988).
La validez de contenido tiene un carcter bsico, y va encaminada a comprobar que la prueba recoge una muestra representativa de los contenidos correspondientes al campo evaluado. Por ejemplo, si se trata de una escala de actitudes hay que asegurarse que todos los componentes que conforman la actitud estn representados en la escala, o si la prueba es de ansiedad, que no se dejan fuera aspectos importantes. No estar de ms sealar dentro de este marco profesoral en el que nos encontramos, que este aspecto tan elemental de la validez es descuidado con demasiada frecuencia por los profesores en sus exmenes, al no constituir stos una muestra representativa de la materia a evaluar, con lo que se abre la puerta al azar en las calificaciones. Personalmente, me sorprenden con frecuencia las ideas tan ingenuas de muchos profesores acerca de la medicin educativa, a pesar de la importancia que tiene sobre las vidas futuras de los alumnos. Conscientes de este problema, por ejemplo, recientemente en Estados Unidos el sindicato de profesores ms importante (American Federation of Teachers, 1990), junto con otras organizaciones, ha publicado unos estndares tcnicos que los profesores deben de seguir en sus evaluaciones.
La Validez Predictiva se centra en la comprobacin de que las pruebas predicen aquello para lo que fueron diseadas. Constituye un aspecto clave en la utilizacin aplicada de los test y las escalas en mbitos en los cuales se toman decisiones importantes para las personas basndose en las pruebas, por ejemplo en el mbito de la seleccin de personal, orientacin, o situaciones de carcter clnico, por citar algunos. La capacidad predictiva de una prueba suele expresarse mediante su Coeficiente de Validez (xy), que es la correlacin entre las puntuaciones en la prueba (x) y la ejecucin en el criterio que se pretende predecir (y). A medida que el valor del coeficiente de validez se acerca a 1 mayor es la capacidad predictiva de la prueba. Cuando se utilizan varias pruebas para predecir un
criterio se utiliza como coeficiente de validez la correlacin mltiple de las pruebas con el criterio (Ryy).
La Validez de Constructo, propuesta originariamente por Cronbach y Meehl (1955), trata de asegurar que las variables o constructos medidos, adems de capacidad predictiva, tienen entidad y rigor, y se encuentran insertas dentro de un marco terico coherente. Las formas de recoger evidencia emprica para comprobarlo son en general las utilizadas para comprobar cualquier teora cientfica, si bien se han hecho habituales las recogidas de datos a travs de una matriz multirrasgo multimtodo (Campbell y Fiske, 1959), o mediante diferentes tcnicas de anlisis multivariado, entre las que destaca el Anlisis Factorial, tanto exploratorio como confirmatorio. En el primer caso suele hablarse de validez convergente-discriminante y en el segundo de validez factorial.
En definitiva, para poder asegurar que una prueba psicolgica, educativa o sociolgica es vlida hay que aportar diferentes tipos de evidencia que lo garantice, no se pueden hacer afirmaciones generales ni definitivas, pues como cualquier otra validacin cientfica, la de los test es un proceso abierto en el que siempre cabe aadir nueva evidencia emprica que corrobore o refute la pertinencia de las inferencias hechas a partir del test.
El uso de los test
Un buen ejemplo de este proceso continuo de validacin lo constituyen los Test de Inteligencia. Tras ya casi un siglo de investigacin emprica desde que apareciese el primer test propiamente de inteligencia, propuesto por Binet, hoy conocemos bastante bien con qu fines pueden usarse y con cuales no, aunque queden an varias cuestiones abiertas. Por ejemplo, sabemos que las puntuaciones en los test de inteligencia son bastante estables a lo largo de la vida de las personas, lo cual no quiere decir que no cambien ni sean modificables (Neisser et al., 1996).
Lo que mejor predicen los test de inteligencia es el rendimiento escolar, con una correlacin en torno a 0.50 entre las puntuaciones en los test de inteligencia y las notas escolares. Ello significara que la inteligencia explica slo un 25% del rendimiento escolar.
El otro 75% vendra explicado por otros factores tales como persistencia, motivacin, inters acadmico, factores culturales, refuerzos recibidos de los padres y maestros, competencia del profesor, etc. (Neisser et al., 1996). Esta relacin positiva entre la inteligencia tal como la miden los tests y el rendimiento escolar tiene como consecuencia que los nios ms inteligentes permanecen por trmino medio ms aos dentro del sistema educativo, con los efectos positivos que ello conlleva para su xito social y laboral, por lo que indirectamente los tests de inteligencia tambin tienen poder predictivo para estos aspectos.
La validez de las mediciones de la inteligencia para predecir aspectos de la vida laboral y social de las personas no es que sea muy elevada, en torno al 25%, pero si hay que elegir un slo predictor, sigue siendo seguramente el mejor del que se dispone. Curiosamente, se conocen ms exhaustivamente las predicciones que se pueden hacer a partir de las mediciones de la inteligencia (validez predictiva) que la propia naturaleza de la inteligencia (validez de constructo), existiendo un intenso debate acerca de los factores responsables de las diferencias individuales en inteligencia, en el cual los tres ingredientes bsicos son la herencia, el ambiente y los procesos psicolgicos bsicos, tales como tiempos de reaccin, potenciales evocados, tiempo de inspeccin, capacidad atencional, rapidez de acceso a la memoria, etc. Aunque si bien la teorizacin sobre la inteligencia ha avanzado notablemente, en comparacin los tests con los que se mide no han experimentado grandes cambios (Sternberg y Kaufman, 1996).
Como no poda ser de otro modo, existen tests malos, regulares, buenos y muy buenos, es el profesional en cada caso el que tiene que evaluar la calidad y proceder en consecuencia. Como ocurre con las tecnologas de otros muchos campos del saber,
siempre existe la posibilidad de su uso inadecuado, observndose ltimamente un inters especial en las organizaciones profesionales por impulsar los aspectos ticos de la prctica, especialmente en lo que a los instrumentos de medida se refiere. Debido a que la mayora de los problemas con los instrumentos de medida psicolgicos y educativos provienen en gran parte de su uso inadecuado ms que de las propiedades tcnicas per se, existe actualmente un debate en curso entre los investigadores y profesionales acerca de la conveniencia o no de incluir las consecuencias del uso de las pruebas dentro del propio marco de la validez.
Sin embargo, esto no es todo, ya que es necesario sealar, que el uso adecuado de los instrumentos de medida no slo implica que las propiedades tcnicas (Fiabilidad y Validez) sean las adecuadas, hay otros aspectos relativos a la propia situacin de aplicacin que deben de controlarse, tales como la relacin examinado-examinador, la ansiedad ante las pruebas (Spielberger y Vagg, 1995), entrenamiento previo, diferencias culturales, deseabilidad social, etc. Se olvida a veces que los test psicolgicos y educativos
representan la posibilidad de juzgar a las personas de forma igualitaria, por sus mritos demostrados, no por criterios como la cuna, la tribu, la familia, la apariencia, las cartas de recomendacin, o el juicio subjetivo de supervisores y profesores. se fue su espritu originario, y sigue sindolo, sus problemas potenciales de uso no deben enmascarar el paso adelante que supone esta filosofa frente a posiciones retrgradas como las mencionadas, tendentes a mantener el statu quo, independientemente de la vala personal.
Teora de la Medicin
Paralelo a la medicin emprica de las variables psicolgicas, cuya problemtica se acaba de exponer a grandes rasgos, existe toda una lnea de trabajo ms terica encaminada al anlisis del estatus terico de las mediciones psicolgicas, que tiene sus races en los trabajos originarios del campo de la Fsica (Campbell, 1920, 1921, 1928, 1938; Hlder,
1901). Ser precisamente un comit de expertos dirigidos por Campbell quienes en 1940 (Campbell et al., 1940) emitan un informe en el que dudan que las mediciones de carcter psicolgico y psicofsico renan las condiciones exigidas por los axiomas de Hlder (1901).
La aproximacin de Campbell al problema de la medicin era ciertamente restrictiva y tomada al pie de la letra dejara fuera incluso muchas de las mediciones fsicas, por lo cual ya fue criticada por el propio Bertrand Russell (1937). El argumento central de Campbell era que para poder hablar de medicin debe de darse un isomorfismo entre la cantidad y las magnitudes de la propiedad a medir; para lo cual haba que demostrar que las magnitudes obedecan a los axiomas de cantidad desarrollados por Hlder (1901). En s esta aproximacin representa una postura de carcter platnico, bajo cuya ptica las propiedades de la cantidad no son negociables.
Aproximacin Clsica
Sin embargo, la verdadera revolucin en la fundamentacin terica de la medicin psicolgica vendr de la mano de Stevens (1946, 1951), al eliminar la restriccin de que los nmeros asignados como medidas tengan que obedecer necesariamente a las leyes de la cantidad, abriendo as la posibilidad a otros tipos de escalas (Fraser, 1980). Stevens define la medicin como la asignacin de nmeros a objetos segn determinadas reglas.
La flexibilizacin introducida al permitirse diferentes reglas de asignacin extiende el sistema de Campbell y permite el establecimiento de las hoy clsicas cuatro escalas de medicin, Nominal, Ordinal, Intervalo y Razn, que vienen definidas por cuatro reglas distintas de asignacin de los nmeros a los objetos. Para representar un sistema emprico concreto no habr por qu utilizar todas las propiedades del sistema numrico.
La escala Nominal slo tiene en cuenta la propiedad de los nmeros igual/desigual, los nmeros actan aqu como nombres. En la Ordinal, adems de igualdad/desigualdad, se
tiene en cuenta el orden. La escala de Intervalo adems de las anteriores propiedades aade la igualdad/desigualdad de las diferencias, no existiendo un cero absoluto de la escala. Finalmente, en la escala de Razn existe el cero absoluto de la escala e igualdad de razones.
Tras la propuesta de Stevens surgen numerosas clasificaciones de escalas (Coombs, 1952, 1964; Torgerson, 1958), pues no hay ninguna razn para limitar las propiedades a las cuatro mencionadas. Adems, la literatura sobre en qu escala vienen medidos los distintos atributos psicolgicos y la relacin entre el tipo de escala y las operaciones estadsticas permitidas para cada tipo de escala son abundantes en la bibliografa especializada.
Enfoque Representacional
En definitiva, a partir del trabajo pionero de Stevens la medicin psicolgica no slo sigue avanzando en el campo emprico, sino que recibe un fuerte empujn en lo que a la evaluacin de su estatus terico se refiere. Tanto la aproximacin de Stevens como la de Campbell al anlisis terico de la medicin se mueven dentro de un marco clsico, pues, como seala Fraser (1980), si bien Campbell consideraba claves las relaciones empricas, Stevens subraya las propiedades de la escala. Ambos tratan la relacin entre los sistemas emprico y formal como axiomtica, y por tanto debe de estar presente para llevar a cabo la medicin.
Por el contrario, el nuevo enfoque Representacional sobre teora de la medicin que aparece en los aos sesenta se caracteriza fundamentalmente por reconocer explcitamente el papel que juega la teora en la medicin, pasando sta a formar parte integral de la teora. Medir es construir un modelo de alguna realidad existente en el mundo. Por tanto, como cualquier otra modelizacin, implica establecer una correspondencia entre el sistema relacional emprico (el mundo) y un sistema relacional
formal (el modelo), de tal modo que se pueda decir que uno representa al otro; si el modelo es numrico entonces la representacin se denomina medicin (Fraser, 1980). En este contexto los problemas de la medicin no son otros que los problemas cientficos generales para establecer modelos de la realidad, la medicin pasa a ser modelizacin en la que el sistema relacional formal son los nmeros. Por tanto el problema central a resolver ser el de la Representacin, es decir, asegurarse que el modelo representa adecuadamente la realidad. Medir es modelizar.
Si bien este enfoque es actualmente dominante entre los tericos y filsofos de la ciencia, su influencia en la psicologa aplicada es escasa, pues como seala Schwager (1991) en una crtica reciente, este elegante enfoque trata de garantizar la representabilidad formal, que es importante, pero no ha aportado hasta la fecha gran cosa a la teora psicolgica y menos an a la prctica profesional aplicada.
LOS INSTRUMENTOS DE EVALUACIN PSICOLGICA
INTRODUCCIN
En la evaluacin psicolgica el psiclogo realiza una recopilacin e integracin de datos que obtiene principalmente de instrumentos con el fin de realizar un diagnstico, orientacin, seleccin, etc. Y la prueba o instrumento de evaluacin psicolgica mide las variables psicolgicas a travs de procedimientos diseados para obtener una muestra de comportamiento. La formacin del profesional de la psicologa debe contemplar conocer el proceso de evaluacin y en el transcurso del mismo saber elegir y aplicar los instrumentos que le permitirn realizar una labor de calidad e interpretar las puntuaciones obtenidas:
QU ES UN INSTRUMENTO DE EVALUACIN PSICOLGICA?
Para los fines del curso, asumiremos al instrumento de evaluacin psicolgica como todo aquello que el evaluador puede utilizar como legtima fuente de datos acerca de un sujeto. En este sentido, un instrumento puede equiparase al vocablo tcnica. Sin embargo, se trata de un concepto ms general puesto, que los instrumentos de evaluacin psicolgica se clasifican en funcin del distinto tipo de tcnicas, entendidas como conjunto de procedimientos y recursos de que se sirve una ciencia o un arte.
Muchas veces se utiliza indistintamente instrumento, tcnica y test, pero no son iguales. Los instrumentos o tcnicas pueden ser procedimientos no cuantificados ni tipificados como p. ej la entrevista. Los test son un instrumento sistemtico y tipificado que compara la conducta de dos o ms personas. Sin embargo, a cualquier instrumento o tcnica de evaluacin psicolgica se le denomina errneamente test psicolgico. Pero no todas las tcnicas o instrumentos son test puesto que para serlo precisan estar estandarizados y tipificados. Por el contrario a los test s les podemos denominar instrumentos de evaluacin psicolgica. Segn Cohen y Swerdlik la prueba es un dispositivo o procedimiento de medicin diseado para medir variables relacionadas con la psicologa por ejemplo: inteligencia, personalidad, etc. En s, una prueba es un procedimiento estandarizado para tomar una muestra de conducta y describirla con categoras o puntuaciones. Gregory utiliza el trmino prueba como sinnimo de test y seala que las pruebas son sumamente variadas en sus formatos y aplicaciones, contemplando la mayor parte de stas las siguientes caractersticas: procedimiento estandarizado, muestra de conducta, puntuaciones o categoras, normas o estndares y prediccin de la conducta fuera de la prueba.
Por su parte, Cronbach define test como procedimiento sistemtico para observar el comportamiento y describirlo con la ayuda de escalas numricas o categoras fijas. Por sistemtico quiere decir que el examinador recoge la informacin interrogando u
observando a todas las personas de la misma manera y en una situacin idntica o similar. Y aade que un test se considera estandarizado cuando las instrucciones del examinador, los aparatos y las reglas de correccin han sido fijadas de manera que las puntuaciones registradas en diferentes ocasiones son completamente comparables.
Sin embargo, es importante sealar que solamente puede considerarse test aquellos instrumentos que estn estandarizados y tipificados, y por lo tanto, nos informan de la puntuacin de un sujeto en relacin a otro o a su grupo de referencia.
CLASIFICACIN DE LOS INSTRUMENTOS DE EVALUACIN PSICOLGICA
Pervin organiz los instrumentos de evaluacin en test proyectivos, test subjetivos, test psicomtricos y test objetivos. En esta clasificacin se utiliza la palabra test para las cuatro categoras sin tener en cuenta si estn o no estandarizados y tipificados. Podemos realizar una clasificacin en 6 categoras: tcnicas de observacin, tcnicas objetivas, tcnicas de autoinforme, la entrevista, tcnicas subjetivas y tcnicas proyectivas. Sin embargo, el trmino tcnica para utiliza para realizar una clasificacin de los instrumentos de evaluacin, y diferencia entre test y tcnicas de evaluacin, as que la tcnica de evaluacin tan slo supone dispositivos de recogida de informacin, sin que necesariamente requiera tipificacin de su material o con ella se permitan comparaciones intersujetos. La entrevista como ya hemos visto, se sita aparte debido a que se trata del ms importante y extendido de los autoinformes.
Esta clasificacin de las tcnicas de evaluacin psicolgica es compartida por varios autores y se relaciona con los distintos modelos de evaluacin psicolgica:
Desde una perspectiva biologicista, las tcnicas de estudio de la conducta humana son las tcnicas objetivas de tipo psicofisiolgico.
Desde una perspectiva psiquitrica, el estudio de sntomas se realizar con la entrevista dirigida, complementada con el uso de anlisis psicofisiolgicos, si fuera necesario.
Las tcnicas proyectivas y la entrevista libre son las prioritarias desde posturas psicoanalticas y psicodinmicas.
El modelo fenomenolgico resalta la importancia de la propia experiencia y vivencias personales, sern utilizadas las tcnicas subjetivas y de entrevista no directiva.
El modelo conductista enfatiza el anlisis de las conductas objetivables y el uso de la cuantificacin, las tcnicas apropiadas son la entrevista, la observacin, las tcnicas objetivas y los autoinformes.
En la actualidad la mayora de psiclogos tienden a utilizar en el proceso de evaluacin psicolgica instrumentos desarrollados desde otros enfoques tericos. Las tcnicas de evaluacin psicolgica tambin pueden clasificarse en funcin de su aplicacin a lo largo del proceso de evaluacin psicolgica. A medida que avanza el proceso se seleccionan distintos tipos de instrumentos.
A este respecto, y retomando lo ya visto en el curso de teora y tcnica de la entrevista, definiremos al autoinforme como mensaje verbal que un sujeto emite sobre cualquier tipo de manifestacin propia. Incluye los test psicomtricos entre los autoinformes, ya que suponen un informe verbal sobre la conducta y se consideran tipificados por estar construidos a travs de procedimientos psicomtricos, y agrupa a los autoinformes en base a la clase de variable que miden:
Rasgos, dimensiones o factores de personalidad, como el MMPI Estados como el STAI (cuestionario de ansiedad rasgo/estado) Repertorios clnicos conductuales que informan sobre la conducta motora, cognitiva y fisiolgica consideradas como muestras y no como rasgos intrapsquicos
Repertorios, procesos y estructuras cognitivas, que se trata de autoinformes sobre creencias, atribuciones, automensajes o autoinstrucciones que se da al sujeto frente a la situacin problema en la que se encuentra o tambin autoinformes sobre el funcionamiento motivacional del sujeto.
Los principales tipos de autoinformes son: la entrevista, los cuestionarios, inventarios y escalas, los autorregistros y los pensamientos en voz alta. Consideramos que a excepcin de las pruebas subjetivas y las proyectivas, que utilizan materiales enmascarados, el resto de tcnicas pueden llegar a ser un tipo de autoinforme.
Por otro lado, las variables que generalmente miden los cuestionarios, inventarios y escalas son la personalidad, los repertorios clnico-conductuales y de constructos cognitivos y motivacionales. Las tcnicas de pensamiento en voz alta se aplican en la evaluacin de conductas generalmente cognitivas. As, los autoinformes pueden medir diversos tipos de variables. Debemos aclarar tambin la distincin entre cuestionario, inventario y escala. El cuestionario incluye una lista de cuestiones o preguntas, por lo tanto la formulacin de los tems se hace siempre con interrogacin. Los inventarios se construyen a partir de un listado de tems en forma de conjunto de frases que representan situaciones, conductas o respuestas a las que el sujeto tiene que contestar con qu frecuencia le ocurren. Y la escala comporta la observacin externa.
Aunado a lo anterior, debemos considerar como caractersticas bsicas de clasificacin de las tcnicas de evaluacin psicolgica a las siguientes:
Procedimientos
estandarizados
no
estandarizados.
Una
prueba
est
estandarizada cuando tiene instrucciones fijas para su aplicacin y calificacin y se aplica a un grupo representativo de la poblacin, para quienes est especialmente dirigido. En ellas se proporcionan normas o estndares. Las puntuaciones obtenidas se interpretan comparndolas con la muestra de estandarizacin. Los test estandarizados son pruebas referidas a la norma. Los procedimientos no estandarizados no poseen normas y por tanto no necesita comparar al individuo particular con un grupo de referencia; su objetivo es determinar la posicin del sujeto evaluado con respecto a los objetivos. Los no estandarizados son pruebas referidas al criterio.
Pruebas individuales o grupales. Un instrumento individual slo se aplica a un sujeto, mientras que las pruebas grupales pueden aplicarse simultneamente a varios sujetos.
Pruebas referidas a la norma o a criterio. En la prueba referida a la norma, la puntuacin de cada sujeto se interpreta con referencia a una muestra de estandarizacin, mientras que las pruebas referidas al criterio no necesitan de la comparacin con el grupo de referencia, sino determinar la posicin de cada sujeto con respecto a un criterio. El centro de atencin se coloca en aquello que el examinado puede hacer. Las pruebas referidas al criterio identifican el dominio o falta del mismo del sujeto en relacin con conductas especficas.
Sin embargo, otros autores presentan la siguiente clasificacin de las tcnicas:
El grado de estructuracin de los estmulos y la respuesta. Una prueba estructurada en el estmulo tiene una nica interpretacin, mientras que una prueba con menor grado de estructuracin ofrece ms variedad de interpretaciones.
El grado de enmascaramiento del objetivo de la prueba. Una prueba no enmascarada deja claro desde el principio los objetivos que persigue, mientras que
los instrumentos enmascarados poseen un objetivo distinto del que pretenden aparentar en un principio. En este grupo podemos situar a las tcnicas subjetivas y las proyectivas.
El grado de inferencia interpretativa. Los niveles de inferencia son propuestos por Sundberg, Tyler y Taplin y se refieren a las respuestas que un sujeto emite frente a cualquier dispositivo de evaluacin o ante cualquier respuesta del sujeto. Son cuatro los niveles de inferencia que proponen estos autores y se ordenan de menor a mayor grado de abstraccin:
nivel I: la conducta del sujeto es entendida como muestra de su comportamiento en la vida real. Supone un nivel mnimo de inferencia.
nivel II: la conducta evaluada del sujeto se asocia con otras conductas no evaluadas. Se apoya por tanto en un supuesto de relacin.
nivel III: la conducta del sujeto expresa la existencia de un atributo subyacente en el sujeto, de carcter intrapsquicos e inobservable,
nivel IV: la conducta evaluada es una explicacin especulativa a partir de una teora concreta del psiquismo, y el concepto inferido se integra en una teora completa. Las pruebas que aceptan un mayor grado de inferencia son las proyectivas y las cognitivas, y las que aceptan un menor grado de inferencia son las conductuales radicales y las conductual-cognitivas.
El grado de modificabilidad de la respuesta. Se refiere al grado en el que el sujeto puede modificar o alterar su respuesta en la prueba. As, las pruebas objetivas son las menos susceptibles de ser alteradas, mientras que en las tcnicas de autoinforme el sujeto puede falsear con ms facilidad su respuesta.
Adems de estas agrupaciones, los instrumentos de evaluacin tambin pueden clasificarse segn a partir de sus contenidos, verbal/no verbal, test de ejecucin, o una prueba cognoscitiva o afectiva.
QUINES PUEDEN APLICAR UN INSTRUMENTO DE EVALUACIN PSICOLGICA?
En 1950 un Comit sobre Normas ticas para la Psicologa de la APA public un artculo en el que se defina tres niveles de pruebas en funcin del grado de conocimientos que su uso requera. Existe un proyecto de la Asociacin Europea de Evaluacin Psicolgica EAPA para restringir el acceso de test no slo a los no psiclogos, sino tambin a los psiclogos no formados en evaluacin o aquellos que no se mantengan en formacin constante, sin embargo, esto no siempre es as.
En el proceso de evaluacin psicolgica, cuando el objetivo de la demanda es la intervencin psicolgica, se administran pruebas en distintas fases del proceso, y se aplica un tratamiento psicolgico, utilizando repetidamente y en distintos momentos las mismas pruebas para contrastar los beneficios del tratamiento y observar objetivamente los logros conseguidos. Tanto para la construccin de los instrumentos de evaluacin como en su uso responsable, se han elaborado guas, y al respecto algunos autores han abordado el tema desde los aspectos ticos y deontolgicos de la evaluacin psicolgica, explicando las normas generales que deben regir en la construccin de test, en la prctica clnica, en la investigacin psicolgica, as como lo que debe saber un psiclogo para utilizar los test adecuadamente, y seala algunos problemas actuales. Este tipo de trabajos permiten establecer una clasificacin de los instrumentos de evaluacin en tres niveles (a, b, c), siguiendo las normas de la APA:
a)
Formacin y experiencia en el mbito concreto de aplicacin. Incluye instrumentos que pueden aplicarse, corregirse e interpretarse con slo la ayuda del manual, por ejemplo, los test de rendimiento.
b)
Conocimiento sobre la teora de los test y mtodos estadsticos, por lo que requieren formacin tcnica sobre construccin y uso de test, as como de
aspectos psicolgicos, estadsticos, sobre diferencias individuales, personalidad, etc.

c)
Titulacin en psicologa, psiquiatra o psicopedagoga y experiencia profesional en diagnstico clnico, que requieren una preparacin profunda de los test y tcnicas subyacentes, as como experiencia en su aplicacin, por ejemplo, las tcnicas proyectivas y las escalas de aplicacin individual.
ELECCIN DEL INSTRUMENTO DE EVALUACIN PSICOLGICA
La eleccin de las herramientas psicolgicas ms adecuadas, depende de qu se quiere evaluar, para qu y quin o quines van a ser evaluados. Debemos elegir aquellas pruebas que respondan a las necesidades especficas de la evaluacin que vayamos a realizar y que posean la mayor fiabilidad y validez. Sin embargo, en muchas ocasiones, dispondremos de ms de una prueba con buenas calidades psicomtricas que evalan un mismo constructo, y debemos elegir entre una de ellas. Para elegirla lo primero que deberemos hacer es:
1. Saber cules son las pruebas de inteligencia estandarizadas , que son aquellas que tienen instrucciones especficas para su aplicacin y calificacin. 2. Elegir aquellas que posean unos adecuados criterios de calidad: fiabilidad y validez. 3. Seleccionar aquellos instrumentos que puedan aplicarse a la edad del sujeto o sujetos que queremos evaluar. 4. Seleccionar un instrumento de administracin individual o grupal , segn sea nuestro caso, teniendo en cuenta adems otros aspectos como el tiempo de aplicacin, formato de prueba y el objetivo que se pretende evaluar.
Una vez elegida la prueba/s, es imprescindible que el evaluador: 1. Se familiarice con la prueba. 2. Prepare adecuadamente el lugar donde se aplicar.
3. Cree un ambiente y rapport adecuados. 4. Prepare los materiales necesarios. 5. Explique el propsito de la evaluacin antes de aplicar la prueba y cmo se va a utilizar la informacin obtenida. 6. Siga estrictamente las normas de aplicacin. 7. Corrija las pruebas siguiendo los pasos que se indican en el manual. 8. Cumpla con las obligaciones ticas y deontolgicas antes de iniciar la evaluacin, solicitando el consentimiento del propio sujeto o su representante legal y clarificando quines van a tener acceso a la informacin obtenida. En sntesis, la mejor prueba se elegir teniendo en cuenta los criterios mencionados, as como ser imprescindible la destreza del evaluador, por lo que el psiclogo deber adquirir previamente experiencia en su administracin y no aplicar un instrumento hasta que posea una plena seguridad y conocimiento del mismo (Fig. 3.3.).
5. MANUALES DE APLICACIN PARA INSTRUMENTOS DE EVALUACIN PSICOLGICA
Recordemos que una prueba est estandarizada cuando tiene unos procedimientos claramente definidos para su administracin y correccin. En los manuales se incluyen instrucciones para su aplicacin y los datos del grupo normativo con el fin de comparar la puntuacin obtenida por el sujeto evaluado con el grupo de referencia. Las partes de que consta un manual son: introduccin, objetivos, descripcin general que incluye una ficha tcnica con la descripcin de la prueba, fundamentacin estadstica, instrucciones para la aplicacin, correccin e interpretacin, ventajas y limitaciones de la prueba y reas de aplicacin e investigaciones recientes realizadas con ese tests. El buen evaluador debe leer a fondo el manual antes de aplicar el test y prestar una atencin especial a los siguientes aspectos:
Sobre la construccin de la prueba, debe estar atento a lo que mide, para qu sirve, a qu tipo de poblacin va dirigida, si describe la muestra normativa, indica el proceso de creacin de la prueba, sus revisiones, si las ha habido
El manual describe detalladamente cmo debe realizarse la administracin del test, las instrucciones que deben darse para su ejecucin, el tiempo de aplicacin mximo, la puntuacin que se otorga a las respuestas del sujeto
El manual describe con claridad los pasos a seguir para corregir y obtener los resultados de la prueba.
5.1. Cmo realizar una correcta administracin de las pruebas de evaluacin psicolgica?
Al sujeto se le deben decir las palabras exactas indicadas en el manual y no una interpretacin de las mismas. Cuando el evaluado solicite una aclaracin, podr drsela o no si lo permite el manual. Por lo general el autor tiene previstos algunos de los casos que con mayor frecuencia se pueden encontrar el evaluador, indicando en el manual la forma adecuada de proceder. Cuando el examinador tenga poca prctica en la aplicacin es recomendable que lea textualmente las instrucciones que deben darse al sujeto para la ejecucin de cada prueba. Es importante tambin que est atento a los tiempos mximos de ejecucin de las pruebas. Este aspecto, junto a la observacin de cmo realiza la tarea, aporta informacin cualitativa a la que debe estar atento el evaluador y que le ser de gran utilidad si el objetivo es disear un programa de intervencin psicolgica. Para la correccin y puntuacin de las pruebas psicolgicas, se debern seguir las indicaciones correspondientes. Primero se realizarn las acciones oportunas para conocer la puntuacin directa del test. Esta puntuacin no nos informa todava de los resultados que ha obtenido el sujeto, y puede ser malinterpretada debido a que no puede considerarse hasta que no se consultan los baremos del test y se transforma la puntuacin directa obtenida en otro tipo de valores que son los que van a permitir comparar al sujeto evaluados con su grupo de referencia en la caracterstica evaluada.
Cuando la prueba permite su correccin a travs del ordenador es recomendable su utilizacin. Otra ventaja que ofrece la correccin automatizada es la economa de tiempo de los evaluadores y la capacidad de analizar grandes cantidades de datos y compararlos de forma simultnea con otros en su memoria.
6. CRITERIOS DE CALIDAD EXIGIBLES A LOS INSTRUMENTOS DE EVALUACIN PSICOLGICA
Los principales criterios psicomtricos de calidad o bondad asumidos como normas en la construccin, interpretacin y utilizacin de instrumentos psicolgicos de medicin son la fiabilidad y la validez.
6.1. Fiabilidad
La APA describi la fiabilidad como la exactitud de la medicin de un test, es decir, la precisin con la que mide la prueba. La definicin de los Standards for Educational and Psyuchologicla Testintg resalta que la fiabilidad se refiere al grado en que los resultados del examen son atribuibles a fuentes sistemticas de varianza. Una dcada ms tarde se designa la fiabilidad como el grado en que las puntuaciones del test son consistentes, dependientes, o repetibles, es decir, el grado en que estn libres de errores de medida. El clculo de la fiabilidad nos informa de la cuanta de error de un instrumento de medida, por lo que, a menor error, mayor fiabilidad, y ms exacto o preciso ser el test.
Desde la teora clsica de los tests, Aiken explica que se supone que la puntuacin observada que obtiene una persona en una prueba se compone de una clasificacin real ms algn error no sistemtico de medida. La calificacin real se define como el promedio de las calificaciones que se obtendran si una persona realizara la prueba una cantidad infinita de veces. Enfatiza que la calificacin real nunca puede medirse con exactitud, sino que debe calcularse a partir de la calificacin observada que obtuvo la persona en la
prueba. Tambin se supone que la varianza de las calificaciones observadas para un grupo de sujetos es igual a la varianza de sus calificaciones reales ms la varianza de errores no sistemticos de medicin. As, la fiabilidad de la prueba se define como la relacin de la varianza real con la varianza observada o la proporcin de la varianza observada que se explica por la varianza real. El coeficiente de fiabilidad es un ndice de confianza, por lo que no es un valor de todo o nada, sino que existen distintos tipos y grado de fiabilidad. Se supone que una puntuacin en una prueba de capacidad refleja tanto la puntuacin verdadera de quien responde la prueba en la capacidad que se est midiendo como el error. La falta de fiabilidad es el resultado de los errores en la medida que se producen por estados internos temporales, como baja motivacin o indisposicin, o condiciones externas, como un entorno incmodo o con distractores para una prueba. Gregory resalta que muy pocas medidas de las caractersticas fsicas o psicolgicas son totalmente consistentes, incluso de un momento al siguiente. Segn este autor es mejor considerar el concepto de fiabilidad como un continuo que abarca desde la consistencia mnima de una medicin a la casi perfecta repetibilidad de los resultados. As, debemos exigir una alta fiabilidad en los instrumentos de evaluacin que seleccionemos. As, los niveles de fiabilidad alta (superiores a 90) son necesarios cuando se han de tomar decisiones que afecten a individuos. Los test de fiabilidad moderada (7585) pueden ser utilizados como pruebas preliminares o de cribado. Las pruebas de fiabilidad baja (inferior a 65) han de ser rechazadas, ya que incluyen un exceso de error.
6.2. Fuentes de varianza de error
Las principales fuentes de varianza de error son:
Construccin de pruebas. En la construccin de una prueba se puede generar una fuente de varianza en el muestreo de reactivos o muestreo de contenidos. Si se comparan dos o ms pruebas que midan una misma capacidad, atributo se ver que el nmero de elementos es distinto, adems estn redactados de forma
diferente. Un desafo en la elaboracin de una prueba es maximizar la proporcin de varianza total que es invarianza verdadera y minimizar la proporcin de la varianza total que es varianza de error. En una prueba bien diseada, el error de medicin proveniente de la muestra de reactivos ser mnimo y una prueba siempre constituye una muestra y nunca la totalidad del conocimiento o conducta de una persona.
Administracin de pruebas. Durante la aplicacin de la prueba pueden desencadenarse fuentes de varianza de error que pueden incluir y modificar la atencin y motivacin del sujeto evaluado. Algunas de estas fuentes pueden estar relacionadas con el ambiente de aplicacin, otras son las relativas al sujeto evaluado. El evaluador tambin puede contribuir a las fuentes de variacin, con una incorrecta apariencia fsica, un comportamiento y profesionalidad inadecuados Por lo tanto un test puede ser fiable desde el punto de vista psicomtrico, pero fallar por elementos ajenos a l.
Calificacin e interpretacin de las pruebas. La correccin de las pruebas por ordenador o mediante lectura ptica elimina la varianza de error al no cometer fallos en la calificacin, y por consiguiente, en su interpretacin. Sin embargo, todava son muchas las pruebas que el psiclogo debe corregir manualmente, pudiendo convertirse en una fuente de varianza de error cuando no se realiza correctamente.
As, las pruebas deben disponer de criterios de correccin lo ms objetivos posible.
6.3. Tipos de Fiabilidad
6.3.1. Coeficiente testretest o estabilidad del test Se halla al correlacionar las puntuaciones que obtiene un grupo de sujetos en la aplicacin de una prueba con las obtenidas en una segunda aplicacin . Se espera que los sujetos obtengan puntuaciones semejantes en el mismo test aplicado en dos momentos distintos. Este tipo de fiabilidad tiene en cuenta los errores de medida derivados de las
posibles diferencias de las condiciones en las que en dos ocasiones se ha aplicado la misma prueba. Pero, no refleja los errores relativos a distintas muestras de reactivos o elementos de la prueba. Si el intervalo de tiempo entre test-retest es pequeo, la fiabilidad ser mayor que si se aumenta el tiempo entre ambos pases. Suele recomendarse unos seis meses como mximo entre el primer y el segundo estudio.
6.3.2. Coeficiente de formas paralelas/alternas o de equivalencia En el clculo del coeficiente test-retest la fiabilidad aumenta cuanto menor es el tiempo que ha transcurrido entre ambos, sin embargo, esto afecta a las respuestas en el segundo pase de la prueba, pues los sujetos recordarn el contenido de la misma. Esto no sera un problema si lo recordaran de la misma forma, pero las diferencias individuales harn que unos recuerden unos elementos ms que otros, reduciendo la correlacin entre ambas aplicaciones. El coeficiente de formas paralelas o de equivalencia consiste en aplicar la segunda vez una forma paralela o alterna del test y de esta forma se evitarn dos tipos de errores: 1) los debidos a distintos reactivos y 2) los errores derivados de las dos ocasiones diferentes de aplicacin. Pero no todos los autores comparten esta opinin. Gregory indica que el coeficiente de formas alternas introduce diferencias en la muestra de reactivos, debido a que algunas personas pueden tener un mejor o peor desempeo en una forma de la prueba, dado la muestra particular de reactivos, lo que no ocurre en el coeficiente testretest porque se utilizan los mismos reactivos en ambas ocasiones. Aiken describe el procedimiento correcto. Se trata de elaborar dos formas de la misma prueba y aplicar en el primer pase de la prueba la forma A a la mitad del grupo y la forma B a la otra mitad. Y en la segunda aplicacin invertirlo. La correlacin que resulte entre las calificaciones de las dos formas se conoce como coeficiente de estabilidad y equivalencia, y segn Aiken, tiene en cuenta tanto los errores debidos a distintos momentos de aplicacin, como los distintos reactivos de la prueba.
6.3.3. Coeficiente de consistencia interna
El coeficiente de consistencia interna es ms sencillo y tiene en cuenta los errores de diferentes muestras de reactivos de una prueba, pero no refleja los errores de medicin debidos a las diferentes condiciones o momentos de aplicacin . Puede calcularse a travs de distintos mtodos estadsticos: mtodo de divisin por mitades, mtodo de Kunder-Richardson y coeficiente alfa de Cronbach. El coeficiente alfa es el mtodo estadstico preferido para obtener una estimacin de la fiabilidad y de la consistencia interna en una prueba.
6.3.4. Coeficiente interjueces o entre evaluadores La fiabilidad entre evaluadores es el grado de acuerdo o consistencia que existe entre dos o ms evaluadores. Segn Aiken para determinar la fiabilidad interjueces dos personas califican las respuestas de un grupo de sujetos y despus se calcula la correlacin entre los dos grupos evaluados. Otro planteamiento es hacer que varias personas califiquen las respuestas de un sujeto a la prueba, o hacer que varias personas califiquen las respuestas de varios sujetos. Este ltimo planteamiento produce un coeficiente entre clases o coeficiente de concordancia que es un coeficiente de fiabilidad entre calificadores generalizado. El clculo de fiabilidad entre intercalificadores es sencillo. Dos o ms examinadores califican de manera independiente una muestra de las pruebas y entonces se correlacionan las puntuaciones por pares de examinadores. Este tipo de fiabilidad complementa otras estimadas, pero no las sustituye.
6.4. Validez
La definicin de validez indica que una prueba es vlida al grado en que las inferencias que se realicen a partir de ella sean apropiadas, significativas y tiles. Segn Cronbach lo que se evala no es el instrumento, sino la interpretacin de los datos que se obtienen del mismo. La validez no es una propiedad del test o de la evaluacin como tal, sino ms bien el significado de las puntuaciones. Segn Aiken, una prueba puede caracterizarse por muchos tipos de validez, dependiendo de los propsitos especficos con los que se dise,
la poblacin a la que se dirige y el mtodo para determinar dicha validez. Como hemos visto, la fiabilidad puede estar influida por errores de medida no sistemticos. La validez de una prueba se puede ver afectada tanto por errores no sistemticos como por errores sistemticos que hacen referencia a que, a pesar de que una prueba se desarrolla con la finalidad de evaluar un constructo determinado, es muy difcil valorar un rasgo aislado sin la influencia de otros, por lo que el error sistemtico de medicin surge cuando la prueba mide de manera consistente alguna otra variable que no es el rasgo para el cual se cre. Por ello una prueba puede ser fiable sin ser vlida, pero no puede ser vlida sin ser fiable. Silva hace algunas matizaciones sobre la validez:
La validez est relacionada con las inferencias que se hagan a partir de las puntuaciones obtenidas mediante un instrumento en determinadas circunstancias.
No se valida el instrumento, sino las interpretaciones que se hagan a partir de sus puntuaciones.
La validez es algo estimado, algo que se infiere a partir de un conjunto de informaciones y no algo que se reduce a un coeficiente o coeficientes particulares.
No debe hablarse de tipos o clases de validez, sino de tipos o clases de evidencia. El concepto de validez es esencialmente unitario.
Aiken y Cohen y Swerdlik indican que los mtodos mediante los cuales pueden evaluarse la validez son:

El anlisis del contenido. La relacin de las puntuaciones obtenidas en la prueba con las puntuaciones en base a un criterio de inters u otras medidas.
El anlisis general de las caractersticas psicolgicas o constructos particulares que mide la prueba.
Estos tres enfoques no son mutuamente excluyentes para la evaluacin de la validez, cada uno contribuye a un juicio de la validez de prueba y proporciona un panorama unificado de la validez de la prueba.
6.4.1. Validez de contenido
Representa la comprobacin de que el contenido de la tcnica en cuestin comprenda una muestra representativa del universo posible de conductas que se pretende evaluar con ella. Se relaciona con el enfoque referido a criterios y considera a un test como una muestra de un conjunto definido de conductas. Una definicin que clarifica el propsito de validez de contenido es la que ofrece Lennon: la validez de contenido se refiere a las respuestas del sujeto ms que a las preguntas mismas del test, con el fin de enfatizar el hecho de que la estimacin de la validez de contenido debe tomar en cuenta no slo el contenido de las respuestas, sino tambin el proceso que presumiblemente emplea el sujeto para llegar a su respuesta. El anlisis de validez de contenido se aplica ms frecuentemente en pruebas de conocimiento o rendimiento, y se compara con el contenido de la prueba con los objetivos de los conocimientos o rendimientos escolares del nivel escolar que se est midiendo. La validez de contenido mejora cuando se planifica el test cuidadosamente, y requiere una visin clara de lo que ste pretende medir y debe cubrir los siguientes aspectos: un rango apropiado de tareas, estmulos y/o situaciones, la clase de respuesta que el observador registra y las instrucciones que informan al examinado de lo que tiene que hacer. Tambin se tiene en cuenta en las medidas de aptitud, inters y personalidad.
6.4.2. Validez criterial La validez criterial, tambin llamada predictiva, expresa el grado en que las puntuaciones en una variable, usualmente un predictor, pueden utilizarse para inferir el rendimiento en una variable diferente y operacionalmente independiente llamada criterio. La variable que debe ser predicha es la criterio, p. ej, el rendimiento acadmico, y el predictor, aquella a travs de la cual se predice, p. ej, un test de inteligencia, y la validez criterial expresara la convergencia de indicadores. Dos tipos de evidencia se incluyen bajo la denominacin validez con base a criterios. Una es la validez concurrente, que es la forma de validez relacionada con un criterio que es un ndice del grado en que una puntuacin de una prueba se relaciona con alguna medida criterio obtenida al mismo tiempo. Ej: el diagnstico psiquitrico actual de los
pacientes sera una medida apropiada de criterio para proporcionar evidencia de validez para una prueba psicodiagnstica de papel y lpiz. Es frecuente que las correlaciones entre una nueva prueba y otras existentes se citen como evidencia de validez concurrente. Para realizar este tipo de validez, las pruebas antiguas deben satisfacer dos condiciones: la primera es que las pruebas criterio deben haberse validado a travs de correlaciones con datos conductuales apropiados que no se hayan obtenido con pruebas. En segundo lugar, el instrumento a validar debe medir el mismo constructo que las pruebas criterio. La otra es la validez predictiva, que es la forma de validez relacionada con un criterio que es un ndice del grado en que una puntuacin de una prueba predice alguna medida criterio. En este tipo de validez las medidas de criterio se obtienen en el futuro. Ej: las calificaciones universitarias pronosticadas a partir de un examen de ingreso. Existen una serie de factores que pueden afectar a la validez criterial:
o
Diferencias de grupo: las variables moderadoras de edad, sexo y rasgos de personalidad pueden afectar la correlacin entre una prueba y una medida de criterio. Los coeficientes de validez tienden a ser ms reducidos en grupos ms homogneos. Una prueba que representa un indicador vlido de una variable criterio particular en un grupo de sujetos debe tener validez cruzada, que comprende la aplicacin de la prueba a una segunda muestra de personas para determinar si conserva su validez en distintas muestras.
Extensin de la prueba: al igual que la fiabilidad, la validez vara en funcin de la extensin de una prueba y la heterogeneidad del grupo de personas que la presenta. Las puntuaciones obtenidas en pruebas extensas y que se apliquen a un grupo de sujetos que varen en gran medida en las caractersticas a medir tendrn varianzas mayores.
Contaminacin de criterios: a veces el criterio se distorsiona debido al mtodo particular para determinar las calificaciones de criterio. El mtodo de comparar grupos, provocar evidencias falsas para la validez de la prueba. Esta contaminacin puede controlarse a travs del anlisis a ciegas,
es decir, sin comunicar a quien realiza el diagnstico ninguna informacin sobre los sujetos parte de las calificaciones de la prueba. Pero no todos los psiclogos estn de acuerdo.
o
ndice de base: se refiere a la proporcin de personas en la poblacin que muestran la caracterstica o comportamiento de inters.
Incremento de la validez: ste se refiere a que aumenta la precisin de las predicciones y los diagnsticos cuando el instrumento se incluye en una batera de tcnicas de evaluacin, frente a las ocasiones en que se utiliza separadamente.
6.4.3. Validez de constructo La validez del constructo establece el grado en el cual un instrumento mide o guarda relacin con un determinado rasgo o constructo hipottico. Algunos autores afirman que toda medicin debera referirse a constructos, debido a que integra las consideraciones criteriales y de contenido. Muchos autores consideran la validez de constructo como unificador de los tipos de evidencia de validez. Silva propone 10 caractersticas ms importantes de la validez de constructo, algunas de las cuales agrupamos para poder diferenciar los conceptos de constructo y validez de constructo.
Constructo
o o o
es sinnimo de concepto cientfico no debe ser considerado como algo esttico tanto los constructos como la validacin de constructo, estn indisolublemente ligados a la evidencia emprica, pero un constructo no se reduce a sus referentes empricos, conserva siempre un excedente de significacin.
Posee un estatus fundamentalmente epistemolgico, es un medio de conocimiento.
No se propone slo con fines especulativos, sino con el fin de potenciar la prediccin.
Su valor se juzga por su utilidad.
Validez de constructo
o
es sinnimo de validez conceptual o grado de adecuacin de las inferencias conceptuales tericas que se hacen a partir de los datos de evaluacin.
o o o
Se refiere tanto al concepto como al mtodo implicado. Engloba en si los conceptos de validez criterial y de validez de contenido. No existe lmite en cuanto a las estrategias, procedimientos, instrumentos y tipos de datos potencialmente tiles.
No se expresa slo en funcin de uno o algunos coeficientes, sino que se estima en funcin de toda la informacin acumulada en torno a las hiptesis planteadas.
Consiste esencialmente en la aplicacin del proceso de formulacin y contrastacin de hiptesis cientficas al campo de la evaluacin psicolgica.
La validez de constructo es un tipo de validez ms general, no se determina de una sola forma o por medio de una investigacin, sino que comprende un conjunto de investigaciones y procedimientos diseados para determinar si un instrumento de evaluacin que mide cierta variable cumple su cometido.
6.5. Relacin entre fiabilidad y validez: un continuo de generalizabilidad
Los criterios psicomtricos tradicionales de fiabilidad y validez no son aceptados por todos los autores conductuales, algunos piensan que son algo limitados. Con el fin de ofrecer una alternativa surge la Teora de la Generalizabilidad, que supone una
reconceptualizacin ms amplia de los conceptos de fiabilidad y validez, en la que aparece el concepto de puntuacin universo que expresa el grado de inferencia que el examinador realiza desde una muestra de datos observados a un conjunto de datos de inters procedentes de diferentes mbitos. As, los datos de un test tendrn inters por cuanto son muestras representativas del universo de datos que podran ser obtenidos. Pero hasta qu punto una observacin puede generalizarse a otras observaciones?
Silva seala que la Teora de la Generalizabilidad permite lanzar un puente conceptual entre finalidad y validez e indica que ambos se hallan sobre un continuo de generalizabilidad: la fiabilidad supone la relacin de un test consigo mismo, por lo que se refiere a la generalizabilidad consigo mismo, mientras que la validez se relaciona con otra prueba, criterio o constructo, y por tanto la generalizacin va ms all del test.
6.6. Aplicaciones de la Teora de Respuesta al tem (TRI)
La TRI ha reemplazado a la Teora Clsica de medida como marco para el desarrollo de tests, construccin de escalas Tanto en la teora clsica de los tests como en la teora de la generalizabilidad, las puntuaciones de un test son ms dependientes de la muestra que de la propia funcin analizada. La TRI trata de subsanar dos problemas. El primero hace referencia al error en la medida y asume que las puntuaciones de los sujetos en un test estarn afectadas por un error aleatorio, atribuible a diversas causas: dependientes del sujeto, del ambiente, del instrumento y del propio proceso de evaluacin. El segundo se refiere a la invarianza de las mediciones y las propiedades de los instrumentos . Los principales objetivos de la TRI son:
Bsqueda de medidas que sean independientes de las puntuaciones estndar derivadas del grupo.
La elaboracin de nuevas pruebas que analicen la invarianza de la conducta en s misma, de modo que un test represente con precisin un dominio gradual de conocimiento relativo a una nica medida.
La relacin de los dos conceptos anteriores permite un tipo de medida en la que los parmetros de tem y de persona son ambos invariantes, de tal modo que ni la eleccin de una muestra de sujetos, ni la eleccin de los tems afecte a los parmetros de dificultad del tem ni a los de la habilidad.
La agilidad en la combinatoria de tems de test, que pertenezcan a un mismo dominio de conducta, dando paso a la aplicacin de tests adaptados al sujeto, en funcin de la capacidad de las habilidades de cada individuo.
En cuanto al clculo estadstico, la TRI utiliza un modelo matemtico logstico para describir la relacin entre el nivel de habilidad del examinado y la probabilidad que ste d una respuesta correcta a un tem del test. Algunas aplicaciones de la TRI han consistido en la creacin de bancos de tems y los diseos de tests a la medida del sujeto o test adaptativos computadorizados (TAC). Los test de medida consisten en la seleccin de informatizada de los tems que puedan medir mejor la habilidad de un individuo.
7. PUNTUACIN DE LAS PRUEBAS DE EVALUACIN PSICOLGICA
7.1. Puntuaciones directas
Las puntuaciones directas son el resultado directo e inmediato que se obtiene a la hora de corregir un test. Gregory las denomina puntuacin natural, ya que es el resultado inicial de la prueba y casi siempre resulta de la suma de los puntos otorgados a los aciertos del sujeto en un test. Estas puntuaciones no tienen significado por s mismas, sino que lo adquieren cuando se comparan con algo, que puede ser un punto de referencia al criterio y/o a la norma.
7.2. Puntuaciones referidas al criterio
Una puntuacin referida al criterio, o lo que es lo mismo, al universo de conductas, se interpreta en funcin de unos logros u objetivos a cumplir, arbitrariamente definidos, y que sirven para tomar decisiones. Se trata de una medida en trminos absolutos que se refiere a un determinado grado de habilidad y a unos contenidos especficos.
Este tipo de puntuaciones nos informan acerca del dominio que tiene un individuo en una habilidad particular. Desde esta perspectiva se observan diferencias intraindividuales. Se centra en conocer aquello que el sujeto puede hacer y no en comparar con los niveles de ejecucin de otros individuos y as identifican el dominio absoluto de la persona examinada atendiendo a conductas especficas. Una de las principales aplicaciones de la evaluacin referida al criterio es instruccional, se aplica generalmente en la evaluacin educativa, y no necesita transformarse a otra puntuacin debido a que tiene sentido en s misma. Ej: cuando un sujeto ha acertado el 80% de las preguntas significa que ha adquirido el 80% de las competencias que se precisaban. Las principales caractersticas de las puntuaciones referidas al criterio son: a) los criterios de superacin de la tarea son conocidos por el profesor y el estudiante y vlidos para tomar decisiones, b) la ejecucin del individuo se contrasta con la exigencia de la tarea, c) la ejecucin provee informacin tanto de lo que el escolar domina como de lo que no, y d) la investigacin provee la determinacin de los puntos de corte en sujetos que dominan y los que no dominan la tarea. Con referencia a un criterio, y en particular las pruebas de dominio, las diferencias individuales entre los examinados en las puntuaciones totales pueden ser mnimas. Slo pueden servir en casos en los que pueden adoptarse estimaciones tradicionales. 7.3. Puntuaciones referidas a la norma
Una puntuacin referida a la norma se interpreta a partir de un grupo de referencia, es decir, se basa en la comparacin de la ejecucin de un sujeto con su grupo normativo. La mayor parte de pruebas psicolgicas se interpretan a travs de la consulta de normas. La puntuacin que obtiene el sujeto indica la posicin del mismo con respecto al grupo de referencia, y no tiene valor interpretativo propio sino que debe relacionarse con la norma que sustenta la medida. Para ello se transforma la puntuacin que obtiene el sujeto en otra posicin que indique la posicin que ocupa respecto a ese grupo. Existen tres tipos fundamentales de puntuaciones normativas. La puntuacin percentil indica el porcentaje de sujetos del grupo normativo que puntan por debajo de la puntuacin obtenida. La
puntuacin cronolgica presenta la relacin que guarda la puntuacin en el test con la edad cronolgica del sujeto. Y la puntuacin tpica seala la distancia que separa a un sujeto de la media del grupo normativo, expresando dicha distancia en unidades de desviacin tpica.
7.3.1. Puntuaciones percentiles Sirven para ordenar a los sujetos e indican el porcentaje del grupo que se deja por debajo. Ej: un sujeto con un percentil 80 significa que obtiene puntuaciones superiores al 80% de los sujetos de su grupo de referencia, o que tiene puntuaciones inferiores al 20% restante. A pesar de que son fciles de calcular, no permiten explicarlas diferencias entre percentiles ni permite comparara los percentiles obtenidos por un sujeto en distintos instrumentos de evaluacin. Se trata de puntuaciones de orden, que en ningn caso ponen de manifiesto la diferencia cuantitativa que existe entre los individuos al no operar con unidades constantes. Son muy tiles en pruebas de rendimiento tanto a nivel educativo como empresarial.
7.3.2. Puntuaciones cronolgicas Permiten interpretar la puntuacin que obtienen un sujeto en funcin de su edad . As, se emplean en poblaciones infantiles y cuando se aplican tests de inteligencia general. Son bsicamente dos. Por un lado, la edad mental, que es la puntuacin media que obtienen en una prueba el conjunto de la poblacin de esa edad. El problema es que un ao de edad mental no significa lo mismo a lo largo del desarrollo. Por otra, el cociente intelectual. Elimina el problema anterior al dividir la edad mental por la edad cronolgica y se define como la razn entre la edad mental y la edad cronolgica multiplicada por 100.
7.3.3. Puntuaciones tpicas Las puntuaciones tpicas nos indican cunto se separa el sujeto de la media del grupo de referencia, en funcin de lo que se separan los dems. La puntuacin directa que obtiene un sujeto se transforma en otra puntuacin en relacin a la media del grupo pero
tomando como unidad de medida la desviacin tpica de ese grupo. El clculo de las puntuaciones tpicas puede presentar valores decimales y valores negativos, y para salvar estos inconvenientes, suelen realizarse puntuaciones tpicas derivadas. Ej: la escala T. Existen adems las puntuaciones tpicas normalizadas que han sido creadas mediante la normalizacin de la distribucin original de las puntuaciones directas en el test.
7.4. Puntuaciones independientes de la norma
Estas puntuaciones se fundamentan en la Teora de Respuesta al tem y facilitan la idea de unidimensionalidad de la habilidad analizada. Las puntaciones obtenidas en un test no precisan ser referidas a los resultados normativos de un grupo, sino que representan, en s mismas, unos valores determinados en la dimensin de la aptitud analizada, reflejando adecuadamente el nivel de habilidad del sujeto. Tienen la ventaja de realizar un perfil individual y preciso de cada sujeto que muestre las reas fuertes y dbiles.
. f .p n . e .fl .fi fe L G=R .

Fundamentos de Psicometria

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Fundamentos de Psicometria

Uploaded by

Copyright:

Available Formats

A grandes rasgos puede decirse que el objetivo de la Psicologa cientfica es el estudio de la conducta humana y las leyes que la rigen.

Donde X es la puntuacin emprica obtenida, V la puntuacin verdadera y e el error de medida.

Modelo Lineal Clsico

Teora de Respuesta a los Items

Conceptos bsicos de la TRI

Curvas caractersticas de cinco tems con diferentes parmetros

Funcin de Informacin del test

Funciones de Informacin de cinco tems y del Test formado por ellos

El uso de los test

LOS INSTRUMENTOS DE EVALUACIN PSICOLGICA

QU ES UN INSTRUMENTO DE EVALUACIN PSICOLGICA?

CLASIFICACIN DE LOS INSTRUMENTOS DE EVALUACIN PSICOLGICA

Sin embargo, otros autores presentan la siguiente clasificacin de las tcnicas:

QUINES PUEDEN APLICAR UN INSTRUMENTO DE EVALUACIN PSICOLGICA?

aspectos psicolgicos, estadsticos, sobre diferencias individuales, personalidad, etc.

ELECCIN DEL INSTRUMENTO DE EVALUACIN PSICOLGICA

5. MANUALES DE APLICACIN PARA INSTRUMENTOS DE EVALUACIN PSICOLGICA

6. CRITERIOS DE CALIDAD EXIGIBLES A LOS INSTRUMENTOS DE EVALUACIN PSICOLGICA

6.2. Fuentes de varianza de error

Las principales fuentes de varianza de error son:

As, las pruebas deben disponer de criterios de correccin lo ms objetivos posible.

6.3. Tipos de Fiabilidad

6.3.3. Coeficiente de consistencia interna

6.4.1. Validez de contenido

Posee un estatus fundamentalmente epistemolgico, es un medio de conocimiento.

Su valor se juzga por su utilidad.

6.5. Relacin entre fiabilidad y validez: un continuo de generalizabilidad

6.6. Aplicaciones de la Teora de Respuesta al tem (TRI)

7. PUNTUACIN DE LAS PRUEBAS DE EVALUACIN PSICOLGICA

7.1. Puntuaciones directas

7.2. Puntuaciones referidas al criterio

7.4. Puntuaciones independientes de la norma

. f .p n . e .fl .fi fe L G=R .

You might also like