Professional Documents
Culture Documents
FACULTAD DE PSICOLOGIA
MATERIALES DE INFORMÁTICA
MCP 1.0
Módulos de Cálculos
Psicométricos
©Derechos Reservados
Universidad Peruana Cayetano Heredia
Facultad de Psicología
PRESENTACION DE LA SERIE
INTRODUCCIÓN...............................................................................................7
PRIMERA PARTE: ASPECTOS TEORICOS
1. CONFIABILIDAD......................................................................................67
1.1 ESTIMACIÓN DE PUNTUACIONES VERDADERAS..................67
1.2 CONFIABILIDAD Y LONGITUD....................................................69
1.3 CONFIABILIDAD Y VARIABILIDAD............................................70
1.4 CONFIABILIDAD DE LAS DIFERENCIAS....................................71
4. BAREMACION...........................................................................................83
6. REFERENCIAS...........................................................................................91
INTRODUCCION
7
1. Confiabilidad
8
c) Confiabilidad y longitud del tests: La confiabilidad de un tests depende
también de la cantidad de ítems que lo componen. Si se aumentan ítems
paralelos a los ya existentes, es posible aumentar la confiabilidad del tests.
a) Una muestra: permite contrastar la hipótesis nula referida a que alpha tome
determinado valor en la población.
9
3. Validez Predictiva
10
4. Baremación
11
12
PRIMERA PARTE
ASPECTOS TEORICOS
13
14
1. LA PSICOMETRÍA COMO PROCESO
15
puntaje verdadero de dicha persona. Cómo es imposible realizar lo anterior,
hacemos inferencias a partir del puntaje observado, asumiendo que este resulta
un buen estimador del puntaje verdadero. El grado en el cual el puntaje
observado refleja al puntaje verdadero se denomina confiabilidad (Muñiz,
1996).
16
Ilustración 1: El Proceso Psicométrico, tomado de Suen (1990)
Validez
Confiabilidad
Escalamiento
Todo este proceso puede verse dentro del marco general de la investigación
psicológica, con lo cual nos queremos referir a la investigación psicométrica,
que incluye la adaptación de tests extranjeros y la obtención de nuevos índices
de confiabilidad y validez, además de la confección de las normas o baremos.
Se incluye en este rubro también la construcción de nuevas pruebas
psicológicas (Alarcón, 1996, 2000)
17
La teoría del muestreo aleatorio ve la conexión del puntaje observado con el
puntaje verdadero como un problema de generalización desde una muestra a
una población más grande o universo. Este enfoque consta de 2 modelos. El
primero de ellos es la Teoría Clásica de los Tests que plantea una relación de
tipo lineal entre el puntaje observado, el puntaje verdadero y el error en la
medición. El segundo modelo es la Teoría de la Generalizabilidad, propuesta
por Cronbach y colaboradores (Suen, 1990). Muñiz (1996a) afirma que se
puede considerar a esta teoría cómo una extensión del modelo clásico que
utiliza el análisis de varianza para analizar las fuentes de error de un modo
sistemático y desglosado.
18
A pesar del desarrollo de modelos más sofisticados, la teoría clásica sigue
siendo muy popular en nuestros días y ampliamente usada para obtener
evidencias de la calidad psicométrica de muchos test que se emplean en la
actualidad.
La Teoría Clásica de los Tests (TCT) se conoce también como la Teoría Clásica
de la Confiabilidad. Esto se debe a que su tarea fundamental es estimar la
confiabilidad de los puntajes observados en un test. Es decir se ocupa de
estimar la fuerza de la relación entre el puntaje observado y el puntaje
verdadero.
19
temperatura, ruidos, etc. Sin embargo sea cual fuera la fuente del error, la TCT
lo incluye en el término genérico e y lo asume aleatorio, con una media de 0.
X V e
1. V E ( X )
2. ρ v, e 0
3. ρ e j , ek 0
20
decir, el tamaño del error no se encuentra sistemáticamente asociado al tamaño
de las puntuaciones verdaderas.
Con respecto al tercer supuesto, este afirma que los errores de medida de una
persona en un test determinado no se encuentran correlacionados con sus
errores de medida en otro test. Esto implica que si se aplican correctamente los
test, los errores serán aleatorios en cada situación.
2.1 LA CONFIABILIDAD
Cerdá (1984) afirma que un test es fiable “cuando al aplicarlo dos o más veces
a la misma persona o grupo, en circunstancias similares, obtenemos resultados
análogos.” (p. 97)
Aiken (1996) nos dice: “Si en ausencia de cualquier cambio permanente en una
persona debido al crecimiento, aprendizaje, enfermedad o accidente), las
calificaciones de las pruebas varían en gran medida de tiempo en tiempo o en
distintas situaciones, es probable que la prueba no sea confiable y no pueda
utilizarse para explicar o realizar predicciones sobre el comportamiento de la
persona.” (p. 87)
21
(Muñiz, 1996a, 1996b). En esta misma línea, podemos citar a Suen (1990): “La
confiabilidad es la fuerza de la relación entre el puntaje observado y el puntaje
verdadero. Esto puede ser expresado como la correlación obtenida mediante el
coeficiente de Pearson entre el puntaje observado y el puntaje verdadero; eso es
xt. Esta correlación es denominada índice de confiabilidad.” (p. 28)
Para que dos test sean paralelos, tienen que cumplir, tres supuestos básicos, que
son: tienen la misma desviación estándar; se correlacionan igual con una serie
de puntajes verdaderos; toda su varianza que no es explicable por puntajes
verdaderos es puro error aleatorio. Además según este mismo autor, hay otros
tres postulados que sigue al tercer supuesto. En primer lugar los errores
aleatorios se equilibran entre sí por definición y se espera que la media de los
puntajes de error en cada prueba sea cero. En segundo lugar, el error en una
prueba no está correlacionado con el error de la otra. Y en tercer y último lugar,
22
los errores en ambas pruebas no correlacionan con los puntajes verdaderos,
pues estos son producto del azar y no deben presentar covarianzas con nada
excepto el azar.
Suen (1990) señala que si dos test, A y B, han sido diseñados para medir el
mismo dominio y los dos se aplican al mismo grupo de personas, el puntaje
verdadero para cada persona será el mismo en cada uno de dichos tests. Para
ello se hacen necesarias dos condiciones básicas: los puntajes en los tests A y B
tienen varianzas homogéneas y los tests A y B son mutuamente independientes,
es decir, la cantidad de error en el test A no guarda relación con la cantidad del
error en el test B. Nunnally y Bernstein (1995) resumen lo anterior al afirmar
que en el modelo de los tests paralelos se asume que dos o más pruebas
producen puntajes verdaderos iguales pero que generan error de medición
aleatorio independiente.
V2
AB
V2
23
En la fórmula anterior se expresa la proporción que la varianza verdadera es de
la varianza empírica. Cuanto mayor sea esta proporción, menos corresponderá a
los errores, resultando el coeficiente de fiabilidad en la expresión de la cantidad
de error en las medidas, o si se quiere que proporción de la varianza empírica es
la varianza verdadera.
Suen (1990) señala que dentro de la TCT, una vez que se ha estimado 2xt, la
confiabilidad, la varianza de error y el error estándar de medición pueden ser
estimados. Sin embargo esto depende de la capacidad de dos tests diferentes
para lograr los supuestos referidos a ser paralelos.
24
Una primera posibilidad para calcular la confiabilidad de un test está en
construir deliberadamente dos versiones equivalentes o formas paralelas (por
ejemplo forma A y forma B. En principio, deben tener el mismo número de
ítems, estos deben ser de dificultad análoga, deben medir los mismo y las
instrucciones, tiempos límites de administración, ejemplos y otros aspectos de
cada uno de los tests, tienen que ser equiparables. Una manera da calcular dicha
correlación (aunque no la única) viene dada por el cociente de la covarianza
(SAB) entre el producto de la varianza de las puntuaciones en ambos test:
s AB
rxx'
s As B
SAB (A - A)(B B)
n
Los supuestos de paralelismo son aceptados puesto que ambas versiones del
test han sido construidas lo más similares posibles. Sin embargo, a pesar de
haber sido construidas lo más similares posibles, Suen (1990) afirma que ello
no garantiza que los supuestos de paralelismo se cumplan, por lo cual el
coeficiente r de Pearson entre ambas formas del test se conoce como
coeficiente de equivalencia. El problema de la forma paralela es que es costosa
y con frecuencia muy difícil de elaborar (Cerdá, 1984; Aiken, 1996)
25
Un método sencillo para obtener dos tests paralelos es usar el mismo test en el
diseño denominado test - retest. Esto implica aplicar el test a un grupo, en un
momento en el tiempo, y luego de un lapso temporal volver a aplicar dicho test
en el mismo grupo, calculando la correlación de las puntuaciones entre ambas
aplicaciones como se indicó anteriormente.
Hay que tomar en cuenta el efecto del aprendizaje, pues algunos tests al
haberlos pasado una vez, los aprendizajes así adquiridos pueden afectar en
forma considerable los resultados en la segunda aplicación. Por ejemplo,
supongamos que se ha aplicado una prueba de vocabulario a un conjunto de
alumnos, y varios de ellos, luego de terminada la prueba, van a buscar los
significados en un diccionario. Si les volvemos a aplicar la prueba, estos
efectos estarán afectando la confiabilidad, pues es probable que reduzca la
varianza de las puntuaciones y con ello la correlación entre ambas aplicaciones.
26
A partir de lo anterior nos enfrentamos al problema de determinar cuál es el
tiempo adecuado que debe transcurrir entre cada aplicación. Aunque no hay
reglas específicas respecto a dicho lapso, generalmente suele ser mayor a 1
mes. Lo importante es tener claro cual es la variable que nos interesa medir y
como puede verse afectada por el aprendizaje y/o la memoria, indicando
claramente en el manual de la prueba o reporte de investigación, el lapso
considerado entre ambas aplicaciones. Por ejemplo puede redactarse de la
siguiente: “La confiabilidad se obtuvo mediante el método test – retest, con un
lapso de 3 meses entre ambas aplicaciones. El coeficiente calculado fue de
0.84.”
Una alternativa que busca controlar los efectos del aprendizaje implica
construir dos formas paralelas y combinarlas con el método de test retest. Es
decir, se aplica en un primer momento al grupo la forma A del tests, y en el
segundo momento, se aplica la forma B.
El problema con este método es que sigue sujeto a los inconvenientes que
presentan las formas paralelas.
27
Una buena alternativa para el problema del paralelismo de los tests, consiste en
construir un solo test, pero dividirlo en dos mitades y tratar los puntajes de cada
una de esas mitades como si fueran los puntajes obtenidos por medio de dos
versiones equivalentes del mismo test. El coeficiente r de Pearson obtenido
entre las dos mitades se conoce como Confiabilidad Por Mitades es una
expresión del grado en el que covarían las dos mitades de un test (Muñiz
(1996b)
Se considera a una sola prueba como consistente de dos partes, cada una de las
cuales mide lo mismo es decir, se les trata como formas paralelas. Para ello una
previa condición a la aplicación de este método es que las dos partes en que
vayamos a dividir el test sean verdaderamente equivalentes. Por ejemplo, en
las pruebas de ejecución máxima los ítems suelen estar ordenados según su
índice de dificultad de forma creciente. Por lo tanto, el dividir una prueba en
una primera parte formada por los ítems del 1 al 10 y otra con los ítems del 11
al 20, produce dos mitades que rompen el supuesto de la dificultad análoga de
las formas paralelas.
28
2r
rtotal
1 r
La pregunta que queda abierta es ¿cuál de dichos coeficientes resulta ser el más
adecuado? Para tratar de solucionar ese problema se asume que el promedio de
los coeficientes r de Pearson obtenidos entre las diferentes formas de dividir un
test en dos mitades es el mejor estimador de2xt , desarrollándose las fórmulas
de Kuder – Richardson y la de Cronbach.
29
k
k
p 1-p
i i
r 1 i 1
k - 1 s2
k x k - x
r 1
k - 1 ks 2
Cómo lo señala Suen (1990), las fórmulas anteriores son empleadas sobretodo
en la medición de habilidades u otras características cognitivas.
30
k
2
k
si
1 i 1
k - 1
2
sx
31
2.1.5.1 UN SOLO COEFICIENTE
Muñiz (1996a) indica que una vez que se ha calculado el valor del coeficiente
en una muestra, se debe considerar si a determinado nivel de confianza, el valor
obtenido es compatible con la hipótesis acerca que tenga determinado valor
en la población, siendo habitual preguntarse si el valor obtenido en la muestra
resulta estadísticamente significativo. Para ello, indica que en Kristof en 1963 y
Feldt en 1965 han propuesto el siguiente estadístico de contraste para la
hipótesis nula referida a que alpha tenga cierto valor en la población:
1
F
1'
32
Otra situación con la cual podemos enfrentarnos en la investigación
psicométrica está referida a si una prueba aplicada a dos muestras
independientes, resulta ser más confiable para uno de los grupos frente a otro.
Por ejemplo, podemos preguntarnos si una prueba de Inteligencia Espacial tiene
distinta confiabilidad entre los hombres y las mujeres.
Para ello, Feldt ha propuesto en 1969 (Muñiz, 1996a) la razón w, que permite
contrastar la existencia de diferencias estadísticamente significativas entre dos
coeficientes alpha, obtenidos en muestras independientes.
Una situación similar a la anterior es cuando aplicamos dos tests que miden el
mismo constructo en una sola muestra, y tratamos de identificar cual de los dos
resulta ser más confiable.
ambos tests
33
2.1.6 FACTORES QUE AFECTAN LA CONFIABILIDAD
Al hablar de la longitud del test nos estamos refiriendo al número de ítems que
lo componen. De acuerdo a la fórmula de Spearman Brown, al aumentar en
número de ítems, también aumenta la confiabilidad. Pero esto no quiere decir
que el agregar ítems a diestra y siniestra va a hacer que nuestra prueba sea más
confiable. Sólo aquellos ítems que muestren buenas propiedades psicométricas
(adecuada dificultad, discriminación y ausencia de sesgo) podrán contribuir al
incremento de la confiabilidad; es decir, tiene que ser ítems paralelos a los ya
existentes.
Una pregunta que podemos hacernos muchas veces es ¿en cuanto se debe
aumentar el test original para obtener una confiabilidad deseada?. La respuesta
está dada por una simple conversión matemática de la fórmula anterior,
quedando de la siguiente manera:
ρ'xx' (1 ρ xx' )
n .
ρ xx' (1 ρ'xx' )
34
2.1.6.2 CONFIABILIDAD Y VARIABILIDAD
35
x2 xx ' z2 zz ' 2 x z xz 2x : varianza en el test “x”
dd '
x2 z2 2 x z xz xx’ : confiabilidad del test “x”
2z : varianza del test “z”
zz’ : confiabilidad del test “z”
xz : correlación de puntajes tests “x”
y “z”
2.2 VALIDEZ
36
Mientras la confiabilidad puede ser representada de manera numérica, la
validez no siempre puede ser adecuadamente recogida por un índice numérico.
La validez del uso particular del puntaje en un test es respaldada por la
acumulación de datos empíricos, estadísticos, teóricos y evidencia conceptual.
Así, no existe un único coeficiente de validez para un determinado
procedimiento de medición. Varios estadísticos empleados para determinar la
validez de una prueba son descriptores numéricos de la fuerza de una entre
varias piezas de evidencia empírica respecto a la validez. Al final la validez es
la adecuación del uso particular de los puntajes de un test para realizar
inferencias respecto a un constructo y que la validación de un test que refiere al
proceso mediante el cual se acumula evidencia para respaldar el uso
determinado de los puntajes observados.
Muñiz (1996a) define a este tipo de validez como “la necesidad de garantizar
que el test constituye una muestra adecuada y representativa de los contenidos
que se pretende evaluar con él.” (p. 119). Aiken (1996) la define cómo la
medida en la cual los ítems de la prueba representan un área o universo
completo de habilidades, comprensiones y otros comportamientos que se
supone la prueba debe medir.
37
Desde la TCT los ítems en un test supuestamente constituyen una muestra
representativa de todos los ítems que se pueden emplear para medir el
constructo de interés. Si este supuesto se cumple, entonces se podrá decir que la
prueba tiene validez de contenido, quedando esta definida como la
representatividad de los ítems empleados en un test para medir un constructo
particular.
Muñiz (1996a) señala que la práctica más usual para lograr este tipo de validez
consiste en enumerar todas las áreas de contenido que se consideren
importantes o imprescindibles y luego asegurarse que la prueba contenga ítems
que hagan referencia a cada una de ellas en una proporción adecuada.
38
Para Aiken (1996), la validez de contenido es sobretodo importante en las
pruebas de aprovechamiento, y se basa en el grado que la prueba representa los
objetivos de la enseñanza. Sin embargo creemos que si bien en las situaciones
señaladas por Aiken, la validez de contenido cobra mayor relevancia, estamos
de acuerdo con Hernández, Fernández y Baptista (1997) quienes señalan que
todo instrumento de medición debe contener representados a todos los ítems del
dominio del contenido de las variables a medir.
S
V
(n(c 1))
39
S: sumatoria de si
si: valor asignado por el juez i
n: número de jueces
c: número de valores en la escala de valoración
Jueces Acuerdos V p
3 0.60
5 4 0.80
5 1.00 .032
4 0.67
6 5 0.83
6 1.00 .016
5 0.71
7 6 0.86
7 1.00 .008
6 0.75
8 7 0.88 .035
8 1.00 .004
7 0.77
9 8 0.89 .020
9 1.00 .002
8 0.80 .049
10 9 0.90 .001
10 1.00 .001
40
Muñiz (1996a) señala que suele incluirse como una submodalidad de validez de
contenido a la validez aparente. Esta se define como la necesidad que el test de
la impresión a los que se le aplica, que efectivamente es adecuado, tiene sentido
para medir lo que se pretende. Esta es la manera mas informal de obtener
validez en una prueba y es generalmente considerada inaceptable por si misma,
a menos que se use en combinación con otras formas más fuertes de garantizar
la validez del test.
Uno de los usos más frecuentes de los tests está relacionado con la predicción a
partir de los puntajes observados, de alguna variable o criterio de interés.
(Muñiz, 1996a). Así se define la validez predictiva como el grado de eficacia
con el cual se puede predecir una variable de interés o criterio a partir de las
puntuaciones en un test determinado.
41
Por su parte, Cerdá (1984) la define como la amplitud con la que la varianza de
un test utilizado con fines predictivos, correlaciona con la varianza de una
futura conducta.
Cuando el puntaje del test y el del criterio se toman al mismo tiempo, se habla
de validez concurrente. Cerdá (1984) la define cómo el grado de correlación
42
que existe entre la varianza de un test y la varianza de un criterio tomando
ambos al mismo tiempo. Se usa cada vez que se aplica una prueba a personas
en distintas categorías, con el objetivo de determinar si las calificaciones
promedio de distintos tipos de personas son diferentes de manera significativa.
Este tipo de validez es más importante cuando se utiliza un test para la
descripción y el diagnóstico de una conducta.
Por este motivo Spearman ha propuesto en 1904 (Muñiz 1996b) una fórmula de
atenuación que permite hacer una estimación de cual sería la validez predictica,
si tanto el test como el criterio estarían libres de errores de medición. Dicha
fórmula se presenta a continuación:
rxy
ρ VxVy
rxx' ryy' ρ VxVy rxy
rxx'
43
A partir de lo anterior se puede señalar que el índice de validez aumenta al
aumentar la fiabilidad del test y/o del criterio, según se consigna en la siguiente
fórmula:
rxy rxx' n ryy'n n: hace referencia a los nuevos
ρ xy
rxx' ryy' coeficientes de confiabilidad
ρ xy n
ρ xy'
1 (n - 1)ρ xx'
44
calculado, y al ser el índice de validez una correlación, se encuentra afectada
por la variabilidad.
Esta es una situación muy común que ocurre en todo tipo de selección, el
coeficiente de correlación calculado en una muestra homogénea, es decir
correlacionando las puntuaciones de las personas seleccionadas con el criterio,
resulta infraestimado. Si se trata de obtener un índice de validez, este debería
ser calculado en base a la muestra total de postulantes (muestra heterogénea).
Suen (1990) señala que a pesar que la validez de contenido y la validez referida
al criterio (validez predictiva y validez concurrente) proporcionan una
evidencia importante respecto al uso apropiados del puntaje observado en un
test, ninguno de esos tipos de validez provee evidencia directa para realizar el
salto inferencial desde los puntajes del test al constructo que se pretende medir.
45
particular. Paz (1996) señala que la validación de un test implica la obtención
de pruebas a favor de la existencia del constructo psicológico de interés, así
como la demostración que el test es adecuado para medir dicho constructo.
Un test estará ligado al sistema de constructos dentro del que fue construido; es
este tipo de validez el que nos indicará el grado en que el instrumento de
evaluación es una medida adecuada del constructo y hasta qué punto las
hipótesis derivadas de él pueden confirmarse mediante la utilización del test.
46
4. Correlaciones de la prueba con otras pruebas y variables con que se espera
que la prueba tenga cierta relación y análisis de factores de estas
correlaciones
5. Método experimental: pre test, pos test.
6. Interrogar con detenimiento a los sujetos o a los calificadores acerca de las
respuestas que dieron en una prueba o su escala de calificaciones, con el
objeto de revelar los procesos mentales específicos que tuvieron lugar al
decidir dar esas respuestas.
Paz (1996) afirma que es una de las técnicas más utilizadas para determinar la
validez de constructo de un test. El análisis factorial es una técnica de análisis
multivariado que permite estimar los factores que dan cuanta de un conjunto de
interrelaciones entre variables. Es pues una técnica estadística diseñada para
reducir un conjunto de variables, medidas o ítems a un grupo más pequeño de
factores comunes. Estos factores comunes resultan ser los constructos
47
subyacentes respecto a los cuales las variables, medidas o ítems se configuran
como indicadores imperfectos.
Los factores obtenidos son artificios matemáticos, que pueden ser interpretados
a la luz de una teoría psicológica a partir de las variables que lo componen. Los
factores se constituyen como constructos provisionales, que necesitan de
ulteriores confirmaciones por otros caminos a parte del análisis factorial (Paz,
1996).
48
Suen (1990) postula que para realizar un análisis factorial, inicialmente se
postula una estructura factorial unitaria. Dicho factor es identificado generando
matemáticamente una variable imaginaria que tenga la máxima carga factorial
en los ítems. La correlación entre un ítem y un factor se denomina carga
factorial.
Una vez identificados los factores por medio de las técnicas del análisis
factorial, se pueden emplear dichos factores para describir la composición
factorial del test, pudiéndose a sí caracterizar cada test en función de los
factores que más influencia ejercen en la determinación de sus puntuaciones, es
decir, se calcula su peso o saturación en uno o varios factores. (Cerdá, 1984)
49
El siguiente paso, luego de identificar los factores implica definir que ítems se
encuentran asociados con que factores. Esto se puede hacer examinando la
carga factorial de cada ítem. Aquellos ítems que supuestamente han sido
diseñados para medir la misma dimensión, deben tener altas cargas en el mismo
factor. Esto sólo se puede realizar si los factores son previamente rotados.
Dependiendo de las relaciones teóricas entre las dimensiones del constructo
representado por los factores, se realizará una rotación de tipo ortogonal o de
tipo oblicua, siendo el método más común, la rotación tipo varimax. La
ortogonal se emplea cuando las dimensiones son teóricamente independientes
una de la otra. La rotación oblicua se empleará cuando las dimensiones se
encuentran interrelacionadas, siendo el método más común, la rotación tipo
oblimin (Suen, 1990).
Cómo limitación del análisis factorial podemos señalar que este procedimiento
de validación nos proporciona el grado de saturación de un test en uno o varios
factores previamente descritos, pero ¿cuál es la validez empírica de dichos
factores? Cerdá (1984) afirma que se ha imputado a los factorialistas el haberse
mas bien limitado a aislar y describir factores en vez de utilizar esos resultados
para confirmar o rechazar hipótesis o sugerir otras nuevas.
50
Las medidas de un mismo rasgo convergen aunque se hayan hecho por distintos
métodos.
La validez discriminante implica que las correlaciones entre las medidas del
mismo constructo por distintos métodos deben ser más altas que las
correlaciones entre las medidas de rasgos distintos por el mismo método. Para
tener validez de constructo, un test debe tener validez convergente y validez
discriminante (Cerdá, 1984).
Zinser (1987) nos dice que este tipo de validez hace referencia a la posibilidad
de generalizar los resultados de un estudio a otras condiciones del medio
ambiente no incluidas en un principio. En cuanto a los tests, se refiere
específicamente a sí podemos generalizar la validez del instrumento a otras
situaciones o características de la muestra que no se hallan considerado en un
momento inicial. Se relaciona con este tipo de validez, la validez lingüística,
que implica que el lenguaje en el cual está planteado el test sea acorde al medio
en el cual se aplica.
Como lo señala Marín (1986), muy pocas pruebas consideran los factores
“émicos”, es decir los constructos o conceptos con características específicas
de un grupo cultural.
51
2.3 SIGNIFICACION DE LAS PUNTUACIONES. BAREMACIÓN
Esto da como resultado las tablas o baremos que nos permiten interpretar el
atributo medido en una persona, en función de la distribución de dicho atributo
dentro de un grupo de referencia (que comparte algunas similitudes entre si).
2.3.1 PERCENTILES
52
Los inconvenientes son, falta de unidad constante que impide realizar
determinadas operaciones (sumar, restar,...). Sólo podemos hacernos una idea
clara del orden en que se encuentran las personas en su grupo, pero no de la
cuantía o magnitud de las diferencias.
xx
Z
s
Las puntuaciones Z se interpretan como las unidades que una persona se aparta
de la media de su grupo, que se toma como origen. Si una persona tiene una z =
1 quiere decir que se aparta de la media en exactamente una desviación
estándar. Además el signo nos permite saber si la puntuación de la persona está
sobre la media (valores positivos) o debajo de la media (valores negativos).
53
tanto los decimales como los signos negativos, las puntuaciones típicas son
transformadas linealmente:
ZD = a + bZ,
a b
Puntajes T 50 10
CI WAIS 100 15
CI Stanford -Binet 100 16
54
- Estaninos o eneatipos: escala que divide la serie en nueve rangos. Su media
es 5 y su desviación típica es 2.
- Escala de pentas: divide a la serie en cinco grandes unidades con media de
3 y desviación típica de 1.
55
quien diferencia entre pruebas de ejecución máxima y pruebas de ejecución
típica. En las primeras, la persona debe tratar de obtener la mejor calificación
que pueda, y se refieren a las pruebas de rendimiento y de aptitudes. En las
segundas nos interesa el comportamiento habitual de la persona, es decir, se
vinculan a la medición de diversos rasgos de la personalidad.
Una prueba psicométrica debe ser construida sobre la base de un plan formal y
un cronograma de trabajo, lo cual tiene como ventajas el proporcionar una idea
clara de lo que se va a hacer y como va a hacerse, además de facilitar la
comunicación entre todas las personas que participan en la construcción del
instrumento.
56
Basándonos fundamentalmente en el modelo propuesto por Thorndike (1989) y
considerando los aportes de otros autores, los componentes de un plan
incluyen:
57
a) Medición de un constructo teórico : se busca medir un rasgo a
partir de las definiciones surgidas de una teoría acerca del
atributo. Se pone énfasis en la validez de contructo.
58
3. Indicación de las restricciones del instrumento. Entre las restricciones
más frecuentes se incluye los límites de tiempo, la forma de aplicación
en tanto colectiva o individual (Thorndike, 1989), el medio de
procedencia (rural o urbano), la lengua materna, la presencia de
discapacidades (Prieto y Delgado, 1996), el nivel socioeconómico de
los usuarios, el nivel intelectual, y el nivel de lectura (Brown, 1980),
entre otros. Prieto y Delgado (1996) señalan que todos estos aspectos
influyen en la definición del contenido y en las características
formales de los ítems.
Thorndike (1989) señala que dicho plan suele ser más explícito cuando
se trata de una prueba de rendimiento académico, y muchas veces los
procesos se pueden basar en la taxonomía de Bloom. Esto sirve como
guía para establecer la importancia relativa de cada área de contenido,
a partir de lo cual se puede planificar cual será el número de ítems a
construirse. (Brown, 1980)
59
señalarse cuales serán los indicadores específicos, además de definirse
cual será el número aproximado de ítems para cada indicador
(Thorndike, 1989). Los constructores de este tipo de pruebas
seleccionan una serie de conductas, que según la teoría, son
representativas del constructo que se pretende evaluar (Prieto y
Delgado, 1996).
60
También se define en esta etapa si la prueba contará de una hoja de
respuestas a parte, o será respondida en el mismo cuadernillo que
contiene los ítems – estímulo; además de establecer la forma de
calificación, que puede ser el conteo de las respuestas correctas o la
inclusión de alguna penalización por los errores cometidos
(Thorndike, 1989).
61
latente y quienes puntúan bajo en dicho atributo (Nunnaly, 1991;
Thorndike, 1989).
62
9. Especificación de los análisis que deban llevarse a cabo para evaluar la
confiabilidad y validez de la prueba. Una vez que se han determinado
los ítems que quedarán en la versión final de la prueba, se deben
definir los procedimientos estadísticos con los cuales se obtendrán la
información psicométrica básica de la prueba
- Ficha Técnica
- Indicación de los usos de la prueba.
- Marco Teórico
- Instrucciones completas para aplicar la prueba.
- Datos sobre la confiabilidad y validez de la prueba.
- Instrucciones sobre la interpretación de los resultados.
- Tablas de normas o baremos.
- Bibliografía
63
64
SEGUNDA PARTE
65
66
3. CONFIABILIDAD
Supongamos que hemos aplicado una prueba de Ansiedad ante los Exámenes,
cuya media es 44.74, su desviación estándar 8.94 y que además la confiabilidad
de la prueba es de 0.86.
67
Ilustración 2: Estimación de Puntuaciones Verdaderas, Resultados
68
3.2 CONFIABILIDAD Y LONGITUD
Como vemos, el nuevo test, de 45 ítems, implica un aumento de 1.29 veces con
respecto a la versión original de 35 ítems. Este aumento del número de ítems en
1.29 veces, produce un aumento de la confiabilidad de 0.72 a 0.77.
Por otro lado, podemos preguntarnos cuántos ítems deben agregarse a una
prueba ya dada a fin de tener una confiabilidad determinada.
69
Por ejemplo, si hemos construido una prueba pata medir las “Actitudes frente a
las Matemáticas”, formada por 18 ítems, cuya confiabilidad es de 0.67, y
nosotros deseamos una confiabilidad de 0.75, ¿cuantos ítems debemos
aumentar?
70
personas, obteniendo un coeficiente de 0.52. Además sabemos que los puntajes
de la prueba tienen una desviación estándar de 10.34, en el grupo de postulantes
y de 4.67 en el grupo de seleccionados, ¿cuál sería la confiabilidad general de
la prueba?
Si queremos saber qué tan confiables son las diferencias entre los puntajes
obtenidos en dos pruebas, podemos utilizar este módulo.
Por ejemplo, si queremos ver qué tan confiables son las diferencias entre los
puntajes de una prueba de Lenguaje y otra de Ciencias, sólo debemos ingresar
los datos referidos a la desviación estandar en cada prueba, la confiabilidad de
las mismas, y el coeficiente de correlación entre ambas:
71
Ilustración 6: Confiabilidad de las Diferencias
72
4.1 UN SOLO COEFICIENTE
Nos permite contrastar el valor del alpha obtenido en la muestra con un valor
en la población o valor teórico. Además nos da el intervalo de confianza en la
población para nuestro alpha, al nivel especificado (por ejemplo al 99%).
73
Según nuestros resultados hemos obtenido un valor F 399,19511 = 0.91 que tiene
asociado un valor p = 0.099. Además, observamos un intervalo de confianza al
95% para el alpha calculado de 0.748 a 0.810. Todos estos resultados nos llevan
a aceptar la hipótesis nula y concluir que nuestro alpha calculado no alcanza un
nivel de significancia estadística que nos permita suponer que la confiabilidad
de nuestra prueba en la población es menor que 0.80.
74
Ilustración 8: Contraste para dos grupos independientes
Como vemos, hemos obtenido un valor W179,219 = 1.23 que tiene asociado un
valor p = 0.143. Estos resultados nos llevan a aceptar la hipótesis nula
concluyendo que no existen diferencias estadísticamente significativas entre la
confiabilidad de la prueba para los varones y las mujeres.
Con este módulo podemos analizar las diferencias entre los coeficientes alpha
calculados en una misma muestra que para efectos es considerada como dos
grupos independientes. Esto puede ocurrir cuando se aplica la misma prueba en
dos momentos distintos a la misma muestra o cuando se aplican dos pruebas
similares a la misma muestra.
75
H0: alpha de la prueba 1 alpha de la prueba 2
H1: alpha de la prueba 1 alpha de la prueba 2
Nuestro resultado muestra un t248 = 2.30, con un valor p = 0.011, que nos lleva a
rechazar la hipótesis nula, concluyendo que el alpha del primer test es mayor
que el del segundo test.
Supongamos que hemos aplicado una prueba de “Aptitud Motora Fina (AMF)”
para seleccionar a un conjunto de trabajadores en una planta de ensamblaje de
76
relojes. De la muestra total (200 personas) que se presentan al puesto, se calcula
una d.s. de 13.45.
Muchas veces nos puede interesar si un nuevo test resulta ser mejor predictor
que otro test que ya se venía aplicando con fines de selección. Para saber si este
77
nuevo instrumentos tiene un mejor coeficiente de validez, podemos usar este
módulo.
78
5.3 VALIDEZ Y LONGITUD
79
También podemos preguntarnos en cuantas veces debe aumentar una prueba a
fin de alcanzar un coeficiente de validez específico. Si tenemos una prueba
conformada por 25 ítems, cuya confiabilidad es de 0.75, y su validez de 0.60,
¿en cuanto debemos aumentar nuestra prueba para lograr un coeficiente de
validez de 0.65?.
Luego de introducir todos los datos vemos que debemos aumentar la prueba
2.45 veces, es decir nuestra nueva prueba tendrá 62 ítems. Es importante
considerar que en algunas situaciones, por cuestiones de la formula empleada y
las relaciones entre validez, confiabilidad y longitud, el programa nos dará
como respuesta “Límite”, implicando con ello que no es posible alcanzar el
coeficiente de validez deseado mediante el aumento del número de ítems.
80
Estos módulos nos permiten apreciar cómo cambia un índice de validez, al
cambiar la confiabilidad del predictor (prueba psicológica) o la del criterio.
81
Estos resultados nos indican que en ausencia de errores de media, la correlación
entre los puntajes en la prueba y el criterio (índice de validez) sería 0.63.
82
6. BAREMACION
Recuerde que para utilizar este módulo las puntuaciones de su prueba deben
aproximarse a una distribución normal. Para comprobar este supuesto se
pueden utilizar algunas pruebas estadísticas como la Z de Kolmogorov –
Smirnov. Si sus puntuaciones no se distribuyen asemejando una curva normal,
los baremos proporcionados por este módulo se encontrarán sesgados.
Los únicos datos que debe ingresar son la media y desviación estándar
correspondientes en las casillas marcadas en gris. Por ejemplo, suponga que
quiere baremar una prueba de actitudes hacia las matemáticas, en la cual se
83
obtuvo una media de 23.48 y una desviación estándar de 7.32. Basta con
ingresar estos datos en el lugar correspondiente para obtener simultáneamente
las tres puntuaciones derivadas.
Por ejemplo, suponga que Juan obtuvo 22 puntos en la prueba, lo cual lo ubica
en el penta 3, eneatipo 5 y percentil 44.
84
En el ejemplo vemos que el puntaje directo de 36 se encuentra emparejado
tanto con el percentil 95 como con el 96. En este caso, a una persona que
obtenga 36 puntos, le corresponderá el percentil 96.
Se refiere a la presencia del sesgo en los ítems de una prueba. Un ítem o test
estará sesgado si para dos o más grupos con el mismo valor en la variable
medida, se generan mediciones distintas (Muñiz, 1996).
En esta parte podremos aplicar dos de las diferentes medidas que existen para
detectar el sesgo en ítems de ejecución máxima, que pueden puntuarse de forma
dicotómica (acierto – fallo). Ambas medidas presentadas se basan en la prueba
Chi-Cuadrado.
85
Ilustración 16: Selección de intervalos de puntajes y grupos
Luego vamos a ver en este módulo, una tabla, que en su parte extrema
izquierda, nos permite poner los valores numéricos que marcan el límite
inferior y superior de cada intervalo de puntuaciones directas. Inmediatamente
a la derecha, encontramos un espacio que nos permite ingresar la información
respecto a la cantidad de personas en cada grupo y dentro de cada intervalo de
puntaje. Al costado ingresamos información referida a la cantidad de personas
que acertó el ítem dentro de cada uno de los intervalos de puntuaciones
directas.
86
Ilustración 17: Personas y Aciertos en grupos e intervalos de puntajes
87
Según nuestro ejemplo, el valor Chi calculado es de 19.07, y tiene un valor p
asociado de 0.039 para 10 grados de libertad. Estos resultados nos llevan a
suponer que existe un sesgo en el ítem.
Para saber donde se ubica ese sesgo, podemos mirar la tabla de tiene como
encabezado a los grupos y en el cuerpo un conjunto de signos “+” y “-”. Se
asigna un signo positivo cuando el valor esperado es mayor o igual que el valor
observado y el negativo cuando es menor. Esta tabla nos muestra que aquel
grupo con más signos negativos es el que se encuentra más perjudicado por el
ítem. (véase por ejemplo, Muñiz, 1996). En nuestro caso el grupo más
perjudicado es el de las personas que habitan en la selva (6), seguido por
aquellas que habitan en el ande (4).
En este método se calcula no sólo un valor chi para los aciertos, sino que
también se calcula un valor para los errores, sumando luego ambos para hallar
su valor p asociado.
88
En este ejemplo vemos un valor chi de 71.11 que para 12 grados de libertad
posee un valor p de 0.000. Este resultado también nos lleva a aceptar la
presencia del sesgo en este ítem.
89
90
8. REFERENCIAS
91
PAZ, M. (1996) Validez. En: MUÑIZ, J. (coordinador) Psicometría. Madrid:
Universitas.
PRIETO, G. y DELGADO, A. (1996) Construcción de Items. En : MUÑIZ, J.
(Coordinador) (1996) Psicometría. Madrid : Universitas.
SIERRA BRAVO, R. (1995) Técnicas de Investigación Social, Teoría y
Ejercicios. 10ª ed. Madrid: Paraninfo.
THORNDIKE, R. (1989) Psicometría Aplicada. México: Limusa.
ZINSER, O. (1987) Psicología Experimental. Bogotá: McGraw - Hill.
92