You are on page 1of 23

Confiabilidad

y Validez
Docente: Ps. Jos Luis Corts

CONFIABILIDAD Y VALIDEZ
CONFIABILIDAD:

para medir.

para medir lo que fue diseada

Teora

clsica de la confiabilidad
La calificacin observada de una persona en una
prueba est compuesta por una puntuacin
real ms algn error no sistemtico de medicin.
Puntuacin

real de una persona = promedio de


las puntuaciones de infinitas aplicaciones.

La

varianza de las puntuaciones observadas


(s2obs) de un grupo de personas es igual a la
varianza de sus puntuaciones reales (s2rea) ms la
varianza debida a los errores no sistemticos de
medicin (s2err):

Entonces

la confiabilidad (rn)= proporcin de la


varianza observada que es explicada por la
varianza real.

La

confiabilidad de un conjunto de
calificaciones en una prueba se expresa
como un nmero decimal positivo que
flucta entre .00 y 1.00. Una r de 1.00
indica una confiabilidad perfecta, y una r
de .00 indica una falta absoluta de
confiabilidad de la medic.n

Coeficiente

test-retest: coeficiente de

Coeficiente

de formas paralelas.

estabilidad.

Coeficientes de consistencia
interna
Mitades

de Spearman: Enfoque
simplificado de la consistencia interna
una sola prueba se considera compuesta
por dos partes (formas paralelas) que
miden la misma cosa.
Kuder-Richardson: Una prueba puede
dividirse de muchas formas diferentes en
dos mitades que contengan igual
nmero de reactivos.

Alfa de Cronbach
k

es el nmero de reactivos, s2i la varianza de las


calificaciones en el reactivo i, y s2t la varianza de
las calificaciones totales de la prueba.

Kuder-Richanison slo son aplicables cuando los


reactivos de la prueba se califican con 0 o 1, pero el
coeficiente alfa es una frmula general para estimar
la confiabilidad de una prueba que consta de
reactivos en los cuales pueden asignarse
calificaciones de distinto peso a respuestas diferentes.

Confiabilidad entre
calificadores
Importante

conocer el grado en que diferentes


calificadores estn de acuerdo en las
calificaciones y otros valores numricos dados a
las respuestas de diferentes examinados y
reactivos.
1. Los personas califican las respuestas de un
nmero considerable de examinados y calcular
luego la correlacin entre los dos conjuntos de
calificaciones.
2. muchas personas califiquen las respuestas de un
examinado
3. Muchas personas califiquen las respuestas de
varios examinados.

Interpretacin de los
coeficientes de confiabilidad

Qu tan alto debe ser un coeficiente de confiabilidad


para que una prueba u otro instrumento psicomtrico
sean tiles? La respuesta depende de lo que
planeemos hacer con las puntuaciones de la prueba:

1.

Determinar si las calificaciones promedio de dos


grupos de personas son significativamente diferentes :
.60 a .70

2.

Comparar la calificacin de una persona con la de


otra, o la calificacin de una persona en una prueba
con su calificacin en otro instrumento: .85+ .

agregar

reactivos que miden algo


diferente de lo que miden los reactivos
originales puede dar lugar a una
reduccin en la confiabilidad.

Variabilidad y extensin de la
prueba.
Coeficientes

de confiabilidad tienden a ser ms


altos cuando la varianza de las puntuaciones de la
prueba, las puntuaciones del reactivo, las
calificaciones u otras variables que son evaluadas,
es grande que cuando es pequea.
La varianza de la calificacin de la prueba se
relaciona con la extensin de sta.
Mayor extensin de la prueba =mayor
confiabilidad.

Frmula

general de Spearman-Brown es una


expresin del efecto que tiene sobre la
confiabilidad el alargar una prueba incluyendo
ms reactivos del mismo tipo general.

es el factor por el cual se alarga la prueba


rll la confiabilidad de la prueba original no alargada
rmm la confiabilidad estimada de la prueba
alargada.

Aplicacin de Spearman
Brown.
Puede

utilizarse para determinar el incremento


necesario en la longitud de la prueba y, en
consecuencia, el nmero de reactivos que
deben agregarse para incrementar la
confiabilidad de un valor desde rll hasta rmm

Varianza y confiabilidad.
Adems

de depender del nmero de reactivos, la


varianza y la confiabilidad de una prueba son
afectadas por la heterogeneidad de la muestra
de personas que la presentan.

Entre

mayor sea el rango de diferencias


individuales en cierta caracterstica, mayor ser la
varianza de las calificaciones en una medida de
esa caracterstica.

Error estndar de medicin

S obs
es la desviacin estndar de las calificaciones
observadas de la prueba
rll el coeficiente de confiabilidad test-retest.
Para ilustrar el clculo y el significado del error estndar de
medicin, suponga que la desviacin estndar de una prueba es
6.63 y el coeficiente de confiabilidad test-retest es .85; entonces
Serr = 6.631-.85 = 2.57. Si la calificacin de una persona en la
prueba es 40, puede concluirse, con 68% de confianza, que forma
parte de un grupo de personas que tienen calificaciones
observadas de 40 cuyas calificaciones reales en la prueba caen
entre 37.43(40 - 2.57)y 42.57(40 + 2.57).

Confiabilidad de las pruebas


referidas a criterio
Un

grupo consta de personas cuyas puntuaciones


igualan o exceden el nivel de criterio (de
dominio) en la habilidad que se est evaluando;
el otro grupo consta de personas cuyas
puntuaciones no alcanzan el nivel de criterio.

VALIDEZ
El

grado en que una prueba mide lo que est


diseada para medir.
Metodos: (1) analizar el contenido de la prueba, (2)
calcular la correlacin entre las calificaciones en la
prueba y las calificaciones en el criterio de inters y
(3) investigar las caractersticas psicolgicas
particulares o constructos medidos por la prueba.
A diferencia de la confiabilidad, la cual es influida
slo por los errores no sistemticos de medicin, la
validez de una prueba es afectada tanto por los
errores no sistemticos como por los sistemticos
(constantes).

Validez de contenido
Atae

a si la prueba produce un rango de


respuestas que son representativas del dominio
entero o universo de habilidades, entendimientos
y otras conductas que supuestamente debe
medir la prueba.
A menudo en conexin con las pruebas de
aprovechamiento, las cuales por lo general no
existe un criterio externo especificado.
Si expertos en la materia coinciden en que una
prueba parece y acta como un instrumento
diseado para medir lo que se supone debe
medir, entonces se dice que posee validez de
contenido.

Validez con relacin a criterio


Procedimientos

en los cuales las calificaciones en


la prueba de un grupo de personas se comparan
con las puntuaciones, clasificaciones u otras
medidas de desempeo.
Siempre que se dispone de una medida de criterio
en el momento de la prueba puede determinarse
la validez concurrente del instrumento. Cuando las
calificaciones en el criterio no estn disponibles sino
hasta cierto tiempo despus de que se aplic la
prueba, se enfatiza la validez predictiva de la
prueba.
Validez predictiva es del mayor inters en la
seleccin y ubicacin en un contexto ocupacional
o educativo.

Validez de constructo
Grado

en que el instrumento mide un constructo


particular, o concepto psicolgico .
El tipo ms general de validez, no se determina de
una sola manera o por una investigacin, mas bien
involucra una red de investigaciones y otros
procedimientos diseados para determinar si un
instrumento de evaluacin que supuestamente
mide una determinada variable de personalidad
en realidad lo hace.

Evidencia a favor de la validez


de constructo.

Los juicios de expertos en contenido.


Anlisis de la consistencia interna.
Estudios, tanto en grupos formados de manera
experimental como en grupos que se presentan de
manera natural, de las relaciones entre las
puntuaciones de la prueba y otras variables en las
cuales difieren los grupos.
Correlaciones de las puntuaciones en la prueba con
las puntuaciones en otras pruebas y variables con las
cuales se espera que tengan cierta relacin, seguidas
por un anlisis factorial de esas correlaciones.
Interrogar con detalle a los examinados o a los
calificadores acerca de sus respuestas a una prueba
o escala de calificacin para revelar los procesos
mentales especficos implicados al dar respuesta a los
reactivos.

Validacin

convergente y discriminante. Un
instrumento con validez de constructo debe tener
correlaciones altas con otras medidas o mtodos
de medicin del mismo constructo (validez
convergente), pero correlaciones bajas con las
medidas de constructos diferentes (validez
discriminante)

Cuando

las correlaciones entre el mismo


constructo medidas por el mismo y por diferentes
mtodos son significativamente mayores que las
correlaciones entre diferentes constructos
medidas por los mismos o por diferentes mtodos.

Bibliografa
AIKEN,

Cap 1, Temas histricos y profesionales

AIKEN,

Cap 2, Diseo y elaboracin de tests

AIKEN,

Cap 4, Anlisis de reactivos y

estandarizacin de pruebas.
AIKEN,

Cap 5, Confiablidad y Validez.

You might also like