Clase 2 - e - Confiabilidad y Validez

Confiabilidad
y Validez
Docente: Ps. Jos Luis Corts
CONFIABILIDAD Y VALIDEZ
CONFIABILIDAD:
para medir.
para medir lo que fue diseada
Teora
clsica de la confiabilidad
La calificacin observada de una persona en una
prueba est compuesta por una puntuacin
real ms algn error no sistemtico de medicin.
Puntuacin
real de una persona = promedio de

las puntuaciones de infinitas aplicaciones.
La
varianza de las puntuaciones observadas

(s2obs) de un grupo de personas es igual a la
varianza de sus puntuaciones reales (s2rea) ms la
varianza debida a los errores no sistemticos de
medicin (s2err):
Entonces
la confiabilidad (rn)= proporcin de la

varianza observada que es explicada por la
varianza real.
La
confiabilidad de un conjunto de
calificaciones en una prueba se expresa
como un nmero decimal positivo que
flucta entre .00 y 1.00. Una r de 1.00
indica una confiabilidad perfecta, y una r
de .00 indica una falta absoluta de
confiabilidad de la medic.n
Coeficiente
test-retest: coeficiente de
Coeficiente
de formas paralelas.
estabilidad.
Coeficientes de consistencia
interna
Mitades
de Spearman: Enfoque
simplificado de la consistencia interna
una sola prueba se considera compuesta
por dos partes (formas paralelas) que
miden la misma cosa.
Kuder-Richardson: Una prueba puede
dividirse de muchas formas diferentes en
dos mitades que contengan igual
nmero de reactivos.
Alfa de Cronbach
k
es el nmero de reactivos, s2i la varianza de las

calificaciones en el reactivo i, y s2t la varianza de
las calificaciones totales de la prueba.
Kuder-Richanison slo son aplicables cuando los

reactivos de la prueba se califican con 0 o 1, pero el
coeficiente alfa es una frmula general para estimar
la confiabilidad de una prueba que consta de
reactivos en los cuales pueden asignarse
calificaciones de distinto peso a respuestas diferentes.
Confiabilidad entre
calificadores
Importante
conocer el grado en que diferentes

calificadores estn de acuerdo en las
calificaciones y otros valores numricos dados a
las respuestas de diferentes examinados y
reactivos.
1. Los personas califican las respuestas de un
nmero considerable de examinados y calcular
luego la correlacin entre los dos conjuntos de
calificaciones.
2. muchas personas califiquen las respuestas de un
examinado
3. Muchas personas califiquen las respuestas de
varios examinados.
Interpretacin de los
coeficientes de confiabilidad
Qu tan alto debe ser un coeficiente de confiabilidad

para que una prueba u otro instrumento psicomtrico
sean tiles? La respuesta depende de lo que
planeemos hacer con las puntuaciones de la prueba:
1.
Determinar si las calificaciones promedio de dos

grupos de personas son significativamente diferentes :
.60 a .70
2.
Comparar la calificacin de una persona con la de

otra, o la calificacin de una persona en una prueba
con su calificacin en otro instrumento: .85+ .
agregar
reactivos que miden algo

diferente de lo que miden los reactivos
originales puede dar lugar a una
reduccin en la confiabilidad.
Variabilidad y extensin de la
prueba.
Coeficientes
de confiabilidad tienden a ser ms

altos cuando la varianza de las puntuaciones de la
prueba, las puntuaciones del reactivo, las
calificaciones u otras variables que son evaluadas,
es grande que cuando es pequea.
La varianza de la calificacin de la prueba se
relaciona con la extensin de sta.
Mayor extensin de la prueba =mayor
confiabilidad.
Frmula
general de Spearman-Brown es una

expresin del efecto que tiene sobre la
confiabilidad el alargar una prueba incluyendo
ms reactivos del mismo tipo general.
es el factor por el cual se alarga la prueba

rll la confiabilidad de la prueba original no alargada
rmm la confiabilidad estimada de la prueba
alargada.
Aplicacin de Spearman
Brown.
Puede
utilizarse para determinar el incremento

necesario en la longitud de la prueba y, en
consecuencia, el nmero de reactivos que
deben agregarse para incrementar la
confiabilidad de un valor desde rll hasta rmm
Varianza y confiabilidad.
Adems
de depender del nmero de reactivos, la

varianza y la confiabilidad de una prueba son
afectadas por la heterogeneidad de la muestra
de personas que la presentan.
Entre
mayor sea el rango de diferencias

individuales en cierta caracterstica, mayor ser la
varianza de las calificaciones en una medida de
esa caracterstica.
Error estndar de medicin
S obs
es la desviacin estndar de las calificaciones
observadas de la prueba
rll el coeficiente de confiabilidad test-retest.
Para ilustrar el clculo y el significado del error estndar de
medicin, suponga que la desviacin estndar de una prueba es
6.63 y el coeficiente de confiabilidad test-retest es .85; entonces
Serr = 6.631-.85 = 2.57. Si la calificacin de una persona en la
prueba es 40, puede concluirse, con 68% de confianza, que forma
parte de un grupo de personas que tienen calificaciones
observadas de 40 cuyas calificaciones reales en la prueba caen
entre 37.43(40 - 2.57)y 42.57(40 + 2.57).
Confiabilidad de las pruebas

referidas a criterio
Un
grupo consta de personas cuyas puntuaciones

igualan o exceden el nivel de criterio (de
dominio) en la habilidad que se est evaluando;
el otro grupo consta de personas cuyas
puntuaciones no alcanzan el nivel de criterio.
VALIDEZ
El
grado en que una prueba mide lo que est

diseada para medir.
Metodos: (1) analizar el contenido de la prueba, (2)
calcular la correlacin entre las calificaciones en la
prueba y las calificaciones en el criterio de inters y
(3) investigar las caractersticas psicolgicas
particulares o constructos medidos por la prueba.
A diferencia de la confiabilidad, la cual es influida
slo por los errores no sistemticos de medicin, la
validez de una prueba es afectada tanto por los
errores no sistemticos como por los sistemticos
(constantes).
Validez de contenido
Atae
a si la prueba produce un rango de

respuestas que son representativas del dominio
entero o universo de habilidades, entendimientos
y otras conductas que supuestamente debe
medir la prueba.
A menudo en conexin con las pruebas de
aprovechamiento, las cuales por lo general no
existe un criterio externo especificado.
Si expertos en la materia coinciden en que una
prueba parece y acta como un instrumento
diseado para medir lo que se supone debe
medir, entonces se dice que posee validez de
contenido.
Validez con relacin a criterio

Procedimientos
en los cuales las calificaciones en

la prueba de un grupo de personas se comparan
con las puntuaciones, clasificaciones u otras
medidas de desempeo.
Siempre que se dispone de una medida de criterio
en el momento de la prueba puede determinarse
la validez concurrente del instrumento. Cuando las
calificaciones en el criterio no estn disponibles sino
hasta cierto tiempo despus de que se aplic la
prueba, se enfatiza la validez predictiva de la
prueba.
Validez predictiva es del mayor inters en la
seleccin y ubicacin en un contexto ocupacional
o educativo.
Validez de constructo
Grado
en que el instrumento mide un constructo

particular, o concepto psicolgico .
El tipo ms general de validez, no se determina de
una sola manera o por una investigacin, mas bien
involucra una red de investigaciones y otros
procedimientos diseados para determinar si un
instrumento de evaluacin que supuestamente
mide una determinada variable de personalidad
en realidad lo hace.
Evidencia a favor de la validez

de constructo.
Los juicios de expertos en contenido.

Anlisis de la consistencia interna.
Estudios, tanto en grupos formados de manera
experimental como en grupos que se presentan de
manera natural, de las relaciones entre las
puntuaciones de la prueba y otras variables en las
cuales difieren los grupos.
Correlaciones de las puntuaciones en la prueba con
las puntuaciones en otras pruebas y variables con las
cuales se espera que tengan cierta relacin, seguidas
por un anlisis factorial de esas correlaciones.
Interrogar con detalle a los examinados o a los
calificadores acerca de sus respuestas a una prueba
o escala de calificacin para revelar los procesos
mentales especficos implicados al dar respuesta a los
reactivos.
Validacin
convergente y discriminante. Un
instrumento con validez de constructo debe tener
correlaciones altas con otras medidas o mtodos
de medicin del mismo constructo (validez
convergente), pero correlaciones bajas con las
medidas de constructos diferentes (validez
discriminante)
Cuando
las correlaciones entre el mismo

constructo medidas por el mismo y por diferentes
mtodos son significativamente mayores que las
correlaciones entre diferentes constructos
medidas por los mismos o por diferentes mtodos.
Bibliografa
AIKEN,
Cap 1, Temas histricos y profesionales
AIKEN,
Cap 2, Diseo y elaboracin de tests
AIKEN,
Cap 4, Anlisis de reactivos y
estandarizacin de pruebas.
AIKEN,
Cap 5, Confiablidad y Validez.

Clase 2 - e - Confiabilidad y Validez

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Clase 2 - e - Confiabilidad y Validez

Uploaded by

Copyright:

Available Formats

Confiabilidad

para medir lo que fue diseada

real de una persona = promedio de

varianza de las puntuaciones observadas

la confiabilidad (rn)= proporcin de la

es el nmero de reactivos, s2i la varianza de las

Kuder-Richanison slo son aplicables cuando los

conocer el grado en que diferentes

Qu tan alto debe ser un coeficiente de confiabilidad

Determinar si las calificaciones promedio de dos

Comparar la calificacin de una persona con la de

reactivos que miden algo

de confiabilidad tienden a ser ms

general de Spearman-Brown es una

es el factor por el cual se alarga la prueba

utilizarse para determinar el incremento

de depender del nmero de reactivos, la

mayor sea el rango de diferencias

Error estndar de medicin

Confiabilidad de las pruebas

grupo consta de personas cuyas puntuaciones

grado en que una prueba mide lo que est

a si la prueba produce un rango de

Validez con relacin a criterio

en los cuales las calificaciones en

en que el instrumento mide un constructo

Evidencia a favor de la validez

Los juicios de expertos en contenido.

las correlaciones entre el mismo

Cap 1, Temas histricos y profesionales

Cap 2, Diseo y elaboracin de tests

Cap 4, Anlisis de reactivos y

Cap 5, Confiablidad y Validez.

You might also like