Professional Documents
Culture Documents
Resumen
En este artculo se presentan los tipos de fiabilidad ms frecuentes que se pueden evaluar cuando se utilizan instrumentos
o procedimientos de medicin para investigar en ciencias de la salud, e incorpora ejemplos para cada caso, as como las
pruebas estadsticas ms utilizadas, segn el tipo de fiabilidad que se desee evaluar y el tipo de variables medidas.
La fiabilidad informa sobre la reproducibilidad de resultados obtenidos por un procedimiento de medicin; es el grado
de estabilidad conseguido en los resultados cuando se repite una medicin en condiciones idnticas.
Los 4 aspectos que hay que considerar para evaluarla son: a) la fiabilidad interobservador, que se refiere a la consistencia
entre 2 observadores distintos cuando evalan una misma medida en un mismo individuo; b) la fiabilidad intraobservador,
que tiene como objetivo evaluar el grado de consistencia al efectuar la medicin de un observador consigo mismo; c) la
fiabilidad test-retest, que indica hasta qu punto un instrumento proporciona resultados similares cuando se aplica a una
misma persona en ms de una ocasin, pero en idnticas condiciones, y d) la consistencia interna, que es la propiedad
que define el nivel de acuerdo o conformidad de un conjunto de mediciones consigo mismas.
Las pruebas estadsticas ms adecuadas que se describen en el artculo en funcin del tipo de datos a medir son el
ndice kappa, el ndice kappa ponderado, el coeficiente de correlacin intraclase y el alfa de Cronbach.
Palabras clave: Fiabilidad. Instrumentos de medicin. ndice kappa. ndice kappa ponderado. Coeficiente de correlacin intraclase. Alfa de
Cronbach.
Snchez-Fernndez P, Aguilar-de-Armas I, Fuentelsaz-Gallego C, Moreno-Casbas MT, Hidalgo-Garca R. Fiabilidad de los instrumentos de medicin
en ciencias de la salud. Enferm Clin. 2005;15(4):227-36.
Abstract
Reliability of measurement instruments in the health sciences
This article presents the most frequent types of reliability that can be evaluated when using measurement instruments or
procedures to perform research in the health sciences and provides examples for each case. The most frequently used
statistical tests according to the type of reliability under evaluation and the type of variables measured are also discussed.
Reliability provides information on the reproducibility of the results obtained by the procedure used for measurement; it
Correspondencia:
is the degree of stability achieved in the results when a measurement is repeated under identical conditions.
The four elements that must be considered when evaluating reliability are: a) interobserver reliability, which refers to M.T. Moreno Casbas.
Unidad de coordinacin
the consistency between two distinct observers when they evaluate the same measurement in a single individual, b) y desarrollo de la Investigacin
intraobserver reliability, which evaluates the degree of consistency in the same observer when performing a en Enfermera Investn-ISCIII.
measurement, c) test-retest reliability, which indicates the extent to which an instrument provides similar results when Instituto de Salud Carlos III.
applied in a single individual on more than one occasion but under identical conditions, and d) internal consistency, Sinesio Delgado, 6.
which is the property that defines the level of agreement or conformity of a set of measurements within themselves. 28029 Madrid. Espaa.
Correo electrnico:
The most appropriate statistical tests described in the article according to the type of data to be measured are kappa mmoreno@isciii.es
index, the weighted kappa index, the intraclass correlation coefficient and Crohnbachs alpha.
Key words: Reliability. Measurement instruments. Kappa index. Weighted Kappa index. Intraclass correlation coefficient. Cronbachs alpha. Aceptado para su publicacin
el 28-12-2004.
acuerdo. Dos mediciones pueden tener una buena co- TABLA 1. Interpretacin de los valores del ndice kappa (k)
rrelacin, con un coeficiente alto, pero pueden tener
una baja concordancia. Valor kappa Grado de concordancia
Cabe tener en mente a lo largo del artculo los 2 ti- 0,81-1,00 Excelente
pos de errores: los aleatorios, debidos a la precisin y 0,61-0,80 Bueno
limitados por el instrumento o procedimiento de me- 0,41-0,60 Moderado
dida, y los errores sistemticos, debidos a la validez.
0,21-0,40 Ligero
< 0,20 Malo
ndice kappa ()
El ndice kappa ofrece una estimacin del grado de TABLA 2. Evaluacin, por 2 enfermeras diferentes, de la prueba
acuerdo no debido al azar a partir de la proporcin del de intradermorreaccin de Mantoux
acuerdo observado y la proporcin del acuerdo espe- Enfermera B
rado. Debe aplicarse a pruebas cuyos resultados slo Enfermera A Mantoux + Mantoux Total
tengan 2 categoras posibles o ms de 2 sin un orden
jerrquico entre ellas. Mantoux + 30 a 6 b 36
El grado de concordancia, segn los valores obteni- Mantoux 10 c 54 d 64
dos del ndice kappa, se presenta en la tabla 12,9. Total 40 60 100
TABLA 5. Clculo de las frecuencias esperadas casos normal + casos seca + casos grasa
Pe = =
Enfermera A casos totales
Enfermera B Normal Seca Grasa Total
= 4,5 + 21,5 + 4,67 = 30,67 = 0,38
18 20 40 20 22 20 80 80
Normal = 4,5 = 10 = 5,5 20
80 80 80
Es decir, en el 38,3% de los casos las 2 enfermeras
18 43 40 43 22 43 coinciden por el azar. Si de los 80 casos que tenemos
Seca = 9,67 = 21,5 = 11,82 43
80 80 80
30,67 son debidos al azar, las 49,32 observaciones res-
18 17 40 17 22 17 tantes no son debidas a la casualidad. Como las 2 en-
Grasa = 3,82 = 8,5 = 4,67 17
80 80 80
fermeras han coincidido en 52 observaciones, pode-
Total 18 40 22 80 mos afirmar que en 21,38 (52 30,62) observaciones
las enfermeras coinciden.
Con dichos datos hallados, ya podemos calcular el TABLA 6. Valoracin de riesgo de desarrollar lesiones por presin
ndice kappa:
Enfermera A
P0 Pe 0,65 0,38 Enfermera B Leve Moderado Grave Total
= = = 0,43
1 Pe 1 0,38 Leve 9 1 8 0,75 3 0 20
Moderado 9 0,75 29 1 5 0,75 43
El ndice de concordancia entre las 2 enfermeras Grave 0 0 3 0,75 14 1 17
no debido al azar es de 0,43, que de acuerdo con la in-
Total 18 40 22 80
terpretacin de los valores de dicho ndice es un gra- Los nmeros en negrita indican el peso o factor de ponderacin de cada frecuencia.
do de concordancia moderado.
La idea es que la variabilidad total de las medicio- TABLA 9. Valoracin de la concordancia segn los valores del
nes se puede descomponer en 2 componentes: la va- coeficiente de correlacin intraclase (CCI)
riabilidad debida a las diferencias entre los distintos Valor de CCI Fuerza de la concordancia
sujetos y la debida a las diferencias entre las medidas
para cada sujeto. Esta ltima, a su vez, depende de la > 0,90 Muy buena
variabilidad entre observaciones y una variabilidad 0,71-0,90 Buena
residual o aleatoria asociada al error que conlleva to- 0,51-0,70 Moderada
da medicin. El CCI se define entonces como la pro- 0,31-0,50 Mediocre
porcin de la variabilidad total que se debe a la varia- < 0,30 Mala o nula
bilidad de los sujetos.
Una vez calculada dicha tabla de anlisis de la va-
rianza (ANOVA) con medidas repetidas, el CCI se
TABLA 10. Medida de la presin arterial por 2 enfermeras diferentes
puede calcular como:
Paciente Enfermera A Enfermera B Diferencia (AB)
1 140 132 8
k* SCENTRE SCTOTAL
CCI = 2 150 124 26
(k 1)* SCTOTAL
3 150 144 6
4 113 112 1
donde k es el nmero de observaciones que se toman
5 128 124 4
en cada sujeto.
La fuerza de la concordancia, segn los valores del 6 182 161 21
CCI, se presenta en la tabla 9. Entre 0,7 y 0,8 son 7 143 138 5
aceptables, y por encima de 0,8 se consideran bue- 8 180 170 10
nos7. 9 134 128 6
Ilustramos el clculo de dicho coeficiente con un 10 161 152 9
ejemplo en el que 2 enfermeras, A y B, han medi- Media 148,1 138,5 9,6
do la presin arterial a 10 pacientes con el mis- Desviacin tpica 21,77 18,22 7,85
mo instrumento. Los datos se presentan en la tabla
10.
Lo primero que hacemos es el anlisis de la varian-
TABLA 11. Resultados del anlisis de la varianza
za, cuyos resultados se muestran en la tabla 11.
Una vez hechos los clculos, se aplican en la fr- Fuente Grados Suma de Cuadrados
mula del coeficiente de correlacin intraclase que de- de variacin de libertad cuadrados medios
seamos estimar. Entre pacientes 9 6.976,20 775,13
Intrapacientes 10 738,00 73,80
Observador 1 460,80 460,80
k* SCENTRE SCTOTAL
CCI = = Residual 9 277,20 30,80
(k 1)* SCTOTAL
Total 19 7.714,20 406,01
2* 6976,2 7714,2
= 0,81
7714,2
(DEA)2 + (DEB)2 (DEAB)2
CCI = =
El valor de dicho coeficiente es 0,81, luego pode- (DEA)2 + (DEB)2 + (XAB)2 (DEAB)2/n
mos decir que existe una buena concordancia entre
las 2 enfermeras.
(21,77)2 + (18,22)2 + (7,85)2
Cuando slo tenemos que comparar los resultados = 0,83
obtenidos por 2 observadores o mtodos, podemos (21,77)2 + (18,22)2 + (9,6)2 (7,85)2 / 10
utilizar una frmula que nos permite calcular el CCI
de una forma muy sencilla. A continuacin explica- Para aplicar dicha frmula slo debemos conocer
mos brevemente dicho clculo. las desviacin estndar de las medidas tomadas por la
enfermera A (DEA), la de las medidas tomadas por respuestas a las preguntas del cuestionario. Un valor
la enfermera B (DEB) y la de la diferencia de las medi- prximo a 1 indica una alta homogeneidad o consis-
das tomadas por ambas (DEA-B), la media de la dife- tencia en las respuestas proporcionadas a dichas pre-
rencia (XA-B) y el nmero total de pacientes evaluados guntas; el de Cronbach o medida de homogeneidad
(n). El valor del CCI es de 0,83, con lo que podremos debe estar entre 0,7 y 0,9 para considerar que tiene
afirmar que existe una alta concordancia entre las 2 una uniformidad aceptable1. Una elevada consisten-
enfermeras. cia interna en las respuestas a sus preguntas es consi-
Tambin puede evaluarse la concordancia entre 2 derada prueba suficiente de la elevada fiabilidad del
observaciones realizadas por la misma persona; sera el instrumento.
caso de una enfermera que mide la presin arterial sis- A continuacin se presenta la forma para calcular
tlica a 10 pacientes y pasados 15 min vuelve a reali- el de Cronbach que tiene la siguiente frmula11:
zar una segunda medicin a los mismos 10 pacientes y
con el mismo instrumento.
( )
k
El clculo del CCI se realiza de la misma forma que k Vxj
= 1 i=1
en el ejemplo anterior, calculando la tabla ANOVA y k 1 Vx
sustituyendo los datos en la frmula del CCI. La dife-
rencia con el ejemplo anterior es la interpretacin de
dicho coeficiente. En este ltimo caso se mide la fia- donde es la confiabilidad calculada, k es el nmero
bilidad o estabilidad de la capacidad de medicin de total de puntos de indagacin en el estudio, Vxj es la
un instrumento a lo largo del tiempo (fiabilidad test- varianza de cada punto individual, y Vx es la varianza
retest); por tanto, el valor del CCI indicar la fiabili- del total de puntuaciones de la prueba.
dad del instrumento de medicin. Para ver la aplicacin de la consistencia interna
calculada con el ndice de Cronbach vamos a expo-
ner un ejemplo, basado en la encuesta sobre conoci-
Consistencia interna mientos del test de la tuberculina. Su principal objeti-
vo es determinar el conocimiento entre el personal de
En la construccin de escalas o de cuestionarios de sa- enfermera, que desarrolla su actividad en atencin
lud, un tercer aspecto importante que cabe tener en primaria, sobre la prueba de intradermorreacin de
cuenta para evaluar la fiabilidad es la consistencia in- Mantoux, segn la Gua de la Unin Internacional
terna de los mismos. Las preguntas que miden un mis- contra la Tuberculosis y Enfermedades Respiratorias.
mo dominio deben estar ms correlacionadas entre s Para ello, hemos escogido de este cuestionario las 3
que las que miden diferentes dominios1. Tener una preguntas siguientes, que se han realizado a 23 enfer-
puntuacin de correlacin muy alta entre preguntas in- meras:
dica 2 cosas:
1. Cul es la dosis recomendada para realizar la
1. Las preguntas estn midiendo un mismo fen- prueba de la tuberculina?
meno 2 UT en 0,1 ml de PPD RT23.
2. Con una de las preguntas basta para medir el fe- 5 UT en 0,1 ml de PPD RT23.
nmeno, pues las dems estn dando informacin re- 10 UT en 0,1 ml de PPD RT23.
dundante. Cualquier dosis es adecuada.
2. Cul es la zona de aplicacin ms recomendada
Por ello, se debe buscar un punto de correlacin pre- por los organismos internacionales?
ciso que nos indique que las preguntas estn midiendo La cara interna o dorsal de cualquiera de los an-
dominios diferentes del mismo fenmeno. Esto se defi- tebrazos.
ne con medidas de consistencia interna, tambin lla- La cara interna o dorsal del antebrazo no domi-
madas medidas de homogeneidad. Las medidas de ho- nante.
mogeneidad ms utilizadas son la frmula 20 de Kuder- La cara externa o ventral de brazo derecho.
Richardson (KR-20) y el alfa () de Cronbach11. La cara externa o ventral del brazo no dominante
El coeficiente puede tomar valores entre 0 y 112 y 3. Las jeringas que utiliza para inyectar la tubercu-
se calcula a partir de la matriz de covarianzas de las lina son:
De 1 ml, calibradas a 0,1 ml. TABLA 12. Respuestas de las enfermeras al cuestionario
De 2 ml, calibradas a 0,5 ml.
ID Pregunta 1 Pregunta 2 Pregunta 3 Suma
De 1 ml, calibradas a 0,5 ml.
De 1 ml, calibradas a 40 U de insulina. 1 1 2 4 7
2 2 3 4 9
Los resultados obtenidos se reflejan en la tabla 12. 3 3 3 2 8
Los clculos de las varianzas correspondientes para 4 2 2 3 7
hallar el de Cronbach son: 5 1 2 1 4
N 6 3 3 2 8
X
i=1 i 165 7 2 2 2 6
X= = = 7,17
N 23 8 3 2 2 7
9 3 2 2 7
N 10 2 2 3 7
(X.i X )2
VX = i=1
= 11 3 3 3 9
N 12 2 2 2 6
13 2 2 2 6
2 2 2
(7 7,17) + (9 7,17) + (8 7,17) + ... + (7 7,17) 2 14 2 3 2 7
= 15 3 4 2 9
23
16 4 2 4 10
45,31 17 3 3 2 8
= 1,97
23 18 1 1 3 5
19 1 2 3 6
donde X es la media
de la suma de todas las preguntas y es la varianza del 20 2 2 2 6
total de puntuaciones de la prueba. 21 1 3 3 7
22 2 3 4 9
Variabilidad Pregunta 1 23 2 2 3 7
50 55 60 165
ID: nmero de identificacin; suma: suma de las puntuaciones de las 3 preguntas.
N
X1i
i=1 50
X 1= = = 2,17
N 23
VX2 = X22 (X2)2 = 6,13 (2,39)2 = 0,41
VX1 = X21 (X1) = 5,39 (2,17)2 = 0,66 N
X22i
i=1 141
X22 = = = 6,13
N N 23
X1i
i=1 124
X21 = = = 5,39
N 23
donde X2 es la media de la pregunta 2, y Vx2 es la va-
rianza de la pregunta 2.
donde X es la media de la pregunta 1, y VX1 es la va-
rianza de la pregunta 2. Variabilidad Pregunta 3
Variabilidad Pregunta 2
N
N X
i=1 3i 60
X X3= = = 2,61
i=1 2i 55 N 23
X 2= = = 2,39
N 23
VX3 = X23 (X3)2 = 7,48 (2,61)2 = 0,67
N
X2 kappa, segn el tipo de variables, y para la consisten-
i=1 3i 172
X23 = = = 7,48 cia interna, el de Cronbach.
N 23
Bibliografa
donde X3 es la media de la pregunta 3, y VX3 es la va-
rianza de la pregunta 3. 1. Snchez R, Gmez C. Conceptos bsicos sobre validacin de escalas.
Rev Col Psiquiatra. 1998;27(2):121-30.
Luego, el coeficiente de de Cronbach resultante
2. Abraira V. El ndice kappa. Semergen. 2000;27:247-9.
es: 3. Sackett DL. A primer on the precision and accuracy of the clinical
examination. JAMA. 1992;267:2638-44.
( )
k 4. Latour J, Abraira V, Cabello JB, Lpez-Snchez J. Las mediciones cl-
k VXi 3
nicas en cardiologa: validez y errores de medicin. Rev Esp Cardiol.
= 1 i=1
= 1997;50:117-28.
k 1 Vx 31 5. Hernndez I, Porta M, Miralles M, Garca F, Bolmar F. La cuantifi-
cacin de la variabilidad en las observaciones clnicas. Med Clin
(Barc). 1990;95:424-9.
6. Badia X, Carne X. La evaluacin de la calidad de vida en el contexto
del ensayo clnico. Med Clin (Barc). 1998;110(14):550-6.
(1
0,66 + 0,41 + 0,67
1,97 ) = 0,12 7. Badia X, Muriel C, Gracia A, Nez-Olarte JM, Perulero N, Glvez
R, et al. Validacin espaola del cuestionario Brief Pain Inventory en
pacientes con dolor de causa neoplsica. Med Clin (Barc).
2003;120(2):52-9.
8. Lobo A, Chamorro L, Luque A, Dal Re R, Badia X, Baro E. Valida-
El coeficiente de 0,12 es muy bajo, lo que indicara cin de las versiones en espaol de la Montgomery-Asberg Depres-
que la consistencia interna tambin lo es y, por tanto, sion Rating Scale y la Hamilton Anxiety Rating Scale para la evalua-
cin de la depresin y de la ansiedad. Med Clin (Barc). 2002;118(13):
la no existencia de homogeneidad entre las preguntas. 493-9.
A modo de resumen para medir la fiabilidad, si te- 9. Ochoa C, Orejas G. Epidemiologa y metodologa cientfica aplicada
nemos 2 observadores que miden variables nominales a la pediatra (IV): Pruebas diagnsticas. An Esp Pediatr. 1999;50
(3):301-14.
utilizamos el ndice kappa; si las variables son ordina- 10. Kramer MS, Feinstein AR. Clinical biostatistic. LIV. The biostatis-
les, utilizamos el ndice kappa ponderado, y si son tics of concordance. Clin Pharmacol Ther. 1981;29(1):111-23.
variables cuantitativas, el coeficiente de correlacin 11. Cronbach LJ. Coefficient alpha and the internal structure of tests.
Psychometrika. 1951;16:297-334.
intraclase. Para la fiabilidad test-retest utilizamos el 12. Prieto L, Prieto L, Badia X. Cuestionarios de salud: Concepto y meto-
coeficiente de correlacin intraclase o los ndices dologa. Aten Primaria. 2001;28(3):201-9.