Fiabilidad de Los Instrumentos de Medición en Ciencias de La Salud

ARTCULO ESPECIAL
Fiabilidad de los instrumentos

de medicin en ciencias de la salud
PEDRO SNCHEZ FERNNDEZa, IGNACIO AGUILAR DE ARMASb, CARMEN FUENTELSAZ GALLEGOc,
M. TERESA MORENO CASBASd Y RAQUEL HIDALGO GARCAe
a
Diplomado en Estadstica. Madrid. Espaa.
b
Mdico de Familia. Madrid. Espaa.
c
Diplomada en Enfermera. Hospital Universitario Vall dHebron. Barcelona. Espaa.
d
Diplomada en Enfermera. Instituto de Salud Carlos III. Madrid. Espaa.
e
Licenciada en Estadstica. Instituto de Salud Carlos III. Madrid. Espaa.
Resumen
En este artculo se presentan los tipos de fiabilidad ms frecuentes que se pueden evaluar cuando se utilizan instrumentos
o procedimientos de medicin para investigar en ciencias de la salud, e incorpora ejemplos para cada caso, as como las
pruebas estadsticas ms utilizadas, segn el tipo de fiabilidad que se desee evaluar y el tipo de variables medidas.
La fiabilidad informa sobre la reproducibilidad de resultados obtenidos por un procedimiento de medicin; es el grado
de estabilidad conseguido en los resultados cuando se repite una medicin en condiciones idnticas.
Los 4 aspectos que hay que considerar para evaluarla son: a) la fiabilidad interobservador, que se refiere a la consistencia
entre 2 observadores distintos cuando evalan una misma medida en un mismo individuo; b) la fiabilidad intraobservador,
que tiene como objetivo evaluar el grado de consistencia al efectuar la medicin de un observador consigo mismo; c) la
fiabilidad test-retest, que indica hasta qu punto un instrumento proporciona resultados similares cuando se aplica a una
misma persona en ms de una ocasin, pero en idnticas condiciones, y d) la consistencia interna, que es la propiedad
que define el nivel de acuerdo o conformidad de un conjunto de mediciones consigo mismas.
Las pruebas estadsticas ms adecuadas que se describen en el artculo en funcin del tipo de datos a medir son el
ndice kappa, el ndice kappa ponderado, el coeficiente de correlacin intraclase y el alfa de Cronbach.
Palabras clave: Fiabilidad. Instrumentos de medicin. ndice kappa. ndice kappa ponderado. Coeficiente de correlacin intraclase. Alfa de
Cronbach.
Snchez-Fernndez P, Aguilar-de-Armas I, Fuentelsaz-Gallego C, Moreno-Casbas MT, Hidalgo-Garca R. Fiabilidad de los instrumentos de medicin
en ciencias de la salud. Enferm Clin. 2005;15(4):227-36.
Abstract
Reliability of measurement instruments in the health sciences
This article presents the most frequent types of reliability that can be evaluated when using measurement instruments or
procedures to perform research in the health sciences and provides examples for each case. The most frequently used
statistical tests according to the type of reliability under evaluation and the type of variables measured are also discussed.
Reliability provides information on the reproducibility of the results obtained by the procedure used for measurement; it
Correspondencia:
is the degree of stability achieved in the results when a measurement is repeated under identical conditions.
The four elements that must be considered when evaluating reliability are: a) interobserver reliability, which refers to M.T. Moreno Casbas.
Unidad de coordinacin
the consistency between two distinct observers when they evaluate the same measurement in a single individual, b) y desarrollo de la Investigacin
intraobserver reliability, which evaluates the degree of consistency in the same observer when performing a en Enfermera Investn-ISCIII.
measurement, c) test-retest reliability, which indicates the extent to which an instrument provides similar results when Instituto de Salud Carlos III.
applied in a single individual on more than one occasion but under identical conditions, and d) internal consistency, Sinesio Delgado, 6.
which is the property that defines the level of agreement or conformity of a set of measurements within themselves. 28029 Madrid. Espaa.
Correo electrnico:
The most appropriate statistical tests described in the article according to the type of data to be measured are kappa mmoreno@isciii.es
index, the weighted kappa index, the intraclass correlation coefficient and Crohnbachs alpha.
Key words: Reliability. Measurement instruments. Kappa index. Weighted Kappa index. Intraclass correlation coefficient. Cronbachs alpha. Aceptado para su publicacin
el 28-12-2004.
45 ENFERMERA CLNICA 2005;15(4):227-36 227

Snchez Fernndez P, et al. Fiabilidad de los instrumentos de medicin en ciencias de la salud
Tipos de fiabilidad 1. Fiabilidad interobservador: se refiere a la con-

sistencia entre 2 observadores distintos cuando eva-
La utilizacin de instrumentos de medida para inves- lan una misma medida en un mismo individuo.
tigacin, tanto en ciencias de la salud como en otras 2. Fiabilidad intraobservador: tiene como objetivo
disciplinas, es muy frecuente. En ciencias de la salud evaluar el grado de consistencia al efectuar la medi-
se miden fenmenos relacionados con la salud y las cin de un observador consigo mismo.
enfermedades, y los sujetos de investigacin suelen ser 3. Fiabilidad test-retest: indica hasta qu punto un
los individuos. De este modo la medicin de variables instrumento proporciona resultados similares cuando
implica clasificar las personas en categoras o colocar- se aplica a una misma persona en ms de una ocasin,
las en un punto determinado de una dimensin1. pero en idnticas condiciones1.
La medicin de la salud de un individuo puede ba- 4. Consistencia interna: es la propiedad que defi-
sarse en pruebas diagnsticas o de laboratorio, o pue- ne el nivel de acuerdo o conformidad de un conjunto
de centrarse en indicadores sobre los cuales un obser- de mediciones consigo mismas5.
vador (el personal sanitario o el paciente) hace una
apreciacin. Esos indicadores, exmenes o pruebas Una de las aplicaciones de las pruebas de fiabilidad
son instrumentos de medicin. es la validacin de escalas o cuestionarios. Una escala
El proceso para evaluar la reproducibilidad de un puede definirse como una coleccin de preguntas que
instrumento consiste en comparar entre s distintas pretenden revelar diferentes niveles de determinadas
medidas de un mismo objeto y evaluar su grado de caractersticas (variables) no observables directamen-
acuerdo (cuanto ms se parezcan estas medidas entre te. Desarrollamos escalas cuando queremos medir fe-
s, ms preciso es), y para esto se han desarrollado al- nmenos que creemos que existen pero que no pode-
gunos ndices o parmetros que cuantifican este grado mos evaluar directamente9. En el proceso de valida-
de acuerdo (ndice kappa, coeficiente de correlacin cin de escalas, un paso obligado es la evaluacin de
intraclase)2-4. la fiabilidad.
La fiabilidad es el grado de estabilidad conseguido De los diferentes mtodos que han surgido para va-
en los resultados cuando se repite una medicin en lorar el grado de acuerdo o desacuerdo entre los eva-
condiciones idnticas5. luadores, o entre diferentes medidas, los que han de-
Se pueden evaluar diferentes tipos de fiabilidad, de- mostrado ser ms ventajosos (dependiendo del tipo de
pendiendo del instrumento que se utilice1,6-8; algunos variables que se comparan) son los siguientes5,9:
de los ms utilizados se muestran en la figura 1, con sus
pruebas estadsticas correspondientes: 1. ndice kappa, para variables cualitativas nomi-
nales.
2. ndice kappa ponderado, para variables cualita-
tivas ordinales.
3. Coeficiente de correlacin intraclases, para va-
ndice kappa: para
Interobservador variables cualitativas riables cuantitativas.
nominales
ndice kappa ponderado: Para evaluar la fiabilidad test-retest, es decir, cuan-
Intraobservador para variables cualtativas
ordinales do se hacen mediciones repetidas a los mismos indivi-
Coeficiente de correlacin
duos de estudio, debe valorarse muy bien el tiempo
Test-retest intraclase: para variables transcurrido entre las evaluaciones, pues, si es muy
cuantitativas
largo, las puntuaciones pueden resultar muy diferen-
Fiabilidad tes porque hay un cambio en la condicin que se est
midiendo, y si es muy corto, las puntuaciones pueden
resultar casi iguales porque el evaluador o el evaluado
todava recuerdan las respuestas dadas en la evalua-
cin anterior.
Consistencia interna Alfa de Cronbach
Un error frecuente es medir la fiabilidad con el
coeficiente de correlacin de Pearson, que no es til,
Fig. 1. Pruebas estadsticas segn el tipo de fiabilidad y de variables. ya que mide el nivel de asociacin y no el grado de
228 ENFERMERA CLNICA. 2005;15(4):227-36 46

acuerdo. Dos mediciones pueden tener una buena co- TABLA 1. Interpretacin de los valores del ndice kappa (k)
rrelacin, con un coeficiente alto, pero pueden tener
una baja concordancia. Valor kappa Grado de concordancia
Cabe tener en mente a lo largo del artculo los 2 ti- 0,81-1,00 Excelente
pos de errores: los aleatorios, debidos a la precisin y 0,61-0,80 Bueno
limitados por el instrumento o procedimiento de me- 0,41-0,60 Moderado
dida, y los errores sistemticos, debidos a la validez.
0,21-0,40 Ligero
< 0,20 Malo
ndice kappa ()
El ndice kappa ofrece una estimacin del grado de TABLA 2. Evaluacin, por 2 enfermeras diferentes, de la prueba
acuerdo no debido al azar a partir de la proporcin del de intradermorreaccin de Mantoux
acuerdo observado y la proporcin del acuerdo espe- Enfermera B
rado. Debe aplicarse a pruebas cuyos resultados slo Enfermera A Mantoux + Mantoux Total
tengan 2 categoras posibles o ms de 2 sin un orden
jerrquico entre ellas. Mantoux + 30 a 6 b 36
El grado de concordancia, segn los valores obteni- Mantoux 10 c 54 d 64
dos del ndice kappa, se presenta en la tabla 12,9. Total 40 60 100
ndice kappa para variables dicotmicas

En este ejemplo se desea evaluar la fiabilidad interob- TABLA 3. Clculo de las frecuencias esperadas
servador para variables nominales con 2 categoras, es
decir, dicotmicas. Enfermera B
En la tabla 2 se presentan los resultados de un estu- Enfermera A Mantoux + Mantoux Total
dio en el que 2 enfermeras evaluaron, de forma total- 40 36 60 36
Mantoux + = 14,4 = 21,6 36
mente independiente, a 100 personas para valorar si 100 100
la prueba de intradermorreaccin de Mantoux daba 40 64 60 64
Mantoux = 25,6 = 38,4 64
positiva o no. La tabla refleja los resultados de dicho 100 100
estudio, en el que el nivel de acuerdo se da en las casi-
Total 40 60 100
llas en las que ambas enfermeras afirman que es posi-
tivo (a) o que es negativo (d), y el nivel de desacuer-
do se da en las casillas en las que ambas enfermeras
cruzan sus opiniones (b y c). acuerdo debidos al azar. Para calcular una medida fia-
La forma ms sencilla de cuantificar la concordan- ble se utiliza el ndice kappa, que tiene en cuenta la
cia entre las enfermeras es calcular la proporcin de proporcin de acuerdos debidos al azar. Esta propor-
acuerdo entre ellas, que se hace sumando los casos en cin de acuerdos debidos al azar se llama Pe.
los que las 2 han dicho que la prueba es positiva (casos Para calcular dicha proporcin, se calculan previa-
s) y los que es negativa (casos no), y dividirlo entre el mente los casos esperados de las valoraciones de di-
nmero total de casos (casos totales). Esta proporcin chas enfermeras, que pueden ser estimados conside-
recibe el nombre de P0, y en nuestro ejemplo ser: rando la ley multiplicativa de la probabilidad para su-
cesos independientes 9 . Este clculo se puede
simplificar como el producto de los marginales de la
P0 = casos s(a) + casos no(d) = 30 + 54 = 84 = 0,84
casos totales 100 100 fila y columna correspondientes dividido por el total.
Se denominan marginales a los totales de fila y de
Es decir, en el 84% de los casos las 2 enfermeras columna.
coinciden, luego se puede afirmar que existe una bue- En la tabla 3 se indican los casos esperados en las
na concordancia o una concordancia muy alta entre valoraciones de ambas enfermeras. A partir de dichos
las 2 enfermeras. Sin embargo, esta medida no es muy datos se calcula la proporcin de acuerdos esperados
fiable, puesto que no tiene en cuenta los casos de debidos al azar.

categoras pero que no tienen un orden jerrquico,

Pe = casos s + casos no = 14,4 + 38,4 = 52,8 = 0,53
casos totales 100 100 debemos aplicar de nuevo el ndice kappa.
Para ver el clculo de dicho ndice vamos a poner
Es decir, en el 52,8% de los casos las 2 enfermeras un ejemplo. Dicho ejemplo se basa en la clasificacin,
coinciden por el azar, lo que equivale a la mitad de los de forma totalmente independiente, por parte de 2 en-
casos. Si de los 100 casos que tenemos 52,8 son debidos fermeras, del tipo de piel de 80 pacientes en una con-
al azar, nos quedan 47,2 observaciones que no son debi- sulta de un centro de salud urbano. Las categoras de la
das al azar. Como las 2 enfermeras han coincidido en variable tipo de piel son: normal, seca y grasa. Los re-
84 observaciones, podemos afirmar que en 31,2 (84 sultados de dicho estudio se presentan en la tabla 4.
52,8) de los casos las enfermeras coinciden. Los resultados muestran que el nivel de acuerdo se
Con dichos datos hallados, ya puede calcularse el da en las celdas en las que ambas enfermeras coinci-
ndice kappa, segn la siguiente frmula: den en la valoracin (normal, seca y grasa) y el nivel
de desacuerdo se da en las celdas en las que ambas
P0 Pe 0,84 0,53 0,31 cruzan sus opiniones.
= = = = 0,66
1 Pe 1 0,53 0,47 La forma ms sencilla de calcular la concordancia
entre ambas enfermeras, como ya se ha visto anterior-
Esto indica que el ndice de concordancia entre las mente, es la de calcular la proporcin de acuerdo en-
2 enfermeras, no debido al azar, es 0,66, que de acuer- tre ambas, esto es, sumando los casos en los que ambas
do con la interpretacin de los valores de dicho ndi- han clasificado el tipo de piel de los pacientes en nor-
ce es un grado de concordancia bueno. mal, seca o grasa, y dividindolo entre el nmero total
de casos:
ndice kappa para variables
con ms de 2 categoras casos normal + casos seca + casos grasa
P0 = =
Para hallar el nivel de concordancia entre 2 observa- casos totales
dores, en el caso de variables nominales con ms de 2
= 9 + 29 + 14 = 52 = 0,65
80 80
TABLA 4. Evaluacin, por 2 enfermeras del tipo de piel de los
pacientes Es decir, en el 65% de los casos las 2 enfermeras
coinciden, luego podramos afirmar que existe una
Enfermera A
buena concordancia o una concordancia alta entre las
Enfermera B Normal Seca Grasa Total 2 enfermeras. Sin embargo, esta medida no es muy
Normal 9 8 3 20 fiable debido a que no tiene en cuenta los casos de
Seca 9 29 5 43 acuerdo debidos al azar.
Grasa 0 3 14 17 En la tabla 5 se han calculado los casos esperados
Total 18 40 22 80
en la clasificacin de ambas enfermeras. A partir de
dichos datos podemos calcular la proporcin de los
acuerdos esperados debidos al azar:
TABLA 5. Clculo de las frecuencias esperadas casos normal + casos seca + casos grasa
Pe = =
Enfermera A casos totales
Enfermera B Normal Seca Grasa Total
= 4,5 + 21,5 + 4,67 = 30,67 = 0,38
18 20 40 20 22 20 80 80
Normal = 4,5 = 10 = 5,5 20
80 80 80
Es decir, en el 38,3% de los casos las 2 enfermeras
18 43 40 43 22 43 coinciden por el azar. Si de los 80 casos que tenemos
Seca = 9,67 = 21,5 = 11,82 43
80 80 80
30,67 son debidos al azar, las 49,32 observaciones res-
18 17 40 17 22 17 tantes no son debidas a la casualidad. Como las 2 en-
Grasa = 3,82 = 8,5 = 4,67 17
80 80 80
fermeras han coincidido en 52 observaciones, pode-
Total 18 40 22 80 mos afirmar que en 21,38 (52 30,62) observaciones
las enfermeras coinciden.

Con dichos datos hallados, ya podemos calcular el TABLA 6. Valoracin de riesgo de desarrollar lesiones por presin
ndice kappa:
Enfermera A
P0 Pe 0,65 0,38 Enfermera B Leve Moderado Grave Total
= = = 0,43
1 Pe 1 0,38 Leve 9 1 8 0,75 3 0 20
Moderado 9 0,75 29 1 5 0,75 43
El ndice de concordancia entre las 2 enfermeras Grave 0 0 3 0,75 14 1 17
no debido al azar es de 0,43, que de acuerdo con la in-
Total 18 40 22 80
terpretacin de los valores de dicho ndice es un gra- Los nmeros en negrita indican el peso o factor de ponderacin de cada frecuencia.
do de concordancia moderado.
ndice kappa ponderado 2

El ndice kappa ponderado se utiliza cuando hay ms Wij = 1 (i j) 2
de 2 categoras de valoracin con un orden jerrquico (k 1)
entre ellas, ya que no es lo mismo discrepar de 1 a 2 En ambas frmulas, i es el nmero de fila en la ta-
que de 1 a 3, o de leve a moderado que de leve a gra- bla de contingencia, j el nmero de columna y k el
ve. Se calcula de forma anloga al ndice kappa sim- nmero total de categoras.
ple, pero multiplicando el valor de cada casilla por un En nuestro ejemplo, las casillas en las que se cruzan
valor (peso [w]) que pondere la magnitud del desa- los diagnsticos leve-leve, moderado-moderado y gra-
cuerdo con sus casillas vecinas9. ve-grave, el peso que les corresponde es 1 (acuerdo to-
En la tabla 6 se presentan los resultados de un estu- tal). Las casillas en las que se cruzan los diagnsticos
dio en el que 2 enfermeras evaluaron, de manera to- leve-grave y grave-leve, el peso que les corresponde es
talmente independiente, a 80 pacientes inmovilizados 0 (desacuerdo total). Las casillas en las que se cruzan
segn su riesgo de desarrollar lesiones por presin. Es- los diagnsticos leve-moderado, moderado-leve, mo-
te riesgo lo clasificaron en leve, moderado y grave. derado-grave y grave-moderado, el peso que les co-
Los resultados se acompaan de nmeros en negrita rresponde es 0,75.
que indican el peso o factor de ponderacin de cada Este ltimo peso se ha calculado con la frmula de
frecuencia. los pesos bicuadrados de la siguiente manera:
El ndice kappa ponderado permite estimar el gra- 2 2
do de acuerdo, considerando de forma diferente esas W12 = 1 (1 2)2 = 1 (1)2 = 1 0,25 = 0,75
discrepancias. Para ello, asignamos diferentes pesos a (3 1) (2)
cada nivel de concordancia. Habitualmente se asigna- 2 2
r un peso 1 al acuerdo total, es decir, un acuerdo del W21 = 1 (2 1)2 = 1 (1)2 = 1 0,25 = 0,75
100%, y un peso 0 al desacuerdo extremo; a los acuer- (3 1) (2)
dos intermedios se les asignarn pesos intermedios, en 2 2
funcin del significado que tengan las distintas dis- W23 = 1 (2 3)2 = 1 (1)2 = 1 0,25 = 0,75
cordancias en el atributo estudiado. (3 1) (2)
El clculo de estos pesos se puede realizar de 2 for- 2 2
mas diferentes, pero a la hora de comparar 2 estudios W32 = 1 (3 2)2 = 1 (1)2 = 1 0,25 = 0,75
debemos calcular los pesos de la misma forma, ya que (3 1) (2)
en caso contrario la comparacin no podra llevarse a
cabo. Estas 2 formas son: Una vez calculados los pesos, se calcula la propor-
cin de acuerdos observados entre las 2 enfermeras:
1. Pesos lineales, propuestos inicialmente por Co-
k k
hen, cuya frmula es: wijXij
i=1j=1
Po(w) = =
i j N
Wij = 1
k1
2. Pesos bicuadrados, propuestos posteriormente 1 (9 + 29 + 14) + 0,75 (9 + 8 + 3 + 5) + 0 (3 + 0)
80 =
por Fleiss y Cohen, cuya frmula es9:

52 + 18,75 70,75 Esta proporcin de acuerdos debidos al azar es del

80 = 80 = 0,88
75,8% de los casos, es decir, de los 80 casos, 60,67 son
debidos al azar.
Es decir, en el 88% de los casos las 2 enfermeras Con los resultados obtenidos ya se puede calcular
coinciden en las clasificaciones, luego tenemos una el ndice kappa ponderado:
concordancia bastante alta, pero a este valor hay que
quitarle la concordancia debida al azar. Para ello, de- P0(w) Pe(w) 0,88 0,76 0,12
w = = = =0,51
bemos calcular las frecuencias esperadas, que se mues- 1 Pe(w) 1 0,76 0,24
tran en la tabla 7.
Una vez que hemos calculado dichas frecuencias Esto indica que el ndice de concordancia, entre
podremos calcular la proporcin de acuerdos debidos las 2 enfermeras, no debido al azar es de 0,51, que, de
al azar. acuerdo con la interpretacin de los valores de dicho
ndice, es un grado de concordancia moderado.
k k
w X'
i=1 j=1 ij ij
Pe(w) = =
N
Coeficiente de correlacin intraclase (CCI)
1 (4,5 + 21,5 + 4,7) + 0,75 (9,67 + 10 + 8,5 + 11,82) + 0 (3,82 + 5,5) + 0)
= El coeficiente de correlacin intraclase (CCI) se utili-
80
za para valorar la coincidencia cuando las variables
30,67 + 30 60,67 medidas son cuantitativas. Combina una prueba de
80 = 80 = 0,76 correlacin con una prueba de diferencia de medias,
de forma que corrige el error sistemtico. Se calcu-
donde X indica las frecuencias esperadas. la de modo parecido a un anlisis de la varianza5.
Para evitar el problema de la dependencia del or-
den generada por el coeficiente de correlacin, el
TABLA 7. Clculo de las frecuencias esperadas CCI se estima a partir del promedio de las correlacio-
Enfermera A nes entre todas las posibles observaciones de los pares
disponibles.
Enfermera B Leve Moderado Grave Total
Una de las principales limitaciones del CCI es la di-
18 20 40 20 22 20 ficultad de su clculo, ya que debe ser estimado de dis-
Leve = 4,5 = 10 = 5,5 20
80 80 80
tintas formas segn el diseo del estudio. La forma de
18 43 40 43 22 43 clculo ms habitual se basa en un modelo de anlisis de
Moderado = 9,67 = 21,5 = 11,82 43
80 80 80 la varianza (ANOVA) con medidas repetidas, de donde
18 17 40 17 22 17 se deriva su definicin matemtica, segn el cual la va-
Grave = 3,82 = 8,5 = 4,67 17
80 80 80 rianza total se reparte entre los observadores, los sujetos
Total 18 40 22 80 observados y un remanente de error10. En la tabla 8 se
muestra un modelo de este anlisis.
TABLA 8. Tabla ANOVA para medidas repetidas

Fuente de variacin Grados de libertad Suma de cuadrados Cuadrados medios
n SCENTRE
Interpacientes n-1 (Xi. X..)2
SCENTRE = k i=1
n1
Intrapacientes k SCOBS
k-1 SCOBS = n j=1 (X.j X..)2
Observador k1
Intrapacientes n k SCRES
(n-1) (k-1) j=1 (XIj Xi. X.j + X..)2
SCRES = i=1
Residual (n-1) (k 1)
n 2
k SCTOTAL
Total nk-1 j=1
ScTOTAL = i=1 (Xij X..)
nk 1

La idea es que la variabilidad total de las medicio- TABLA 9. Valoracin de la concordancia segn los valores del
nes se puede descomponer en 2 componentes: la va- coeficiente de correlacin intraclase (CCI)
riabilidad debida a las diferencias entre los distintos Valor de CCI Fuerza de la concordancia
sujetos y la debida a las diferencias entre las medidas
para cada sujeto. Esta ltima, a su vez, depende de la > 0,90 Muy buena
variabilidad entre observaciones y una variabilidad 0,71-0,90 Buena
residual o aleatoria asociada al error que conlleva to- 0,51-0,70 Moderada
da medicin. El CCI se define entonces como la pro- 0,31-0,50 Mediocre
porcin de la variabilidad total que se debe a la varia- < 0,30 Mala o nula
bilidad de los sujetos.
Una vez calculada dicha tabla de anlisis de la va-
rianza (ANOVA) con medidas repetidas, el CCI se
TABLA 10. Medida de la presin arterial por 2 enfermeras diferentes
puede calcular como:
Paciente Enfermera A Enfermera B Diferencia (AB)
1 140 132 8
k* SCENTRE SCTOTAL
CCI = 2 150 124 26
(k 1)* SCTOTAL
3 150 144 6
4 113 112 1
donde k es el nmero de observaciones que se toman
5 128 124 4
en cada sujeto.
La fuerza de la concordancia, segn los valores del 6 182 161 21
CCI, se presenta en la tabla 9. Entre 0,7 y 0,8 son 7 143 138 5
aceptables, y por encima de 0,8 se consideran bue- 8 180 170 10
nos7. 9 134 128 6
Ilustramos el clculo de dicho coeficiente con un 10 161 152 9
ejemplo en el que 2 enfermeras, A y B, han medi- Media 148,1 138,5 9,6
do la presin arterial a 10 pacientes con el mis- Desviacin tpica 21,77 18,22 7,85
mo instrumento. Los datos se presentan en la tabla
10.
Lo primero que hacemos es el anlisis de la varian-
TABLA 11. Resultados del anlisis de la varianza
za, cuyos resultados se muestran en la tabla 11.
Una vez hechos los clculos, se aplican en la fr- Fuente Grados Suma de Cuadrados
mula del coeficiente de correlacin intraclase que de- de variacin de libertad cuadrados medios
seamos estimar. Entre pacientes 9 6.976,20 775,13
Intrapacientes 10 738,00 73,80
Observador 1 460,80 460,80
k* SCENTRE SCTOTAL
CCI = = Residual 9 277,20 30,80
(k 1)* SCTOTAL
Total 19 7.714,20 406,01
2* 6976,2 7714,2
= 0,81
7714,2
(DEA)2 + (DEB)2 (DEAB)2
CCI = =
El valor de dicho coeficiente es 0,81, luego pode- (DEA)2 + (DEB)2 + (XAB)2 (DEAB)2/n
mos decir que existe una buena concordancia entre
las 2 enfermeras.
(21,77)2 + (18,22)2 + (7,85)2
Cuando slo tenemos que comparar los resultados = 0,83
obtenidos por 2 observadores o mtodos, podemos (21,77)2 + (18,22)2 + (9,6)2 (7,85)2 / 10
utilizar una frmula que nos permite calcular el CCI
de una forma muy sencilla. A continuacin explica- Para aplicar dicha frmula slo debemos conocer
mos brevemente dicho clculo. las desviacin estndar de las medidas tomadas por la

enfermera A (DEA), la de las medidas tomadas por respuestas a las preguntas del cuestionario. Un valor
la enfermera B (DEB) y la de la diferencia de las medi- prximo a 1 indica una alta homogeneidad o consis-
das tomadas por ambas (DEA-B), la media de la dife- tencia en las respuestas proporcionadas a dichas pre-

rencia (XA-B) y el nmero total de pacientes evaluados guntas; el de Cronbach o medida de homogeneidad
(n). El valor del CCI es de 0,83, con lo que podremos debe estar entre 0,7 y 0,9 para considerar que tiene
afirmar que existe una alta concordancia entre las 2 una uniformidad aceptable1. Una elevada consisten-
enfermeras. cia interna en las respuestas a sus preguntas es consi-
Tambin puede evaluarse la concordancia entre 2 derada prueba suficiente de la elevada fiabilidad del
observaciones realizadas por la misma persona; sera el instrumento.
caso de una enfermera que mide la presin arterial sis- A continuacin se presenta la forma para calcular
tlica a 10 pacientes y pasados 15 min vuelve a reali- el de Cronbach que tiene la siguiente frmula11:
zar una segunda medicin a los mismos 10 pacientes y
con el mismo instrumento.
( )
k
El clculo del CCI se realiza de la misma forma que k Vxj
= 1 i=1
en el ejemplo anterior, calculando la tabla ANOVA y k 1 Vx
sustituyendo los datos en la frmula del CCI. La dife-
rencia con el ejemplo anterior es la interpretacin de
dicho coeficiente. En este ltimo caso se mide la fia- donde es la confiabilidad calculada, k es el nmero
bilidad o estabilidad de la capacidad de medicin de total de puntos de indagacin en el estudio, Vxj es la
un instrumento a lo largo del tiempo (fiabilidad test- varianza de cada punto individual, y Vx es la varianza
retest); por tanto, el valor del CCI indicar la fiabili- del total de puntuaciones de la prueba.
dad del instrumento de medicin. Para ver la aplicacin de la consistencia interna
calculada con el ndice de Cronbach vamos a expo-
ner un ejemplo, basado en la encuesta sobre conoci-
Consistencia interna mientos del test de la tuberculina. Su principal objeti-
vo es determinar el conocimiento entre el personal de
En la construccin de escalas o de cuestionarios de sa- enfermera, que desarrolla su actividad en atencin
lud, un tercer aspecto importante que cabe tener en primaria, sobre la prueba de intradermorreacin de
cuenta para evaluar la fiabilidad es la consistencia in- Mantoux, segn la Gua de la Unin Internacional
terna de los mismos. Las preguntas que miden un mis- contra la Tuberculosis y Enfermedades Respiratorias.
mo dominio deben estar ms correlacionadas entre s Para ello, hemos escogido de este cuestionario las 3
que las que miden diferentes dominios1. Tener una preguntas siguientes, que se han realizado a 23 enfer-
puntuacin de correlacin muy alta entre preguntas in- meras:
dica 2 cosas:
1. Cul es la dosis recomendada para realizar la
1. Las preguntas estn midiendo un mismo fen- prueba de la tuberculina?
meno 2 UT en 0,1 ml de PPD RT23.
2. Con una de las preguntas basta para medir el fe- 5 UT en 0,1 ml de PPD RT23.
nmeno, pues las dems estn dando informacin re- 10 UT en 0,1 ml de PPD RT23.
dundante. Cualquier dosis es adecuada.
2. Cul es la zona de aplicacin ms recomendada
Por ello, se debe buscar un punto de correlacin pre- por los organismos internacionales?
ciso que nos indique que las preguntas estn midiendo La cara interna o dorsal de cualquiera de los an-
dominios diferentes del mismo fenmeno. Esto se defi- tebrazos.
ne con medidas de consistencia interna, tambin lla- La cara interna o dorsal del antebrazo no domi-
madas medidas de homogeneidad. Las medidas de ho- nante.
mogeneidad ms utilizadas son la frmula 20 de Kuder- La cara externa o ventral de brazo derecho.
Richardson (KR-20) y el alfa () de Cronbach11. La cara externa o ventral del brazo no dominante
El coeficiente puede tomar valores entre 0 y 112 y 3. Las jeringas que utiliza para inyectar la tubercu-
se calcula a partir de la matriz de covarianzas de las lina son:

De 1 ml, calibradas a 0,1 ml. TABLA 12. Respuestas de las enfermeras al cuestionario
De 2 ml, calibradas a 0,5 ml.
ID Pregunta 1 Pregunta 2 Pregunta 3 Suma
De 1 ml, calibradas a 0,5 ml.
De 1 ml, calibradas a 40 U de insulina. 1 1 2 4 7
2 2 3 4 9
Los resultados obtenidos se reflejan en la tabla 12. 3 3 3 2 8
Los clculos de las varianzas correspondientes para 4 2 2 3 7
hallar el de Cronbach son: 5 1 2 1 4
N 6 3 3 2 8
X
i=1 i 165 7 2 2 2 6
X= = = 7,17
N 23 8 3 2 2 7
9 3 2 2 7
N 10 2 2 3 7
(X.i X )2
VX = i=1
= 11 3 3 3 9
N 12 2 2 2 6
13 2 2 2 6
2 2 2
(7 7,17) + (9 7,17) + (8 7,17) + ... + (7 7,17) 2 14 2 3 2 7
= 15 3 4 2 9
23
16 4 2 4 10
45,31 17 3 3 2 8
= 1,97
23 18 1 1 3 5
19 1 2 3 6
donde X es la media
de la suma de todas las preguntas y es la varianza del 20 2 2 2 6
total de puntuaciones de la prueba. 21 1 3 3 7
22 2 3 4 9
Variabilidad Pregunta 1 23 2 2 3 7
50 55 60 165
ID: nmero de identificacin; suma: suma de las puntuaciones de las 3 preguntas.
N
X1i
i=1 50
X 1= = = 2,17
N 23
VX2 = X22 (X2)2 = 6,13 (2,39)2 = 0,41

VX1 = X21 (X1) = 5,39 (2,17)2 = 0,66 N
X22i
i=1 141
X22 = = = 6,13
N N 23
X1i
i=1 124
X21 = = = 5,39
N 23
donde X2 es la media de la pregunta 2, y Vx2 es la va-
rianza de la pregunta 2.

donde X es la media de la pregunta 1, y VX1 es la va-
rianza de la pregunta 2. Variabilidad Pregunta 3
Variabilidad Pregunta 2
N
N X
i=1 3i 60
X X3= = = 2,61
i=1 2i 55 N 23
X 2= = = 2,39
N 23

VX3 = X23 (X3)2 = 7,48 (2,61)2 = 0,67

N
X2 kappa, segn el tipo de variables, y para la consisten-
i=1 3i 172
X23 = = = 7,48 cia interna, el de Cronbach.
N 23
Bibliografa
donde X3 es la media de la pregunta 3, y VX3 es la va-
rianza de la pregunta 3. 1. Snchez R, Gmez C. Conceptos bsicos sobre validacin de escalas.
Rev Col Psiquiatra. 1998;27(2):121-30.
Luego, el coeficiente de de Cronbach resultante
2. Abraira V. El ndice kappa. Semergen. 2000;27:247-9.
es: 3. Sackett DL. A primer on the precision and accuracy of the clinical
examination. JAMA. 1992;267:2638-44.
( )
k 4. Latour J, Abraira V, Cabello JB, Lpez-Snchez J. Las mediciones cl-
k VXi 3
nicas en cardiologa: validez y errores de medicin. Rev Esp Cardiol.
= 1 i=1
= 1997;50:117-28.
k 1 Vx 31 5. Hernndez I, Porta M, Miralles M, Garca F, Bolmar F. La cuantifi-
cacin de la variabilidad en las observaciones clnicas. Med Clin
(Barc). 1990;95:424-9.
6. Badia X, Carne X. La evaluacin de la calidad de vida en el contexto
del ensayo clnico. Med Clin (Barc). 1998;110(14):550-6.
(1
0,66 + 0,41 + 0,67
1,97 ) = 0,12 7. Badia X, Muriel C, Gracia A, Nez-Olarte JM, Perulero N, Glvez
R, et al. Validacin espaola del cuestionario Brief Pain Inventory en
pacientes con dolor de causa neoplsica. Med Clin (Barc).
2003;120(2):52-9.
8. Lobo A, Chamorro L, Luque A, Dal Re R, Badia X, Baro E. Valida-
El coeficiente de 0,12 es muy bajo, lo que indicara cin de las versiones en espaol de la Montgomery-Asberg Depres-
que la consistencia interna tambin lo es y, por tanto, sion Rating Scale y la Hamilton Anxiety Rating Scale para la evalua-
cin de la depresin y de la ansiedad. Med Clin (Barc). 2002;118(13):
la no existencia de homogeneidad entre las preguntas. 493-9.
A modo de resumen para medir la fiabilidad, si te- 9. Ochoa C, Orejas G. Epidemiologa y metodologa cientfica aplicada
nemos 2 observadores que miden variables nominales a la pediatra (IV): Pruebas diagnsticas. An Esp Pediatr. 1999;50
(3):301-14.
utilizamos el ndice kappa; si las variables son ordina- 10. Kramer MS, Feinstein AR. Clinical biostatistic. LIV. The biostatis-
les, utilizamos el ndice kappa ponderado, y si son tics of concordance. Clin Pharmacol Ther. 1981;29(1):111-23.
variables cuantitativas, el coeficiente de correlacin 11. Cronbach LJ. Coefficient alpha and the internal structure of tests.
Psychometrika. 1951;16:297-334.
intraclase. Para la fiabilidad test-retest utilizamos el 12. Prieto L, Prieto L, Badia X. Cuestionarios de salud: Concepto y meto-
coeficiente de correlacin intraclase o los ndices dologa. Aten Primaria. 2001;28(3):201-9.

Fiabilidad de Los Instrumentos de Medición en Ciencias de La Salud

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Fiabilidad de Los Instrumentos de Medición en Ciencias de La Salud

Uploaded by

Copyright:

Available Formats

ARTCULO ESPECIAL

Fiabilidad de los instrumentos

45 ENFERMERA CLNICA 2005;15(4):227-36 227

Tipos de fiabilidad 1. Fiabilidad interobservador: se refiere a la con-

228 ENFERMERA CLNICA. 2005;15(4):227-36 46

ndice kappa para variables dicotmicas

47 ENFERMERA CLNICA. 2005;15(4):227-36 229

categoras pero que no tienen un orden jerrquico,

230 ENFERMERA CLNICA. 2005;15(4):227-36 48

ndice kappa ponderado 2

49 ENFERMERA CLNICA. 2005;15(4):227-36 231

52 + 18,75 70,75 Esta proporcin de acuerdos debidos al azar es del

TABLA 8. Tabla ANOVA para medidas repetidas

232 ENFERMERA CLNICA. 2005;15(4):227-36 50

51 ENFERMERA CLNICA. 2005;15(4):227-36 233

234 ENFERMERA CLNICA. 2005;15(4):227-36 52

53 ENFERMERA CLNICA. 2005;15(4):227-36 235

236 ENFERMERA CLNICA. 2005;15(4):227-36 54

You might also like