Professional Documents
Culture Documents
12.3. Determinación
del tamaño
muestral para
calcular la
significación
del coeficiente
de correlación
lineal
Cálculo del poder
13.
estadístico de un estudio
Significancia estadística y
14.
relevancia clínica
Estadística descriptiva de
15.
los datos
16. La Distribución Normal
Representación gráfica en
17.
el análisis de datos
Métodos paramétricos para
18. la comparación de dos
medias. t de Student
Relación entre variables
19.
cuantitativas
Asociación de variables
20. cualitativas: Test de
Chi-cuadrado
Asociación de variables
cualitativas: test exacto
21.
de Fisher y test de
McNemar
Técnicas de regresión.
22.
Regresión lineal simple
Técnicas de regresión.
23.
Regresión lineal múltiple
24. Análisis de supervivencia
Medidas de concordancia:
25.
El índice Kappa
26. Pruebas diagnósticas
27. Curvas ROC
Investigación cuantitativa y
28.
cualitativa
29. La fiabilidad de las
mediciones clínicas: el
análisis de concordancia
para variable numéricas
30. Revisiones sistemáticas y
metaanálisis
31. Revisiones sistemáticas y
metaanálisis (II)
Arriba
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 08/01/01
● Diseño de estudio
● Selección de variables
● Definición de variables
● Escala de medida
● Protocolo de recogida de datos
● Selección de la muestra
❍ ¿Cuántos?
❍ ¿Quiénes?
● Recogida de datos
● Automatización de los datos
● Depuración de los datos
● Análisis
● Resultados
● Conclusiones
La definición del objetivo es el eje en torno al cual se construye la estructura del estudio.
Si este objetivo no está claramente definido será difícil tomar decisiones sobre el tipo de
estudio más apropiado, sobre la selección de la muestra, sobre el tamaño muestral, sobre
las variables a medir y sobre el análisis estadístico a realizar.
La falta de claridad en nuestra pregunta no nos permitirá entre otras cosas poder calcular
el tamaño muestral de nuestro estudio, donde precisaremos conocer la seguridad de
nuestra estimación, la precisión de nuestra inferencia, el poder estadístico o la capacidad
para detectar diferencias si es que existen. Si estos pasos han sido solucionados,
debemos decidir a la vez que tipo de estudio epidemiológico vamos a realizar. Los
estudios epidemiológicos clásicamente se dividen en experimentales y no
experimentales. En los estudios experimentales (ensayos clínicos, ensayos de campo,
ensayos comunitarios) se produce una manipulación de una exposición determinada en
un grupo de individuos que se compara con otro grupo en el que no se intervino, o al que
se expone a otra intervención. Cuando el experimento no es posible se diseñan estudios
no experimentales que simulan de alguna forma el experimento que no se ha podido
realizar (estudios ecológicos, estudios de prevalencia, estudios de casos y controles,
estudios de cohortes o de seguimiento) (6,7).
Tras decidir el tipo de estudio habrá que tener en consideración las amenazas o riesgos
que dicho estudio lleva implícitos; en particular debemos reflexionar sobre los sesgos
del estudio. En el sesgo de selección los grupos no son comparables debido a como
fueron seleccionados los pacientes (elección inadecuada del grupo control, elección
inadecuada del espacio muestral, pérdidas de seguimiento y supervivencia selectiva), en
el sesgo de información los grupos no son comparables debido a como se obtuvieron los
datos (instrumento de medida no adecuado, diagnóstico incorrecto, omisiones,
imprecisiones, vigilancia desigual en expuestos y no expuestos, errores de clasificación,
errores en los cuestionarios o procedimientos…) y finalmente en el sesgo de confusión
existe una mezcla de efectos debido a una tercera o más variables. Esta variable está
asociada con la exposición a estudio e independientemente de la exposición es un factor
de riesgo para la enfermedad. La confusión puede ser controlada en el diseño del estudio
y en el análisis del mismo con lo cual nuestro estudio podría ser válido. La presencia de
sesgos de selección e información podrían ser cuantificados en algunas ocasiones pero
invalidarían el estudio (8).
Podemos afirmar sin lugar a dudas que realizar un estudio es una carrera de obstáculos
que aún no siendo infranqueables, permanentemente están presentes y dificultan a la vez
M. Susser en sus reflexiones sobre causalidad (9) señalaba "cuando hay minas por todas
partes no debe uno aventurarse sin un detector de minas". El conocimiento de la
metodología y su aplicación a la práctica clínica debemos considerarla como un
elemento útil, necesario y atractivo pues nos va a permitir aumentar nuestra capacidad
para responder a preguntas a la vez que incrementará nuestra capacidad crítica para
discriminar lo seguro y correcto de lo que no lo es tanto.
Bibliografía
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 15/01/01
la medicina. Con frecuencia existen dificultades para trasladar los resultados de una Dificultades en
relación a la
investigación a la práctica clínica por la forma en que habitualmente se presentan viabilidad y
los resultados en términos de: p<0.05, p<0.01, riesgo relativo, odds ratio, reducción pertinencia de
absoluta del riesgo, reducción relativa del riesgo, fracción atribuible poblacional o un estudio
fracción etiológica. A este lenguaje con el que muchos profesionales sanitarios no Problemas
están familiarizados y tienen dificultades para su compresión (1,2) se suma el hecho estadísticos de
los ensayos
que además los resultados de un estudio pueden ser estadísticamente significativos
clínicos
y no ser clínicamente relevantes (3).
Bibliografía
Documento
El método científico parte de la observación de una realidad, se elabora una en PDF (54
hipótesis explicativa, se contrastan las hipótesis y si dicha hipótesis es aceptada se Kb)
realizan proposiciones que forman la teoría científica. Dicho procedimiento requiere ¿Problemas
un proceso sistemático, organizado y objetivo destinado a responder a una pregunta con PDF?
(Tabla 1) (4,5) que los profesionales sanitarios perciben como una carrera infinita
de obstáculos. En este contesto de dificultad muchos profesionales sanitarios acuden a los
epidemiólogos y estadísticos solicitando diferentes tipo de ayudas. Así algunos acuden
solamente para que se les calcule una "p", otras acuden porque quieren cruzar variables,
otros a que le "echen los números", otros a que se les calcule el tamaño de la muestra y
otros cada vez más numeroso a que se les ayude a diseñar el estudio desde el principio.
● Hipótesis de trabajo
● Objetivos
● Diseño de estudio
● Selección de variables
● Definición de variables
● Escala de medida
● Protocolo de recogida de datos
● Selección de la muestra
❍ ¿Cuántos?
❍ ¿Quiénes?
● Recogida de datos
● Automatización de los datos
● Depuración de los datos
● Análisis
● Resultados
● Conclusiones
Las dificultades que presentan los médicos para entender el lenguaje y/o metodología de
los estadísticos y epidemiólogos radica fundamentalmente y entre otras razones en que
ambos trabajan en escenarios diferentes. Los clínicos y los epidemiólogos/estadísticos
deben de resolver problemas diferentes. El clínico trabaja con un paciente que conoce por
nombre y apellidos, sabe sus antecedentes y hasta conoce a su familia, los estadísticos
estudian a los pacientes de cien en cien o de mil en mil y siempre le dicen al clínico que
tiene pocos pacientes. El clínico desea realizar un diagnóstico concreto a un paciente
determinado y el estadístico le habla de curvas ROC, valores predictivos, sensibilidad,
especificidad.... El clínico quiere concretar la causa de la enfermedad y el estadístico le
calcula un OR (odds ratio) un RR (riesgo relativo), 95% intervalos de confianza y
gradientes biológicos controlando eso sí por confusión con técnicas de regresión
múltiple. El clínico desea conocer la mejor terapéutica y el estadístico le calcula
reducciones relativas de riesgo, reducciones absolutas y número necesario de pacientes a
tratar para prevenir un evento. El clínico desea conocer el pronóstico de un paciente
determinado y el estadístico le habla de Kaplan-Meier, de asunción de riesgos
proporcionales y de regresiones de Cox. Ambos abordan problemas en escenarios
diferentes de los cuales ambos logran objetivos diferentes, el clínico se centra en el
paciente y los estadísticos y epidemiólogos se centran en la enfermedad (6,7). A parte de
los problemas estrictamente metodológicos los profesesionales sanitarios deben a su vez
afrontar problemas en relación con la viabilidad y pertinencia de los diferentes estudios
como se indican en la tabla 2. El disponer del tiempo, independientemente del
conocimiento metodológico, es uno de los importantes problemas que todos los
profesionales sanitarios acusan como muy importante.
● Viabilidad
Disponibilidad de tiempo
❍
Conocimiento metodológico
❍
Frecuencia
■
Gravedad
■
■ Interés social
■ Beneficios que pueden derivarse de los resultados
■ Importancia de su valor teórico
❍ Los resultados espereables compensan los recursos utilizados
Los problemas que presentas los clínicos para la ejecución de diferentes tipos de estudios
clínico epidemiológicos no son solo puramente estadísticos como lo muestra el resultado
de la evaluación de los 454 ensayos clínicos evaluados por el comité ético de ensayos
clínicos de la Comunidad Autónoma de Galicia que siguiendo los procedimientos
normalizados de trabajo se presentan en la tabla 3 (8). La causa más frecuente de
valoración positiva condicional o negativa han sido los aspectos éticos entendiendo como
tales y por orden de frecuencia: la información al paciente/consentimiento informado,
póliza de seguros/indemnización, consideraciones éticas generales y contenidos del
presupuesto económico. Los problemas de análisis estadístico figuran en último lugar. Es
evidente que este hallazgo refleja la realidad de que el aspecto cuantitativo del ensayo
este diseñado por grupos de expertos conocedores la metodología cuantitativa que la
industria farmacéutica posee.
TABLA 3. Dictamen final de todos los ensayos clínicos evaluados por el Comité Etico de
investigación Clínica de Galicia (Octubre/1996 a Octubre/1999).
N %
Procedentes 337 74.2
Procedente condicionado 61 13.4
No procedente 43 9.5
Retirado 12 2.6
Otros 1 0.2
TOTAL 454 100
Causas de valoración positiva condicional o negativa
Aspectos éticos 49.1 %
Investigador Principal (falta de firma del proyecto...) 8.4 %
Selección de los pacientes 8.3 %
Justificación y objetivos 6.8 %
Los problemas estrictamente estadísticos de los ensayos clínicos han sido por otra parte
señalados por Pocock (9) y se resumen en la tabla 4.
Señalábamos inicialmente que los problemas que presentan los profesionales sanitarios
Bibliografía
Actualizada el 30/04/2005.
Tabla de contenidos:
❍ ¿Cuál es el diagnóstico?
❍ ¿Qué prueba diagnóstica debería pedir?
❍ ¿Qué tratamiento es el mejor para el
paciente?
❍ ¿Cómo será la evolución tras el
tratamiento?
● Existe gran variabilidad en la práctica clínica
entre los profesionales que debe ser
investigada.
A pesar de las dificultades que hacen que hacen aún teniendo conocimientos
metodológicos, el realizar investigación en atención primaria sea una misión
imposible, como previamente hemos señalado, no quiero terminar dando un
mensaje de pesimismo ya que entre otras razones los profesionales sanitarios
debemos ser dispensadores de esperanza. Es posible realizar investigación en
atención primaria pues la evidencia científica y la producción científica en otras
autonomías y en otros países así lo han demostrado. Para ello hay que
establecer las condiciones mínimas que realmente lo permitan como son que
las Gerencias crean en ella, que forme parte de sus objetivos, que pongan los
recursos necesarios para su realización y que se incentive a los profesionales
(Tabla 4).
Universidad.
● Creación de departamentos de Medicina de
Familia en la Universidad.
Bibliografía
from one English region. Br J Gen Pract. 2000; 50(454): 387-9. [Medline]
8. Falk WA.Research in general practice. Can Med Assoc J. 1979; 120(10):
1198-200. [Medline]
9. Culpepper L, Franks P. Family medicine research. Status at the end of the
first decade. JAMA. 1983; 249(1): 63-8.
10. Llovera Canaves J. Reflexionando sobre los obstáculos en la investigación
de atención primaria. Opinión de los investigadores. En: Documentos de
trabajo sobre investigación en Atención Primaria. FIS; 1996.
11. Fernández de Sanmamed MJ, De la Fuente JA, Mercader J, Borrel C,
Martín C, Birulés M, Marcos L. Factores relacionados con la actividad
investigadora de los médicos de atención primaria. Aten Primaria 1997;
19: 283-289. [Medline] [Texto completo]
12. López Fernández LA, Martínez Millán JI, García Calvente MM, March Cerdá
JC. La investigación en atención primaria en España. Revisiones en Salud
Pública 1993;.3:.135-154.
13. Pita Fernández S. Evaluación de las comunicaciones del XIII Congreso de
Medicina Familiar y Comunitaria (La Coruña). Aten Primaria 1994; 13
(3): 150-2. [Medline]
14. Simo Miñana J, Gaztambide Ganuza M, Latour Pérez J. Producción
científica de los profesionales españoles de atención primaria (1990-
1997). Un análisis bibliométrico a partir de MEDLINE. Aten Primaria
1999; 23 [Supl. 1]: 14-28. [Medline]
15. Gómez de la Cámara A. La investigación en atención primaria. El ensayo
clínico y los estudios observacionales de productos farmacéuticos. Aten
Primaria 1999; 24: 431-435. [Medline] [Texto completo]
Arriba
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 20/04/04
Medidas de frecuencia de enfermedad
Pita Fernández S (1) [ Correo de contacto ], Pértegas Díaz S (1), Valdés Cañedo F (2)
(1) Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario-Universitario
Juan Canalejo. A Coruña (España).
(2) Servicio de nefrología. Complexo Hospitalario-Universitario Juan Canalejo. A Coruña
(España).
fundamentales para formular y testar hipótesis, así como para permitir comparar las Prevalencia
frecuencias de enfermedad entre diferentes poblaciones o entre personas con o sin - Prevalencia de
periodo
una exposición o característica dentro de una población determinada.
Incidencia
- Incidencia
La medida más elemental de frecuencia de una enfermedad, o de cualquier otro acumulada
evento en general, es el número de personas que la padecen o lo presentan (por - Tasa de
ejemplo, el número de pacientes con hipertensión arterial, el número de fallecidos incidencia
por accidentes de tráfico o el número de pacientes con algún tipo de cáncer en los (densidad de
incidencia)
que se ha registrado una recidiva). Sin embargo, dicha medida por sí sola carece
Relación entre
de utilidad para determinar la importancia de un problema de salud determinado, incidencia y
pues debe referirse siempre al tamaño de la población de donde provienen los prevalencia
casos y al periodo de tiempo en el cual estos fueron identificados. Para este Bibliografía
propósito, en epidemiología suele trabajarse con diferentes tipos de fracciones que Tablas y Figuras
permiten cuantificar correctamente el impacto de una determinada enfermedad: Figura 1.
Documento
a. Proporción: es un cociente en el que el numerador está incluido en el en PDF (52
denominador. Por ejemplo, si en una población de 25.000 habitantes se Kb)
¿Problemas
diagnostican 1.500 pacientes con diabetes, la proporción de diabetes en esa
con PDF?
población es de 1.500/25.000 = 0.06 (6%). El valor de una proporción
puede variar así de 0 a 1, y suele expresarse como un porcentaje.
b. Razón: En este cociente el numerador no forma parte del denominador. En el
ejemplo anterior, la razón entre la población con diabetes y la población no
diabética es de 1.500/23.500 = 3/47 =0,064. Cuando, como en el caso del
ejemplo, la razón se calcula entre la probabilidad de que ocurra un evento y la
probabilidad de que éste no ocurra, la razón recibe también el nombre de odds.
En el ejemplo, la odds de diabetes es de 0,06, es decir, en el área de estudio por
cada 1/0,064 = 16,7 pacientes no diabéticos hay 1 que sí lo es.
fórmulas siguientes:
Prevalencia
7
La prevalencia (P) cuantifica la proporción de individuos de una población que
padecen una enfermedad en un momento o periodo de tiempo determinado. Su cálculo se
estima mediante la expresión:
Como todas las proporciones, la prevalencia no tiene dimensión y nunca toma valores
menores de 0 ó mayores de 1, siendo frecuente expresarla en términos de porcentaje, en
tanto por ciento, tanto por mil,... en función de la “rareza” de la enfermedad estudiada.
La prevalencia de un problema de salud en una comunidad determinada suele estimarse a
partir de estudios transversales para determinar su importancia en un momento concreto,
y no con fines predictivos. Además, es evidente que el cálculo de la prevalencia será
especialmente apropiado para la medición de procesos de carácter prolongado, pero no
tendrá mucho sentido para valorar la importancia de otros fenómenos de carácter más
momentáneo (accidentes de tráfico, apendicitis, infarto de miocardio,...).
Incidencia
8
La incidencia se define como el número de casos nuevos de una enfermedad que se
desarrollan en una población durante un período de tiempo determinado. Hay dos tipos
de medidas de incidencia: la incidencia acumulada y la tasa de incidencia, también
denominada densidad de incidencia.
Por ejemplo: Durante un período de 6 años se siguió a 431 varones entre 40 y 59 años
sanos, con colesterol sérico normal y tensión arterial normal, para detectar la presencia
de cardiopatía isquémica, registrándose al final del período l0 casos de cardiopatía
isquémica. La incidencia acumulada en este caso sería:
en seis años
La incidencia acumulada asume que la población entera a riesgo al principio del estudio
ha sido seguida durante todo un período de tiempo determinado para observar si se
desarrollaba la enfermedad objeto del estudio. Sin embargo, en la realidad lo que sucede
es que:
La densidad de incidencia no es por lo tanto una proporción, sino una tasa, ya que el
denominador incorpora la dimensión tiempo. Su valor no puede ser inferior a cero pero
no tiene límite superior.
(2)
Por otro lado, el número de enfermos que se curan o fallecen en ese periodo puede
calcularse como:
(3)
(4)
(5)
(6)
prestaciones sanitarias, la prevalencia puede ser una mejor medida que la incidencia ya
que nos permite conocer la magnitud global del problema.
Bibliografía
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 28/06/04
Cálculo de probabilidades: nociones básicas
información recogida en un estudio, e inferencial, que tiene por objetivo generalizar la Probabilidades
condicionadas
información obtenida en una muestra a resultados válidos para la población de la que
Teorema de las
1
procede . Supongamos, por ejemplo, que nos interesa comparar dos fármacos A y B y Probabilidades
totales
determinar cuál de ellos es más eficaz para el tratamiento de una determinada
Teorema de
enfermedad. Para ello, se diseña un estudio distribuyendo 100 enfermos en dos grupos, Bayes
cada uno de los cuales recibe uno de los dos tratamientos. Al cabo de 1 mes, la tasa de Bibliografía
curación en cada grupo es del 80% y del 70%, respectivamente. Ante esta información, Tablas y Figuras
¿es correcto suponer que el tratamiento A es mejor que el tratamiento B para esta Tabla 1.
enfermedad en concreto? La respuesta a esta pregunta, como a la mayor parte de Asociación entre
problemas que pueden plantearse en medicina, está sujeta a un cierto grado de el hábito
incertidumbre que hacen muy complicado tomar una decisión al respecto. En la tabáquico y el
desarrollo de
respuesta de un paciente al tratamiento pueden influir diversos factores, entre los que se una enfermedad.
incluye el azar, que pueden provocar una gran variabilidad en los resultados. La
Documento
aplicación de los principios de la estadística a la clínica permite reducir y cuantificar
en PDF (56
dicha variabilidad y ayudar a la toma de decisiones. En particular, el cálculo de Kb)
probabilidades suministra las reglas apropiadas para cuantificar esa incertidumbre y ¿Problemas
constituye la base para la estadística inductiva o inferencial. con PDF?
El objetivo de este trabajo consiste en introducir algunos de los conceptos básicos del cálculo
de probabilidades, así como las reglas necesarias para el desarrollo de la inferencia estadística
en medicina. Una exposición más detallada de estos y otros conceptos puede encontrarse en
2-8
referencias más especializadas .
2
las demás propiedades del cálculo de probabilidades . En otros contextos, se ha defendido una
interpretación más amplia del concepto de probabilidad que incluye las que podemos
denominar probabilidades subjetivas o personales, mediante las cuales se expresa el grado de
confianza o experiencia en una proposición. Esta definición constituye la base de los llamados
métodos bayesianos, que se presentan como alternativa a la estadística tradicional centrada en
9-11
el contraste de hipótesis . No obstante, y en relación con el propósito de este trabajo,
bastará con considerar la definición frecuentista anterior. Así, a partir de una población con N
elementos, de los cuales k presentan una característica A, se estimará la probabilidad de la
característica A como P(A) = k/N. Así, por ejemplo, en una población de 100 pacientes, 5 de
los cuales son diabéticos, la probabilidad de padecer diabetes p(Diabetes) se estimará como el
cocient:e 5/100= 0.5.
(1)
La extensión de la ley aditiva anterior al caso de más de dos sucesos mutuamente excluyentes
A, B, C... indica que:
Nótese la importancia del hecho de que los sucesos anteriores sean mutuamente excluyentes.
Sin esta condición, la ley de adición no será válida. Por ejemplo, se sabe que en una
determinada Unidad de Cuidados Intensivos (UCI) el 6,9% de los pacientes que ingresan lo
hacen con una infección adquirida en el exterior, mientras que el 13,7% adquieren una
infección durante su estancia en el hospital. Se conoce además que el 1,5% de los enfermos
ingresados en dicha unidad presentan una infección de ambos tipos. ¿Cuál será entonces la
probabilidad de que un determinado paciente presente una infección de cualquier tipo en UCI?
Para realizar el cálculo, si se suman simplemente las probabilidades individuales (0,069
+0,137) la probabilidad de un suceso doble (infección comunitaria y nosocomial) se estará
evaluando dos veces, la primera como parte de la probabilidad de padecer una infección
comunitaria y la segunda como parte de la probabilidad de adquirir una infección en la UCI.
Para obtener la respuesta correcta se debe restar la probabilidad del doble suceso. Así:
Por lo tanto, si dos o más sucesos no son mutuamente excluyentes, la probabilidad de que
ocurra uno de ellos o ambos se calcula sumando las probabilidades individuales de que ocurra
una de esas circunstancia, pero restando la probabilidad de que ocurra la común.
En el ejemplo anterior, la probabilidad de infección en UCI vendrá dada, por lo tanto, como:
Es decir, 19 de cada 100 enfermos registrará alguna infección (ya sea de tipo comunitario o
nosocomial) durante su ingreso en la citada unidad.
A veces, la probabilidad de que un determinado suceso tenga lugar depende de que otro
suceso se haya producido o no con anterioridad. Esto es, en ocasiones el hecho de que se
produzca un determinado fenómeno puede hacer más o menos probable la aparición de otro.
Este tipo de probabilidades se denominan probabilidades condicionadas, y se denotará por
a la probabilidad condicionada del suceso A suponiendo que el suceso B haya
ocurrido ya.
(3)
La ley multiplicativa anterior se utiliza también con el fin de determinar una probabilidad
condicional a partir de los valores de y :
(4)
Supongamos, por ejemplo, que queremos estudiar la incidencia del hecho de ser fumador
como factor de riesgo en el desarrollo de una enfermedad en una determinada población. Para
ello se diseñó un estudio prospectivo y, tras seleccionar una muestra de 180 sujetos, los
resultados son los que se muestran en la Tabla 1. Considerando toda la muestra, la
probabilidad de desarrollar la enfermedad (E) en la población de estudio es:
Y un no fumador:
Podría haberse aplicado la fórmula (4) para obtener cualquiera de las dos probabilidades
condicionadas anteriores, resultando idénticos valores:
(5)
el campo médico, puesto que permite el cálculo de la probabilidad de que un paciente padezca
una determinada enfermedad una vez dados unos síntomas concretos. La capacidad predictiva
de un test o de una prueba diagnóstica suele venir dada en términos de su sensibilidad y
12
especificidad . Tanto la sensibilidad como la especificidad son propiedades intrínsecas a la
prueba diagnóstica, y definen su validez independientemente de cuál sea la prevalencia de la
enfermedad en la población a la cual se aplica. Sin embargo, carecen de utilidad en la práctica
clínica, ya que sólo proporcionan información acerca de la probabilidad de obtener un
resultado concreto (positivo o negativo) en función de si un paciente está realmente enfermo o
no. Por el contrario, el concepto de valores predictivos, a pesar de ser de enorme utilidad a la
hora de tomar decisiones clínicas y transmitir información sobre el diagnóstico, presenta la
limitación de que dependen en gran medida de lo frecuente que sea la enfermedad a
diagnosticar en la población objeto de estudio. El Teorema de Bayes permite obtener el valor
predictivo asociado a un test al aplicarlo en poblaciones con índices de prevalencia muy
diferentes.
Consideremos como ejemplo un caso clínico en el que una gestante se somete a la prueba de
sobrecarga oral con 50 gramos de glucosa para explorar la presencia de diabetes gestacional,
obteniéndose un resultado positivo. Es sabido que dicho test presenta unos valores
aproximados de sensibilidad y especificidad en torno al 80% y al 87%, respectivamente. Si se
conoce además que la prevalencia de diabetes gestacional en la población de procedencia es
aproximadamente de un 3%, por medio del teorema de Bayes podemos conocer la
probabilidad de que el diagnóstico sea correcto o, equivalentemente, el valor predictivo
positivo:
Se puede concluir por lo tanto que, a pesar de obtener un resultado positivo en la prueba,
existe sólo una probabilidad de un 15,9% de que la paciente padezca diabetes gestacional.
Supongamos que además dicha paciente tiene más de 40 años de edad. Se sabe que en grupos
de edad más avanzada la prevalencia de diabetes gestacional entre las gestantes llega a
aumentar hasta aproximadamente un 8%. En este caso, el valor predicativo positivo asociado
vendrá dado por:
En un caso como este, en que se realiza una prueba para obtener información sobre un
Tal y como se indicó al inicio del presente artículo, la teoría de la probabilidad constituye la
base matemática para la aplicación de la estadística inferencial en medicina. El cálculo de
probabilidades constituye una herramienta que permitirá hacer inferencia sobre distintos
parámetros poblacionales a partir de los resultados obtenidos en una muestra, y después tomar
decisiones con el mínimo riesgo de equivocación en situaciones de incertidumbre.
Bibliografía
1. Argimón Pallás JM, Jiménez Villa J. Métodos de investigación clínica y epidemiológica. 2ª ed.
Madrid: Harcourt; 2000.
2. Sentís J, Pardell H, Cobo E, Canela J. Bioestadística. 3ª ed. Barcelona: Masson; 2003.
3. Colton T. Estadística en medicina. Barcelona: Salvat; 1979.
4. Armitage P, Berry G. Estadística para la investigación biomédica. Barcelona: Doyma; 1992.
5. Departamento de Medicina y Psiquiatría. Universidad de Alicante. Tratado de Epidemiología
Clínica. Madrid: DuPont Pharma; 1995.
6. Altman DG. Practical Statistics for Medical Research. London: Chapman & Hall; 2004.
7. Vélez R, Hernández V. Cálculo de Probabilidades I. Madrid: UNED; 1995.
8. Quesada V, García A. Lecciones de Cálculo de Probabilidades. Madrid: Díaz de Santos; 1988.
9. Silva LC, Benavides A. El enfoque bayesiano: otra manera de inferir. Gac Sanit 2001; 15(4): 341-
346.
10. Silva LC, Suárez P. ¿Qué es la inferencia bayesiana? JANO 2000; 58: 65-66.
11. Silva LC, Muñoz A. Debate sobre métodos frecuentistas vs bayesianos. Gac Sanit 2000; 14: 482-
494.
12. Pértega Díaz S, Pita Fernández S. Pruebas diagnósticas. Cad Aten Primaria 2003; 10: 120-124.
[Texto completo]
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 19/10/02
de una enfermedad.
b. Riesgo Relativo: Compara la frecuencia con que ocurre el daño entre los que
tienen el factor de riesgo y los que no lo tienen (Tabla 1).
Expuestos a b a+b
No expuestos c d c+d
Total a+c b+d a+b+c+d
95% IC (1.38;5.34)
El riesgo relativo igual a 2.71 de la tabla 2, significa que las expuestas al factor x
(exposición pasiva al tabaco) tienen 2,71 veces más probabilidades de tener niños de bajo
peso que las no expuestas.
a. en el grupo de expuestos y
b. en la población.
Lo que significa que el 63.14% del bajo peso en los expuestos se debe a la exposición.
Dado que en nuestro ejemplo previo el riesgo relativo era 2.71 el cálculo se podría
expresar también como:
Se podría definir como la cantidad de riesgo que sufre toda la población como
consecuencia de la exposición. Representa lo mismo que el RAe, pero referido a la
comunidad.
El cálculo de dicho 95% IC para el riesgo relativo se realiza del siguiente modo
(12,13,14):
donde:
2. Error estándar =
3. El 95% intervalo de confianza del logaritmo de RR= 0.99 ± 1.96 * 0.34 = (0.319;
1.674)
4. El antilogaritmo de estos límites es: e 0.319 a e1.67 = (1.38 a 5.34)
Por tanto en el ejemplo (tabla 2) el RR = 2.71 y el 95% Intervalo de confianza es: 1.38 a
5.34
donde:
El cálculo del intervalo de confianza del riesgo relativo y del odds ratio es fundamental al
realizar el análisis de cualquier estudio. Dicho cálculo nos indica no solo la dirección del
efecto, sino la significancia estadística, si el intervalo no engloba el valor 1 y la precisión
del intervalo que está directamente relacionada con el tamaño muestral del estudio.
BIBLIOGRAFÍA
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 18/01/01
La actividad clínica diaria esta fundamentada en tres elementos: el juicio diagnóstico, el Contenido
pronóstico y el tratamiento. Estas tres actividades están basadas en estudios probabilísticos. Diferencia
Tras el diagnóstico de una enfermedad se precisa conocer el pronóstico de la misma. La entre riesgo y
pronóstico
determinación de un pronóstico es estimar las probabilidades de los diversos modos de
Parámetros de
evolución; es predecir la evolución de una enfermedad en un paciente determinado. El interés
conocimiento del pronóstico es una variable fundamental ya que en muchos casos decidirá el pronóstico
tratamiento (1). Por otra parte las actividades terapéuticas y preventivas pueden modificar él Determinación
pronostico de una enfermedad. de factores
pronósticos:
- Experiencia
La historia natural de una enfermedad es la evolución sin intervención médica. El curso clínico personal
describe la evolución de la enfermedad que se encuentra bajo atención médica(2). - Revisión de la
literatura
- Realización
El pronóstico depende por tanto de la historia natural de la enfermedad y de su curso clínico. de estudios
Dicho pronóstico no siempre cambia con la intervención médica. Errores en el
estudio del
La incertidumbre sobre el futuro de una enfermedad, puede estimarse sobre la experiencia curso clínico:
- Sesgo de
clínica y la información epidemiológica. Es evidente que la experiencia clínica individual aún selección
siendo de gran valor, por si sola es inadecuada ya que esta basada en un conjunto mas o menos - Sesgo de
limitado de pacientes que no representan la totalidad de los mismos sobre los que se tiene pérdidas de
seguimiento
además un seguimiento desigual.
- Sesgo por
errores de
Diferencia entre riesgo y pronóstico medición
Bibliografía
Por otra parte debemos a su vez tener en cuenta la diferencia entre factores de riesgo y factores
Documento
pronósticos. Los factores de riesgo son los que condicionan la probabilidad de presentar una en PDF (62
enfermedad determinada. Dichos factores pueden estar presentes en población sana y aumentan Kb)
el riesgo de tener la enfermedad. La identificación de los factores de riesgo son imprescindibles ¿Problemas
para la prevención primaria. con PDF?
Los factores pronósticos son aquellos que predicen el curso clínico de un padecimiento una vez que
la enfermedad esta presente. La identificación de estos factores son de gran interés para la
prevención secundaria y terciaria (2,3,4).
Para la estimación del riesgo el suceso final que se busca es la presencia de una enfermedad
específica. Para la estimación del pronóstico la variable final como elemento de interés para estudio
puede ser: la muerte, la recurrencia del proceso, la invalidez, las complicaciones (5).
Existen a su vez marcadores de riesgo que son características de las personas que no son
modificables (edad, sexo, estado socio-económico,…) y que determinan la probabilidad de presentar
una enfermedad. Los marcadores de pronóstico son a su vez características no modificables del
sujeto que tienen una probabilidad determinada de afectar el curso clínico de la enfermedad.
Hay factores de riesgo (edad, HTA,...) que cuando aparece la enfermedad (cardiopatía isquémica) a
su vez son factores pronósticos para la presencia o no de muerte por dicha enfermedad (2), Tabla 1.
Los parámetros de interés pronóstico dependen de la enfermedad que se estudie pero los de uso más
frecuente son (2,6,7):
En la actividad diaria conoceremos el pronóstico de muchos de los pacientes por nuestra formación
y experiencia previa. Las estrategias para conocer el pronóstico podrían resumirse en las siguientes
posibilidades (3,7,8):
1. Experiencia personal:
● Revisión de casos.
● Estudios de casos y controles
● Estudios de cohortes
● Ensayos clínicos.
Por otra parte la identificación de factores de riesgo para la presencia de una enfermedad tampoco
puede ser producto de la experiencia personal. Existen riesgos que pueden ser identificados
fácilmente entre exposición y enfermedad (traumatismos por accidente de coche, intoxicación por
sobredosis de fármacos…) pero en la mayoría de las enfermedades crónicas las relaciones entre
exposición y enfermedad son menos aparentes. Las razones por las que la experiencia personal es
insuficiente para establecer una relación entre una exposición y una enfermedad se señalan en la
tabla 2 (2).
Los artículos de revisión discuten la información sobre el tema teniendo en cuenta aspectos
metodológicos, concordancias y divergencias sobre diferentes trabajos que nos permitirán una
información actualizada sobre el tema (9).
El metanálisis ha sido definido por Jenicek como "una integración estructurada, con una revisión
cualitativa y cuantitativa de los resultados de diversos estudios independientes acerca de un mismo
tópico". El metanálisis desplazó de la literatura médica a la revisión por un experto.
Enfermos
Enfermos
(fallecidos, Total
(no fallecidos...)
recurrentes...)
Expuestos a b a+b
No expuestos c d c+d
Total a+c b+d a+b+c+d
d. Ensayos clínicos: Este tipo de estudios permiten estudiar las modificaciones del curso
clínico de la enfermedad como respuesta a nuevas intervenciones terapéuticas.
Los datos proporcionados por los estudios clínicos se expresan en múltiples ocasiones en
términos de supervivencia. Este término no queda limitado a los términos de vida o muerte,
sino a situaciones en las que se mide el tiempo que transcurre hasta que sucede el evento de
interés, como puede ser tiempo de recurrencia, tiempo que dura la eficacia de una
intervención, tiempo de un aprendizaje determinado etc. Por tanto, la supervivencia es una
medida de tiempo a una respuesta, fallo, muerte, recaída o desarrollo de una determinada
enfermedad o evento.
El termino supervivencia se debe a que las primeras aplicaciones de este método de análisis
utilizaba como evento la muerte de un paciente (14).
La característica distintiva del análisis con este método es que la proporción acumulada que
sobrevive, se calcula para el tiempo de supervivencia individual de cada paciente y no se agrupan
los tiempos de supervivencia en intervalos (14).
En los estudios de seguimiento no todos los pacientes presentan el evento tras un tiempo de
seguimiento (observaciones censuradas). La técnica ideada por Cox (modelo de riesgo proporcional
o regresión de Cox) es la proporcionada para realizar el análisis cuando hay observaciones
censuradas que dependen del tiempo. Este modelo utiliza como variable dependiente el tiempo de
supervivencia del paciente y como covariables variables independientes) que se modifican con el
tiempo. Los coeficientes de regresión de Cox pueden usarse para determinar el riesgo relativo entre
cada variable independiente y la variable respuesta, ajustado por el efecto de las demás variables en
la ecuación (15).
Los errores más frecuentes en los estudios sobre el curso clínico de enfermedades, vienen
determinados por los sesgos (estimaciones equivocadas del riesgo): de selección, de pérdidas de
seguimiento, y de errores en la medición (3,5,7).
a) Sesgo de selección: Este tipo de sesgo puede presentarse en cualquiera de los diseños
previamente señalados y es muy frecuente. Los pacientes que acuden a centros hospitalarios, los
candidatos a cirugía, son diferentes de los que no ingresan o no se operan por razones diferentes. Por
tanto las conclusiones que se deriven del estudio de un grupo de ellos, no son representativas de
todos los pacientes que tengan la enfermedad.
Si no se dispone del seguimiento del paciente desde el inicio de la enfermedad o evento, el resultado
sobre su pronóstico puede ser impredecible. Pueden fácilmente presentarse sesgos de supervivencia
selectiva ya que aquellos que fallecieron antes o siguen vivos ahora (en el momento que se
incorporan al estudio) son diferentes. Es por ello fundamental incorporar al estudio casos incidentes
desde el inicio de la enfermedad o evento de interés.
b) Sesgo por perdidas de seguimiento: Las pérdidas de seguimiento son frecuentes e los estudios de
cohortes y ensayos clínicos. Si las perdidas son aleatorias y no se asocian con el evento de interés no
se produce un sesgo. Debe ser un objetivo prioritario reducir al mínimo las perdidas con un
cuidadoso seguimiento de todos los pacientes ya que de lo contrario pueden tener un efecto
impredecible e invalidar las conclusiones del estudio.
c) Sesgo por errores de medición: Se produce una estimación equivocada del riesgo por errores en
la medición, siendo las fuentes más frecuentes de sesgo: un instrumento no adecuado de medida, un
diagnóstico incorrecto, omisiones, imprecisiones, vigilancia desigual en expuestos y no expuestos,
procedimientos de encuesta no validos, encuestadores no entrenados o conocedores de las hipótesis
del estudio. Este tipo de sesgos pueden reducirse si se tienen en cuenta los siguientes conceptos
básicos: a) los observadores (encargados de la medición o evaluación) deben ser ciegos al tipo de
tratamiento que recibe el enfermo, b) las mediciones del proceso de interés han de desarrollarse en
condiciones similares en ambos grupos con el mismo instrumento de medida y en los mismos
momentos de seguimiento, y c) los criterios diagnósticos que señalen la presencia del evento de
interés deben estar claramente definidos.
BIBLIOGRAFÍA
1. Sackett, D.L., Haynes, R.B., Guyatt, G.H., Tugwell, P. Epidemiología clínica. Ciencia
básica para la medicina clínica. 2ª ed. Madrid: Editorial Médica Panamericana; 1994.
2. Fletcher, R.H., Fletcher S.W., Wagner E.H. Epidemiología clínica. Barcelona: Ediciones
Consulta; 1989.
3. Moreno A., Cano V., García M. Epidemiología clínica. 2ª ed. México: Interamericana.
McGraw-Hill; 1994.
4. Brownson R.C., Remigton P.L., Davis J.R. Chronic disease epidemiology and control.
Baltimore: American Public Health Association; 1993.
5. Jenicek M., Cleroux R. Epidemiología. Principios-Técnicas-Aplicaciones. Barcelona:
Salvat; 1987.
6. Barker D.J.P., Rose G. Epidemiología en la práctica médica 2ª Edición. Barcelona:
Ediciones Científicas y Técnicas; 1992.
7. Alvarez Caceres R. El método científico en las ciencias de la salud. Las bases de la
investigación biomédica. Madrid: Díaz de Santos; 1996.
8. Villagrasa F., Bañares J., Barona C., PLA E. El juicio pronóstico. En: Tratado de
epidemiología clínica. Madrid: DuPont Pharma Madrid; 1995. p. 255-269.
9. Guyatt GH, Sackett DL, Cook DJ. Evidence-Based Medicine Working Group. Users´ guides
to the medical literature.II. How to use an article about therapy or prevention. Are the result
of the study valid? JAMA 1993; 270: 2598-2601. [Medline]
10. Goldman L., Feinstein AR. Anticoagulants and myocardial infarction. The problems of
pooling, drowing and floating. Ann Intern Med 1979; 90: 92-94. [Medline]
11. Chalmers T.C., Matta R.J., Smith H Jr, Kunzler AM. Evidence of favoring the use of
anticoagulants in the hospital phase of acute miocardial infarction. N. Engl J Med 1977; 297:
1091-1096. [Medline]
12. Abramson J.H. Meta-analysis: a review of pros and cons. Public Health Rev 1991; 18: 1-47.
[Medline]
13. Delgado Rodríguez M., Sillero Arenas M., Gálvez Vargas R. Metaanalisis en epidemiología
(primera parte): Características generales. Gac Sanit 1991; 5: 265-272. [Medline]
14. Pita Fernández S. Análisis de supervivencia. En: Tratado de epidemiología clínica. Madrid:
DuPónt pharma Madrid; 1995. p.597-610.
15. Dawson S.B. Trapp R.G. Basic & Clínical Biostatistics. 2ºnd ed. New Jersey: Appleton &
Lange; 1994.
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 26/01/01
tratamiento reduce el riesgo de muerte en un 25% relativo al que ha ocurrido en el UBC Clinical
grupo control. La reducción absoluta del riesgo (RAR) sería: 0.20-0.15= 0.05 Significance
Calculator
(5%). Podríamos decir por tanto que de cada 100 personas tratadas con el nuevo
NNT/NNH
tratamiento podemos evitar 5 casos de muerte. La siguiente pregunta sería: si de
Calculator
cada 100 personas tratadas con el nuevo tratamiento podemos evitar 5 casos de Number
muerte. ¿Cuántos tendríamos que tratar para evitar un solo caso de muerte?. En Needed to
otras palabras ¿cuál es el NNT?. Su cálculo requiere una simple regla de tres que se Harm Multicalc
resuelve dividiendo 1/RAR. En este caso 1/0.05 = 20. Por tanto la respuesta es que Number
necesitamos tratar a 20 pacientes con el nuevo tratamiento para evitar un caso de Needed to
Treat Multicalc
muerte.
Number
Needed to
Este modo de presentar los resultados nos cuantifica el esfuerzo a realizar para Harm (NNH)
conseguir la reducción de un evento desfavorable. El presentar los resultados sólo from Odds
como reducción porcentual del riesgo relativo (RRR), aunque es técnicamente Ratio (OR) and
Patient
correcto, tiende a magnificar el efecto de la intervención al describir del mismo
Expected Event
modo situaciones muy dispares. Dicho efecto lo podemos objetivar en la tabla 1, Rate (PEER)
donde se objetiva que la reducción del riesgo es igual pero el NNT es Number
completamente diferente. Cambios pequeños en el riesgo basal absoluto de un Needed to
hecho clínico infrecuente conducen a grandes cambios en el número de pacientes Treat (NNT)
que necesitamos tratar con la intención de prevenir uno. from Odds
Ratio (OR) and
Patient
Tabla 1. Cálculo de Riesgo relativo (RR), Reducción Relativa del Expected Event
Riesgo (RRR), Reducción Absoluta del Riesgo (RAR) y Número Rate (PEER)
Necesario de Pacientes a Tratar para reducir un evento (NNT) en
situaciones diferentes. Table of NNTs -
Bandolier
Incidencia Incidencia
en en No RR RRR RAR NNT
Expuestos Expuestos
(1-RR)
(Ie) (Io) Ie/Io Io-Ie 1/RAR
*100
8% 10 % 0.8 20 % 0.10-0.08 50
0.01-
0.8% 1% 0.8 20 % 500
0.008
El cálculo del NNT representa como ya hemos indicado el número de pacientes a tratar
de manera experimental a fin de evitar que uno de ellos desarrolle un resultado negativo.
Es por tanto una forma excelente de determinar la significancia clínica de un ensayo que
además sea estadísticamente significativo. Cuanto más reducido es NNT el efecto de la
magnitud del tratamiento es mayor. Si no se encontrase eficacia en el tratamiento la
reducción absoluta del riesgo sería cero y el NNT sería infinito. Como sucede en las
estimaciones de otros parámetros, se debe expresar el NNT con intervalos de confianza
para estimar la incertidumbre que dicho parámetro presenta (9,10).
Regímenes
Neuropatía
Diabetes (DMID) (1) intensivos de 0.096 0.028 6.5 años 15
Diabética
Insulina
El cálculo del NNT proporciona a los clínicos un excelente instrumento en relación a las
decisiones de incorporar prácticas en la actividad clínica diaria. Proporciona una manera
Bibliografía
1. Laupacis A, Sackett DL, Roberts RS: An assesment of clinically useful measures of treatment.
N Engl J Med 1988; 318: 1728-1733. [Medline]
2. Guyatt GH, Sackett DL, Cook DJ. Users´ guides to the medical literature. II. How to use an
article about therapy or prevention. B. What were the results and will they help in caring for my
patients? Evidence Based Medicine Working Group. JAMA 1994; 271: 59-63. [Medline]
3. Cordell WH. Number Needed to treat (NNT). Ann Emerg Med 1999; 33: 433-436. [Medline]
5. McQuay HJ, Moore A. Using numerical result from systematic reviews in clinical practice.
Ann Intern Med 1997; 126: 712-720. [Medline]
6. Sackett DL, Richarson WS, Rosenberg W, Hynes RB. Evidence-based medicine: how to
practice and teach EBM. London: Churchill-livingstone; 1997.
7. Guyatt GH, Sackett DL, Cook DJ. Users´guides to the medical literature. II. How to use an
articie about therapy or prevention. A. Are the results of the study valid? Evidence-Based
Medicine Working Group. JAMA 1993; 270: 2598-2601. [Medline]
8. Cook RJ, Sackett DL. The number needed to treal: a clincally useful measure of treatment
effect. BMJ 1995; 310: 452-454. [Medline] [Texto completo]
9. Altman DG. Confidence intervals for the nember needed to treat. BMJ 1998; 317: 1309-1312.
[Medline] [Texto completo]
10. Daly LE. Confidence limits made easy: interval estimation using a subsitution method. Am J
Epidemiol 1998; 147: 783-90. [Medline]
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 28/02/01
ANALÍTICOS
● Observacionales
❍ Estudios de casos y controles
❍ Estudios de cohortes (retrospectivos y
prospectivos)
● Intervención
❍ Ensayo clínico
❍ Ensayo de campo
❍ Ensayo comunitario
Las diferentes estrategias de los diferentes estudios han hecho que en la literatura
científica exista una proliferación de nombres y sinónimos cuando se hace referencia a
los estudios epidemiológicos. Resumimos en la Tabla 3 alguno de estos sinónimos.
ESTUDIOS DESCRIPTIVOS.
Los principales tipos de estudios descriptivos son: los estudios ecológicos, los estudios de
series de casos y los transversales o de prevalencia.
enfermedad coronaria con el consumo per cápita de cigarrillos. Estos estudios son el
primer paso en muchas ocasiones en la investigación de una posible relación entre una
enfermedad y una exposición determinada. Su gran ventaja reside en que se realizan muy
rápidamente, prácticamente sin coste y con información que suele estar disponible. Así
por ejemplo los datos demográficos y el consumo de diferentes productos se pueden
correlacionar con la utilización de servicios sanitarios, con registros de mortalidad y
registros de cáncer.
Otra gran limitación de los estudios ecológicos es la incapacidad para controlar por
variables potencialmente confusoras. La asociación o correlación que encontremos entre
dos variables puede ser debida a una tercera variable que a su vez esté asociada con la
enfermedad y la exposición objeto de estudio.
Estos estudios aunque son muy útiles para formular hipótesis, no sirven para evaluar o
testar la presencia de una asociación estadística. La presencia de una asociación puede ser
un hecho fortuito. La gran limitación de este tipo de estudios es en definitiva la ausencia
de un grupo control.
Esta información es de gran utilidad para valorar el estado de salud de una comunidad y
determinar sus necesidades. Así mismo sirven como todos los estudios descriptivos para
formular hipótesis etiológicas.
ESTUDIOS ANALÍTICOS.
Estudio de casos y controles: Este tipo de estudio identifica a personas con una
enfermedad (u otra variable de interés) que estudiemos y los compara con un grupo
control apropiado que no tenga la enfermedad. La relación entre uno o varios factores
relacionados con la enfermedad se examina comparando la frecuencia de exposición a
éste u otros factores entre los casos y los controles (5,6) .
En los estudios de casos y controles (Tabla 4) tenemos casos expuestos (a), casos no
expuestos (c), controles expuestos (b) y controles no expuestos (d). En este estudio la
frecuencia de exposición a la causa entre los casos (a/c) se compara con la frecuencia de
exposición en una muestra que represente a los individuos en los que el efecto no se ha
producido y entre los que la frecuencia de exposición es (b/d).
Los grandes temas que se deben abordar al realizar un estudio de casos y controles son
después de la definición de caso, la selección de los controles y las fuentes de
No es el objetivo de este apartado realizar una revisión exhaustiva del diseño de este tipo
de estudios por lo que resumiremos diciendo que la selección de los casos debe:
Los controles deben ser comparables a los casos en el sentido de haber tenido la misma
probabilidad de haber estado expuestos.
En este tipo de estudio como quiera que los participantes están libres de la enfermedad al
inicio del seguimiento, la secuencia temporal entre exposición y enfermedad se puede
establecer más claramente. A su vez este tipo de estudio permite el examen de múltiples
efectos ante una exposición determinada.
Las ventajas y limitaciones de este tipo de estudio y de los diferentes tipos de estudios se
resumen en la Tabla 6 (6).
Ensayos Clínicos
Ventajas Limitaciones
● Mayor control en el diseño. ● Coste elevado.
● Menos posibilidad de ● Limitaciones de tipo ético y
sesgos debido a la responsabilidad en la
selección aleatoria de los manipulación de la
grupos. exposición.
● Repetibles y comparables ● Dificultades en la
con otras experiencias. generalización debido a la
selección y o a la propia
rigidez de la intervención.
Estudios de Cohortes
Ventajas Limitaciones
● Estiman incidencia. ● Coste elevado.
● Mejor posibilidad de sesgos ● Dificultad en la ejecución.
en la medición de la ● No son útiles en
exposición. enfermedades raras.
● Requieren generalmente un
tamaño muestral elevado.
● El paso del tiempo puede
introducir cambios en los
métodos y criterios
diagnósticos.
● Posibilidad de pérdida en el
seguimiento.
Estudios Transversales
Ventajas Limitaciones
● Fáciles de ejecutar. ● Por sí mismos no sirven
● Relativamente poco para la investigación causal.
costosos. ● No son útiles en
● Se pueden estudiar varias enfermedades raras ni de
enfermedades y/o factores corta duración.
de riesgo a la vez. ● Posibilidad de sesgos de
● Caracterizan la distribución información y selección.
de la enfermedad respecto
a diferentes variables.
● Precisan poco tiempo para
su ejecución.
● Útiles en la planificación y
Administración Sanitaria
(Identifican el nivel de
salud, los grupos
vulnerables y la
prevalencia).
Este tipo de estudios son de la suficiente complejidad para requerir, no sólo un equipo
multidisciplinario que los aborde sino una cantidad de recursos suficientes para
mantenerlos a lo largo del tiempo.
ESTUDIOS EXPERIMENTALES.
Ensayo clínico: Es el estudio experimental más frecuente. Los sujetos son pacientes y
evalúa uno o más tratamientos para una enfermedad o proceso. La validez de este estudio
radica fundamentalmente en que el proceso aleatorio haga los grupos comparables en las
variables más relevantes en relación al problema a estudiar. El diseño del estudio debe
contemplar básicamente:
Ensayos de campo: Tratan con sujetos que aún no han adquirido la enfermedad o con
aquéllos que estén en riesgo de adquirirla y estudian factores preventivos de
enfermedades como pueden ser la administración de vacunas o el seguimiento de dietas.
Independientemente del tema y los objetivos de un estudio, que pueden ser de mayor o
menor interés para el lector o para la comunidad científica, lo que siempre se debe
perseguir es que el estudio sea preciso y válido.
Todo estudio debe ser entendido como un ejercicio de medida en cada uno de los
apartados de planificación, ejecución e interpretación. Es por tanto necesario formular
unos objetivos de forma clara y cuantitativa para dejar muy bien sentado desde el
principio que es lo que se quiere medir. Si este primer paso es deficiente o poco claro la
calidad de un estudio se tambalea. (9-11)
La carencia del error sistemático se conoce como validez. Esta validez tiene dos
componentes: La validez interna, que es la validez de las inferencias a los sujetos reales
del estudio y la validez externa o generalización en tanto se aplica a individuos que están
fuera de la población del estudio. La validez interna es por tanto un prerrequisito para que
pueda darse la extrema.
La validez interna que es la que implica validez de inferencia para los propios sujetos de
estudio. Se ve amenazada por varios tipos de sesgos.
Cuando realizamos un estudio o interpretamos los resultados del mismo nos podemos
preguntar: ¿Podrían los resultados deberse a algo que los autores no han tenido en
consideración?, como por ejemplo:
a. Los grupos del estudio no son comparables debido a como fueron seleccionados
los pacientes (sesgos en la selección).
b. Los grupos de pacientes del estudio no son comparables debido a como se
obtuvieron los datos (sesgos en la información).
c. Los autores no han recogido información (o la han obtenido pero no la han
utilizado) sobre un factor que se relaciona a la vez con la exposición y con el
efecto estudiados (factor de confusión).
Los principales sesgos que comentaremos son los sesgos de selección, observación e
información.
SESGO DE SELECCIÓN
Este sesgo hace referencia a cualquier error que se deriva del proceso de identificación de
la población a estudiar. La distorsión resulta de la forma en que los sujetos han sido
seleccionados. Estos sesgos se pueden cometer:
Los sesgos de selección pueden presentarse también en los estudios de casos y controles,
cuando el procedimiento utilizado para identificar el status de enfermedad (sesgo
diagnóstico) varía o se modifica con el status exposición. Este sesgo se llama "sesgo de
detección".
Los errores de clasificación son una consecuencia directa del sesgo de información. Esta
clasificación puede ser "diferencial" si el error de clasificación es independiente para
ambos grupos o "no diferencial" si el error de clasificación es igual para ambos grupos de
estudio, produciéndose una dilución del efecto con una subestimación del mismo.
Bibliografía
1- MacMahon B., Trichopoulos D. Epidemiology: Principles and Methods. 2nd ed. Boston:
Lippincott Williams & Wilkins; 1996. [editor]
3- Armijo R.R. Epidemiología básica en Atención primaria de salud. Madrid: Díaz de Santos;
1993.
5- Kelsey JL., Thompson WD., Evans AS. Methods in Observational Epidemiology. New York:
Oxford University Press; 1986. [Amazon]
6- Hennekens CH., Buring JE. Epidemiology in Medicine Boston: Litte, Brown and Company;
1987.
7- Sackett DL., Haynes RB., Guyatt GH., Tugwell P. Epidemiología clínica. Ciencia básica para
la medicina clínica. 2ª ed. Madrid: Editorial Médica Panamericana; 1994.
8- Fletcher RH., Fletcher SW., Wagner EH. Epidemiología clínica. 2ª ed. Barcelona: Masson-
Williams & Wilkins; 1998.
10- Miettinem OS. Theoretical Epidemiology. New York: Jhon Wiley & Sons; 1985.
11- Rothman KJ. (ed). Causal Inference. Chesnut Hill: Epidemiology Resources Inc; 1988.
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 28/02/01
Cálculos online
Todos los detalles de cómo se realizarán cada una de las actividades del ensayo no UBC Clinical
Significance
es necesario que se incluyan en el protocolo siempre y cuando exista un manual del
Calculator
investigador y unos procedimientos normalizados de trabajo en que sí se incluyan.
NNT / NNH
A continuación revisaremos alguno de los aspectos metodológicos más relevantes Calculator
en el diseño de un ensayo clínico (1,5-7) Real Decreto
223/2004, por el
Tabla 1. Apartados del protocolo de un Ensayo Clínico que se regulan los
ensayos clínicos
● Resumen
con medicamentos
● Índice
● Información general:
❍ Consentimiento informado
❍ Póliza de seguros
❍ Indemnización
● Consideraciones prácticas
● Análisis estadístico
● Documentación complementaria:
Presupuesto
❍
❍ Distribución de gastos
● Cuaderno de recogida de datos
● Manual del investigador
● Procedimientos normalizados de trabajo:
Justificación y objetivos
En este apartado se debe indicar toda la información relevante y las evidencias científicas
que apoyen la realización del estudio. Es evidente que el ensayo depende de la pregunta a
investigar, que debe ser científica y médicamente relevante. El tamaño muestral
dependerá del objetivo principal, que debe estar claramente definido. Si existiesen
objetivos debe quedar claramente de manifiesto y se pretende valorar la eficacia, la
seguridad, la farmacocinética o la búsqueda de dosis de un fármaco.
● Descripción del tipo de ensayo que se va a realizar (como, por ejemplo: doble
ciego, controlado con placebo, cruzado o paralelo…).
● Tipo de control (placebo u otros).
● Descripción detallada del proceso de aleatorización (procedimiento y
consideraciones prácticas).
Acontecimientos adversos
Consideraciones prácticas
Valoración de un ensayo
1. Evaluación de la idoneidad del protocolo en relación con los objetivos del estudio,
su eficiencia científica o la posibilidad de alcanzar conclusiones válidas, con la
menor exposición posible de sujetos y la justificación de los riesgos y molestias
igualmente tratados?
● ¿Cuáles fueron los resultados del estudio?
Un ejemplo
Diseño: ensayo clínico controlado, aleatorizado en dos ramas, a doble ciego con placebo
y un seguimiento medio de 5,4 años.
Sujetos de estudio: 4.444 pacientes de entre 35 y 70 años, 81% hombres, 51% mayores
de 60 años, con antecedentes de infarto de miocardio previo a angina de pecho, colesterol
sérico de 5,5 a 8,8 mmol/l, concentraciones medias de HDL de 1,18 mmol/l, LDL 4,87
mmol/l, triglicéridos 1,50 mmol/l y dieta hipolipemiante concurrente.
TEE TEC
1/4 = 25
Mortalidad total 8% 12 % 12-8 / 12 = 33% 12-8 = 4%
pacientes
Incidentes
1/9 = 11
coronarios 19 % 28 % 28-19 / 28 = 32% 28-19 = 9%
pacientes
mayores
Bibliografía
1. Friedman LM, Furberg CD, DeMets DL. Fundamentals of clinical trials. 3 rd. ed. New York:
Springer Verlag; 1998.
2. Hennekens CH, Buring JE. Epidemiology in Medicine. Boston: Little Brown; 1987.
3. Hulley SB, Cummings Sr. Designing clinical research. 2 nd. ed. Baltimore: Lippincott
Williams and Wilkins; 2001.
6. Sacket DL, Haynes RB, Cuyatt GH, Tugwell P. Epidemiología clínica. Ciencia básica para la
medicina clínica. 2ª ed. Madrid: Médica Panamericana; 1994.
7. Fletcher RH, Fletcher SW, Wagner EH. Clinical Epidemiology. The Essentials. 3 rd. ed.
Baltimore: Williams and Wilkins; 1996.
9. Evidence-Based Medicine Working Group. User´ Guides to the Medical Literature. II How to
Use an Article About Therapy or Prevention. B. What were the results and will they help me in
caring for my patients? JAMA 1994; 271: 59-63. [Medline]
10. Real Decreto 561/1993 de 16 de abril por el que se establecen requisitos para la realización
de Ensayos clínicos con Medicamentos (Boletín Oficial del Estado, nº114, del 13 de mayo de
1993).
Anexo I
Las normas de buena práctica clínica (BPC) son una ayuda para asegurar que la
investigación clínica se lleva a cabo según los más elevados estándares de calidad,
siguiendo los criterios éticos (basados en la Declaración de Helsinki y desarrollos
ulteriores) y con un equipo médico de garantía. En este sentido, las normas de BPC
constituyen una norma para el diseño, dirección, realización, cumplimiento,
monitorización, auditoría, registro, análisis e información de ensayos clínicos que asegura
que los datos y resultados obtenidos son correctos y creíbles y que se protegen los
derechos, integridad y confidencialidad de los sujetos del ensayo.
1. Los ensayos clínicos deben ser realizados de acuerdo con los principios éticos que
tienen su origen en la Declaración Helsinki, los cuales son consistentes con la
BPC y los requisitos reguladores pertinentes.
2. Antes de iniciar un ensayo, deben considerarse las inconveniencias y riesgos
previsibles en relación con el beneficio previsto paras el sujeto individual del
ensayo y para la sociedad. Un ensayo debe ser iniciado y continuado sólo si los
beneficios previstos justifican los riesgos.
3. Los derechos, seguridad y bienestar de los sujetos del ensayo son las
consideraciones más importantes y deben prevalecer sobre los intereses de la
ciencia y la sociedad.
4. La información clínica y no clínica disponible sobre un producto en investigación
debe ser adecuada para respaldar el ensayo clínico propuesto.
5. Los ensayos clínicos deben ser científicamente razonables y estar descritos en un
protocolo claro y detallado.
6. Un ensayo debe ser realizado de acuerdo con el protocolo, que ha recibido una
revisión previa y una opinión favorable/aprobación de un Consejo Institucional de
Revisión (CIR) / Comité Ético Independiente (CEI).
7. El cuidado médico que reciben los sujetos y las decisiones médicas que afectan a
Se deberán llevar a cabo los sistemas y procedimientos que aseguren la calidad de cada
aspecto del ensayo.
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 29/03/01
El Consentimiento Informado en los ensayos clínicos
sociedad.
2. Evaluación de la idoneidad del/de los equipos investigador/es para el ensayo
clínico propuesto. Se tendrá en cuenta la experiencia y capacidad investigadora
para llevar adelante el estudio, en función de sus obligaciones asistenciales y de
los compromisos previamente adquiridos con otros protocolos de investigación.
3. Evaluación de la información escrita sobre las características del ensayo clínico
que se dará a los posibles sujetos de la investigación, o en su defecto, a su
representante legal, la forma en que dicha información será proporcionada y el
tipo de consentimiento que va a obtenerse.
4. Comprobación de la previsión de la compensación y tratamiento que se ofrecerá a
los sujetos participantes en caso de lesión o de muerte atribuibles al ensayo
clínico, y del seguro o indemnización para cubrir las responsabilidades
especificadas por la legislación.
5. Conocimiento y evaluación del alcance de las compensaciones que se ofrecerán a
los investigadores y a los sujetos de la investigación por su participación.
Sujetos: Las personas sanas o enfermas, con o sin interés terapéutico particular. Los
menores o incapaces sólo podrán ser sujetos de ensayos clínicos sin interés terapéutico
particular si el Comité Etico de Investigación Médica determina que se cumple todo lo
siguiente : a) Adopción de las medidas necesarias que garanticen que el riesgo sea
mínimo ; b) Las experiencias a que van a ser sometidos son equivalentes a las que
correspondan a su situación médica, psicológica, social o educacional ; c) Del ensayo se
obtendrán conocimientos relevantes sobre la enfermedad o situación objeto de
investigación, de vital importancia para entenderla, paliarla o curarla ; d) Estos
conocimientos no pueden ser obtenidos de otro modo. Las mujeres gestantes o en período
de lactancia sólo podrán realizar ensayos clínicos sin finalidad terapéutica cuando el
Comité Etico de Investigación Clínica concluya que no supone ningún riesgo previsible
para su salud ni para la del feto o niño y se obtendrán conocimientos útiles y relevantes
Resulta evidente que los grupos de sujetos objeto de especial protección como los
menores, incapaces, mujeres gestantes... a los que se les someta a un ensayo clínico sin
beneficio directo para su salud, el Comité deberá actuar muy diligentemente toda vez que
los requisitos que se establecen " riesgos mínimos, no solo útiles, sino relevantes, que no
se puedan obtener de otro modo" conlleva un análisis exhaustivo previo de dicho ensayo
lo que implicará una revisión amplia y actualizada de toda la literatura científica
relacionada con dicho estudio.
Influencia: Entendemos que una información objetiva de los riesgos que se asuman así
como de los beneficios esperados y una compensación económica moderada en los
ensayos clínicos sin beneficio directo para la salud de los sujetos participantes,
evidencian una falta de influencia. Ya que pese a la fuerte carga de subjetividad del
término influencia, esta última como todo hecho subjetivo se demuestra mediante hechos
objetivos. Así contribuiremos a no inducir al sujeto participante a hacerlo por motivos
que no sean beneficio directo para su salud o interés por el avance científico tal y como se
establece en el art. 11 de este R.D.
El Estatuto Orgánico del Ministerio Fiscal, en su art. 3 apartado 7 (8). atribuye al Fiscal la
defensa y la representación de los intereses de los menores e incapaces.
En estos supuestos, el Ministerio Fiscal actuará como garante de los derechos de estos
sujetos objeto de especial protección, velando para que la información recibida por los
destinatarios sea lo más detallada e inequívoca haciendo especial hincapié en que se
minimicen los riesgos y que se obtenga un beneficio directo para la salud del menor o
incapaz, debiendo actuar con gran rigor profesional cuando el ensayo no represente un
beneficio directo para la salud de estos sujetos, exigiendo que se cumpla todo lo
preceptuado en el art. 11 párrafo 3 del Reglamento tras haberlo así determinado
previamente el Comité Etico de Investigación Clínica.
Dada la media excepcional que regula esta apartado, el Comité antes de aprobar el
protocolo deberá acreditar que la urgencia en la aplicación del tratamiento en este tipo de
supuestos no es tan solo una manifestación del equipo investigador, sino una realidad
objetivable y como únicamente procederá cuando tenga un específico interés terapéutico
particular para el paciente, este interés habrá de poder cuantificarlo ya sea para
compararlo con otra alternativa terapéutica al objeto de poder demostrar esta notable
mejora que justifique su aplicación sin contar con el consentimiento del paciente o bien
acreditar la ausencia de alternativa y las razones que hagan prever que reportará un
específico interés terapéutico particular para el sujeto.
a. La directiva 91/507/C.E.E. de 19 de julio, (9) nos dice que todos los ensayos
clínicos en todas las fases se realizarán según las normas de buena práctica clínica.
Estas normas pretenden garantizar que los ensayos clínicos sean diseñados,
realizados y comunicados de modo que aseguren que los datos sean fiables y que
se protejan los derechos de los sujetos. Si bien el orden de los factores no altera el
producto, consideramos poco acertado comenzar hablando antes de la eficiencia
científica que de los derechos de los sujetos.
e. La lex artis, consiste en dar al enfermo los cuidados conscientes, atentos y, salvo
circunstancias excepcionales, con arreglo a los datos y conclusiones actuales de la
ciencia. Lo anterior tiene su origen en el art. 1.104 del Código Civil (12) cuando
alude a la "diligencia que exija la naturaleza de la obligación y corresponda a las
circunstancias de la persona, del tiempo y del lugar..... y cuando la obligación no
exprese la diligencia que ha de presentarse en su cumplimiento, se exigirá la que
correspondería a un buen padre de familia...".
Bibliografía
1- Friedman LM, Furberg CD, DeMets DL. Fundamentals of clinical trials. 3 rd.
ed. New York: Springer Verlag; 1998.
3- Hulley SB, Cummings Sr. Designing clinical research. 2 nd. ed. Baltimore:
Lippincott Williams and Wilkins; 2001.
10- Constitución Española. Aprobada por las Cortes en Sesiones Plenarias del
Congreso de los Diputados y del Senado celebradas el 31 de Octubre de 1978.
[texto completo]
12- Código Civil. Real Orden de 29 de Julio de 1889, por la que se significa el
real agrado a los miembros de la sección primera de la Comisión General de
Codificación que redactaron las enmiendas y adiciones de la edición reformada
del Código Civil, y por la que se dispone la publicación en la Gaceta de Madrid
de la "Exposición" en la que se expresan los fundamentos de las mismas.
Arriba
❍Consentimiento informado
❍Póliza de seguros
❍ Indemnización
● Consideraciones prácticas
● Análisis estadísticos
● Documentación complementaria:
Presupuesto
❍
❍ Distribución de gastos
● Cuaderno de recogida de datos
● Manual del investigador
● Procedimientos normalizados de trabajo
Arriba
1. Objetivo
2. Metodología empleada
3. Tratamiento que puede serle administrado, haciendo referencia al
placebo si procede.
4. Beneficios derivados del estudio.
5. Incomodidades y riesgos derivados del estudio (número de visitas,
pruebas complementarias a que se someterá...).
6. Posibles acontecimientos adversos.
7. Tratamientos alternativos disponibles.
8. Carácter voluntario de su participación, así como posibilidad de
retirarse del estudio en cualquier momento, sin que por ello se
altere la relación médico-enfermo ni se produzca perjuicio en su
tratamiento.
9. Personas que tendrán acceso a los datos del voluntario y forma en
que se mantendrá la confidencialidad.
10. Modo de compensación económica y tratamiento en caso de daño
o lesión por su participación en el ensayo, tal como consta en la
Ley de medicamento.
11. Investigador responsable del ensayo y de informar al sujeto y
contestar a sus dudas y preguntas, y modo de contactar con él en
caso de urgencia.
Título del
ensayo..............................................................................................
Yo .................................................... (Nombre y
apellidos)................................
1. Cuando quiera
Fecha
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 06/03/01
Z más
β
frecuentes
Bibliografía
Documento
en PDF (95
Kb)
¿Problemas
con PDF?
c) Una idea del valor aproximado del parámetro que queremos medir (en
este caso una proporción). Esta idea se puede obtener revisando la
literatura, por estudio pilotos previos. En caso de no tener dicha
información utilizaremos el valor p = 0.5 (50%).
Seguridad = 95%; Precisión = 3%: Proporción esperada = asumamos que puede ser
próxima al 5%; si no tuviésemos ninguna idea de dicha proporción utilizaríamos el valor
p = 0,5 (50%) que maximiza el tamaño muestral:
donde:
donde:
● N = Total de la población
● Zα2 = 1.962 (si la seguridad es del 95%)
● p = proporción esperada (en este caso 5% = 0.05)
● q = 1 – p (en este caso 1-0.05 = 0.95)
● d = precisión (en este caso deseamos un 3%).
¿A cuántas personas tendría que estudiar de una población de 15.000 habitantes para
conocer la prevalencia de diabetes?
Seguridad = 95%; Precisión = 3%; proporción esperada = asumamos que puede ser
próxima al 5% ; si no tuviese ninguna idea de dicha proporción utilizaríamos el valor p =
0.5 (50%) que maximiza el tamaño muestral.
Ejemplo: Si deseamos conocer la media de la glucemia basal de una población, con una
seguridad del 95 % y una precisión de ± 3 mg/dl y tenemos información por un estudio
piloto o revisión bibliográfica que la varianza es de 250 mg/dl
Estos estudios pretenden comparar si las medias o las proporciones de las muestras son
diferentes. Habitualmente el investigador pretende comparar dos tratamientos. Para el
cálculo del tamaño muestral se precisa conocer:
Donde:
Donde:
Zα
β (1-β) Zβ
En todos los estudios es preciso estimar las posibles perdidas de pacientes por razones
diversas (pérdida de información, abandono, no respuesta….) por lo que se debe
incrementar el tamaño muestral respecto a dichas pérdidas.
Así por ejemplo si en el estudio anterior esperamos tener un 15% de pérdidas el tamaño
muestral necesario seria: 48 (1 / 1-0.15) = 56 pacientes en cada grupo.
Bibliografía
3 – Cook TD., Campbell DT. Quasi-Experimentation. Design & Analysis Issues for Field
Settings. Boston: Houghton Mifflin Company; 1979.
6 – Milton JS, Tsokos JO. Estadística para biología y ciencias de la salud. Madrid:
Interamericana McGraw Hill; 2001.
7 - Martín Andrés A, Luna del Castillo JD. Bioestadística para las ciencias de la salud. 4ª ed.
Madrid: NORMA; 1993.
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 06/06/01
Cálculo del tamaño muestral para la determinación de factores pronósticos
❍ Una idea del valor aproximado del riesgo relativo que se desea estimar
(RR).
❍ La proporción de expuestos al factor de estudio que presentaron el evento
de interés (P1).
❍ La proporción de no expuestos que presentaron ese mismo evento (P2).
2. El nivel de confianza o seguridad (1-α). Generalmente se trabajará con una
seguridad del 95%.
3. La precisión relativa que se quiere para el estudio . Dicha precisión es la
oscilación mínima con la que se quiere estimar el RR correspondiente, expresada
como porcentaje del valor real esperado para ese riesgo.
Con estos datos, el cálculo del tamaño muestral se puede realizar mediante la fórmula5:
Ecuación 1
tiene que .
Aplicando la Ecuación 1:
Si el tamaño del efecto a detectar fuese menor, el tamaño muestral necesario para llevar a
cabo el estudio aumentará. Por ejemplo, si estimamos que el RR correspondiente al
nuevo tratamiento es aproximadamente igual a 2 (P1=0.4) el tamaño necesario sería:
Es decir, un total de 44 pacientes tratados con cada una de las dos terapias.
Si, con este procedimiento, deseamos calcular el tamaño muestral mínimo necesario para
detectar un determinado riesgo relativo, deberemos conocer:
a) Una idea del valor aproximado del riesgo relativo que se desea detectar (RR).
Con estos datos, el cálculo del tamaño muestral puede abordarse mediante la fórmula7:
Ecuación 2
Siguiendo con el ejemplo anterior, supongamos que el primer tratamiento (A) suele
aplicarse a un 70% de los pacientes que padecen ese tipo de cáncer, mientras que la otra
terapia (B) es recibida sólo por un 30% de los enfermos. Si el efecto pronóstico del
tratamiento recibido va a analizarse de modo univariado, la Ecuación 2 puede aplicarse
para calcular el número necesario de pacientes a estudiar. Así, para detectar un riesgo
relativo de 3, y trabajando con una seguridad del 95% y un poder del 80% se tendría:
La fórmula anterior por tanto nos permite calcular el n para detectar un efecto ante la
presencia de una característica o exposición determinada. Si, como sucede
habitualmente, deseamos controlar o tener en cuenta más variables, el tamaño de la
muestra se debe modificar teniendo en cuenta esas posibles variables.
En una situación como la del ejemplo anterior, el conocimiento apropiado del efecto
pronóstico del tratamiento recibido casi siempre exige ajustar por diferentes covariables
en un modelo de regresión de Cox. Intuitivamente, el tratar de ajustar un modelo más
complejo (ie, con un mayor número de variables) con el mismo número de pacientes
llevará consigo una pérdida de precisión en la estimación de los coeficientes y, con ello,
del RR asociado a cada una de las variables incluidas en el modelo multivariante. En esta
situación, es obvio, que se necesita realizar alguna corrección en la Ecuación 2 que
permita adaptar el tamaño muestral calculado a las variables que se incluirán a posteriori
en el modelo.
8
En este supuesto, la fórmula para el cálculo del tamaño muestral vendrá dada por :
Ecuación 3
El cálculo del tamaño muestral, por tanto, permite al investigador precisar el número de
pacientes a estudiar para detectar como significativos efectos de una magnitud
determinada. El no hacerlo, o el no conocer cuantos pacientes necesitamos para detectar
un efecto como significativo podría llevarnos a cometer un error de tipo II, es decir, no
encontrar diferencias cuando sí las hay. Es por ello recomendable, por tanto, no sólo
tener una idea aproximada del número de pacientes sino además estimar los riesgos con
su 95% intervalo de confianza para conocer la precisión y la dirección del efecto
investigado.
Bibliografía
1. Pita Fernández S, Valdés Cañedo FA. Determinación de factores pronósticos. Cad Aten
Primaria 1997; 4: 26-29. [Texto completo]
2. Pita Fernández S, Vila Alonso MT, Carpente Montero J. Determinación de factores de riesgo.
Cad Aten Primaria 1997; 4: 75-78. [Texto completo]
3. Lee ET. Statistical Methods for Survival Data Analysis. Belmont, California: Lifetime
Learning Publications; 1980.
4. Pita Fernández S. Determinación del tamaño muestral. Cad Aten Primaria 1996; 3: 138-141.
[Texto completo]
5. Lwanga SK, Lemeshow S. Determinación del tamaño muestral en los estudios sanitarios.
Manual Práctico. Ginebra: O.M.S.; 1991.
6. Pértega Díaz S, Pita Fernández S. La distribución normal. Cad Aten Primaria 2001; 8: 268-
274. [Texto completo]
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 17/09/02
Cálculo del tamaño muestral en estudios de casos y controles
presencia o ausencia del evento de estudio y no por su exposición, no podrá estimarse Cálculos online
Cálculos del
directamente el riesgo de enfermar entre los sujetos expuestos y los no expuestos. La tamaño
relación entre uno o varios factores y la presencia de la enfermedad deberá estudiarse muestral en
estudios de
comparando la frecuencia de exposición entre los casos y los controles. Si la frecuencia casos y
de exposición es mayor en el grupo de casos que en los controles, podremos decir que controles
(Excel)
hay una asociación entre la causa y el efecto.
donde p es la probabilidad de exposición entre los casos. A partir de una muestra como la de
1
la Tabla1, Ω se puede estimar dividiendo los casos expuestos entre los casos no expuestos:
1
Como se puede observar, el valor del OR puede obtenerse de la Tabla 1 multiplicando “en
cruz” sus cuatro valores. De ahí que también reciba el nombre de “razón de productos
cruzados”, o también “razón de ventajas”. Bajo suposiciones adecuadas, el OR puede ser un
estimador adecuado de la razón de tasas de incidencia o del riesgo relativo, medidas
habitualmente utilizadas para valorar la asociación entre una exposición y un evento. Cuando
la frecuencia de exposición es reducida, el valor del OR y del riesgo relativo son muy
similares.
Supongamos que se quiere llevar a cabo un estudio de casos y controles con el fin de
determinar si existe una relación significativa entre la exposición a un factor y la presencia de
una determinada enfermedad. A continuación se explica cómo calcular el tamaño de muestra
necesario para contrastar la hipótesis de que el OR sea igual a 1.
Así, el problema del cálculo del tamaño muestral podrá abordarse mediante las fórmulas
habituales empleadas en la comparación de dos proporciones, asumiendo aquí que las
3
proporciones esperadas son p y p2 .
1
Recurriendo a las fórmulas habituales para determinar el tamaño muestral mínimo necesario
3
para la comparación de dos proporciones, se precisará conocer :
● Una idea del valor aproximado del odds ratio que se desea estimar (w)
● La frecuencia de la exposición entre los casos (p )
1
● La frecuencia de la exposición entre los controles (p2)
b) La seguridad con la que se desea trabajar (α), o riesgo de cometer un error de tipo I.
Generalmente se trabaja con una seguridad del 95% (α = 0,05).
c) El poder estadístico (1-β) que se quiere para el estudio, o riesgo de cometer un error
de tipo II. Es habitual tomar β = 0,2, es decir, un poder del 80%.
Con estos datos, y para un planteamiento bilateral, para el cálculo del tamaño muestral se
4,5
utilizará la expresión :
Ecuación 1
para una seguridad de un 95% y un poder estadístico del 80% se tiene que y
Hasta ahora se ha asumido un tamaño muestral igual para casos y controles. En caso de que el
número de casos y controles no esté balanceado, la expresión anterior deberá ser ligeramente
modificada. Denotando ahora por n el número de casos y por m el número de controles la
4
fórmula a aplicar sería :
Ecuación 2
donde c = m/n es el número de controles por cada caso. Así, el número de controles vendría
dado por m = c x n.
Debe precisarse que en el presente trabajo se ha tratado de exponer del modo lo más sencillo
posible el procedimiento a seguir en el cálculo del tamaño de la muestra en un estudio de
casos y controles. No obstante, en ocasiones se utilizan para este cálculo expresiones más
complejas basadas en un corrección de la fórmula del cálculo del tamaño muestral para la
4
comparación de dos proporciones . Así mismo, existen fórmulas específicas para el cálculo
del tamaño de la muestra en el caso de que el diseño corresponda a un estudio de casos y
7,8
controles pareados .
Como ejemplo, supongamos que se desea estudiar la existencia de una asociación entre el
consumo de tabaco y el hecho de sufrir un infarto de miocardio. Para poner en evidencia
dicha asociación y cuantificar su magnitud se diseña un estudio de casos y controles en el que
se investigará el consumo de tabaco de una serie de pacientes que han padecido un infarto de
miocardio (casos) y una serie de pacientes sanos (controles). Se cree que alrededor de un 40%
de los controles son fumadores y se considera como diferencia importante entre ambos
grupos un odds ratio de 4. Con estos datos, podemos calcular el tamaño de muestra necesario
en cada grupo para detectar un odds ratio de 4 como significativamente diferente de 1 con una
seguridad del 95% y un poder del 80%. De acuerdo con lo expuesto con anterioridad,
conocemos los siguientes parámetros:
De acuerdo con estos datos, se estima que la frecuencia de exposición entre los casos vendrá
dada por:
Esto es, se estima que aproximadamente un 73% de los casos son fumadores. Aplicando la
Ecuación 1, se obtiene:
Es decir, se necesitaría estudiar a 35 sujetos por grupo (35 pacientes con infarto de miocardio
y 35 controles) para detectar como significativo un valor del odds ratio de 4.
Si se reduce el tamaño del efecto a detectar, asumiendo que el odds ratio es aproximadamente
igual a 3, se obtiene:
y, de acuerdo con la Ecuación 1, serían necesarios n=54 pacientes por grupo para llevar a
cabo el estudio.
En algunos estudios, el investigador reune un número mayor de controles que de casos con el
objeto de incrementar el poder estadístico. Supongamos que en el presente ejemplo se planea
obtener dos controles por caso, y se asume que el odds ratio a detectar es aproximadamente
igual a 3. Aplicando la Ecuación 2:
Por tanto, se necesitaría un grupo de n=40 casos (pacientes con infarto de miocardio) y
m=2x40=80 controles para llevar a cabo la investigación.
El cálculo del tamaño de la muestra en los estudios de casos y controles debe formar parte del
diseño metodológico del mismo, ya que la ejecución de este tipo de estudios es costosa. El
iniciar un estudio sin conocer el poder estadístico y la seguridad para detectar diferencias, si
es que existen, podría ser motivo de cometer un error de tipo II en el sentido de no detectar
diferencias cuando realmente las hay.
Bibliografía
1. Kelsey JL, Thompson WD, Evans AS. Methods in Observational Epidemiology. New York:
Oxford University Press; 1986.
2. Hennekens CH, Buring JE. Epidemiology in Medicine Boston: Litte, Brown and Company; 1987.
3. Pita Fernández S. Determinación del tamaño muestral. Cad Aten Primaria 1996; 3: 138-141.
[Texto completo]
4. Fleiss JL. Statistical methods for rates and proportions. 2nd edition. New York: John Wiley &
Sons; 1981.
5. Lwanga SK, Lemeshow S. Determinación del tamaño de las muestras en los estudios sanitarios.
Manual práctico. Ginebra: O.M.S.; 1991
6. Pértega Díaz S, Pita Fernández S. La distribución normal. Cad Aten Primaria 2001; 8: 268-274.
[Texto completo]
7. Fleiss JL, Levin B. Sample size determination in studies with matched pairs. J Clin Epidemiol
1988; 41(8): 727-730. [Medline]
8. Schlesselman JJ. Case-Control Studies. New York: Oxford University Press; 1982.
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 18/11/02
Determinación del tamaño muestral para calcular la
significación del coeficiente de correlación lineal
1-5 Tabla 1
puede cuantificarse mediante el cálculo de un coeficiente de correlación . Debe Tabla 2
Supongamos que se quiere llevar a cabo un estudio con el fin de determinar si existe o no
una relación significativa entre dos variables numéricas X e Y. Para llevar a cabo la
investigación, se recoge una muestra de individuos en donde de cada uno de ellos se
determina el valor que toma cada una de las dos variables. A continuación se muestra
cómo calcular el tamaño de muestra necesario para contrastar la hipótesis de que el
correspondiente coeficiente de correlación sea significativamente diferente de 0.
Utilizando esta aproximación, se obtiene fácilmente una fórmula para el cálculo del
● La magnitud de la correlación que se desea detectar (r). Esto es, se precisa tener
una idea, a partir de publicaciones o estudios previos, del valor aproximado del
coeficiente de correlación existente entre las dos variables a estudio.
Como resulta habitual, las fórmulas anteriores pueden modificarse con el fin de ajustar el
tamaño muestral previsto para el estudio a posibles pérdidas de información que se
produzcan durante el desarrollo del mismo. Así, asumiendo un porcentaje de pérdidas L,
el tamaño de la muestra a estudiar vendrá dado por:
donde n denota el valor del tamaño muestral calculado por cualquiera de las dos fórmulas
anteriores según el caso.
Como resulta habitual, si el tamaño del efecto a detectar es menor, asumiendo ahora que
el valor del coeficiente de correlación es aproximadamente igual a r=0,3, se obtiene:
En este caso, se necesitaría incluir a 85 pacientes para llevar a cabo el estudio. Si,
además, en este último caso se prevé un 20% de posibles pérdidas de información
durante la ejecución del estudio, el tamaño muestral debe recalcularse según la
siguiente expresión:
Es decir, se necesitaría una muestra de 107 pacientes para llevar a cabo la investigación.
z
Poder estadístico β 1-β
99 % 0,01 2,326
95 % 0,05 1,645
90 % 0,1 1,282
85 % 0,15 1,036
80 % 0,2 0,842
75 % 0,25 0,674
70 % 0,3 0,524
65 % 0,35 0,385
60 % 0,4 0,253
55 % 0,45 0,126
80 % 0,5 0,000
Bibliografía
1. Pita Fernández S. Relación entre variables cuantitativas. Cad Aten Primaria 1997; 4: 141-
144. [Texto completo]
2. Altman D.G. Practical Statistics for Medical Research. London: Chapman&Hall, 1991.
4. Milton JS, Tsokos JO. Estadística para biología y ciencias de la salud. Madrid:
Interamericana McGraw Hill; 2001.
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 20/01/03
Cálculo del poder estadístico de un estudio
conclusiones (Tabla 1). En primer lugar, puede concluirse que existen diferencias Tabla 3. Valores
de z más
entre los grupos que se comparan cuando realmente las hay. Asimismo, puede frecuentemente
concluirse que no hay diferencias cuando éstas no existen. En ambos casos, no se utilizados
comete ningún error. Sin embargo, también se puede concluir que existen
diferencias cuando de hecho no las hay. Es decir, puede rechazarse la hipótesis nula
cuando en realidad es verdadera. Si esto ocurre, se comete un error de tipo I o error
α. La probabilidad de cometer un error de este tipo es lo que mide precisamente el
grado de significación p.
Figura 1. Poder
En algunas ocasiones, por el contrario, los resultados de un estudio no son estadístico en
significativos. Se habla entonces de “estudios negativos”. No obstante, la ausencia función del
de significación estadística no implica necesariamente que no exista relación entre tamaño
el factor de estudio y la respuesta. Puede ocurrir, que aún existiendo tal asociación muestral y la
magnitud del
o una diferencia clínicamente relevante, el estudio haya sido incapaz de detectarla
efecto a
como estadísticamente significativa. En estudios de este tipo se concluirá que no detectar.
existen diferencias cuando realmente sí las hay. Este error se conoce como error de Comparación de
tipo II. La probabilidad de cometer un error de este tipo suele denotarse por β y su dos proporciones
complementario, 1-β, es lo que se conoce como poder estadístico o potencia Figura 2. Poder
estadístico en
1-3
estadística . función del
tamaño
muestral y el
En definitiva, el poder estadístico representa la probabilidad de rechazar la número de
hipótesis nula cuando es realmente falsa. Es decir, representa la capacidad de un controles por
test para detectar como estadísticamente significativas diferencias o asociaciones de caso en un
estudio de
una magnitud determinada.
casos y controles
Documento
en PDF
(189 Kb)
Factores que influyen en el poder estadístico de un estudio. ¿Problemas
con PDF?
3 Cálculo del
El poder estadístico de un estudio depende de diferentes factores, como : poder estadístico
(Excel)
Comparación de
● El tamaño del efecto a detectar, es decir, la magnitud mínima de la dos proporciones
diferencia o asociación entre los grupos que se considera clínicamente Comparación de
relevante. Cuanto mayor sea el tamaño del efecto que se desea detectar, dos medias
mayor será la probabilidad de obtener hallazgos significativos y, por lo Estimación de
tanto, mayor será el poder estadístico. un OR en
estudios de
● La variabilidad de la respuesta estudiada. Así, cuanto mayor sea la Casos y
variabilidad en la respuesta, más difícil será detectar diferencias entre los Controles
grupos que se comparan y menor será el poder estadístico de la Para la
investigación. De ahí que sea recomendable estudiar grupos lo más estimación de
homogéneos posibles. un RR
● El tamaño de la muestra a estudiar. Cuanto mayor sea el tamaño muestral, Para un
Coeficiente de
mayor será la potencia estadística de un estudio. Es por ello que en los
Correlación
estudios con muestras muy grandes se detectan como significativas Lineal
diferencias poco relevantes, y en los estudios con muestras menores es más
fácil obtener resultados falsamente negativos.
● El nivel de significación estadística. Si se disminuye el valor de también se
disminuye el poder de la prueba. Es decir, si disminuimos la probabilidad de
cometer un error de tipo I aumentamos simultáneamente la probabilidad de un
error de tipo II, por lo que se trata de encontrar un punto de “equilibrio” entre
ambas. Habitualmente se trabaja con un nivel de significación del 95% ( ),
por lo que el equilibrio hay que en encontrarlo finalmente entre el tamaño de la
muestra que es posible estudiar y el poder que se quiere para el estudio.
Los cuatro factores anteriores, junto con el poder estadístico, forman un sistema cerrado.
De este modo, una vez fijados tres de ellos, el cuarto queda completamente determinado.
En la Tabla 2 se muestran las fórmulas necesarias para el cálculo del poder estadístico en
función de la naturaleza de la investigación. Estas fórmulas permiten obtener un valor
a partir del cual se puede determinar el poder asociado recurriendo a las tablas de la
distribución normal. En la Tabla 3 se muestra la correspondencia entre algunos valores de
Ejemplo 1.
Ejemplo 2.
Con el fin de mejorar el poder del estudio, los investigadores se plantean reclutar un
mayor número de controles que de casos. En la Figura 2 se muestra para el ejemplo
anterior el poder de la investigación en función del número de casos y controles
estudiados. Como se puede observar, la ganancia en el poder disminuye rápidamente, y es
prácticamente nula cuando la relación entre el número de controles y casos es 4:1. Esto se
3
verifica en cualquier estudio de casos y controles . En particular, para el ejemplo previo,
si se estudiasen 100 casos y 200 controles se alcanzaría un poder del 80.28%. Si se
incluyesen 100 casos y 300 controles, el poder sería de un 84.69%. Con 400 controles el
poder aumentaría sólo a un 86.89% y con 500 a un 88.19%. Con lo cual claramente es
ineficiente el incluir más de 4 controles por caso ya que no lograríamos un incremento
relevante del poder estadístico.
De este modo, los intervalos de confianza nos permiten tener una idea acerca del poder
estadístico de un estudio y, por tanto, de la credibilidad de la ausencia de hallazgos
significativos.
Bibliografía
1. Altman D.G. Practical Statistics for Medical Research. London: Chapman & Hall; 1991.
2. Kelsey J.L., Whittemore A.S., Evans A., Thompson W.D. Methods in Observational
Epidemiology. 2nd ed. New York: Oxford University Press; 1996.
3. Argimon Pallás J.M., Jiménez Villa J. Métodos de investigación clínica y epidemiológica. 2ª
ed. Madrid: Ediciones Harcourt; 2000.
4. Pita Fernández S. Determinación del tamaño muestral. Cad Aten Primaria 1996; 3: 138-141.
[Texto completo]
5. Pértega Díaz S, Pita Fernández S. Cálculo del tamaño muestral para la determinación de
factores pronósticos. Cad Aten Primaria 2002; 9: 30-33. [Texto completo]
6. Pértega Díaz S, Pita Fernández S. Cálculo del tamaño muestral en estudios de casos y
controles. Cad Aten Primaria 2002; 9:148-150. [Texto completo]
7. Pértega Díaz S, Pita Fernández S. Determinación del tamaño muestral para calcular la
significación del coeficiente de correlación lineal. Cad Aten Primaria 2002; 9: 209-211.
[Texto completo]
8. Thomas L, Krebs CJ. A review of Statistical power analysis software. Bulletin of the
Ecological Society of America 1997; 78 (2): 126-139.
9. Braitman LE. Confidence intervals assess both clinical significance and statistical
significance. Ann Intern Med. 1991; 114 (6): 515-7. [Medline]
10. Argimon JM. El intervalo de confianza: algo más que un valor de significación estadística.
Med Clin (Barc) 2002; 118(10): 382-384. [Medline]
Tabla 2. Fórmulas para el cálculo del poder estadístico para diferentes tipos de diseño.
Comparación
de dos
proporciones
Comparación
de dos media
Estimación
de un OR en
estudios de
casos y
controles
Estimación
de un RR
Estimación
de un
coeficiente
de
correlación
lineal
● n = Tamaño muestral. En un estudio de casos y controles, n es el número de casos.
●
● d = Valor mínimo de la diferencia a detectar entre dos medias
● S2 = Varianza en el grupo control o de referencia
● c = Número de controles por caso
● m = En un estudio de casos y controles, número de controles
● OR = Valor aproximado del odds ratio a detectar
● RR = Valor aproximado del riesgo relativo a detectar
● r = Magnitud del coeficiente de correlación a detectar
Poder estadístico
Figura 1.
Figura 2.
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 19/09/01
Significancia estadística y relevancia clínica
Ejemplo:
El proceso de aceptación o rechazo de la hipótesis lleva implícito un riesgo que se cuantifica con el
valor de la "p", que es la probabilidad de aceptar la hipótesis alternativa como cierta, cuando la cierta
podría ser la hipótesis nula.
El valor de "p" que indica que la asociación es estadísticamente significativa ha sido arbitrariamente
seleccionado y por consenso se considera en 0.05. Una seguridad del 95% lleva implícito una p < de
0.05 y una seguridad del 99% lleva implícita una p < 0.01. Cuando rechazamos la Ho (hipótesis nula) y
aceptamos la Ha (hipótesis alternativa) como probablemente cierta afirmando que hay una asociación, o
que hay diferencia, estamos diciendo en otras palabras que es muy poco probable que el azar fuese
responsable de dicha asociación. Del mismo modo si la p>0.05 decimos que el azar no puede ser
excluido como explicación de dicho hallazgo y no rechazamos la Ho (hipótesis nula) que afirma que
4
ambas variables no están asociadas o correlacionadas ( ).
Conviene por otra parte considerar que la significación estadística entre dos variables depende de dos
componentes fundamentales. El primero es la magnitud de la diferencia a testar. Cuanto más grande
sea la diferencia entre las dos variables, más fácil es demostrar que la diferencia es significativa. Por el
contrario si la diferencia entre ambas variables es pequeña, las posibilidades de detectar diferencias
entre las mismas se dificulta. El segundo componente fundamental a tener en cuanta al testar
diferencias entre dos variables es el tamaño muestral. Cuanto más grande sea dicho tamaño muestral
más fácil es detectar diferencias entre las mismas. Pequeñas diferencias se pueden detectar con grandes
tamaños muestrales y grandes diferencias entre variables necesitan muchos menos pacientes o
individuos a ser estudiados. Cualquier diferencia puede ser estadísticamente significativa si se dispone
del suficiente número de pacientes.
Ejemplo:
En el ejemplo anterior objetivamos que no hay diferencia entre 60% y 80%. Supongamos que
realizamos ahora el estudio con 900 pacientes en cada grupo:
El tamaño muestral afecta a la probabilidad de la significación estadística a través del error estándar que
se hace más pequeño cuantos más pacientes tenga el estudio. Así pues el valor de la "p" es función de
la magnitud de la diferencia entre los dos grupos o dos variables y del tamaño de la muestra. Por esta
razón una pequeña diferencia puede ser estadísticamente significativa si disponemos de un tamaño
muestral lo suficientemente grande y por el contrario un efecto o diferencia relativamente grande puede
Al realizar el test estadístico, podríamos correr el riesgo de equivocarnos al rechazar la hipótesis nula.
La probabilidad de rechazar la hipótesis nula cuando en realidad es verdadera (error de tipo I) se le
denomina nivel de significación y es la "p". Esta probabilidad de rechazar la hipótesis nula cuando es
verdadera se le conoce también como error alfa. La "p" no es por tanto un indicador de fuerza de la
asociación ni de su importancia.
La significación estadística es por tanto una condición resultante del rechazo de una hipótesis nula
mediante la aplicación de una prueba estadística de significación. El nivel de significación es el riesgo
o la probabilidad que voluntariamente asume el investigador de equivocarse al rechazar la hipótesis
nula, cuando en realidad es cierta. Este riesgo se establece normalmente en 0.05 ó 0.01.
El proceso de poner a prueba una hipótesis involucra una toma de decisiones para rechazar o no la
hipótesis nula. Aunque los valores de la "p" son los de una variable continua, se utiliza para forzar una
decisión cualitativa, tomando partido por una u otra hipótesis. Si p < 0.05 se considera significativo, en
cuyo caso se rechaza la hipótesis nula y no significativo si p> 0.05 en cuyo caso no se rechaza. Una "p"
pequeña significa que la probabilidad de que los resultados obtenidos se deban al azar es pequeña. Los
5
sinónimos de la expresión estadísticamente significativos se muestran en la Tabla 1 ( ).
El riesgo alfa α ("p") indica la probabilidad de cometer un error de tipo I (falso positivo). El error de
tipo I, es por lo tanto rechazar la Ho cuando en realidad es verdadera. Se podría considerar que para
evitar este tipo de error deberíamos de elegir un nivel de confianza más elevado, sin embargo al
aumentar el nivel de confianza aumenta la probabilidad de cometer el error de tipo II. El error de tipo II
consiste en aceptar la hipótesis nula cuando es falsa y esto se conoce como el error de tipo II o Beta (β )
6
(falso negativo) ( ) (Tabla 2).
● Disponer de una teoría que guíe la investigación, evitando el "salir de pesca" con el ordenador
buscando asociaciones entre variables.
● Disminuir el número de test estadísticos llevados a cabo en el estudio.
● Depurar la base de datos para evitar errores de valores extremos que puedan producir hallazgos
significativos.
● Utilizar valores de alfa más reducidos (0.01 ó 0.001).
● Reproducir el estudio. Si al reproducir el estudio se obtienen resultados similares, estaremos más
seguros de no estar cometiendo el error de tipo I.
Relevancia clínica
La relevancia clínica de un fenómeno va más allá de cálculos aritméticos y está determinada por el
juicio clínico. La relevancia depende de la magnitud de la diferencia, la gravedad del problema a
investigar, la vulnerabilidad, la morbimortalidad generada por el mismo, su coste y por su frecuencia
entre otros elementos.
La reducción relativa del riesgo relativo es una medida de utilidad en el cálculo de la relevancia clínica.
Reducciones del riesgo relativo de 50% casi siempre y de 25% con frecuencia, son consideradas como
7
clínicamente relevantes ( ) independientemente de la significación estadística.
La forma recomendada de presentar los resultados de un ensayo clínico aleatorizado y otros tipos de
8 10 11 12
estudio debe incluir ( , , , ): La reducción relativa del riesgo (RRR), la reducción absoluta del
riesgo (RAR) y el número necesario de pacientes a tratar para reducir un evento (NNT). Consideremos
para su cálculo este ejemplo: Mueren 15% de pacientes en el grupo de intervención y mueren un 20%
en el grupo control. El que la diferencia entre ambos sea significativa dependerá del tamaño muestral.
El riesgo relativo, que es el cociente entre los expuestos al nuevo tratamiento o actividad preventiva y
los no expuestos, es en este caso (0.15/0.20=0.75). El riesgo de muerte de los pacientes que reciben el
nuevo tratamiento relativo al de los pacientes del grupo control fue de 0.75. La RRR es el complemento
del RR, es decir, (1-0.75)* 100 = 25%. El nuevo tratamiento reduce el riesgo de muerte en un 25%
relativo al que ha ocurrido en el grupo control. La reducción absoluta del riesgo (RAR) sería: 0.20-
0.15= 0.05 (5%). Podríamos decir por tanto que de cada 100 personas tratadas con el nuevo tratamiento
podemos evitar 5 casos de muerte. La siguiente pregunta sería: si de cada 100 personas tratadas con el
nuevo tratamiento podemos evitar 5 casos de muerte. ¿Cuántos tendríamos que tratar para evitar un
solo caso de muerte?. En otras palabras ¿cuál es el NNT?. Su cálculo requiere una simple regla de tres
que se resuelve dividiendo 1/RAR. En este caso 1/0.05 = 20. Por tanto la respuesta es que necesitamos
tratar a 20 pacientes con el nuevo tratamiento para evitar un caso de muerte.
Este modo de presentar los resultados nos cuantifica el esfuerzo a realizar para conseguir la reducción
de un evento desfavorable. El presentar los resultados sólo como reducción porcentual del riesgo
relativo (RRR), aunque es técnicamente correcto, tiende a magnificar el efecto de la intervención al
describir del mismo modo situaciones muy dispares. Dicho efecto lo podemos objetivar en la tabla 3,
donde se objetiva que la reducción del riesgo es igual pero el NNT es completamente diferente.
Cambios pequeños en el riesgo basal absoluto de un hecho clínico infrecuente conducen a grandes
cambios en el número de pacientes que necesitamos tratar con la intención de prevenir uno.
El cálculo del NNT representa como ya hemos indicado el número de pacientes a tratar de manera
experimental a fin de evitar que uno de ellos desarrolle un resultado negativo. Es por tanto una forma
excelente de determinar la significación clínica de un ensayo que además sea estadísticamente
significativo. Cuanto más reducido es NNT el efecto de la magnitud del tratamiento es mayor. Si no se
encontrase eficacia en el tratamiento la reducción absoluta del riesgo sería cero y el NNT sería infinito.
Como sucede en las estimaciones de otros parámetros, se debe expresar el NNT con intervalos de
13,14)
confianza para estimar la incertidumbre que dicho parámetro presenta ( .
El test de significación estadística nos proporciona una "p" que nos permiten conocer la probabilidad de
equivocarse si rechazamos la Ho, pero es evidente que la relevancia del fenómeno a estudiar es un
elemento clave en la toma de decisiones. Por otro lado aún siendo estadísticamente significativo y
clínicamente relevante no debemos olvidar que antes de poner en marcha una practica clínica debemos a
su vez valorar la validez externa o generalización de los resultados al universo de pacientes que se
pretende aplicar dicha práctica clínica.
Realidad
No existe diferencia Existe diferencia
(Ho cierta) (Ho falsa)
Diferencia significativa Error tipo I
No error
(Rechazo de Ho) (α )
Resultado de la prueba estadística
Diferencia no significativa Error tipo II
No error
(No rechazo de Ho) (β )
Tabla 3. Cálculo de Riesgo relativo (RR), Reducción Relativa del Riesgo (RRR), Reducción
Absoluta del Riesgo (RAR) y Número Necesario de Pacientes a Tratar para reducir un evento
(NNT) en situaciones diferentes.
Incidencia en Incidencia en
RR RRR RAR NNT
Expuestos No Expuestos
(Ie) (Io) Ie/Io (1-RR)*100 Io-Ie 1/RAR
8% 10 % 0.8 20 % 0.10-0.08 50
0.8% 1% 0.8 20 % 0.01-0.008 500
Bibliografía
2. Silva Ayçaguer LC. Cultura estadística e investigación científica en el campo de la salud: una
mirada crítica. Madrid: Díaz de Santos; 1997.
4. Jekel JF, Elmore JG, Katz DL. Epidemiology Biostatistics and Preventive Medicine.
Philadelphia: W.B. Saunders Company; 1996.
5. Daly L.E, Bourke G.J. Interpretation and Uses of Medical Statistics. Oxford: Blackwell
Science Ltd; 2000.
6. Daly LE, Bourke GJ. Interpretation and uses of medical statistics. 5th ed.. Oxford: Blackwell
science; 2000.
7. Sackett DL, Haynes RB , Guyatt GH, Tugwell P. Epidemiología clínica. Ciencias básicas para
la medicina clínica, 2ª ed. Madrid: Editorial Médica Panamericana; 1994.
8. Sackett DL, Richarson WS, Rosenberg W, Hynes RB. Evidence-based medicine: how to
practice and teach EBM. 2nd ed. London: Churchill-livingstone; 2000.
9. Guyatt GH, Sackett DL, Cook DJ. Users´guides to the medical literature. II. How to use an
articie about therapy or prevention. A. Are the results of the study valid? Evidence-Based
Medicine Working Group. JAMA 1993; 270: 2598-2601.
10. Laupacis A, Sackett DL, Roberts RS: An assesment of clinically useful measures of
treatment. N Engl J Med 1988; 318: 1728-1733.
11. Guyatt GH, Sackett DL, Cook DJ. Users´ guides to the medical literature. II. How to use an
article about therapy or prevention. B. What were the results and will they help in caring for my
patients? Evidence Based Medicine Working Group. JAMA 1994; 271: 59-63. [Medline]
12. Cook RJ, Sackett DL. The number needed to treal: a clincally useful measure of treatment
effect. BMJ 1995; 310: 452-454. [Texto completo]
13. Altman DG. Confidence intervals for the nember needed to treat. BMJ 1998; 317: 1309-
1312. [Texto completo]
14. Daly LE. Confidence limits made easy: interval estimation using a subsitution method. Am J
Epidemiol 1998; 147: 783-90. [Medline]
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 06/03/01
Pita Fernández, S. Uso de la estadística y la epidemiología en atención primaria. En: Gil VF,
Merino J, Orozco D, Quirce F. Manual de metodología de trabajo en atención primaria.
Universidad de Alicante. Madrid, Jarpyo Editores, S.A. 1997; 115-161. (Actualizado 06/03/2001)
Introducción Contenido
Introducción
Poblaciones y
Existen diferentes razones por las cuales los profesionales de la atención primaria
Muestras
deben conocer los fundamentos de la epidemiología y la estadística como
Tipos de datos
instrumentos del trabajo cotidiano. Entre dichas razones señalamos las siguientes: - Variables
los términos estadísticos y epidemiológicos invaden la literatura médica, la medicina cuantitativas
es cada vez más cuantitativa, su conocimiento nos permitirá leer la bibliografía - Variables
médica con más capacidad crítica para detectar errores potenciales y falacias. Nos cualitativas
será también útil para llegar a conclusiones correctas acerca de procedimientos para Estadística
descriptiva
1,2
el diagnóstico y del resultado de las pruebas . Su conocimiento nos permitirá a su Medidas de
vez valorar protocolos de estudio e informes remitidos para su publicación y tendencia
participar, en definitiva, en la investigación médica. Resulta imprescindible, por lo central
tanto, conocer los conceptos básicos de estadística que nos faciliten la realización de - Media,
Mediana y Moda
estudios y conocer las posibilidades a desarrollar con ayuda de profesionales
Medidas de
estadísticos para mejorar dicho análisis. dispersión
- Varianza
En este trabajo se pretende dar a conocer algunas nociones estadísticas que nos - Desviación
ayudarán a explorar y describir, en un primer momento, nuestros datos. típica
- Coeficiente de
variación
Poblaciones y muestras Medidas de
posición
Cuando se realiza un estudio de investigación, se pretende generalmente inferir o - Cuartiles y
generalizar resultados de una muestra a una población. Se estudia en particular a un Percentiles
Bibliografía
reducido número de individuos a los que tenemos acceso con la idea de poder
generalizar los hallazgos a la población de la cual esa muestra procede. Este proceso
Documento
de inferencia se efectúa por medio de métodos estadísticos basados en la
en PDF (46
probabilidad. Kb)
¿Problemas
La población representa el conjunto grande de individuos que deseamos estudiar y con PDF?
generalmente suele ser inaccesible. Es, en definitiva, un colectivo homogéneo que
reúne unas características determinadas.
Las razones para estudiar muestras en lugar de poblaciones son diversas y entre ellas
3
podemos señalar :
a. Ahorrar tiempo. Estudiar a menos individuos es evidente que lleva menos tiempo.
b. Como consecuencia del punto anterior ahorraremos costes.
c. Estudiar la totalidad de los pacientes o personas con una característica determinada
en muchas ocasiones puede ser una tarea inaccesible o imposible de realizar.
d. Aumentar la calidad del estudio. Al disponer de más tiempo y recursos, las
observaciones y mediciones realizadas a un reducido número de individuos
pueden ser más exactas y plurales que si las tuviésemos que realizar a una
población.
e. La selección de muestras específicas nos permitirá reducir la heterogeneidad de
una población al indicar los criterios de inclusión y/o exclusión.
Tipos de datos
Lo que estudiamos en cada individuo de la muestra son las variables (edad, sexo, peso,
talla, tensión arterial sistólica, etcétera). Los datos son los valores que toma la variable en
cada caso. Lo que vamos a realizar es medir, es decir, asignar valores a las variables
incluidas en el estudio. Deberemos además concretar la escala de medida que aplicaremos
a cada variable.
Estadística descriptiva
Una vez que se han recogido los valores que toman las variables de nuestro estudio
(datos), procederemos al análisis descriptivo de los mismos. Para variables categóricas,
como el sexo o el estadiaje, se quiere conocer el número de casos en cada una de las
categorías, reflejando habitualmente el porcentaje que representan del total, y
expresándolo en una tabla de frecuencias.
Para variables numéricas, en las que puede haber un gran número de valores observados
distintos, se ha de optar por un método de análisis distinto, respondiendo a las siguientes
preguntas:
Como ejemplo, consideremos 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60,
71, y 80. La media de edad de estos sujetos será de:
Más formalmente, si denotamos por (X1, X2,...,Xn) los n datos que tenemos recogidos de
la variable en cuestión, el valor medio vendrá dado por:
La mediana del ejemplo anterior sería el valor que deja a la mitad de los datos por encima
de dicho valor y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor
observamos la secuencia:
Como quiera que en este ejemplo el número de observaciones es par (10 individuos), los
dos valores que se encuentran en el medio son 60 y 60. Si realizamos el cálculo de la
media de estos dos valores nos dará a su vez 60, que es el valor de la mediana.
Por último, otra medida de tendencia central, no tan usual como las anteriores, es la
moda, siendo éste el valor de la variable que presenta una mayor frecuencia.
b. Medidas de dispersión
Tal y como se adelantaba antes, otro aspecto a tener en cuenta al describir datos continuos
es la dispersión de los mismos. Existen distintas formas de cuantificar esa variabilidad.
De todas ellas, la varianza (S2) de los datos es la más utilizada. Es la media de los
cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la
distribución.
Esta varianza muestral se obtiene como la suma de las de las diferencias de cuadrados y
por tanto tiene como unidades de medida el cuadrado de las unidades de medida en que se
mide la variable estudiada.
Sx2=
En los cálculos del ejercicio previo, la desviación típica muestral, que tiene como
denominador n, el valor sería 20.678. A efectos de cálculo lo haremos como n-1 y el
resultado seria 21,79.
El haber cambiado el denominador de n por n-1 está en relación al hecho de que esta
segunda fórmula es una estimación más precisa de la desviación estándar verdadera de
la población y posee las propiedades que necesitamos para realizar inferencias a la
población.
Cuando se quieren señalar valores extremos en una distribución de datos, se suele utilizar
la amplitud como medida de dispersión. La amplitud es la diferencia entre el valor mayor
y el menor de la distribución.
Por ejemplo, utilizando los datos del ejemplo previo tendremos 80-15 =65.
● Son índices que describen la variabilidad o dispersión y por tanto cuando los datos
están muy alejados de la media, el numerador de sus fórmulas será grande y la
varianza y la desviación típica lo serán.
● Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación típica.
Para reducir a la mitad la desviación típica, la muestra se tiene que multiplicar por
4.
● Cuando todos los datos de la distribución son iguales, la varianza y la desviación
típica son iguales a 0.
● Para su cálculo se utilizan todos los datos de la distribución; por tanto, cualquier
cambio de valor será detectado.
Otra medida que se suele utilizar es el coeficiente de variación (CV). Es una medida de
dispersión relativa de los datos y se calcula dividiendo la desviación típica muestral por la
media y multiplicando el cociente por 100. Su utilidad estriba en que nos permite
comparar la dispersión o variabilidad de dos o más grupos. Así, por ejemplo, si tenemos
el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es de 69,6 kg. y su desviación
típica (s) = 10,44 y la TAS de los mismos (150, 170, 135, 180 y 195 mmHg) cuya media
es de 166 mmHg y su desviación típica de 21,3. La pregunta sería: ¿qué distribución es
más dispersa, el peso o la tensión arterial? Si comparamos las desviaciones típicas
observamos que la desviación típica de la tensión arterial es mucho mayor; sin embargo,
no podemos comparar dos variables que tienen escalas de medidas diferentes, por lo que
calculamos los coeficientes de variación:
CV de la variable peso =
CV de la variable TAS =
A la vista de los resultados, observamos que la variable peso tiene mayor dispersión.
Cuando los datos se distribuyen de forma simétrica (y ya hemos dicho que esto ocurre
cuando los valores de su media y mediana están próximos), se usan para describir esa
variable su media y desviación típica. En el caso de distribuciones asimétricas, la mediana
y la amplitud son medidas más adecuadas. En este caso, se suelen utilizar además los
cuartiles y percentiles.
Así, por ejemplo, el percentil 80 es el valor de la variable que es igual o deja por debajo
de sí al 80% del total de las puntuaciones. Los cuartiles son los valores de la variable que
dejan por debajo de sí el 25%, 50% y el 75% del total de las puntuaciones y así tenemos
por tanto el primer cuartil (Q1), el segundo (Q2) y el tercer cuartil (Q3).
Bibliografía
1. Sackett, D.L., Haynes, R.B., Guyatt, G.H., Tugwell, P. Epidemiología clínica. Ciencia básica
para la medicina clínica. 2ª ed. Madrid : Médica Panamericana; 1994.
2. Fletcher RH., Fletcher SW., Wagner E.H. Epidemiología clínica. 2ª ed. Barcelona: Masson,
Williams & Wilkins; 1998.
4. Milton JS, Tsokos JO. Estadística para biología y ciencias de la salud. Madrid: Interamericana
McGraw Hill; 2001.
5. Martín Andrés A, Luna del Castillo JD. Bioestadística para las ciencias de la salud. 4ª ed.
Madrid: NORMA; 1993.
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 10/12/01
La distribución normal
1. Introducción Contenido
Introducción
La Distribución
Al iniciar el análisis estadístico de una serie de datos, y después de la etapa de
Normal
detección y corrección de errores, un primer paso consiste en describir la
- Sus
distribución de las variables estudiadas y, en particular, de los datos numéricos. propiedades
Además de las medidas descriptivas correspondientes, el comportamiento de estas Contrastes de
variables puede explorarse gráficamente de un modo muy simple. Consideremos, Normalidad
como ejemplo, los datos de la Figura 1a, que muestra un histograma de la tensión Recursos
arterial sistólica de una serie de pacientes isquémicos ingresados en una unidad de relacionados en
Internet
cuidados intensivos. Para construir este tipo de gráfico, se divide el rango de
Bibliografía
valores de la variable en intervalos de igual longitud, representando sobre cada
intervalo un rectángulo con área proporcional al número de datos en ese rango1.
Documento
Uniendo los puntos medios del extremo superior de las barras, se obtiene el llamado en PDF
polígono de frecuencias. Si se observase una gran cantidad de valores de la (123 Kb)
variable de interés, se podría construir un histograma en el que las bases de los ¿Problemas
rectángulos fuesen cada vez más pequeñas, de modo que el polígono de frecuencias con PDF?
tendría una apariencia cada vez más suavizada, tal y como se muestra en la Figura Tablas y Figuras
1b. Esta curva suave "asintótica" representa de modo intuitivo la distribución Figura
1. Histogramas
teórica de la característica observada. Es la llamada función de densidad. Fig. 2. Gráfica
de una
Una de las distribuciones teóricas mejor estudiadas en los textos de bioestadística y Distribución
más utilizada en la práctica es la distribución normal, también llamada Normal
Tabla 1. Áreas
distribución gaussiana2, 3, 4, 5. Su importancia se debe fundamentalmente a la bajo la curva
frecuencia con la que distintas variables asociadas a fenómenos naturales y normal
cotidianos siguen, aproximadamente, esta distribución. Caracteres morfológicos estándar
(como la talla o el peso), o psicológicos (como el cociente intelectual) son ejemplos Fig.
de variables de las que frecuentemente se asume que siguen una distribución 3. Ejemplos de
distribuciones
normal. No obstante, y aunque algunos autores6, 7 han señalado que el normales
comportamiento de muchos parámetros en el campo de la salud puede ser descrito Fig.
mediante una distribución normal, puede resultar incluso poco frecuente encontrar 4. Histogramas
variables que se ajusten a este tipo de comportamiento. y gráfico Q-Q
de probabilidad
esta hipótesis puede obviarse cuando se dispone de un número suficiente de datos, resulta
recomendable contrastar siempre si se puede asumir o no una distribución normal. La
simple exploración visual de los datos puede sugerir la forma de su distribución. No
obstante, existen otras medidas, gráficos de normalidad y contrastes de hipótesis que
pueden ayudarnos a decidir, de un modo más riguroso, si la muestra de la que se dispone
procede o no de una distribución normal. Cuando los datos no sean normales, podremos
o bien transformarlos8 o emplear otros métodos estadísticos que no exijan este tipo de
restricciones (los llamados métodos no paramétricos).
2. La Distribución Normal
La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre
(1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más
profundos y formuló la ecuación de la curva; de ahí que también se la conozca, más
comúnmente, como la "campana de Gauss". La distribución de una variable normal
está completamente determinada por dos parámetros, su media y su desviación estándar,
denotadas generalmente por y . Con esta notación, la densidad de la normal viene
dada por la ecuación:
Ecuación 1:
que determina la curva en forma de campana que tan bien conocemos (Figura 2). Así, se
dice que una característica sigue una distribución normal de media y varianza ,
y se denota como , si su función de densidad viene dada por la Ecuación 1.
Como se deduce de este último apartado, no existe una única distribución normal, sino
una familia de distribuciones con una forma común, diferenciadas por los valores de su
media y su varianza. De entre todas ellas, la más utilizada es la distribución normal
estándar, que corresponde a una distribución de media 0 y varianza 1. Así, la expresión
que define su densidad se puede obtener de la Ecuación 1, resultando:
Es importante conocer que, a partir de cualquier variable X que siga una distribución
, se puede obtener otra característica Z con una distribución normal estándar,
sin más que efectuar la transformación:
Ecuación
2:
Consideremos, por ejemplo, el siguiente problema: supongamos que se sabe que el peso
de los sujetos de una determinada población sigue una distribución aproximadamente
normal, con una media de 80 Kg y una desviación estándar de 10 Kg. ¿Podremos saber
cuál es la probabilidad de que una persona, elegida al azar, tenga un peso superior a 100
Kg?
Denotando por X a la variable que representa el peso de los individuos en esa población,
ésta sigue una distribución . Si su distribución fuese la de una normal estándar
podríamos utilizar la Tabla 1 para calcular la probabilidad que nos interesa. Como éste
no es el caso, resultará entonces útil transformar esta característica según la Ecuación 2, y
obtener la variable:
para poder utilizar dicha tabla. Así, la probabilidad que se desea calcular será:
Esta última probabilidad puede ser fácilmente obtenida a partir de la Tabla 1, resultando
De modo análogo, podemos obtener la probabilidad de que el peso de un sujeto esté entre
60 y 100 Kg:
Finalmente, la probabilidad buscada de que una persona elegida al azar tenga un peso
entre 60 y 100 Kg., es de 0.9772-0.0228=0.9544, es decir, aproximadamente de un 95%.
Resulta interesante comprobar que se obtendría la misma conclusión recurriendo a la
propiedad (iii) de la distribución normal.
3. Contrastes de Normalidad
Resulta obvio que este tipo de estudio no puede llevarnos sino a obtener una opinión
meramente subjetiva acerca de la posible distribución de nuestros datos, y que es
necesario disponer de otros métodos más rigurosos para contrastar este tipo de hipótesis.
En primer lugar, deberemos plantearnos el saber si los datos se distribuyen de una forma
simétrica con respecto a su media o presentan algún grado de asimetría, pues es ésta una
de las características fundamentales de la distribución de Gauss. Aunque la simetría de la
distribución pueda valorarse, de modo simple, atendiendo a algunas medidas descriptivas
de la variable en cuestión8 (comparando, por ejemplo, los valores de media, mediana y
moda), resultará útil disponer de algún índice que nos permita cuantificar cualquier
a partir del cual podemos considerar que una distribución es simétrica ( =0), asimétrica
hacia la izquierda ( <0) o hacia la derecha ( >0). En segundo lugar, podemos
preguntarnos si la curva es más o menos "aplastada", en relación con el grado de
apuntamiento de una distribución gaussiana. El coeficiente de aplastamiento o curtosis
de Fisher, dado por:
permite clasificar una distribución de frecuencias en mesocúrtica (tan aplanada como una
normal, ), leptocúrtica (más apuntada que una normal, ) o platicúrtica
Siguiendo con los ejemplos anteriores, y tal y como cabía esperar, el coeficiente de
asimetría toma un valor mayor para la distribución de la edad ( ) que para el
peso observado ( ). En cuanto a los niveles de curtosis, no hay apenas
diferencias, siendo de –0.320 para el peso y de –0.366 para la edad.
Parece lógico que cada uno de estos métodos se complemente con procedimientos de
análisis que cuantifiquen de un modo más exacto las desviaciones de la distribución
normal. Existen distintos tests estadísticos que podemos utilizar para este propósito. El
test de Kolmogorov-Smirnov es el más extendido en la práctica. Se basa en la idea de
comparar la función de distribución acumulada de los datos observados con la de una
distribución normal, midiendo la máxima distancia entre ambas curvas. Como en
cualquier test de hipótesis, la hipótesis nula se rechaza cuando el valor del estadístico
supera un cierto valor crítico que se obtiene de una tabla de probabilidad. Dado que en la
mayoría de los paquetes estadísticos, como el SPSS, aparece programado dicho
procedimiento, y proporciona tanto el valor del test como el p-valor correspondiente, no
nos detendremos más en explicar su cálculo. Existen modificaciones de este test, como el
de Anderson-Darling que también pueden ser utilizados. Otro procedimiento muy
extendido es también el test chi-cuadrado de bondad de ajuste. No obstante, este tipo de
procedimientos deben ser utilizados con precaución. Cuando se dispone de un número
suficiente de datos, cualquier test será capaz de detectar diferencias pequeñas aún cuando
estas no sean relevantes para la mayor parte de los propósitos. El test de Kolmogorov-
Smirnov, en este sentido, otorga un peso menor a las observaciones extremas y por la
tanto es menos sensible a las desviaciones que normalmente se producen en estos tramos.
significativo, indica que podemos asumir una distribución normal. Por otra parte, para el
caso de la edad, en el que la distribución muestral era mucho más asimétrica, el mismo
test proporcionó un valor de 1.498, con p=0.022, lo que obligaría a rechazar en este caso
la hipótesis de una distribución gaussiana.
Figura 1. Histograma de los valores de tensión arterial sistólica para dos muestras de
pacientes isquémicos ingresados en una unidad de cuidados intensivos.
Figura 1a.- Valores de tensión arterial sistólica en una muestra de 1000 pacientes
isquémicos ingresados en UCI.
Figura 1b.- Valores de tensión arterial sistólica de una muestra de 5000 pacientes
ingresados en UCI.
Figura 2. Gráfica de una distribución normal y significado del área bajo la curva.
Tabla 1. Áreas bajo la curva normal estándar. Los valores de la tabla que no se
muestran en negrita representan la probabilidad de observar un valor menor o igual a
z. La cifra entera y el primer decimal de z se buscan en la primera columna, y el
segundo decimal en la cabecera de la tabla.
1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2.2 .9861 .9864 .9868 .9871 .9875 .4878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990
3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993
3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995
3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997
3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998
Bibliografía
1. Pértega Díaz S, Pita Fernández S. Representación gráfica en el análisis de datos. Cad Aten
Primaria 2001; 8: 112-117.
2. Altman DA. Practical statistics for medical research. 1th ed., repr. 1997. London: Chapman
& Hall; 1997.
3. Daniel WW. Bioestadística. Base para el análisis de las ciencias de la salud. Mexico:
Limusa; 1995.
4. Elston RC, Johnson WD. Essentials of Biostatistics. Philadelphia: F.A. Davis Company;
1987.
5. Altman DG, Bland JM. Statistics notes: The normal distribution. BMJ 1995; 310: 298-298.
[Texto completo]
6. Elveback LR, Guilliver CL, Keating FR Jr. Health, Normality and the Gosth of Gauss.
JAMA 1970; 211: 69-75. [Medline]
7. Nelson JC, Haynes E, Willard R, Kuzma J. The Distribution of Eurhyroid Serum Protein-
Bound Iodine Levels. JAMA 1971; 216: 1639-1641. [Medline]
8. Altman DG, Bland JM. Statistics notes: Detecting skewness from summary information.
BMJ 1996; 313: 1200-1200. [Texto completo]
9. Bland JM, Altman DG. Statistics Notes: Transforming data. BMJ 1996; 312: 770. [Texto
completo]
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 02/04/01
Representación gráfica en el Análisis de Datos
Los diagramas de barras son similares a los gráficos de sectores. Se representan Fig. 7.
tantas barras como categorías tiene la variable, de modo que la altura de cada una de Diagrama de
barras
ellas sea proporcional a la frecuencia o porcentaje de casos en cada clase (Figura 2).
agrupadas
Estos mismos gráficos pueden utilizarse también para describir variables numéricas Fig. 8.
discretas que toman pocos valores (número de hijos, número de recidivas, etc.). Diagrama de
barras de error
Para variables numéricas continuas, tales como la edad, la tensión arterial o el Fig. 9. Gráfico
de líneas
índice de masa corporal, el tipo de gráfico más utilizado es el histograma. Para
Fig. 10.
construir un gráfico de este tipo, se divide el rango de valores de la variable en Diagrama de
intervalos de igual amplitud, representando sobre cada intervalo un rectángulo que dispersión
tiene a este segmento como base. El criterio para calcular la altura de cada Fig. 11.
rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o Diagramas de
relativas) de los datos en cada intervalo y el área de los rectángulos. Como ejemplo, líneas
superpuestos
la Tabla I muestra la distribución de frecuencias de la edad de 100 pacientes,
Fig. 12.
comprendida entre los 18 y 42 años. Si se divide este rango en intervalos de dos Diagrama de
años, el primer tramo está comprendido entre los 18 y 19 años, entre los que se dispersión
encuentra el 4/100=4% del total. Por lo tanto, la primera barra tendrá altura (regresión
proporcional a 4. Procediendo así sucesivamente, se construye el histograma que se logística)
muestra en la Figura 3. Uniendo los puntos medios del extremo superior de las Fig. 13. Curvas
ROC
barras del histograma, se obtiene una imagen que se llama polígono de frecuencias.
Dicha figura pretende mostrar, de la forma más simple, en qué rangos se encuentra la
mayor parte de los datos. Un ejemplo, utilizando los datos anteriores, se presenta en la
Figura 4.
Otro modo habitual, y muy útil, de resumir una variable de tipo numérico es utilizando el
concepto de percentiles, mediante diagramas de cajas4,5. La Figura 5 muestra un
gráfico de cajas correspondiente a los datos de la Tabla I. La caja central indica el rango
en el que se concentra el 50% central de los datos. Sus extremos son, por lo tanto, el 1er y
3er cuartil de la distribución. La línea central en la caja es la mediana. De este modo, si la
variable es simétrica, dicha línea se encontrará en el centro de la caja. Los extremos de
los "bigotes" que salen de la caja son los valores que delimitan el 95% central de los
datos, aunque en ocasiones coinciden con los valores extremos de la distribución. Se
suelen también representar aquellas observaciones que caen fuera de este rango (outliers
o valores extremos). Esto resulta especialmente útil para comprobar, gráficamente,
posibles errores en nuestros datos. En general, los diagramas de cajas resultan más
apropiados para representar variables que presenten una gran desviación de la
distribución normal. Como se verá más adelante, resultan además de gran ayuda cuando
se dispone de datos en distintos grupos de sujetos.
Por último, y en lo que respecta a la descripción de los datos, suele ser necesario, para
posteriores análisis, comprobar la normalidad de alguna de las variables numéricas de las
que se dispone. Un diagrama de cajas o un histograma son gráficos sencillos que
permiten comprobar, de un modo puramente visual, la simetría y el "apuntamiento" de la
distribución de una variable y, por lo tanto, valorar su desviación de la normalidad.
Existen otros métodos gráficos específicos para este propósito, como son los gráficos P-
P o Q-Q. En los primeros, se confrontan las proporciones acumuladas de una variable
con las de una distribución normal. Si la variable seleccionada coincide con la
distribución de prueba, los puntos se concentran en torno a una línea recta. Los gráficos
Q-Q se obtienen de modo análogo, esta vez representando los cuantiles de distribución de
la variable respecto a los cuantiles de la distribución normal. En la Figura 6 se muestra el
gráfico P-P correspondientes a los datos de la Tabla I que sugiere, al igual que el
correspondiente histograma y el diagrama de cajas, que la distribución de la variable se
aleja de la normalidad.
Cuando se trabaja con dos variables cualitativas podemos seguir empleando gráficos de
barras o de sectores. Podemos querer determinar, por ejemplo, si en una muestra dada, la
frecuencia de sujetos que padecen una enfermedad coronaria es más frecuente en aquellos
que tienen algún familiar con antecedentes cardiacos. A partir de dicha muestra podemos
representar, como se hace en la Figura 7, dos grupos de barras: uno para los sujetos con
antecedentes cardiacos familiares y otro para los que no tienen este tipo de antecedentes.
En cada grupo, se dibujan dos barras representando el porcentaje de pacientes que tienen
o no alguna enfermedad coronaria. No se debe olvidar que cuando los tamaños de las dos
poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en
otro caso el gráfico podría resultar engañoso.
Por otro lado, la comparación de variables continuas en dos o más grupos se realiza
habitualmente en términos de su valor medio, por medio del test t de Student, análisis de
la varianza o métodos no paramétricos equivalentes, y así se ha de reflejar en el tipo de
gráfico utilizado. En este caso resulta muy útil un diagrama de barras de error, como
en la Figura 8. En él se compara el índice de masa corporal en una muestra de hombres y
mujeres. Para cada grupo, se representa su valor medio, junto con su 95% intervalo de
confianza. Conviene recordar que el hecho de que dichos intervalos no se solapen, no
implica necesariamente que la diferencia entre ambos grupos pueda ser estadísticamente
significativa, pero sí nos puede servir para valorar la magnitud de la misma. Así mismo,
para visualizar este tipo de asociaciones, pueden utilizarse dos diagramas de cajas, uno
para cada grupo. Estos diagramas son especialmente útiles aquí: no sólo permiten ver si
existe o no diferencia entre los grupos, sino que además nos permiten comprobar la
normalidad y la variabilidad de cada una de las distribuciones. No olvidemos que las
hipótesis de normalidad y homocedasticidad son condiciones necesarias para aplicar
algunos de los procedimientos de análisis paramétricos.
Por último, señalar que también en esta situación pueden utilizarse los ya conocidos
gráficos de barras, representando aquí como altura de cada barra el valor medio de la
variable de interés. Los gráficos de líneas pueden resultar también especialmente
interesantes, sobre todo cuando interesa estudiar tendencias a lo largo del tiempo (Figura
9). No son más que una serie de puntos conectados entre sí mediante rectas, donde cada
punto puede representar distintas cosas según lo que nos interese en cada momento (el
valor medio de una variable, porcentaje de casos en una categoría, el valor máximo en
cada grupo, etc).
Cuando lo que interesa es estudiar la relación entre dos variables continuas, el método de
análisis adecuado es el estudio de la correlación. Los coeficientes de correlación
(Pearson, Spearman, etc.) valoran hasta qué punto el valor de una de las variables
aumenta o disminuye cuando crece el valor de la otra. Cuando se dispone de todos los
datos, un modo sencillo de comprobar, gráficamente, si existe una correlación alta, es
mediante diagramas de dispersión, donde se confronta, en el eje horizontal, el valor de
una variable y en el eje vertical el valor de la otra. Un ejemplo sencillo de variables
altamente correlacionados es la relación entre el peso y la talla de un sujeto. Partiendo de
una muestra arbitraria, podemos construir el diagrama de dispersión de la Figura 10. En
él puede observarse claramente como existe una relación directa entre ambas variables, y
valorar hasta qué punto dicha relación puede modelizarse por la ecuación de una recta.
Este tipo de gráficos son, por lo tanto, especialmente útiles en la etapa de selección de
variables cuando se ajusta un modelo de regresión lineal.
Otros gráficos.
Los tipos de gráficos mostrados hasta aquí son los más sencillos que podemos manejar,
pero ofrecen grandes posibilidades para la representación de datos y pueden ser utilizados
en múltiples situaciones, incluso para representar los resultados obtenidos por métodos de
análisis más complicados. Podemos utilizar, por ejemplo, dos diagramas de líneas
superpuestos para visualizar los resultados de un análisis de la varianza con dos factores
(Figura 11). Un diagrama de dispersión es el método adecuado para valorar el resultado
de un modelo de regresión logística (Figura 12). Existen incluso algunos análisis
concretos que están basados completamente en la representación gráfica. En particular, la
elaboración de curvas ROC (Figura 13) y el cálculo del área bajo la curva constituyen el
método más apropiado para valorar la exactitud de una prueba diagnóstica.
Hemos visto, por lo tanto, como la importancia y utilidad que las representaciones
gráficas pueden alcanzar en el proceso de análisis de datos. La mayoría de los textos
estadísticos y epidemiológicos4 hacen hincapié en los distintos tipos de gráficos que se
pueden crear, como una herramienta imprescindible en la presentación de resultados y el
proceso de análisis estadístico. No obstante, es difícil precisar cuándo es más apropiado
utilizar un gráfico que una tabla. Más bien podremos considerarlos dos modos distintos
pero complementarios de visualizar los mismos datos. La creciente utilización de
distintos programas informáticos hace especialmente sencillo la obtención de las mismas.
Arriba
Arriba
Tabla I.
Distribución de
frecuencias
de la edad en 100
pacientes.
Nº de
Edad
pacientes
18 1
19 3
20 4
21 7
22 5
23 8
24 10
25 8
26 9
27 6
28 6
29 4
30 3
31 4
32 5
33 3
34 2
35 3
36 1
37 2
38 3
39 1
41 1
42 1
Arriba
Arriba
Arriba
Arriba
Arriba
Arriba
Arriba
Arriba
Figura 10. Diagrama de dispersión entre la talla y el peso de una muestra de individuos.
Arriba
Figura 11. Dos diagramas de líneas superpuestos. Variación en el peso medio de una
muestra de recién nacidos según el control ginecológico del embarazo y el hábito de
fumar de la madre.
Arriba
Arriba
Arriba
Bibliografía
2. Altman DG, Bland JM. Statistics Notes: Presentation of numerical data. BMJ
1996; 312: 572. [Medline] [texto completo]
4. Simpson RJ, Johnson TA, Amara IA. The box-plot: an exploratory analysis for
biomedical publications. Am Heart J 1988; 116 (6 Part 1): 1663-5. [Medline]
5. Williamson DF, Parker RA, Kendrick JS. The box plot: a simple visual method
to interpret data. Ann Intern Med 1989; 110 (11): 916-21. [Medline]
6.Altman DA. Practical statistics for medical research. 1th ed., repr. 1997.
London: Chapman & Hall; 1997.
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 23/03/01
En muchos estudios, incluidos la mayoría de los ensayos clínicos, es necesario comparar Contenido
ciertas características en dos o más grupos de sujetos. Tal sería el caso, por ejemplo, si t de Student
pensamos que un tratamiento nuevo puede tener un porcentaje de mejoría mayor que otro para dos
muestras
estándar, o cuando nos planteamos si los niños de las distintas comunidades autónomas tienen
independientes
o no la misma altura. En este artículo se analizará únicamente el problema de la comparación Dos muestras
de dos grupos con respecto a una variable continua. La elección de un método de análisis independientes
apropiado en este caso dependerá de la naturaleza de los datos y la forma en la que estos con Varianza
hayan sido obtenidos. Fundamentalmente, cuando se comparan dos o más grupos de distinta
observaciones pueden darse dos tipos de diseño: aquel en el que las observaciones se refieren Dos muestras
dependientes
a dos grupos independientes de individuos, o el caso en el que cada serie de datos se recoge
Bibliografía
en los mismos sujetos bajo condiciones diferentes. El tipo de metodología será distinto según
el caso en el que nos encontremos. Otro aspecto a tener en consideración será el tipo y
Documento
distribución de los datos. Para grupos independientes, los métodos paramétricos requieren
en PDF
que las observaciones en cada grupo provengan de una distribución aproximadamente normal (139 Kb)
con una variabilidad semejante, de modo que si los datos disponibles no verifican tales ¿Problemas
condiciones, puede resultar útil una transformación(1,2,3) de los mismos (aplicación del con PDF?
logaritmo, raíz cuadrada, etc.) o, en todo caso, se debería recurrir a la utilización de Tablas y Figuras
procedimientos no paramétricos(4). Fig. 1.
Comparación
de dos
Normalmente en este tipo de análisis podremos establecer una hipótesis de partida (hipótesis poblaciones
nula), que generalmente asume que el efecto de interés es nulo, por ejemplo que la tensión normales
arterial es la misma en hombres y mujeres o que dos tratamientos para la hipercolesterolemia Fig. 2.
son igualmente efectivos. Posteriormente se puede evaluar la probabilidad de haber obtenido Regiones de
aceptación y
los datos observados si esa hipótesis es correcta. El valor de esta probabilidad coincide con el
rechazo en el
valor-p que nos proporciona cada test estadístico, de modo que cuanto menor sea éste más contraste de
improbable resulta que la hipótesis inicial se verifique. hipótesis
Tabla 1. Datos
En un primer apartado, se presentará el test t de Student para dos muestras independientes, de 75
pacientes con
introduciendo las modificaciones necesarias en el caso de que la variabilidad de ambos
sobrepeso
grupos sea distinta. A continuación se introducirá el test t de Student para el caso de dos sometidos a
muestras dependientes. dos dietas
alimenticias
Tabla 2.
Distribución t
de Student
Dos muestras independientes.
Uno de los análisis estadísticos más comunes en la práctica es probablemente el utilizado para
comparar dos grupos independientes de observaciones con respecto a una variable numérica. Como
ejemplo, consideremos los datos que se muestran en la Tabla 1, correspondientes a 75 individuos
con sobrepeso sometidos a dos dietas alimenticias distintas, de modo que se desea comparar el
Bajo las hipótesis de normalidad e igual varianza la comparación de ambos grupos puede realizarse
en términos de un único parámetro como el valor medio (Figura 1a), de modo que en el ejemplo
planteado la hipótesis de partida será, por lo tanto:
Se denotará por {X1, X2,...,Xn} e {Y1,Y2,...,Ym} al peso observado en cada uno de los sujetos
sometidos a la dieta A y a la dieta B respectivamente. En general no se exigirá que coincida el
número de observaciones en cada uno de los grupos que se comparan, de modo que en el ejemplo
n=40 y m=35.
(1)
Con lo cual, en este caso particular, el valor utilizado para el contraste será:
Si la hipótesis de partida es cierta el estadístico (1) seguirá una distribución t de Student con n+m-2
grados de libertad. De ser así, el valor obtenido debería estar dentro del rango de mayor
probabilidad según esta distribución (Figura 2). Usualmente se toma como referencia el rango de
datos en el que se concentra el 95% de la probabilidad. El valor-p que usualmente reportan la
mayoría de paquetes estadísticos no es más que la probabilidad de obtener, según esa distribución,
un dato más extremo que el que proporciona el test. Como ya se dijo, refleja también la
probabilidad de obtener los datos observados si fuese cierta la hipótesis inicial. Si el valor-p es
muy pequeño (usualmente se considera p<0.05) es poco probable que se cumpla la hipótesis de
partida y se debería de rechazar. La región de aceptación corresponde por lo tanto a los valores
centrales de la distribución para los que p>0.05. En el ejemplo planteado el valor-p
correspondiente es de 0.425, de modo que no existe evidencia estadística de que el peso medio en
ambos grupos sea diferente. En la Tabla 2, se determina los grados de libertad (en la primera
columna) y el valor de α (en la primera fila). El número que determina su intersección es el valor
crítico correspondiente. De este modo, si el estadístico que se obtiene toma un valor mayor se dirá
que la diferencia es significativa.
Otro modo de obtener esta misma información es mediante el cálculo de intervalos de confianza
para la diferencia de la respuesta media en ambos grupos. A mayores, el intervalo de confianza
constituye una medida de la incertidumbre con la que se estima esa diferencia a partir de la
muestra, permitiendo valorar tanto la significación estadística como la magnitud clínica de esa
diferencia(6). En el caso que nos ocupa, el intervalo de confianza vendrá dado como:
donde denota el valor que según la distribución t de Student con n+m-2 grados de libertad
deja a su derecha el 2.5% de los datos. En el ejemplo, el intervalo de confianza con una seguridad
del 95% para la diferencia de peso viene dado por:
que expresa en definitiva un rango de valores entre los que se puede encontrar el valor real de la
diferencia entre los pesos de ambos grupos. Proporciona además la misma información que
obteníamos del contraste estadístico. El hecho de que el valor cero pertenezca al intervalo indica
que no se dispone de evidencia para concluir que el peso sea distinto en ambos grupos.
A medida que el tamaño muestral aumenta, la distribución del estadístico (1) se hace más próxima
a la de una variable Normal estándar. De este modo, en algunos textos se opta por utilizar esta
distribución para realizar la comparación de medias. Aunque esta aproximación es correcta para
muestras suficientemente grandes, ambos métodos proporcionan en este caso resultados
prácticamente idénticos, por lo que resulta más simple utilizar, independientemente del tamaño de
la muestra, la misma metodología a partir de la distribución t. El mismo planteamiento podría
Supongamos que en el ejemplo anterior se desee comparar la pérdida de peso en los sujetos
sometidos a cada una de las dos dietas. La aplicación del estadístico (1) no será factible, ya que las
varianzas en ambos grupos son sustancialmente distintas. En este caso la razón de varianzas es de
3.97 / 0.80 = 4.96, valor que se debe comparar con una distribución F39,34. El valor-p asociado será
p<0.01, siendo muy poco probable que las observaciones provengan de poblaciones con igual
variabilidad.
En este tipo de situaciones, donde no se debe aplicar el contraste basado en (1), podemos utilizar
una modificación del t test para el caso de varianzas desiguales, conocido como el test de Welch(7)
basada en el estadístico:
que, bajo la hipótesis nula seguirá una distribución t de Student con un número f de grados de
libertad que dependerá de las varianzas muestrales según la expresión:
La técnica para realizar el contraste es análoga a la vista anteriormente cuando las varianzas son
desconocidas e iguales. Por ejemplo, en el caso planteado, la pérdida media de peso para los
individuos en cada una de las dietas fue de e con las variabilidades
anteriormente expresadas. Esto conduce a un valor del estadístico de t=5.58 a relacionar con una
distribución t de Student con aproximadamente 56 grados de libertad. El valor-p resultante es, por
lo tanto, p<0.001 con lo cual podemos rechazar la hipótesis de partida y concluir que la reducción
de peso experimentada es distinta según la dieta que se siga.
Al igual que en el caso anterior, podrá optarse por calcular el correspondiente 95% intervalo de
confianza para la diferencia de medias dado por:
Supongamos que queremos comprobar, en los datos de la Tabla 1 si realmente se produce una
pérdida de peso significativa en esos individuos, para lo que se recoge en cada sujeto su peso antes
y después de someterse a la dieta. En este tipo de análisis el interés no se centra en la variabilidad
que puede haber entre los individuos, sino en las diferencias que se observan en un mismo sujeto
entre un momento y otro. Por este motivo, resulta intuitivo trabajar con la diferencia de ambas
observaciones (en el ejemplo será la pérdida de peso), de modo que se quiere contrastar la
hipótesis:
frente a la alternativa de que la pérdida de peso sea importante (es decir, distinta de cero).
La veracidad de dicha hipótesis puede ser contrastada igualmente mediante el test t de Student.
Como se ha dicho, este tipo de métodos tienen como hipótesis fundamental la normalidad de los
datos. En este caso, sin embargo, no será necesario que las observaciones en ambos grupos
provengan de poblaciones normales, sino que únicamente se requiere verificar la normalidad de su
diferencia. Denotando por la pérdida media de peso la hipótesis de la que se parte es que:
frente a la alternativa
A partir de las observaciones muestrales {Y1,Y2,...,Yn} e {Y1,Y2,...,Yn} en cada uno de los grupos se
calcula la diferencia de peso para cada sujeto {d1,d2,...,dn} con dj=Xj-Yj j=1,2,...,n. Nótese que
en este caso un requisito fundamental es que se tenga un número igual de observaciones en ambos
grupos. A partir de estos datos, el contraste se basa en el estadístico:
a comparar del modo habitual con la distribución t de Student con n-1=74 grados de libertad. El
intervalo de confianza para la pérdida media de peso correspondiente a una seguridad del 95% es
de (3.56;4.41), lo cual se traduce en una pérdida de peso significativamente distinta de cero, tal y
como indica el valor-p correspondiente de p<0.001.
Bibliografía
1. Bland JM, Altman DG. Statistics Notes: Transforming data. BMJ 1996; 312: 770. [Medline] [texto
completo]
2. Altman DG, Bland JM. Detecting skewness from summary information, BMJ 1996; 313:1200. [Medline]
3. Bland JM, Altman DG. Statistics Notes: The use of transformations when comparing two means. BMJ
1996; 312:1153. [Medline] [texto completo]
4. Moreno V, Vallescar R, Martín M. Las pruebas no paramétricas en el análisis estadístico de datos. Aten
Primaria 1991; 8 (1): 58-60. [Medline]
5. Altman D. G. Preparing to analyse data. En: Practical statistics for medical research. London: Chapman
and Hall; 1991. p.132-145.
6. Braitman LE. Confidence intervals asses both clinical significance and statistical significance [editorial].
Ann Intern Med 1991; 114 (6): 515-517. [Medline]
7. Berry G., Armitage P. Statistical Methods in Medical Research. 3 rd. ed. Oxford: Blackwell Science;
1994.
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 30/03/01
Relación entre variables cuantitativas
de las variables a estudio ya que la relación existente entre X e Y puede cambiar fuera de
dicho rango.
e. La correlación no implica causalidad. La causalidad es un juicio de valor que requiere más
información que un simple valor cuantitativo de un coeficiente de correlación (5).
El coeficiente de correlación de Pearson (r) puede calcularse en cualquier grupo de datos, sin
embargo la validez del test de hipótesis sobre la correlación entre las variables requiere en sentido
estricto (4): a) que las dos variables procedan de una muestra aleatoria de individuos. b) que al
menos una de las variables tenga una distribución normal en la población de la cual la muestra
procede. Para el cálculo válido de un intervalo de confianza del coeficiente de correlación de r
ambas variables deben tener una distribución normal. Si los datos no tienen una distribución
normal, una o ambas variables se pueden transformar (transformación logarítmica) o si no se
calcularía un coeficiente de correlación no paramétrico (coeficiente de correlación de Spearman)
que tiene el mismo significado que el coeficiente de correlación de Pearson y se calcula utilizando
el rango de las observaciones.
El cálculo del coeficiente de correlación (r) entre peso y talla de 20 niños varones se muestra en la
tabla 1. La covarianza, que en este ejemplo es el producto de peso (kg) por talla (cm), para que no
tenga dimensión y sea un coeficiente, se divide por la desviación típica de X (talla) y por la
desviación típica de Y (peso) con lo que obtenemos el coeficiente de correlación de Pearson que en
este caso es de 0.885 e indica una importante correlación entre las dos variables. Es evidente que el
hecho de que la correlación sea fuerte no implica causalidad. Si elevamos al cuadrado el
coeficiente de correlación obtendremos el coeficiente de determinación (r2=0.783) que nos indica
que el 78.3% de la variabilidad en el peso se explica por la talla del niño. Por lo tanto existen otras
variables que modifican y explican la variabilidad del peso de estos niños. La introducción de más
variable con técnicas de análisis multivariado nos permitirá identificar la importancia de que otras
variables pueden tener sobre el peso.
Test de hipótesis de r
Tras realizar el cálculo del coeficiente de correlación de Pearson (r) debemos determinar si dicho
coeficiente es estadísticamente diferente de cero. Para dicho calculo se aplica un test basado en la
distribución de la t de student.
Si el valor del r calculado (en el ejemplo previo r = 0.885) supera al valor del error estándar
multiplicado por la t de Student con n-2 grados de libertad, diremos que el coeficiente de
correlación es significativo.
El nivel de significación viene dado por la decisión que adoptemos al buscar el valor en la tabla de
la t de Student.
En el ejemplo previo con 20 niños, los grados de libertad son 18 y el valor de la tabla de la t de
student para una seguridad del 95% es de 2.10 y para un 99% de seguridad el valor es 2.88. (Tabla
2)
Como quiera que r = 0.885 > a 2.10 * 0.109 = 2.30 podemos asegurar que el coeficiente de
correlación es significativo (p<0.05). Si aplicamos el valor obtenido en la tabla de la t de Student
para una seguridad del 99% (t = 2.88) observamos que como r = 0.885 sigue siendo > 2.88 * 0.109
= 0.313 podemos a su vez asegurar que el coeficiente es significativo (p<0.001). Este proceso de
razonamiento es válido tanto para muestras pequeñas como para muestras grandes. En esta última
situación podemos comprobar en la tabla de la t de student que para una seguridad del 95% el valor
La transformación es:
Tras calcular los intervalos de confianza con el valor z debemos volver a realizar el proceso
inverso para calcular los intervalos del coeficiente r
Tras calcular los intervalos de confianza de z debemos proceder a hacer el cálculo inverso para
obtener los intervalos de confianza de coeficiente de correlación r que era lo que buscábamos en un
Presentación de la correlación
Se debe mostrar siempre que sea posible la gráfica que correlaciona las dos variables de estudio
(Fig 1). El valor de r se debe mostrar con dos decimales junto con el valor de la p si el test de
hipótesis se realizó para demostrar que r es estadísticamente diferente de cero. El número de
observaciones debe a su vez estar indicado.
Interpretación de la correlación
métodos no paramétrico estarían mejor utilizados en este caso para mostrar si las variables tienden
a elevarse conjuntamente o a moverse en direcciones diferentes.
El coeficiente de correlación no debe utilizarse para comparar dos métodos que intentan medir el
mismo evento, como por ejemplo dos instrumentos que miden la tensión arterial. El coeficiente de
correlación mide el grado de asociación entre dos cantidades pero no mira el nivel de acuerdo o
concordancia. Si los instrumentos de medida miden sistemáticamente cantidades diferentes uno del
otro, la correlación puede ser 1 y su concordancia ser nula (7).
Este coeficiente es una medida de asociación lineal que utiliza los rangos, números de orden, de
cada grupo de sujetos y compara dichos rangos. Existen dos métodos para calcular el coeficiente
de correlación de los rangos uno señalado por Spearman y otro por Kendall (8). El r de Spearman
llamado también rho de Spearman es más fácil de calcular que el de Kendall. El coeficiente de
correlación de Spearman es exactamente el mismo que el coeficiente de correlación de Pearson
calculado sobre el rango de observaciones. En definitiva la correlación estimada entre X e Y se
halla calculado el coeficiente de correlación de Pearson para el conjunto de rangos apareados. El
coeficiente de correlación de Spearman es recomendable utilizarlo cuando los datos presentan
valores externos ya que dichos valores afectan mucho el coeficiente de correlación de Pearson, o
ante distribuciones no normales.
Los valores de los rangos se colocan según el orden numérico de los datos de la variable.
X Y
Concentración de Nicotina en sangre Contenido de Nicotina por cigarrillo
(nmol/litro) (mg)
185.7 (2) 1.51 (8)
197.3 (5) 0.96 (3)
204.2 (8) 1.21 (6)
199.9 (7) 1.66 (10)
199.1 (6) 1.11 (4)
192.8 (6) 0.84 (2)
207.4 (9) 1.14 (5)
183.0 (1) 1.28 (7)
234.1 (10) 1.53 (9)
196.5 (4) 0.76 (1)
Si existiesen valores coincidentes se pondría el promedio de los rangos que hubiesen sido asignado
si no hubiese coincidencias. Por ejemplo si en una de las variables X tenemos:
23 1.5
27 3.5
27 3.5
39 5
41 6
45 7
... ...
Para el cálculo del ejemplo anterior de nicotina (2) obtendríamos el siguiente resultado:
negativa. Valores próximos a cero indican que no hay correlación lineal. Así mismo el tiene el
mismo significado que el coeficiente de determinación de r2.
Bibliografía
2- Milton JS, Tsokos JO. Estadística para biología y ciencias de la salud. Madrid:
Interamericana McGraw Hill; 2001.
3- Martín Andrés A, Luna del Castillo JD. Bioestadística para las ciencias de la salud. 4ª ed.
Madrid: ORMA; 1993.
4- Altman DA. Practical statistics for medical research. 1th ed., repr. 1997. London:
Chapman & Hall; 1997.
7- Bland JM, Altman DG. Statistical methods for assesing agreement between two methods
of clinical measurement. Lancet 1986; 1: 307-310. [Medline]
8- Conover WJ. Practical nonparametric statistics. 3rd . ed. New York: John Wiley & Sons;
1998.
Actualizada el 03/11/2004.
Tabla de contenidos:
Característica A
Característica
B
Presente Ausente Total
Presenta a b a+b
Ausente c d c+d
Total a+c b+d n
Gestante Sí No Total
Fumadora 43 (a) 207 (b) 250
No
105 (c) 1645 (d) 1750
fumadora
Total 148 1852 2000
(1)
donde:
realidad. Cuanto mayor sea esa diferencia (y, por lo tanto, el valor del
estadístico), mayor será la relación entre ambas variables. El hecho de que las
diferencias entre los valores observados y esperados estén elevadas al
cuadrado en (1) convierte cualquier diferencia en positiva. El test es así un
test no dirigido (test de planteamiento bilateral), que nos indica si existe o no
relación entre dos factores pero no en qué sentido se produce tal asociación.
Para obtener los valores esperados , estos se calculan a través del producto
de los totales marginales dividido por el número total de casos (n). Para el
caso más sencillo de una tabla 2x2 como la Tabla 1, se tiene que:
Para los datos del ejemplo en la Tabla 2 los valores esperados se calcularían
como sigue:
De modo que los valores observados y esperados para los datos del ejemplo
planteado se muestran en la Tabla 3.
Gestante Sí No Total
Fumadora 43 (18.5) 207 (231.5) 250
No 1645
105 (129.5) 1750
fumadora (1620.5)
Total 148 1852 2000
entonces como:
H0: No hay asociación entre las variables (en el ejemplo, el bajo peso del niño
y el hecho de fumar durante la gestación son independientes, no están
asociados).
Y la hipótesis alternativa:
Ha: Sí hay asociación entre las variables, es decir, el bajo peso y el fumar
durante la gestación están asociados.
Bajo la hipótesis nula de independencia, se sabe que los valores del estadístico
se distribuyen según una distribución conocida denominada ji-cuadrado,
que depende de un parámetro llamado “grados de libertad” (g.l.). Para el caso
de una tabla de contingencia de r filas y k columnas, los g.l. son igual al
producto del número de filas menos 1 (r-1) por el número de columnas menos
1 (k-1). Así, para el caso en el que se estudie la relación entre dos variables
dicotómicas (Tabla 2x2) los g.l. son 1.
De ser cierta la hipótesis nula, el valor obtenido debería estar dentro del rango
de mayor probabilidad según la distribución ji-cuadrado correspondiente. El
valor-p que usualmente reportan la mayoría de paquetes estadísticos no es
más que la probabilidad de obtener, según esa distribución, un dato más
extremo que el que proporciona el test o, equivalentemente, la probabilidad de
obtener los datos observados si fuese cierta la hipótesis de independencia. Si
el valor-p es muy pequeño (usualmente se considera p<0.05) es poco probable
que se cumpla la hipótesis nula y se debería de rechazar.
Para el caso de una Tabla 2x2, la expresión (1) del estadístico puede
simplificarse y obtenerse como:
Para finalizar, recalcar que existen otros métodos estadísticos que nos
permiten analizar la relación entre variables cualitativas, y que vienen a
complementar la información obtenida por el estadístico . Por una parte, el
análisis de los residuos estandarizados permitirá constatar la dirección en que
se da la relación entre las variables estudiadas. A su vez, existen también otras
medidas de asociación, muchas de las cuales resultan especialmente útiles
cuando alguna de las variables se mide en una escala nominal u ordinal, que
7
permiten cuantificar el grado de relación que existe entre ambos factores .
Bibliografía
1. Fleiss J L. Statistical Methods for rates and proportions. 3 rd. ed. New
York: John Wiley & Sons; 2003.
2. Selvin S. Statistical Analysis of epidemiologic data. 3 rd. ed. New York:
Oxfrod University Press; 2004.
3. Pita Fernández S, Vila Alonso MT, Carpente Montero J. Determinación de
factores de riesgo. Cad Aten Primaria 1997; 4: 75-78. [Texto completo]
4. Pita Fernández S, López de Ullibarri Galparsoro I. Número necesario de
pacientes a tratar para reducir un evento. Cad Aten Primaria 1998; 96-
98. [Texto completo]
5. Altman DG. Practical statistics for medical research. London: Chapman
& Hall; 1991.
6. Armitage P, Berry G. Estadística para la investigación biomédica.
Barcelona: Harcourt Brace; 1999.
7. Juez Martel P. Herramientas estadísticas para la investigación en
Medicina y Economía de la Salud. Madrid: Centro de Estudios Ramón
Areces; 2001.
Arriba
Actualizada el 14/11/2004.
Tabla de contenidos:
1,2
Desde que Pearson introdujo el test de la en 1900, ésta se ha convertido en una
herramienta de uso general para conocer si existe o no relación entre variables de tipo
cualitativo. Sin embargo, su aplicación exige de ciertos requerimientos acerca del tamaño
3
muestral que no siempre son tenidos en cuenta . La prueba es aplicable a los datos de
una tabla de contingencia solamente si las frecuencias esperadas son suficientemente
grandes. Del mismo modo, cuando los datos exhiben algún grado de dependencia, el test
no será el método apropiado para contrastar la hipótesis nula de independencia. En este
trabajo se introducirán la prueba exacta de Fisher y el test de McNemar como alternativa
estadística al test cuando no se verifiquen las condiciones necesarias para su
4-7
utilización .
El test exacto de Fisher permite analizar si dos variables dicotómicas están asociadas
cuando la muestra a estudiar es demasiado pequeña y no se cumplen las condiciones
necesarias para que la aplicación del test sea adecuada. Estas condiciones exigen que
los valores esperados de al menos el 80% de las celdas en una tabla de contingencia sean
mayores de 5. Así, en una tabla 2x2 será necesario que todas las celdas verifiquen esta
condición, si bien en la práctica suele permitirse que una de ellas muestre frecuencias
esperadas ligeramente por debajo de este valor.
En situaciones como esta, una forma de plantear los resultados es su disposición en una
tabla de contingencia de dos vías. Si las dos variables que se están considerando son
dicotómicas, nos encontraremos con el caso de una tabla 2 x 2 como la que se muestra en
la Tabla 1. El test exacto de Fisher se basa en evaluar la probabilidad asociada a cada una
de las tablas 2 x 2 que se pueden formar manteniendo los mismos totales de filas y
columnas que los de la tabla observada. Cada una de estas probabilidades se obtiene bajo
la hipótesis nula de independencia de las dos variables que se están considerando.
(1)
Esta fórmula se obtiene calculando todas las posibles formas en las que podemos disponer
n sujetos en una tabla 2 x 2 de modo que los totales de filas y columnas sean siempre los
mismos, (a+b), (c+d), (a+c) y (b+d).
La probabilidad anterior deberá calcularse para todas las tablas de contingencia que puedan
formarse con los mismos totales marginales que la tabla observada. Posteriormente, estas
probabilidades se usan para calcular valor de la p asociado al test exacto de Fisher. Este
valor de p indicará la probabilidad de obtener una diferencia entre los grupos mayor o igual
a la observada, bajo la hipótesis nula de independencia. Si esta probabilidad es pequeña
(p<0.05) se deberá rechazar la hipótesis de partida y deberemos asumir que las dos
variables no son independientes, sino que están asociadas. En caso contrario, se dirá que
no existe evidencia estadística de asociación entre ambas variables.
En la literatura estadística, suelen proponerse dos métodos para el cómputo del valor de la
p asociado al test exacto de Fisher. En primer lugar, podremos calcularlo sumando las
probabilidades de aquellas tablas con una probabilidad asociada menor o igual a la
correspondiente a los datos observados. La otra posibilidad consiste en sumar las
probabilidades asociadas a resultados al menos tan favorables a la hipótesis alternativa
como los datos reales. Este cálculo proporcionaría el valor de p correspondiente al test en el
caso de un planteamiento unilateral. Duplicando este valor se obtendría el p-valor
correspondiente a un test bilateral.
Sexo Sí No Total
Mujeres 1 (a) 4 (b) 5 (a+b)
Hombres 7 (c) 2 (d) 9 (c+d)
Total 8 (a+c) 6 (b+d) 14 (n)
En esta tabla a=1, b=4, c=7 y d=2. Los totales marginales son así a+b=5, c+d= 9, a+c=8
y b+d=6. La frecuencia esperada en tres de las cuatro celdas es menor de 5, por lo que no
resulta adecuado aplicar el test , aunque sí el test exacto de Fisher. Si las variables sexo
y obesidad fuesen independientes, la probabilidad asociada a los datos que han sido
observados vendría dada por:
Tabla 3. Posibles combinaciones de frecuencias con los mismos totales marginales de filas y columnas que en la
Tabla 2.
Obesidad Obesidad
Si No Si No
(i) Mujeres 0 5 5 (iv) Mujeres 3 2 5
Hombres 8 1 9 Hombres 5 4 9
8 6 14 8 6 14
La Tabla 3 muestra todas las posibles combinaciones de frecuencias que se podrían obtener
con los mismos totales marginales que en la Tabla 2. Para cada una de estas tablas, se ha
calculado la probabilidad exacta de ocurrencia bajo la hipótesis nula, según la expresión
(1). Los resultados obtenidos se muestran en la Tabla 4. El valor de la p asociado al test
exacto de Fisher puede entonces calcularse sumando las probabilidades de las tablas que
resultan ser menores o iguales a la probabilidad de la tabla que ha sido observada:
a b c d p
(i) 0 5 8 1 0,0030
(ii) 1 4 7 2 0,0599
(iii) 2 3 6 3 0,2797
(iv) 3 2 5 4 0,4196
(v) 4 1 4 5 0,2098
(vi) 5 0 3 6 0,0280
(2)
Como se puede observar, las dos formas de cálculo propuestas no tienen por qué
proporcionar necesariamente los mismos resultados. El primer método siempre resultará en
un valor de p menor o igual al del segundo método. Si recurrimos a un programa
estadístico como el SPSS para el cómputo del test, éste utilizará la primera vía para
obtener el p-valor correspondiente a la alternativa bilateral y el segundo método de cálculo
para el valor de p asociado a un planteamiento unilateral. En cualquier caso, y a la vista de
los resultados, no existe evidencia estadística de asociación entre el sexo y el hecho de ser
obeso en la población de estudio.
El test de McNemar
En otras ocasiones, una misma característica se mide en más de una ocasión para cada uno
de los individuos que se incluyen en una investigación. En estos casos, el interés se centra
en comparar si las mediciones efectuadas en dos momentos diferentes (normalmente antes
y después de alguna intervención) son iguales o si, por el contrario, se produce algún
cambio significativo. Por ejemplo, puede interesarnos estudiar, a distintos tiempos, el
porcentaje de sujetos que se mantienen con fiebre tras la aplicación de un antitérmico o
comparar la proporción de enfermos con un determinado síntoma antes y después de un
tratamiento.
Para el caso de datos pareados, existen claramente cuatro tipos de pares de observaciones,
según cada individuo presente o no la característica de interés en los dos momentos en los
que se efectúa la evaluación (Tabla 5). Así, los resultados obtenidos pueden mostrarse
igualmente en una tabla 2 x 2 como en la Tabla 1, con la salvedad de que aquí los datos
Con esta notación, las proporciones de individuos con la característica de interés en los dos
La hipótesis nula que se quiere contrastar es que el valor esperado para esta diferencia es
cero, frente a la hipótesis alternativa de que las dos proporciones y sean
efectivamente diferentes. Esto se puede contrastar centrando nuestra atención en las
casillas b y c que son las que muestran discordancia en los dos momentos en los que se
efectuó la medición. La prueba de McNemar contrasta así si el número de individuos que
han dejado de presentar la característica de interés (b) es el mismo que el número de
individuos que han realizado el cambio inverso (c).
El error estándar para la diferencia entre dos proporciones viene dado por:
(3)
De modo que, bajo la hipótesis nula de que no existe diferencia entre ambas , la
ecuación (3) se reduce a:
(4)
que sigue una distribución chi-cuadrado con un grado de libertad y proporciona el mismo
valor de la p asociado.
A su vez, se puede aplicar una corrección de continuidad para trabajar sobre muestras
pequeñas:
Para ilustrar los cálculos anteriores, se dispone de información acerca de 20 pacientes a los
que se les administró un determinado tratamiento para tratar el dolor tras una intervención
quirúrgica. En cada individuo, se realizó una valoración del dolor inmediatamente después
de la operación y al cabo de 1 hora tras la administración del analgésico. Los datos
observados se muestran en la Tabla 6. En primer lugar se construye la tabla 2 x 2 con las
frecuencias observadas en el estudio (Tabla 7). Según estos datos, el porcentaje de
El valor obtenido del estadístico (z=2.49) se compara con los valores de una distribución
normal estándar (Tabla 8). El valor crítico correspondiente para α =0.01 es de z=2.576 y
para α =0.02 es de 2.326. Como quiera que en el cálculo del test de McNemar en el
ejemplo obtuvimos un valor de 2.49, que supera al valor para α =0.02, podremos concluir
que las dos variables no son independientes, sino que están asociadas (p<0.02). Aplicando
la corrección de continuidad proporciona un resultado de
Es decir, podemos asegurar (con una seguridad del 95%) de que la diferencia real en el
porcentaje de pacientes que manifiestan dolor antes y después de recibir el tratamiento
analgésico se mueve entre un 9.72% y un 80.28%.
Bibliografía
1. Pearson K. On a criterion that a given system of deviations from the probable in the
case of correlated system of variables is Duch that it can be reasonably supposed to
have arisen from random sampling. Philosophical Magazine 1900, Series 5, No. 50:
157-175.
2. Pearson, K. On the testo f goodness of fit. Biometrika 1922; 14: 186-191.
3. Pita Fernández S, Pértega Díaz S. Asociación de variables cualitativas: Test de chi-
cuadrado. Cad Aten Primaria 2004 (en prensa). [Texto completo]
4. Altman DG. Practical statistics for medical research. London: Chapman & Hall; 1991.
5. Armitage P, Berry G. Estadística para la investigación biomédica. Madrid : Harcourt
Brace; 1999.
6. Juez Martel P. Herramientas estadísticas para la investigación en Medicina y Economía
de la Salud. Madrid: Ed. Centro de Estudios Ramón Areces; 2001.
7. Agresti A. Categoriacl Data Analisis. New York: John Wiley & Sons; 1990.
4 No No
5 Sí No
6 Sí No
7 No No
8 Sí Sí
9 No Sí
10 No No
11 Sí No
12 Sí No
13 Sí No
14 Sí No
15 Sí No
16 No Sí
17 No Sí
18 Sí No
19 Sí No
20 Sí No
Tabla 8. Tabla de valores de la distribución normal. La tabla muestra los valores de z para los
que la probabilidad de observar un valor mayor o igual (en valor absoluto) es igual a α. La cifra
entera y el primer decimal de α se buscan en la primera columna, y la segunda cifra decimal en
la cabecera de la tabla.
Arriba
© 2006 fisterra.com Mis Datos | Contacto-Sugerencias | FAQ's | Condiciones de uso | Política de privacidad
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 20/08/01
Técnicas de regresión: Regresión Lineal Simple
En múltiples ocasiones en la práctica clínica nos encontramos con situaciones en las que se requiere Contenido
analizar la relación entre dos variables cuantitativas. Los dos objetivos fundamentales de este análisis La recta de
serán, por un lado, determinar si dichas variables están asociadas y en qué sentido se da dicha asociación regresión
(es decir, si los valores de una de las variables tienden a aumentar –o disminuir- al aumentar los valores Interpretación
de los
de la otra); y por otro, estudiar si los valores de una variable pueden ser utilizados para predecir el valor coeficientes de
de la otra. regresión y
tabla ANOVA
1 Hipótesis del
La forma correcta de abordar el primer problema es recurriendo a coeficientes de correlación( ). Sin
modelo
embargo, el estudio de la correlación es insuficiente para obtener una respuesta a la segunda cuestión: se Predicción
limita a indicar la fuerza de la asociación mediante un único número, tratando las variables de modo Bibliografía
simétrico, mientras que nosotros estaríamos interesados en modelizar dicha relación y usar una de las
variables para explicar la otra. Para tal propósito se recurrirá a la técnica de regresión. Aquí Documento
analizaremos el caso más sencillo en el que se considera únicamente la relación entre dos variables. Así en PDF (73
2 Kb)
mismo, nos limitaremos al caso en el que la relación que se pretende modelizar es de tipo lineal( ).
¿Problemas
con PDF?
La recta de regresión.
Consideremos una variable aleatoria respuesta (o dependiente) Y, que supondremos relacionada con otra
variable (no necesariamente aleatoria) que llamaremos explicativa, predictora o independiente y que se
denotará por X. A partir de una muestra de n individuos para los que se dispone de los valores de ambas
variables, {(Xi,Yi),i = 1,...n}, se puede visualizar gráficamente la relación existente entre ambas mediante un
gráfico de dispersión, en el que los valores de la variable X se disponen en el eje horizontal y los de Y en el
vertical. El problema que subyace a la metodología de la regresión lineal simple es el de encontrar una recta
que ajuste a la nube de puntos del diagrama así dibujado, y que pueda ser utilizada para predecir los valores
de Y a partir de los de X. La ecuación general de la recta de regresión será entonces de la forma: Y = a +
bX .
El problema radica en encontrar aquella recta que mejor ajuste a los datos. Tradicionalmente se ha recurrido
para ello al método de mínimos cuadrados, que elige como recta de regresión a aquella que minimiza las
distancias verticales de las observaciones a la recta. Más concretamente, se pretende encontrar a y b tales que:
Resolviendo este problema mediante un sencillo cálculo de diferenciación, se obtienen los estimadores
mínimo cuadráticos de los coeficientes de la recta de regresión:
1 114 17 36 156 47
2 134 18 37 159 47
3 124 19 38 130 48
4 128 19 39 157 48
5 116 20 40 142 50
6 120 21 41 144 50
7 138 21 42 160 51
8 130 22 43 174 51
9 139 23 44 156 52
10 125 25 45 158 53
11 132 26 46 174 55
12 130 29 47 150 56
13 140 33 48 154 56
14 144 33 49 165 56
15 110 34 50 164 57
16 148 35 51 168 57
17 124 36 52 140 59
18 136 36 53 170 59
19 150 38 54 185 60
20 120 39 55 154 61
21 144 39 56 169 61
22 153 40 57 172 62
23 134 41 58 144 63
24 152 41 59 162 64
25 158 41 60 158 65
26 124 42 61 162 65
27 128 42 62 176 65
28 138 42 63 176 66
29 142 44 64 158 67
30 160 44 65 170 67
31 135 45 66 172 68
32 138 45 67 184 68
33 142 46 68 175 69
34 145 47 69 180 70
35 149 47
La Tabla 1 muestra los datos de 69 pacientes de los que se conoce su edad y una medición de su tensión
sistólica. Si estamos interesados en estudiar la variación en la tensión sistólica en función de la edad del
individuo, deberemos considerar como variable respuesta la tensión y como variable predictora la edad. En la
Figura 1 se muestra, superpuesta al diagrama de dispersión, la recta de regresión de mínimos cuadrados
correspondientes, así como las distancias verticales de las observaciones muestrales a la recta. Aplicando los
cálculos anteriores a este caso, resultaría:
Como se puede suponer, la relación Y = a + bX no va a cumplirse exactamente, sino que existirá un error
que representa la variación de Y en todos los datos con un mismo valor de la variable independiente. Las
distancias verticales entre el valor observado y el valor dado por la recta para cada individuo (o valor
ajustado) reciben el nombre de residuos, y se suelen denotar por . La expresión teórica del modelo
matemático será, por tanto:
donde,
además, se
supondrá
Figura 1. Relación entre la Edad y Presión Sistólica. Recta de Regresión y diferencias entre los
valores observados y ajustados
donde denota al cuantil de orden ß de una distribución t de Student con n-2 grados de libertad.
De igual forma, podemos limitar esta incertidumbre realizando un test para contrastar la hipótesis de que b=0
mediante el cociente y comparando éste con la distribución t de Student con n-2 grados de
libertad. De modo análogo se llevaría a cabo un contraste para la hipótesis a=0. El hecho de que el test no
resulte significativo indicará la ausencia de una relación clara de tipo lineal entre las variables, aunque pueda
existir una asociación que no sea captada a través de una recta. Para los datos del ejemplo, el resultado de
ajustar un modelo de regresión lineal se muestra en la Tabla 2.
Tabla 2. Modelo de Regresión Lineal Simple de la Presión sistólica ajustando por edad
Variable Coeficiente (B) E.T.(B) IC 95% (B) t p
Constante 103.35 4.33 (94.72; 111.99) 23.89 <0.001
Edad 0.98 0.09 (0.81; 1.16) 11.03 <0.001
Fuente de Variación Suma de Cuadrados g.l. Media cuadrática F p
Regresión en edad 14,965.31 1 14,965.31 121.59 <0.001
Residual 8,246.46 67 123.08
Total 23,211.77 68
La recta así ajustada explica tan sólo una parte de la variabilidad de la variable dependiente, expresada ésta
comúnmente por medio de la varianza de Y, mientras que la cantidad de variabilidad que resta por explicar
puede ser expresada a través de los residuos. Generalmente un análisis de regresión suele ser expresado por
una tabla de análisis de la varianza en la que se refleja toda esta información. En la Tabla 2 se muestra
además la tabla correspondiente en el ejemplo de la tensión sistólica. La columna etiquetada por "Suma de
cuadrados" muestra una descomposición de la variación total de Y en las partes explicada y no explicada
(residual) por la regresión. La proporción de variabilidad explicada por el modelo coincide aquí con el
cuadrado del coeficiente de correlación lineal de Pearson, que recibe el nombre de coeficiente de
determinación, y que se persigue sea próximo a 1. En nuestro ejemplo sería R2=0.645.
A partir de esta información puede elaborarse un contraste para verificar la utilidad del modelo. En el caso de
regresión lineal simple, el estadístico de contraste se reduce a:
que se comparará con el cuantil correspondiente a una distribución F de Snedecor con parámetros 1 y n-1. El
test resultante será equivalente al test t para contrastar H0:b=0.
Una vez ajustado el modelo, y antes de usarlo para realizar nuevas predicciones, conviene asegurarse de que
no se violan las hipótesis sobre las que se soporta: independencia de las observaciones muestrales,
normalidad de los valores de la variable dependiente Y para cada valor de la variable explicativa,
homocedasticidad (i.e., la variabilidad de Y es la misma para todos los valores de X) y relación lineal entre
las dos variables. La información más relevante la aportan los residuos. Así, bajo las suposiciones anteriores,
los residuos habrán de tener una distribución normal de media cero y varianza constante. El modo más
sencillo de comprobar si esto se verifica es obteniendo una impresión visual a partir de un gráfico de los
residuos frente a la variable dependiente Y. La Figura 2 muestra las diferentes posibilidades en un gráfico de
residuos, mientras que el gráfico que se obtiene en el ejemplo manejado se refleja en la Figura 3.
Se puede complementar este análisis mediante gráficos de probabilidad normal y tests de normalidad para los
residuos, como el de Kolmogorov-Smirnov (Figura 4). Así mismo, la independencia de las observaciones
puede estudiarse mediante gráficos de autocorrelación y contrastes de independencia como el de Durbin-
Watson.
Figura 4. Gráfico de Probabilidad normal de los Residuos para la Tensión Sistólica frente a la Edad.
Aunque obviaremos un análisis detallado de la verificación de las hipótesis del modelo, conviene hacer
referencia a las medidas a tomar en caso de no cumplirse. Para el caso de no normalidad, resulta obvio que la
3
medida más inmediata es la transformación de la variable dependiente( ), aunque otra alternativa son los cada
4
vez más utilizados modelos de regresión no paramétrica( ), que evitan la suposición de una distribución
5
gaussiana. También se debe modificar el modelo en el caso de datos dependientes o valores repetidos( ).
Predicción.
Cuando se verifican las hipótesis sobre las que se asienta el modelo, la recta de regresión puede ser utilizada
para predecir el valor medio de la variable Y para cada valor concreto de X. Calculando la esperanza
matemática en ambos lados de la ecuación (1) se obtendrá:
de modo que la línea de regresión proporciona un estimador del valor medio de Y para cada valor de X.
Como tal estimador, debemos considerar la incertidumbre asociada a esta recta, que puede ser reflejada
mediante regiones de confianza que contienen a la recta. En la Figura 5 se muestra, superpuesta al diagrama
de dispersión, la recta de regresión en el ejemplo de la tensión sistólica que estamos manejando, así como una
región de confianza para la misma, que contendrá a la verdadera relación entre tensión sistólica y edad con
una seguridad del 95%.
También se puede utilizar la recta de regresión como estimador del valor de Y en un individuo concreto. En
este caso se esperará una mayor incertidumbre en la estimación que en el caso de predecir una tendencia
media. En la Figura 4 se muestra además la banda de predicción para el ejemplo que estamos manejando,
siendo ésta mucho más amplia que en el caso de intentar predecir el valor medio.
La regresión lineal simple es entonces una técnica sencilla y accesible para valorar la relación entre dos
6
variables cuantitativas en la práctica clínica( ), proponiendo además un modelo al que se ajusta dicha
relación. No debemos olvidar que a lo largo de este artículo hemos abordado el caso más sencillo en el que se
obvia el problema de un número más elevado de variables entre las que valorar la relación. En este caso
7
entraríamos de lleno en la temática de la regresión lineal múltiple( ), lo cual nos obligaría a abordar
problemas de índole más complicado como el de la colinealidad, interacción entre variables, variables
confusoras o un análisis más detallado de los residuos del modelo. Así mismo, no se debe pasar por alto el
hecho de que en la mayoría de las aplicaciones prácticas la relación que se observa entre pares de variables no
es tanto lineal como de tipo curvilíneo (ya sea una relación logarítmica, exponencial, polinómica, etc.). En
estos casos, aunque se puede hablar de regresión curvilínea según el tipo de relación, una conveniente
transformación de las variables reduce el problema al caso que acabamos de abordar.
Bibliografía
1.- Pita Fernández S, Rey Sierra T, Vila Alonso MT. Relaciones entre variables cuantitativas (I).
Cadernos de Atención Primaria 1997; 4: 141-145.
2.- Seber GAF. Linear Regression Analysis. New York: John Wiley & Sons, 1977.
3.- Bland JM, Altman DG. Statistics Notes: Transforming data. BMJ 1996; 312:770. [Medline] [texto
completo]
5.- Statistics notes: Correlation, regression and repeated data. BMJ 1994; 308: 896. [texto completo]
6.- Altman DA. Practical statistics for medical research. 1th ed., repr. 1997. London: Chapman & Hall;
1997.
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 20/08/01
Técnicas de regresión: Regresión Lineal Múltiple
La mayoría de los estudios clínicos conllevan la obtención de datos en un número más o menos Contenido
extenso de variables. En algunos casos el análisis de dicha información se lleva a cabo centrando Estimación de
la atención en pequeños subconjuntos de las variables recogidas utilizando para ello análisis parámetros y
bondad de
sencillos que involucran únicamente técnicas bivariadas. Un análisis apropiado, sin embargo,
ajuste
debe tener en consideración toda la información recogida o de interés para el clínico y requiere Selección de
de técnicas estadísticas multivariantes más complejas. En particular, hemos visto como el modelo variables
de regresión lineal simple es un método sencillo para analizar la relación lineal entre dos Interacción,
variables cuantitativas. Sin embargo, en la mayoría de los casos lo que se pretende es predecir Confusión y
una respuesta en función de un conjunto más amplio de variables, siendo necesario considerar el Colinealidad
modelo de regresión lineal múltiple como una extensión de la recta de regresión que permite la Bibliografía
inclusión de un número mayor de variables.
Documento
en PDF (99
Kb)
¿Problemas
ESTIMACIÓN DE PARÁMETROS Y BONDAD DE AJUSTE. con PDF?
Figura 1. Plano de regresión para la Tensión Arterial Diastólica ajuntando por Colesterol e Índice
de Masa Corporal
Del gráfico se deduce fácilmente que los pacientes con tensión arterial diastólica más alta son aquellos
con valores mayores de colesterol e índice de masa corporal. Si el número de variables explicativas
aumenta (p>2) la representación gráfica ya no es factible, pero el resultado de la regresión se
generaliza al caso del mejor hiperplano que ajusta a los datos en el espacio (p+1)-dimensional
correspondiente.
Tabla 1. Edad, Colesterol, Índice de Masa Corporal y Tensión Arterial Diastólica de 70 pacientes.
EDAD COLESTEROL IMC TAD EDAD COLESTEROL IMC TAD
1 42 292 31,64 97 36 53 187 23,31 80
2 64 235 30,80 90 37 43 208 27,15 65
3 47 200 25,61 80 38 57 246 21,09 80
4 56 200 26,17 75 39 64 275 22,53 95
5 54 300 31,96 100 40 43 218 19,83 75
6 48 215 23,18 67 41 47 231 26,17 75
7 57 216 21,19 , 42 58 200 25,95 90
8 52 254 26,95 70 43 58 214 26,30 75
9 67 310 24,26 105 44 48 230 24,89 70
10 46 237 21,87 70 45 62 280 26,89 100
11 58 220 25,61 70 46 54 198 21,09 65
12 62 233 27,92 75 47 67 285 31,11 95
13 49 240 27,73 90 48 68 201 21,60 80
14 56 295 22,49 95 49 55 206 19,78 65
15 63 310 , 95 50 50 223 22,99 75
En el caso general, el modelo de regresión lineal múltiple con p variables responde a la ecuación:
(1)
La obtención aquí de las expresiones de los estimadores mínimo cuadráticos de dichos coeficientes
exigen reescribir la expresión (1) utilizando notación matricial. Así, (1) quedaría:
donde:
y mantienen una interpretación análoga al caso de la regresión lineal simple (i.e. representa el
incremento por término medio en la variable respuesta por cada unidad adicional en la variable ).
Como se puede observar, la obtención de estimadores, intervalos de confianza y contrastes de
hipótesis para los coeficientes de regresión involucran expresiones matriciales y distribuciones
multivariantes que complican notablemente las operaciones, por lo que en la práctica dichos cálculos
se obtienen de un modo inmediato mediante el manejo de diferentes paquetes estadísticos. Son muchos
1 2
los textos en los que se pueden encontrar desarrollos teóricos de dichas expresiones( ),( ). Sin
detenerse en ello, basta decir que manteniendo las hipótesis habituales de independencia,
homocedasticidad, normalidad y linealidad se calculan expresiones para el error estándar de cada
coeficiente estimado e intervalos de confianza de modo análogo al caso de la regresión simple. La
significación estadística de cada variable se obtiene simplemente calculando el cociente entre el
coeficiente estimado y su error típico, y comparándolo con el cuantil correspondiente de una
distribución t de Student con n-p-1 grados de libertad. La bondad de ajuste del modelo se puede
valorar mediante la varianza residual y el estadístico R2 (coeficiente de determinación), definidos de la
forma habitual. También aquí puede utilizarse el contraste F global de la regresión, calculado a partir
de las sumas de cuadrados explicada y no explicada para valorar la utilidad del modelo. Como
ejemplo, tras ajustar un modelo de regresión múltiple a los datos que se muestran en la Tabla 1 usando
como variables predictoras de la tensión diastólica el colesterol e índice de masa corporal de un
individuo, los coeficientes de regresión para ambas variables fueron 0.18 (E.T. 0.03) y 0.73 (E.T. 0.30)
respectivamente, siendo ambos significativamente distintos de cero (Tabla 2). Esto indica que por
término medio la tensión arterial diastólica de un paciente se incrementa en 1.8 y 7.3 respectivamente
por cada 10 unidades a mayores en su colesterol o índice de masa corporal. El valor del coeficiente de
determinación R2=52% y la significación del contraste F global de la regresión (p<0.001) sugieren que
gran parte de la variabilidad de la respuesta viene explicada por el modelo ajustado.
Tabla 2. Modelo de regresión lineal múltiple para la tensión arterial diastólica ajustando por
colesterol e índice de masa corporal.
Variable Coeficiente (B) E.T.(B) IC 95% (B) t p
Constante 19.42 7.54 (4.37;34.48) 2.58 0.012
Colesterol 0.18 0.03 (0.11;0.25) 5.26 <0.001
IMC 0.73 0.30 (0.14;1.33) 2.45 0.017
Suma de Cuadrados g.l. Media cuadrática F p
Regresión 4,449.72 2 2,224.86 34.93 <0.001
Residual 4,076.40 64 63.69
Total 8,526.12 66
El hecho de contar con un número más extenso de variables exige que además del contraste F global
se puedan realizar pruebas parciales para constatar si un grupo de variables añadidas a un modelo lo
mejoran. Supongamos que al modelo (1) se suma una nueva variable explicativa . La proporción
de variabilidad residual que es explicada al introducir esta nueva variable viene dada por la diferencia
en las sumas de cuadrados de cada modelo:
Para valorar si la introducción de la nueva variable queda compensada por una mejora significativa en
que se compara con el cuantil correspondiente de una distribución F de Snedecor con 1 y n-p-2 grados
de libertad. Dicho contraste se denomina contraste F parcial. Para comprobar el uso de dicho
estadístico consideremos en el ejemplo anterior el modelo de regresión simple que resulta de tomar
como única variable regresora el colesterol de un individuo (Tabla 3). El valor del estadístico R2 en
este caso es del 69.1% frente al 72.2% del modelo que se consigue introduciendo el índice de masa
corporal como nueva variable explicativa. El cambio en el estadístico R2 es de 0.045 que coincide con
el cuadrado del coeficiente de correlación parcial entre la tensión arterial y el índice de masa corporal
ajustando por el colesterol. La significación del contraste F parcial para la introducción del índice de
masa corporal es de 0.017, indicando que el modelo con dos variables mejora al modelo más simple.
Tabla 3. Modelo de regresión lineal simple para la tensión arterial diastólica ajustando por
colesterol.
Variable Coeficiente (B) E.T.(B) IC 95% (B) t p
Constante 26.91 7.15 (12.63;41.19) 3.76 <0.001
Colesterol 0.23 0.03 (0.17;0.29) 7.70 <0.001
Suma de Cuadrados g.l. Media cuadrática F p
Regresión 4,067.11 1 4,067.11 59.29 <0.001
Residual 4,459.01 65 68.60
Total 8,526.12 66
SELECCIÓN DE VARIABLES.
Una de las principales dificultades a la hora de ajustar un modelo de regresión múltiple surge cuando
es necesario identificar entre el conjunto de variables disponibles aquellas que están relacionadas con
la respuesta y que la predicen de la mejor forma posible. Cuando el número de variables es reducido,
como en el ejemplo manejado, la selección no resulta complicada. Una primera alternativa es construir
un modelo por inclusión o hacia delante ("forward"), considerando en primer lugar la relación de cada
variable con la respuesta e ignorando todas las demás variables, valorándola por medio del coeficiente
de correlación lineal de Pearson (Figura 2). Aquella que muestra una correlación más alta con la
variable dependiente (en este caso el colesterol) se introduce en un modelo inicial (Tabla 3).
El segundo paso consiste en seleccionar entre las variables restantes aquella que al introducirla en el
modelo permite explicar una mayor parte de la variabilidad residual. La comparación entre distintos
modelos debe hacerse en términos del valor relativo de los coeficientes de determinación y el contraste
F parcial. Ya vimos como la inclusión del índice de masa corporal reportaba una mejora en el modelo
de regresión simple. La introducción de la variable edad, en cambio, proporciona un cambio en el
coeficiente de determinación de 0.028 que no resulta en una mejora significativa (p=0.059). Este
esquema se repetiría hasta que ninguna otra variable entrase a formar parte del modelo. En el ejemplo
el último paso sería comprobar si la introducción de la variable edad produce una mejora del ajuste del
modelo mostrado en la Tabla 2. El modelo ajustando por las tres variables se muestra en la Tabla 4. El
coeficiente correspondiente a esta última variable no es significativo (nótese que esta significación ha
de coincidir con la del contraste F parcial correspondiente).
Tabla 4. Modelo de regresión lineal múltiple para la tensión arterial diastólica ajustando por
colesterol, índice de masa corporal y edad.
Variable Coeficiente (B) E.T.(B) IC 95% (B) t p
Constante 10.55 9.13 (-7.70;28.81) 1.15 0.252
Colesterol 0.17 0.03 (0.1;0.24) 4.84 <0.001
IMC 0.68 0.30 (0.09;1.28) 2.31 0.024
Edad 0.24 0.14 (-0.05;0.53) 1.67 0.100
Suma de Cuadrados g.l. Media cuadrática F p
Regresión 4,622.52 3 1,540.84 24.87 <0.001
Residual 3,903.60 63 61.96
Total 8,526.12 66
En la mayoría de los casos se dispone de información en un conjunto mucho más amplio de variables
de las que se desconoce cuáles están relacionadas o pueden utilizarse para predecir la respuesta de
interés. La identificación del conjunto de variables que proporcionan el mejor modelo de regresión
dependerá en gran medida del objetivo del estudio y de experiencias previas. Así, aunque la práctica
habitual es eliminar del modelo aquellas variables que no resultan significativas, puede ser
recomendable mantenerlas en caso de que en experiencias previas se haya constatado una relación con
la variable dependiente. La mayoría de paquetes estadísticos proporcionan una variedad de técnicas
para identificar el mejor conjunto de variables regresoras que introducen o eliminan sucesivamente
variables atendiendo a su significación en el modelo (hacia delante, hacia atrás, pasos sucesivos).
Existen otras alternativas basadas en la comparación de todos los modelos posibles que se pueden
formar con un conjunto inicial de variables. Todas estas técnicas deben considerarse meramente
orientativas. Así, identificado el mejor conjunto de variables y ajustado el modelo es conveniente
realizar un análisis de residuos exhaustivo para valorar la posibilidad de elegir un modelo distinto a
pesar de que tenga un valor menor de R2.
Cuando se introduce más de una variable en el modelo de regresión es necesario contrastar además la
independencia de los efectos de todas ellas. Es decir, se supone que la asociación de cada variable con
la respuesta no depende del valor que tomen el resto en la ecuación de regresión. En otro caso se dirá
que existe interacción. Antes de aprobar el modelo definitivo, por lo tanto, se debe explorar la
necesidad de incluir términos de interacción calculados a partir del producto de pares de variables,
comprobando si mejora la predicción, siendo aconsejable investigar solamente aquellas interacciones
que puedan tener una explicación clínica.
Figura 2. Correlación lineal de la edad, colesterol e índice de masa corporal con la tensión arterial
diastólica.
Bibliografía
1.- Snedecor G.W., Cochran W.G. Statistical Methods. 8th ed. Iowa State University Press;
1989.
2.- Seber GAF. Linear Regression Analysis. New York: John Wiley & Sons; 1977.
4.- Altman DA. Practical statistics for medical research. 1th ed., repr. 1997. London: Chapman
5.- Carrasco J.L., Hernán M.A. Estadística Multivariante en las Ciencias de la Salud. Madrid:
Ed. Ciencia 3; 1993.
6.- Kleinbaum D.G., Kupper L.L. Applied Regression Analysis and other Multivariable
Methods. 3rd. ed. Massachusetts: Duxbury Press; 1997.
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 24/09/01
Análisis de supervivencia
Introducción Contenido
Introducción
Conceptos
Los datos proporcionados por los estudios clínicos se expresan en múltiples
básicos
ocasiones en términos de supervivencia. Esta medida no queda limitada a los
Limitaciones e
términos de vida o muerte, sino a situaciones en la que se mide el tiempo que imprecisiones
transcurre hasta que sucede un evento de interés, como puede ser tiempo de de los datos.
recurrencia, tiempo que dura la eficacia de una intervención, tiempo de un Tipos de
aprendizaje determinado, etc. Por tanto, la supervivencia es una medida de tiempo a observaciones
una respuesta, fallo, muerte, recaída o desarrollo de una determinada enfermedad o Metodología
estadística
evento. El término supervivencia se debe a que en las primeras aplicaciones de este
Método de
método de análisis se utilizaba como evento la muerte de un paciente. Kaplan-Meier
- Ejemplo 1
En las enfermedades crónicas, tales como el cáncer, la supervivencia se mide como - Ejemplo 2
una probabilidad de permanecer vivo durante una determinada cantidad de tiempo. Método actuarial
La supervivencia al año o a los 5 años son a menudo expresadas como indicadores - Ejemplo 3
de la severidad de una enfermedad y como pronóstico. Típicamente, el pronóstico Comparación de
del cáncer se valora determinando el porcentaje de pacientes que sobrevive al dos curvas de
supervivencia
menos cinco años después del diagnóstico.
Bibliografía
Documento
Son muchos los textos que se pueden consultar acerca de la metodología estadística
en PDF (85
1-4
a emplear en estudios de supervivencia . Los objetivos de este trabajo son: Kb)
¿Problemas
familiarizarse con los conceptos y terminología básica del análisis de
con PDF?
supervivencia, conocer cómo estimar la proporción acumulada de supervivencia,
Tablas y Figuras
así como los tests estadísticos a emplear para comparar dos curvas de supervivencia.
Tabla 1. Método
para calcular la
Conceptos básicos curva de
supervivencia
de Kaplan-
La observación de cada paciente se inicia al diagnóstico (tiempo = 0) y continua Meier. Ejemplo1.
hasta la muerte o hasta que el tiempo de seguimiento se interrumpe. Cuando el Tabla 2. Método
tiempo de seguimiento termina antes de producirse la muerte o antes de completar para calcular la
el período de observación se habla de paciente “censurado” (Figuras 1 y 2). curva de
supervivencia
de Kaplan-
El periodo de seguimiento puede terminar por las siguientes razones: Meier. Ejemplo
2.
a. El paciente decide no participar más en el estudio y lo abandona.
Los factores que modifican la supervivencia de un paciente pueden ser variables fijas en
Los datos de nuestro estudio pueden estar sesgados por las censuras o los truncamientos.
Censuras:
Tipos de observaciones:
a. No truncada, no censurada:
b. No truncada, censurada:
c. Truncada, no censurada:
d. Truncada, censurada:
Metodología estadística
a. Los investigadores muy frecuentemente analizan los datos antes de que todos los
pacientes hayan muerto, ya que si no habría que esperar muchos años para realizar
dichos estudios. Los datos aportados por los pacientes vivos, como se señaló
previamente, son observaciones “censuradas” y deben considerarse como tales a la
hora de analizarlas.
b. La segunda razón por la que se necesitan métodos especiales de análisis es porque
típicamente los pacientes no inician el tratamiento o entran al estudio al mismo
tiempo.
❍ Distribución de Weibull.
❍ Distribución Lognormal.
● No paramétricas:
❍ Kaplan-Meier.
❍ Logrank.
❍ Regresión de Cox.
Los métodos estadísticos más utilizados son los no paramétricos. Así, las curvas de
supervivencia por lo general se producen usando uno de dos métodos: el análisis actuarial
5
o el método del límite de producto de Kaplan-Meier .
El método actuarial implica dos premisas en los datos: la primera es que todos los
abandonos durante un intervalo dado ocurren aleatoriamente durante dicho intervalo. Esta
premisa es de escasa importancia cuando se analizan intervalos de tiempo cortos, sin
embargo, puede haber un sesgo importante cuando los intervalos son grandes, si hay
numerosos abandonos o si los abandonos no ocurren a mitad del intervalo. El método
Kaplan-Meier supera estos problemas. La segunda premisa es que aunque la
supervivencia en un tiempo dado depende de la supervivencia en todos los períodos
previos, la probabilidad de la misma en un período de tiempo es independiente de la
probabilidad de supervivencia en los demás períodos.
Método de Kaplan-Meier
Conocido también como del “limite del producto”. La característica distintiva del análisis
con este método es que la proporción acumulada que sobrevive se calcula para el tiempo
de supervivencia individual de cada paciente y no se agrupan los tiempos de
supervivencia en intervalos. Por esta razón es especialmente útil para estudios que
utilizan un número pequeño de pacientes. El método de Kaplan-Meier incorpora la idea
5
del tiempo al que ocurren los eventos .
1. Las personas que se retiran del estudio tienen un destino parecido a las que quedan.
2. El período de tiempo durante el cual una persona entra en el estudio no tiene
efecto independiente en la respuesta.
Ejemplo 1
6
El ejemplo se basa en datos publicados por Pratt, et al . Se recogieron los intervalos
libres de enfermedad (tiempos de remisión) de 20 pacientes con osteosarcoma, a los que
● 11 pacientes recayeron a los 6, 8, 10, 11, 12, 13, 13, 22, 32, 34, 36 meses.
● 8 pacientes se retiraron vivos al final del estudio contribuyendo 3, 7, 7, 11, 14, 16,
20, 20 meses de observación, sin haber sufrido recaídas.
● Un paciente rehusó continuar la terapia a los 11 meses y se retiró del estudio libre
de enfermedad.
Con estos datos se construye la Tabla 1 para calcular la proporción acumulativa que
sobreviven hasta el tiempo t, o tasa de supervivencia acumulativa, de la siguiente forma:
Ejemplo 2
Tratamiento:
A. 3, 5, 7, 9+, 18
B. 12, 19, 20, 20+, 33+
“9+” indica dato censurado y, por tanto, no ha presentado el evento (en este caso morir de
cáncer), como tampoco lo han presentado las observaciones 20+ y 33+. Con estos datos
se construye la Tabla 2 para calcular la proporción acumulativa que sobreviven hasta el
tiempo t, o tasa de supervivencia acumulativa, de la misma forma que se indicó en el
ejemplo previo.
Método actuarial
Los intervalos no necesitan ser de la misma longitud. El método de la tabla vital o análisis
7
actuarial se conoce en la bibliografía médica como el método de Cutler-Ederer .
Ejemplo 3
7
Se utilizan para este ejemplo los datos de la Tabla 3 . Para ello, los cálculos se realizan
como sigue:
donde
Para comparar si las diferencias observadas en dos curvas de supervivencia pueden ser
explicadas o no por el azar, debemos realizar un test estadístico. Si no hubiese
observaciones censuradas la prueba no paramétrica de suma de rangos de Wilcoxon
podría ser apropiada para comparar dos muestras independientes. Como la mayoría de las
veces hay datos censurados debemos utilizar otras técnicas.
Esta prueba compara en esencia el número de eventos (muertes, fracasos) en cada grupo
con el número de fracasos que podría esperarse de las pérdidas en los grupos combinados.
Se emplea la prueba del chi-cuadrado para analizar las pérdidas observadas y esperadas.
Para el cálculo se disponen los datos de tal forma que se objetive en cada grupo y en cada
mes (años, etc.) los pacientes en riesgo y los eventos presentados.
ejemplo, en el mes 7 hay una pérdida; de modo que es el número de pérdidas que
En la primera columna se ponen los meses en los que se objetivaron eventos (muertes).
Se trata por lo tanto de tiempos no censurados.
En las columnas 5 a 7 se ponen los pacientes que tuvieron el evento en ese tiempo y el
total.
Se calculan los totales para pérdidas observadas y esperadas y el test siguiente puede
utilizarse para probar la hipótesis nula de que las distribuciones de supervivencia son
iguales en los dos grupos.
donde:
●
es el número total pérdidas observadas en el grupo 1.
●
es el número total de pérdidas esperadas en el grupo 1.
●
es el número total de pérdidas observadas en el grupo 2.
●
es el número total de pérdidas observadas en el grupo 2.
Consultando las tablas de una distribución con un grado de libertad se concluye que
la diferencia es significativa. Por lo tanto, se concluye que hay diferencia entre ambas
curvas de supervivencia.
Los datos generados permiten a su vez realizar una estimación del riesgo (OR).
Así, los pacientes con el tratamiento B sobreviven 4,21 veces más que los del tratamiento
A.
Bibliografía
16+ 14 -- -- --
20+ 15 -- -- --
20+ 16 -- -- --
22 17 17 3 / 4 = 0,75 0,42
32 18 18 2/3 = 0,67 0,28
34 19 19 1 / 2 = 0,50 0,14
36 20 20 0 0,0
*Cuando hay un tiempo de supervivencia (13 meses) con valores de supervivencia diferentes se
utilizará como estimador el valor más bajo (0,56).
3 1 1 4/5=0,80 0,8
5 2 3 3/4=0,75 0,6
7 3 3 2/3=0,67 0,4
9+ 4 -- -- --
18 5 5 0 0,0
Tratamiento B
12 1 1 4/5=0,80 0,80
19 2 2 3/4=0,75 0,60
20 3 3 2/3=0,67 0,40
20+ 4 -- -- --
30+ 5 -- -- --
q = d / (n-[w/2]) pi = 1 - q s = pi · p -1
i
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 24/09/01
Medidas de concordancia: el índice Kappa
En cualquier estudio de investigación una cuestión clave es la fiabilidad de los procedimientos de Contenido
(1) El índice Kappa
medida empleados. Como señala Fleiss en el contexto de los estudios clínicos, ni el más elegante
Valoración del
de los diseños sería capaz de paliar el daño causado por un sistema de medida poco fiable.
índice Kappa
Contrastes de
Tradicionalmente se ha reconocido una fuente importante de error de medida en la variabilidad hipótesis e
12 intervalos de
entre observadores ( , ). Consecuentemente, un objetivo de los estudios de fiabilidad debe consistir
confianza
en estimar el grado de dicha variabilidad.
Bibliografía
Documento
En este sentido, dos aspectos distintos entran a formar parte típicamente del estudio de fiabilidad: en PDF
de una parte, el sesgo entre observadores –dicho con menos rigor, la tendencia de un observador a (86Kb)
dar consistentemente valores mayores que otro– y de otra, la concordancia entre observadores –es ¿Problemas
decir, hasta qué punto los observadores coinciden en su medición–. con PDF?
Cálculos online
Ciñéndonos a este segundo aspecto, la manera concreta de abordar el problema depende Calculadora del
Índice Kappa
estrechamente de la naturaleza de los datos: si éstos son de tipo continuo es habitual la utilización
de estimadores del coeficiente de correlación intraclase, mientras que cuando se trata de datos de tipo
categórico el estadístico más empleado es el índice kappa, al que dedicamos el resto de este artículo.
El índice kappa
Supongamos que dos observadores distintos clasifican independientemente una muestra de n ítems en un
mismo conjunto de C categorías nominales. El resultado de esta clasificación se puede resumir en una
tabla como la tabla 1, en la que cada valor xij representa el número de ítems que han sido clasificados por
el observador 1 en la categoría i y por el observador 2 en la categoría j.
· · · ·
· · · ·
· · · ·
C XC1 XC2 … XCC XC
Por ejemplo, podemos pensar en dos radiólogos enfrentados a la tarea de categorizar una muestra de
radiografías mediante la escala: "anormal, "dudosa", "normal". La tabla 2 muestra un conjunto de datos
hipotéticos para este ejemplo, dispuesto de acuerdo con el esquema de la tabla 1.
Tabla 2. Datos hipotéticos de clasificación de una muestra de 100 radiografías por dos radiólogos.
Radiólogo 2
Radiólogo 1 Anormal Dudosa Normal Total
Anormal 18 4 3 25
Dudosa 1 10 5 16
Normal 2 4 53 59
Total 21 18 61 100
Desde un punto de vista típicamente estadístico es más adecuado liberarnos de la muestra concreta (los n
ítems que son clasificados por los dos observadores) y pensar en términos de la población de la que se
supone que ha sido extraída dicha muestra. La consecuencia práctica de este cambio de marco es que
debemos modificar el esquema de la tabla 1 para sustituir los valores xij de cada celda por las
probabilidades conjuntas, que denotaremos por π ij (tabla 3).
Tabla 3. Modificación del esquema de la Tabla 1 cuando se consideran las probabilidades de cada
resultado
Observador 2
Observador1 1 2 … C Marginal
1 π 11 π 12 … π1 π1
2 π 12 π 22 … π 2C π2
· · · ·
· · · ·
· · · ·
C π C1 π C2 … π CC πc
Marginal π .1 π .2 … π .C 1
Con el tipo de esquematización que hemos propuesto en las tablas 1 ó 3 es evidente que las respuestas
que indican concordancia son las que se sitúan sobre la diagonal principal. En efecto, si un dato se sitúa
sobre dicha diagonal, ello significa que ambos observadores han clasificado el ítem en la misma categoría
del sistema de clasificación. De esta observación surge naturalmente la más simple de las medidas de
concordancia que consideraremos: la suma de las probabilidades a lo largo de la diagonal principal. En
símbolos, si denotamos dicha medida por π 0, será
3
Aunque este sencillo índice ha sido propuesto en alguna ocasión ( ) como medida de concordancia de
elección, su interpretación no está exenta de problemas. La tabla 4 ilustra el tipo de dificultades que
pueden surgir. En el caso A, π 0 = 0.2, luego la concordancia es mucho menor que en el caso B, donde π 0
= 0.8. Sin embargo, condicionando por las distribuciones marginales se observa que en el caso A la
concordancia es la máxima posible, mientras que en el B es la mínima.
Por lo tanto, parece claro que la búsqueda se debe orientar hacia nuevas medidas de concordancia que
tengan en cuenta las distribuciones marginales, con el fin de distinguir entre dos aspectos distintos de la
4
concordancia, a los que podríamos aludir informalmente como concordancia absoluta o relativa ( ). El
índice kappa representa una aportación en esta dirección, básicamente mediante la incorporación en su
fórmula de una corrección que excluye la concordancia debida exclusivamente al azar –corrección que,
como veremos, está relacionada con las distribuciones marginales–.
[1]
En el ejemplo de la tabla 4, κ vale 0.024 en el caso A y -0.0216 en el B, lo que sugiere una interpretación
de la concordancia opuesta a la que sugiere el índice π 0 (vide supra). Para comprender resultados
6
paradójicos como éstos ( ), conviene recordar los comentarios que hacíamos más arriba acerca de las
limitaciones del índice π 0.
7
A la hora de interpretar el valor de κ es útil disponer de una escala como la siguiente ( ), a pesar de su
arbitrariedad:
A partir de una muestra se puede obtener una estimación, k, del índice kappa simplemente reemplazando
en la expresión [1] las probabilidades por las proporciones muestrales correspondientes:
[2]
Con los datos de la tabla 2 se obtiene aplicando esta fórmula un valor de k = 0.66, que según nuestra
convención anterior calificaríamos como una buena concordancia.
La obtención de una simple estimación puntual del valor de κ no nos proporciona ninguna indicación de
la precisión de dicha estimación. Desde el punto de vista de la Estadística Inferencial es esencial conocer
la variabilidad de los estimadores y emplear ese conocimiento en la formulación de contrastes de
hipótesis y en la construcción de intervalos de confianza.
8
Fleiss, Cohen y Everitt ( ) dan la expresión de la varianza asintótica –es decir, para muestras
infinitamente grandes– del estimador k, cuando el verdadero valor de κ es cero:
[3]
Reemplazando las probabilidades teóricas, que desconocemos, por las proporciones muestrales,
obtenemos un estimador de σ 02(k) que denotaremos por s02(k):
[4]
Podemos emplear este resultado para contrastar la hipótesis nula de que κ es cero frente a la alternativa de
que no lo es, utilizando como estadístico del contraste el cociente
[5]
(|k| denota el valor absoluto de k) y comparando su valor con los cuantiles de la distribución normal
estándar. Con los datos de la tabla 2, k = 0.6600 y s02(k)= 0.0738, luego |k|/ s0(k)= 8.9441 y como z 0.975
= 1.96, concluimos que, al nivel de significación α = 0.05, el valor de k es significativo y nos lleva a
rechazar que κ sea cero.
Es discutible la utilidad del contraste de hipótesis anterior, ya que como en general es razonable esperar
cierto grado de concordancia más allá del azar, nos encontraremos trivialmente con un resultado
significativo. Para poder realizar contrastes de hipótesis más interesantes es necesario conocer la
expresión de la varianza asintótica cuando no se supone que κ es cero. La expresión es sensiblemente más
4
compleja que la [3] ( ):
[6]
donde: T1 = Σ π ii,
T2 = Σ π i. ,
π .i
T3 = Σ π ii(π i. + ),
π .i
T4 = Σ Σ π ij(π j. + )2.
π .i
Se puede demostrar que cuando κ es cero la expresión [6] se reduce a la [3]. Para contrastar la hipótesis
nula de que κ es igual a un valor dado κ 0 frente a una alternativa bilateral, procedemos como en el caso κ
= 0, sólo que empleando como estadístico del contraste:
[7]
donde s(k) ahora es la raíz cuadrada de s2(k), el estimador de σ 2(k) obtenido sustituyendo en [6]
probabilidades por proporciones muestrales. Es obvio que el caso κ = 0 que explicábamos con
anterioridad no es más que un caso particular de este contraste, con una mejor estimación del error
estándar.
Volviendo al ejemplo de la tabla 2, para contrastar la hipótesis de que el verdadero valor de κ es κ 0 = 0.7,
como k = 0.6600 y s(k) = 0.0677, calculamos |k - κ 0|/s(k) = 0.5908 < z 0.975 = 1.96. Por tanto, al nivel de
significación α = 0.05, no hay suficiente evidencia para rechazar la hipótesis nula.
Desde el punto de vista inferencial, un enfoque más versátil que el del contraste de hipótesis consiste en
dar intervalos de confianza para el verdadero valor de κ . Tomados simultáneamente, k y el intervalo de
confianza nos dan, además de la mejor estimación de κ , una medida del error que podemos cometer con
esa estimación. Un intervalo de confianza aproximado del (1-α )100%, construido por el método
estándar, es de la forma:
donde z 1- es el percentil de orden (1-α /2)100 de la distribución normal estándar. Con los datos de la
α /2
tabla 2, nuestro intervalo de confianza del 95% para κ sería [0.5273 , 0.7927]. Se observa como los
valores 0 y 0.7 que considerábamos en los contrastes anteriores, quedan respectivamente fuera y dentro
del intervalo, un hecho que ilustra la equivalencia entre los dos enfoques: contraste de hipótesis y
estimación por intervalos.
Aunque el lector más interesado en los aspectos prácticos, aquél que se limita exclusivamente a usar un
programa estadístico para analizar sus datos, quizás piense que todos estos detalles son algo prolijos,
consideramos que son importantes para interpretar y explotar óptimamente los resultados que le brinda el
programa. Por ejemplo, un programa ampliamente difundido como el SPSS, muestra solamente el valor
de k (expresión [2]), su error estándar calculado a partir del estimador de [6], y el valor del estadístico [5].
Las explicaciones de este epígrafe muestran cómo utilizar estos valores para obtener intervalos de
confianza y realizar otros contrastes de hipótesis.
Bibliografía
1. Fleiss JL. The design and analysis of clinical experiments. New York: Wiley; 1986.
2. Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics
1977; 33: 159-174. [Medline]
3. Holley WJ, Guilford JP. A note on the G index of agreement. Educ Psychol Meas 1964; 32: 281-
288.
4. Bishop YMM, Fienberg SE, Holland PW. Discrete multivariate analysis: theory and practice.
Cambridge, Massachussetts: MIT Press; 1977.
5. Fleiss JL. Statistical methods for rates and proportions, 2nd edition. New York: Wiley; 2000.
6. Feinstein AR, Cicchetti DV. High agreement but low kappa: I. The problems of two paradoxes.
J Clin Epidemiol 1990; 43: 543-549. [Medline]
7. Altman DG. Practical statistics for medical research. New York: Chapman and Hall; 1991.
8. Fleiss JL, Cohen J, Everitt BS. Large sample standard errors of kappa and weighted kappa.
Psychol Bull 1969; 72: 323-327.
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 14/07/03
Pruebas diagnósticas
sanos. Por lo tanto, las condiciones que deben ser exigidas Documento en PDF (62 Kb)
3 ¿Problemas con PDF?
a un test son :
Cálculos (Excel)
Estudio de la capacidad predictiva de
● Validez: Es el grado en que un test mide lo que se una prueba diagnóstica
supone que debe medir. ¿Con que frecuencia el
resultado del test es confirmado por procedimientos diagnósticos más complejos y
rigurosos? La sensibilidad y la especificidad de un test son medidas de su validez.
● Reproductividad: es la capacidad del test para ofrecer los mismos resultados
cuando se repite su aplicación en circunstancias similares. La variabilidad
biológica del hecho observado, la introducida por el propio observador y la
derivada del propio test, determinan su reproductividad.
A su vez, es conveniente que el test sea sencillo de aplicar, aceptado por los pacientes o la
población general, que tenga los mínimos efectos adversos y que económicamente sea
soportable.
El caso más sencillo que se nos puede plantear es el de una prueba dicotómica, que
clasifica a cada paciente como sano o enfermo en función de que el resultado de la prueba
sea positivo o negativo. En casos como éste, generalmente un resultado positivo se
asocia con la presencia de enfermedad y un resultado negativo con la ausencia de la
misma. Cuando se estudia una muestra de pacientes, los datos obtenidos permiten
clasificar a los sujetos en cuatro grupos según una tabla 2x2 como la que se muestra en la
Tabla 1. En ella, se enfrenta el resultado de la prueba diagnóstica (en filas) con el estado
real de los pacientes (en columnas) o, en su defecto, el resultado de la prueba de
referencia o “gold standard” que vayamos a utilizar. El resultado de la prueba puede ser
correcto (verdadero positivo y verdadero negativo) o incorrecto (falso positivo y falso
negativo). El análisis de su validez puede obtenerse calculando los valores de sensibilidad
4
y especificidad :
Sensibilidad
Cuando los datos obtenidos a partir de una muestra de pacientes se clasifican en una tabla
como la que se muestra en la Tabla 1, es fácil estimar a partir de ella la sensibilidad como
la proporción de pacientes enfermos que obtuvieron un resultado positivo en la prueba
diagnóstica. Es decir:
Especificidad
Ejemplo:
Como ejemplo de lo visto hasta ahora, consideremos los datos de un estudio en el que se
incluyó a 2.641 pacientes con sospecha de cáncer prostático que acudieron a una consulta
de Urología durante un periodo de tiempo determinado. Durante su exploración, se
recogió el resultado del tacto rectal realizado a cada uno de estos pacientes, según fuese
éste normal o anormal, y se contrastó con el posterior diagnóstico obtenido de la biopsia
prostática. Los datos del estudio y los resultados obtenidos se muestran en la Tabla 2. Se
encontraron en total 1.121 casos de cáncer, lo cual representa un 42,45% del total de
sujetos estudiados. La sensibilidad del tacto rectal para detectar cáncer fue de 56,56%
(634/1121) y la especificidad de 82,3% (1251/1520). Así, el tacto fue anormal en un
56,56% de los casos de cáncer prostático y normal en un 82,3% de los casos que
presentaron finalmente otras patologías. Esto significa que un 100-56,56=43,44% de los
pacientes que efectivamente tenían cáncer presentaban tactos normales. Claramente ello
indica la necesidad de utilizar otros marcadores más sensibles, como el PSA o sus
derivados, para poder establecer el diagnóstico de forma más precisa.
Resulta obvio que lo ideal sería trabajar con pruebas diagnósticas de alta sensibilidad y
especificidad, pero esto no siempre es posible. En general, las pruebas de screening deben
ser de alta sensibilidad para poder captar a todos los enfermos. Una prueba muy sensible
será especialmente adecuada en aquellos casos en los que el no diagnosticar la
enfermedad puede resultar fatal para los enfermos, como ocurre con enfermedades
peligrosas pero tratables, como los linfomas o la tuberculosis, o en enfermedades en las
que un falso positivo no produzca serios trastornos psicológicos o económicos para el
paciente (por ejemplo, la realización de mamografía en el cáncer de mama).
La influencia de la prevalencia.
Ilustraremos lo anterior con un sencillo ejemplo. Para el diagnóstico del VIH se emplean
tests que han confirmado tener una alta validez, con valores aproximados de sensibilidad
y especificidad de un 99,5%. Supongamos que se aplicase esta prueba a la totalidad de la
población gallega, que se cifra en 2.800.000 habitantes. Si asumimos que en Galicia
existen 6.000 pacientes VIH positivos (lo cual implicaría una prevalencia de 6000/
2.800.000 =0,21%), el test resultaría positivo en un total de 19.940 sujetos, obteniéndose
un valor predictivo positivo del 29,9% (Tabla 3). Así pues, sólo un 29,9% de los sujetos
con un resultado positivo en el test resultarían estar realmente afectados, mientras que un
70,1% de los mismos no presentarían la enfermedad. Resulta obvio que en una
comunidad como la gallega la utilización de esta prueba no resultaría útil, debido a la alta
proporción de falsos positivos que conllevaría.
Veamos ahora que ocurriría si se aplicase la misma prueba a una población en la que el
número de enfermos VIH+ fuese de 800.000 (resultando en una prevalencia mucho
mayor de un 800.000/2.800.000=28,6%). En este caso, la predictividad de una prueba
positiva aumenta de un 29,9% a un 98,7%, disminuyendo la proporción de falsos
positivos a tan sólo un 1,3% (Tabla 4). Por lo tanto, si la prevalencia es alta, un resultado
positivo tiende a confirmar la presencia de la enfermedad, mientras que si la prevalencia
es baja, un resultado positivo no permitirá afirmar su existencia.
Razones de probabilidad
Queda claro pues cómo la prevalencia es un factor determinante en los valores predictivos
de un test. Por lo tanto, éstos , no pueden ser utilizados como índices a la hora de
comparar dos métodos diagnósticos diferentes, ni tampoco a la hora de extrapolar los
resultados de otros estudios a datos propios. Por ello, resulta necesario determinar otros
índices de valoración que sean a la vez clínicamente útiles y no dependan de la
prevalencia de la enfermedad en la población a estudiar. Así, además de los conceptos de
sensibilidad, especificidad y valores predicitivos, se suele hablar del concepto de razón de
6
verosimilitudes, razón de probabilidad, o cociente de probabilidades . Estos miden cuánto
más probable es un resultado concreto (positivo o negativo) según la presencia o ausencia
de enfermedad:
Hasta ahora hemos abordado el caso de una prueba con un resultado dicotómico (positivo
o negativo), pero en muchas situaciones la confirmación de un diagnóstico debe hacerse a
partir de un parámetro numérico, sobre todo cuando éste se realiza a partir de
determinaciones analíticas. La generalización a estas situaciones se consigue mediante la
elección de distintos valores de corte que permitan una clasificación dicotómica de los
valores de la prueba según sean superiores o inferiores al valor elegido. La diferencia
esencial con el caso más simple es que ahora contaremos no con un único par de valores
de sensibilidad y especificidad que definan la exactitud de la prueba, sino más bien con
un conjunto de pares correspondientes cada uno a un distinto nivel de decisión. La
estrategia de análisis adecuada consistiría en representar gráficamente los pares (1-
especificidad, sensibilidad) obtenidos al considerar todos los posibles valores de corte de
la prueba, obteniéndose así una curva llamada curva ROC. El área bajo dicha curva se
convierte así en el mejor indicador de la capacidad predictiva del test, independiente de la
prevalencia de la enfermedad en la población de referencia y en base al cual se podrán
7-10
establecer comparaciones entre diferentes pruebas diagnósticas .
Bibliografía
1. Sackett DL, Haynes RB, Guyatt GH, Tugwell P. Epidemiología clínica. Ciencia básica para
la medicina clínica. 2ª ed. Madrid: Editorial médica panamericana; 1994.
2. Sandler G. The importance of the history in the medical clinic and the cost of unnecessary
test. Am Heart J 1980; 100: 928. [Medline]
3. Morrison AS. Screnning in Chronic disease. Second edition. New York: Oxford University
Press; 1992.
4. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 1: sensitivity and specificity.BMJ
1994; 308: 1552. [Medline]
5. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 2: predictive values. BMJ 1994;
309: 102. [Medline]
6. Dujardin B, Van der Ende J, Van Gompel A, Unger JP, Van der Stuyft P. Likelihood ratios:
a real improvement for clinical decisión making? Eur J Epidemiol 1994; 10: 29-36.
[Medline]
7. Burgueño MJ, García Bastos JL, González Buitrago JM. Las curvas ROC en la evaluación
de las pruebas diagnósticas. Med Clin (Barc) 1995; 104: 661-670. [Medline]
8. Zweig MH, Campbell G. Receiver-operating characteristics (ROC) plots: a fundamental
evaluation tool in clinical medicine. Clin Chem 1993; 39: 561-577. [Medline]
9. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 3: receiver operating
characteristic plots. BMJ 1994; 309: 188. [Medline]
10. Lopez de Ullibarri Galparsoro I, Pita Fernández S. Curvas ROC. Cad Aten Primaria 1998; 5
(4): 229-235.
11. Argimon Pallás JM, Jiménez Villa J. Métodos de investigación clínica y epidemiológica. 2ª
ed Barcelona: Harcourt; 2000.
12. Fletcher RH, Fletcher SW, Wagner EH. Clinical epidemiology: the essentials. 3ª ed.
Baltimore: Williams and Wilkins; 1996.
13. Cabello López JB, Pozo Rodríguez F. Estudios de evaluación de las pruebas diagnósticas en
cardiología. Rev Esp Cardiol 1997; 50: 507-519. [Medline]
14. Greenhalgh T. How to read a paper: papers that report diagnostic or screening tests. BMJ
1997; 315: 540-543. [Medline] [Texto completo]
Enfermo Sano
Verdaderos Positivos Falsos Positivos
Positivo
(VP) (FP)
Falsos Negativos Verdaderos Negativos
Negativo
(FN) (VN)
Tabla 3. Resultados de la aplicación del test de VIH en una población de baja prevalencia.
Verdadero diagnóstico
Resultado del test
VIH+ VIH- Total
Positivo 5.970 13.970 19.940
Negativo 30 2.780.030 2.780.060
Total 6.000 2.794.000 2.800.000
Tabla 4. Resultados de la aplicación del test de VIH en una población de alta prevalencia.
Verdadero diagnóstico
Resultado del test
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 25/09/01
Curvas ROC
LA CURVA ROC
La limitación principal del enfoque hasta ahora expuesto estribaría en nuestra exigencia de
que la respuesta proporcionada por la prueba diagnóstica sea de tipo dicotómico, por lo
que en principio quedaría excluida la amplia gama de pruebas diagnósticas cuyos
resultados se miden en una escala (nominalmente) continua o, al menos, discreta ordinal.
Piénsese, por ejemplo, respecto al primer tipo en la determinación de la glucosa sérica por
el laboratorio o, respecto al segundo, en una prueba realizada por el Servicio de
Radiología en que los resultados se expresen empleando las categorías "seguramente
normal", "probablemente normal", "dudoso", "probablemente anormal" y "seguramente
anormal".
Este procedimiento constituye la esencia del análisis ROC, una metodología desarrollada
en el seno de la Teoría de la Decisión en los años 50 y cuya primera aplicación fue
motivada por problemas prácticos en la detección de señales por radar (aunque el detalle
pueda parecer anecdótico, la equivalencia entre el operador que interpreta los picos en la
pantalla del radar para decidir sobre la presencia de un misil y el médico que emplea el
resultado de una prueba diagnóstica para decidir sobre la condición clínica del paciente, es
1 2
completa ). La aparición del libro de Swets y Pickett marcó el comienzo de su difusión
en el área de la Biomedicina, inicialmente en Radiología, donde la interpretación subjetiva
de los resultados se recoge en una escala de clasificación, pero de modo creciente en
relación con cualquier método diagnóstico que genere resultados numéricos.
Para centrar ideas, supongamos que, tanto para la población sana como para la enferma, la
variable de decisión que representa el resultado de la prueba diagnóstica se distribuye
normalmente, con media y desviación típica conocidas. En la figura 1 se muestran las
funciones de densidad de probabilidad para ambas variables, que mostrarán un
determinado nivel de solapamiento. Si consideramos un valor arbitrario del resultado de la
prueba, x –al que, en adelante, aludiremos como valor de corte–, la FVP (sensibilidad) y la
FFP (1-especificidad) se corresponderán respectivamente con el área a la derecha de ese
punto bajo la función de densidad de probabilidad de la población enferma (áreas clara y
oscura) y de la población sana (área oscura). La curva ROC se obtiene representando, para
cada posible elección de valor de corte, la FVP en ordenadas y la FFP en abscisas (figura
2).
Un primer grupo de métodos para construir la curva ROC lo constituyen los llamados
métodos no paramétricos. Se caracterizan por no hacer ninguna suposición sobre la
distribución de los resultados de la prueba diagnóstica. El más simple de estos métodos es
el que suele conocerse como empírico, que consiste simplemente en representar todos los
pares (FFP, FVP) – es decir todos los pares
(1-especificidad, sensibilidad) – para todos los posibles valores de corte que se puedan
considerar con la muestra particular de que dispongamos. Desde un punto de vista técnico,
este método sustituye las funciones de distribución teóricas por una estimación no
paramétrica de ellas, a saber, la función de distribución empírica construida a partir de los
datos. Informalmente, es como si en la figura 1 sustituyéramos las funciones de densidad
por histogramas obtenidos a partir de la muestra de pacientes sanos y enfermos y
construyéramos la curva ROC a partir de ellos.
Es evidente que este método es especialmente idóneo para datos de tipo continuo, sobre
todo si la discretización (el redondeo) inducida por la precisión del método analítico
utilizado no es muy importante, de modo que el número de empates sea
proporcionalmente escaso. En este caso, la apariencia dentada de la curva es menos
notoria a medida que crece el tamaño de la muestra e, idealmente, en el límite tendríamos
una curva suave, la propia curva ROC teórica (figura 1). No obstante, también puede
aplicarse a datos de tipo categórico. Claro está que ahora será inevitable la aparición de
empates (al menos si el tamaño de la muestra es mayor que el número de categorías), con
la consecuencia de que el gráfico consistirá, independientemente del tamaño de la muestra,
en un número fijo de líneas en general diagonales que unen los puntos correspondientes a
los pares (1-especificidad, sensibilidad) calculados para cada categoría. En la figura 5 se
presenta un ejemplo de la aplicación de este método a un conjunto de datos procedente de
la clasificación en cinco categorías de imágenes obtenidas por tomografía computerizada
(ver apartado b) del apéndice).
5
Existen otros métodos no paramétricos aplicables a datos continuos que permiten obtener
curvas ROC suavizadas, en contraposición con la forma dentada de la curva obtenida por
el método empírico. La idea es básicamente obtener estimaciones no paramétricas
suavizadas de las funciones de densidad de las dos distribuciones de resultados de la
prueba empleando generalmente estimadores de tipo núcleo. A partir de dichas densidades
–en lugar de a partir de los histogramas, como en el método anterior– se obtiene
directamente la curva ROC que, como dijimos, será suave.
2
la variable de decisión en las dos poblaciones que se trata de distinguir . El modelo más
frecuentemente utilizado es el binormal, que supone la normalidad de las variables tanto
en la población sana como en la enferma, pero existen muchos otros modelos posibles que
surgen al considerar distintas distribuciones, similares a la normal como la logística
(modelo bilogístico) o no, como la exponencial negativa. El problema ahora se reduce a
estimar los parámetros de cada distribución por un método estadísticamente adecuado, en
general el método de máxima verosimilitud. Se obtiene así una curva ROC suave, pero
puede ocurrir una sustancial falta de ajuste si los supuestos distribucionales resultan ser
34
erróneos , . Por ello, si se va a emplear este método debe previamente someterse la
hipótesis sobre la naturaleza de las distribuciones a un contraste de significación. También
es recomendable emplear una transformación de la variable inicial que logre que los datos
sean más compatibles con las distribuciones asumidas, aunque este juicio sólo pueda
basarse en un examen en gran medida visual y por lo tanto esté expuesto a interpretaciones
subjetivas. Estas limitaciones hacen que el método no sea en general recomendable para
datos continuos. Su utilidad es mayor con datos discretos: varios investigadores han
examinado el modelo binormal para datos de clasificación, sin encontrar situaciones en las
67
que el modelo fallara seriamente , . De hecho, esta última observación constituye la base
para un método aplicable tanto a datos continuos como de clasificación, debido a Metz et
8
al. (el software que lo implementa está libremente disponible en Internet en http://www-
radiology.uchicago.edu/krl/toppage11.htm). Según este método, primero se agrupan los
datos en categorías ordenadas y después se aplica un algoritmo paramétrico para crear una
59
curva ROC suave. Del método se dice que es semiparamétrico , , porque aunque supone
la existencia de una transformación que haga que las dos distribuciones sean
aproximadamente normales, ésta se deja sin especificar. La dependencia mucho menor de
la validez de las asunciones se debe principalmente a la invariancia de la curva ROC frente
8
a las transformaciones monótonas de la escala de la variable de decisión . Investigaciones
recientes parecen indicar que el método se comporta empíricamente bien en una amplia
10
variedad de situaciones . Permanece, no obstante, el problema de que el ajuste no es
reproducible a menos que el esquema de categorización empleado sea objetivo y esté
estandarizado. Las figuras 4 y 5 muestran las curvas ROC ajustadas por este método y
permiten compararlas a las obtenidas por el método empírico.
Como observamos más arriba, la mayor exactitud diagnóstica de una prueba se traduce en
un desplazamiento "hacia arriba y a la izquierda" de la curva ROC. Esto sugiere que el
área bajo la curva ROC (ABC) se puede emplear como un índice conveniente de la
exactitud global de la prueba: la exactitud máxima correspondería a un valor de ABC de 1
y la mínima a uno de 0.5 (si fuera menor de 0.5 debería invertirse el criterio de positividad
de la prueba).
En términos probabilísticos, si XE y XS son las dos variables aleatorias que representan los
valores de la prueba en las poblaciones enferma y sana, respectivamente, puede probarse
que el ABC de la "verdadera" curva ROC (intuitivamente, aquella que obtendríamos si el
Cuando la curva ROC se genera por el método empírico, independientemente de que haya
empates o no, el área puede calcularse mediante la regla trapezoidal, es decir, como la
suma de las áreas de todos los rectángulos y trapecios (correspondientes a los empates)
que se pueden formar bajo la curva. Estadísticamente, la observación importante, puesto
que permite hacer contrastes de significación y dar intervalos de confianza para la
verdadera área bajo la curva, es que el área calculada por el método geométrico anterior
12
coincide con el valor del estadístico de suma de rangos de Wilcoxon, W . Esto no es
sorprendente, ya que, cuando XA y XB son dos variables aleatorias independientes
cualesquiera, dicho estadístico es conocido precisamente por su uso para contrastar la
hipótesis , que en nuestro contexto es la hipótesis nula de que ABC
sea ½, es decir, de que la prueba no sea capaz de discriminar entre los dos grupos. Hanley
11
y McNeil dan fórmulas tanto para el estadístico W como para su error estándar y
discuten el problema de la estimación de este último. En general, se suelen dar intervalos
de confianza del ABC construidos de la manera estándar, v. g. al nivel de confianza del
95% intervalos de extremos W ± 1.96*EE(W), siendo EE(W) una estimación del error
estándar de W. Con los datos del volumen corpuscular medio, el ABC calculado por este
método es 0.699 y un intervalo de confianza del 95% (IC 95%) es (0.585,0.813).
Área parcial
Son imaginables situaciones en las que las propias características ventajosas del ABC se
conviertan en un inconveniente para su uso clínico. El ABC puede interpretarse como un
promedio de la sensibilidad (especificidad) sobre todos los valores posibles de
especificidad (sensibilidad). Puede que clínicamente sólo nos interesen los puntos de la
curva ROC que aseguren altos valores de sensibilidad o especificidad. Un caso típico es el
de las mamografías en programas de detección precoz del cáncer, donde debe asegurarse
13
una alta sensibilidad de la prueba . Se han propuesto índices de área parcial que pueden
ser empleados para evaluar la exactitud restringida a los puntos de operación de interés de
13,14
la curva ROC .
siendo ABC el área observada, EE el error estándar del ABC y r la correlación entre
ABCA y ABCB. Al nivel de significación α se rechaza la hipótesis nula cuando |z| > zα /2,
No obstante, hagamos notar que la comparación entre dos pruebas no debe reposar
exclusivamente en contrastes como el anterior. Pueden existir dos pruebas con sendas
curvas ROC muy distintas de forma, hecho que puede tener importantes implicaciones
prácticas, y que, sin embargo, sean prácticamente iguales respecto a su ABC (figura 6). El
empleo del área parcial puede permitir manejar correctamente estas situaciones. En
cualquier caso, es evidente que nunca debería prescindirse de un examen visual detenido
de un gráfico que muestre simultáneamente ambas curvas ROC.
Incluso una formula sencilla como la anterior deja en evidencia que en la mayoría de los
casos nuestra pretensión de calcular un valor de corte óptimo será excesiva, salvo que uno
se contente con estimaciones imprecisas o puramente intuitivas. De hecho, es un problema
que se aborde más adecuadamente con otras herramientas más complejas disponibles en el
17,18
seno del Análisis de Decisiones Clínicas .
Apéndice
Apéndice 1.a. Volumen corpuscular medio eritrocitario en 100 pacientes con posible
diagnóstico de anemia ferrropénica. El verdadero diagnóstico se establece por biopsia
de la médula ósea.
Examen de la médula ósea Volumen corpuscular medio
52, 58, 62, 65, 67, 68, 70, 72, 72, 73, 73, 74, 75, 77,
Ausencia de hierro (nE = 33) 77, 77, 78, 78, 80, 80, 81, 81, 81, 81, 84, 84, 85, 85,
87, 88, 88, 92, 92
60, 66, 68, 69, 71, 71, 71, 73, 74, 74, 74, 76, 76, 77,
77, 77, 78, 79, 79, 79, 80, 80, 81, 81, 82, 82, 82, 83,
Presencia de hierro (nS = 67) 83, 83, 83, 83, 83, 83, 83, 84, 84, 84, 85, 85, 86, 86,
86, 86, 88, 88, 88, 89, 89, 89, 90, 90, 90, 91, 91, 93,
93, 93, 94, 94, 94, 94, 96, 97, 98, 100, 103
Modificado de Beck JR, Shultz EK. The use of relative operating characteristic (ROC) curves in
test performance evaluation. Arch Pathol Lab Med 1986; 110: 13-20.
Figura 4. Curvas ROC calculadas por los métodos empírico y semiparamétrico para los
datos de volumen corpuscular medio.
Figura 5. Curvas ROC calculadas por los métodos empírico y semiparamétrico para los datos de
tomografía computerizada.
Bibliografía
2. Swets JA, Pickett RM. Evaluation of diagnostic systems: methods from signal
detection theory. Nueva York: Academic Press; 1982.
5. Zou KH, Hall WJ, Shapiro DE. Smooth non-parametric receiver operating
characteristic (ROC) curves for continuous diagnostic tests. Statist Med 1997; 16:
2143-2156. [Medline]
6. Hanley JA. The robustness of the binormal model used to fit ROC curves. Med
10. Hanley JA. The use of the "binormal" model for parametric ROC analysis of
quantitative diagnostics tests. Statist Med 1996; 15: 1575-1585. [Medline]
11. Hanley JA, McNeil BJ. The meaning and use of the area under a receiver
operating characteristic (ROC) curve. Radiology 1982; 143: 29-36. [Medline]
12. Bamber D. The area above the ordinal dominance graph and the area below
the receiver operating graph. J Math Psych 1975; 12: 387-415.
13. Jiang Y, Metz CE, Nishikawa RM. A receiver operating characteristic partial
area index for highly sensitive diagnostics tests. Radiology 1996; 201: 745-750.
14. McClish DK. Analyzing a portion of the ROC curve. Med Decision Making
1989; 9: 190-195. [Medline]
15. Hanley JA, McNeil BJ. A method of comparing the areas under receiver
operating characteristic curves derived from the same cases. Radiology 1983; 148:
839-843. [Medline]
16. McNeil BJ, Keeler E, Adelstein SJ. Primer on certain elements of medical
decision making. N Engl J Med 1975; 293: 211-215. [Medline]
18. Beck JR, Shultz EK. The use of relative operating characteristic (ROC) curves
in test performance evaluation. Arch Pathol Lab Med 1986; 110: 13-20. [Medline]
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 27/05/02
Investigación cuantitativa y cualitativa
Los científicos sociales en salud que utilizan abordajes cualitativos enfrentan en la Bibliografía
actualidad problemas epistemológicos y metodológicos que tienen que ver con el Documento
poder y la ética en la generación de datos así como con la validez externa de los en PDF (45
2 Kb)
mismos . ¿Problemas
con PDF?
5-6
Las diferencias más ostensibles entre ambas metodologías se muestran en la tabla 1 .
Los fundamentos de la metodología cuantitativa podemos encontrarlos en el
positivismo que surge en el primer tercio del siglo XIX como una reacción ante el
empirismo que se dedicaba a recoger datos sin introducir los conocimientos más allá del
campo de la observación. Alguno de los científicos de esta época dedicados a temas
relacionados con las ciencias de la salud son Pasteur y Claude Bernard, siendo este
1
último el que propuso la experimentación en medicina . A principios del siglo XX,
surge el neopositivismo o positivismo lógico siendo una de las aportaciones más
importantes la inducción probabilística. La clave del positivismo lógico consiste en
contrastar hipótesis probabilísticamente y en caso de ser aceptadas y demostradas en
circunstancias distintas, a partir de ellas elaborar teorías generales. La estadística
dispone de instrumentos cuantitativos para contrastar estas hipótesis y poder aceptarlas o
7
rechazarlas con una seguridad determinada . Por tanto el método científico, tras una
observación, genera una hipótesis que contrasta y emite posteriormente unas
conclusiones derivadas de dicho contraste de hipótesis. El contrastar una hipótesis
repetidamente verificada no da absoluta garantía de su generalización ya que, como
señala Karl Popper, no se dispone de ningún método capaz de garantizar que la
generalización de una hipótesis sea válida8. Con el ejemplo de los cisnes, K. Popper
rebatía las tesis neopositivistas sobre la generalización de las hipótesis9... "todos los
cisnes de Austria eran blancos... no se dispone de datos sobre el color de los cisnes fuera
de Austria..., todos los cisnes son blancos...". En el momento actual no hay ningún
método que garantice que la generalización de una hipótesis sea válida, pero sí se puede
rebatir una hipótesis con una sola evidencia en contra de ella. Es por ello que la ciencia,
10
como señala K. Popper "busca explicaciones cada vez mejores" .
5-6
Tabla 1. Diferencias entre investigación cualitativa y cuantitativa .
Investigación cualitativa Investigación cuantitativa
Centrada en la fenomenología y comprensión Basada en la inducción probabilística del
positivismo lógico
Observación naturista sin control Medición penetrante y controlada
Subjetiva Objetiva
Inferencias de sus datos Inferencias más allá de los datos
Exploratoria, inductiva y descriptiva Confirmatoria, inferencial, deductiva
Orientada al proceso Orientada al resultado
Datos "ricos y profundos" Datos "sólidos y repetibles"
No generalizable Generalizable
Holista Particularista
Realidad dinámica Realidad estática
Propensión a "comunicarse con" los sujetos del Propensión a "servirse de" los sujetos del
11 11
estudio estudio
11 11
Se limita a preguntar Se limita a responder
Comunicación más horizontal... entre el
investigador y los investigados... mayor
naturalidad y habilidad de estudiar los factores
12
sociales en un escenario natural
Son fuertes en términos de validez interna, Son débiles en términos de validez interna -
pero son débiles en validez externa, lo que casi nunca sabemos si miden lo que quieren
encuentran no es generalizable a la población medir-, pero son fuertes en validez externa, lo
que encuentran es generalizable a la
13
población
Preguntan a los cuantitativos: ¿Cuan Preguntan a los cualitativos: ¿Son
particularizables son los hallazgos? generalizables tus hallazgos?
Bibliografía
3. Abdellah FG, Levine E. Preparing Nursing Research for the 21 st Century. Evolution.
Methodologies, Chalges. Springer: New York; 1994.
4. Strauss AL. Qualitative analysis for social scientifics. New York: Cambridge University
oress, 1987.
6. Reichart ChS, Cook TD. Hacia una superación del enfrentamiento entre los métodos
cualitativos y cuantitativos. En: Cook TD, Reichart ChR (ed). Métodos cualitativos y
cuantitativos en investigación evaluativa. Madrid: Morata,1986.
7. Pita Fernández S., Pértega Díaz S. Significancia estadística y relevancia clínica. Cad Aten
Primaria, 2000; 8: 191-195. [Texto completo]
10. Popper Karl R. La sociedad abierta y sus enemigos. Barcelona: Editorial Paidos, 1991.
11. Ibañes J. El regreso del sujeto. La investigación social de segundo orden. Madrid: Siglo
XXI; 1994. p.77-84.
12. Deegan MJ, Hill M. Women and symbolic interaction. Boston: Allen and Unwin; 1987. p.
84-85.
14. Pita Fernández S., López de Ullibarri Galparsoro I. Número necesario de pacientes a tratar
para reducir un evento. Cad Aten Primaria 1998; 96-98. [Texto completo]
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 12/01/04
La fiabilidad de las mediciones clínicas:
el análisis de concordancia para variables numéricas
Introducción Contenido
Introducción
El Coeficiente
La medición es un proceso inherente tanto a la práctica como a la investigación
de Correlación
clínica. Mientras que algunas variables son relativamente sencillas de medir (como Intraclase
el peso o la tensión arterial) otras comportan cierto grado de subjetividad que hace Análisis de las
especialmente difícil su medición, como la intensidad de dolor o el concepto de diferencias
calidad de vida. En cualquier caso, el proceso de medición conlleva siempre algún individuales:
grado de error. Existen factores asociados a los individuos, al observador o al método de
Bland y Altman
1,2
instrumento de medida que pueden influir en la variación de las mediciones . En Otros métodos
la medida de la temperatura corporal, por ejemplo, pueden aparecer errores en el de análisis
registro debidos tanto al estado del paciente, como a defectos en el termómetro Bibliografía
resultados similares cuando se aplica a una misma persona en más de una Figura 2.
ocasión, pero en idénticas condiciones. Figura 3.
b. Concordancia intraobservador: tiene por objetivo evaluar el grado de Figura 4.
consistencia al efectuar la medición de un observador consigo mismo. Figura 5.
6-9
La concordancia entre variables es de sumo interés en la práctica clínica habitual . La
concordancia entre mediciones puede alterarse no sólo por la variabilidad de los
observadores, sino por la variabilidad del instrumento de medida o por el propio proceso
a medir si se realiza en momentos diferentes. Las técnicas de análisis de la concordancia
dependen del tipo de variable a estudiar. El índice estadístico más utilizado, para el caso
10
de variables cualitativas, es el coeficiente kappa . Si las variables son cuantitativas, se
2,6,11
utiliza habitualmente el coeficiente de correlación intraclase . El concepto básico
subyacente del coeficiente de correlación intraclase fue introducido originalmente por
Fisher como una formulación especial de la r de Pearson, basándose en un modelo de
12
análisis de la varianza . Las dificultades para interpretar desde el punto de vista clínico
los valores de este coeficiente y otras desventajas metodológicas han hecho que algunos
autores propongan métodos alternativos para estudiar la concordancia de este tipo de
13
variables. Así, Bland y Altman (1995) proponen un método gráfico y muy sencillo,
basado en el análisis de las diferencias individuales, que permite determinar los límites de
concordancia y visualizar de forma gráfica las discrepancias observadas. Recientemente,
14-16
otros métodos de análisis de concordancia han sido propuestos . A continuación, se
procederá a una descripción detallada de algunas de estas técnicas de análisis.
17
variables . Así mismo, al calcularse a partir de los pares ordenados de mediciones, si
17
varía el orden también cambia el valor del coeficiente , mientras que un cambio en las
escalas de medida no afecta a la correlación pero sí afecta a la concordancia. A su vez,
debemos mencionar que la idea de que si el coeficiente de correlación entre dos medidas
es significativamente diferente de cero la fiabilidad es buena, es incorrecto. El coeficiente
de correlación lineal puede ser muy pequeño y resultar significativo si el tamaño muestral
es suficientemente grande. Por último, tampoco la comparación de medias mediante un
1
test t de Student con datos apareados es una técnica adecuada para este tipo de análisis .
Sin embargo, una de las principales limitaciones del CCI es la dificultad de su cálculo, ya
18
que debe ser estimado de distintas formas dependiendo del diseño del estudio . La
forma de cálculo más habitual se basa en un modelo de análisis de la varianza (ANOVA)
con medidas repetidas (Tabla 2). La idea es que la variabilidad total de las mediciones se
puede descomponer en dos componentes: la variabilidad debida a las diferencias entre los
distintos sujetos y la debida a las diferencias entre las medidas para cada sujeto. Esta
última, a su vez, depende de la variabilidad entre observaciones y una variabilidad
residual o aleatoria asociada al error que conlleva toda medición. El CCI se define
entonces como la proporción de la variabilidad total que se debe a la variabilidad de los
sujetos.
En la actualidad el valor del CCI puede obtenerse de modo directo con algunos
programas informáticos como el SPSS. Otra forma sencilla de obtener el valor del CCI es
a partir de una tabla ANOVA para medidas repetidas. Como ejemplo, en la Tabla 3 se
representan los datos de un estudio hipotético en el que se tomó la tensión arterial
sistólica en 30 pacientes utilizando dos métodos diferentes. Si se representan
gráficamente estos datos, indicando el coeficiente de correlación r=0,997 una asociación
prácticamente lineal (Figura 2). A partir de la tabla ANOVA correspondiente (Tabla 4), el
CCI se puede calcular como:
Como toda proporción, los valores del CCI pueden oscilar entre 0 y 1, de modo que la
máxima concordancia posible corresponde a un valor de CCI=1. En este caso, toda la
variabilidad observada se explicaría por las diferencias entre sujetos y no por las
diferencias entre los métodos de medición o los diferentes observadores. Por otro lado, el
valor CCI=0 se obtiene cuando la concordancia observada es igual a la que se esperaría
que ocurriera sólo por azar. A la hora de interpretar los valores del CCI, toda clasificación
es subjetiva, si bien resulta útil disponer de una clasificación como la que proponen otros
6
autores (Tabla 5).
Hasta ahora, se ha presentado la forma más habitual de cálculo del CCI. Para su cálculo
en otras situaciones, así como para la obtención de intervalos de confianza, puede
6,18,19
recurrirse a referencias más especializadas .
cada paciente, así como el porcentaje acumulado de casos en los que se supera cada una
de estas diferencias. A partir de estos datos puede construirse fácilmente la Figura 7, en la
que se muestra el desacuerdo existente entre ambos métodos. Dicho gráfico permite
evaluar si la diferencia tiene o no alguna relevancia desde un punto de vista clínico. Así,
por ejemplo, si establecemos como aceptable un margen de error entre las mediciones de
2 mmHg se obtiene un porcentaje de acuerdo de un 20%, mientras que la concordancia
alcanza el 90% si se admiten diferencias de hasta 8 mmHg, lo cual resulta aceptable
desde un punto de vista clínico.
Al igual que el método propuesto por Bland y Altman, el principal atractivo de esta
alternativa es que permite expresar sus resultados gráficamente, relacionándolos con unos
límites de concordancia preestablecidos según criterios clínicos antes del estudio, lo que
los hace especialmente atractivos para los profesionales sanitarios. Así mismo, permite
contrastar si el grado de acuerdo depende de alguna otra covariable, construyendo
gráficos independientes, uno para cada nivel de la variable. Incluso es posible utilizar el
test del log-rank para testar la existencia de diferencias significativas entre esas curvas.
No obstante, al trabajar con las diferencias absolutas, este método, al contrario que el de
Bland y Altman, no permite observar si existe una diferencia sistemática a favor de
alguna de las dos técnicas u observadores, y tampoco comprobar si la magnitud de dicha
diferencia se modifica en relación a la magnitud de la medida.
Bibliografía
Instrumento A Instrumento B
110 111
120 121
130 131
140 141
150 151
160 161
170 171
180 181
190 191
200 201
n: número de sujetos.
k: número de observaciones por sujeto.
120 123 -3
130 128 2
140 148 -8
110 113 -3
130 132 -2
135 139 -4
140 144 -4
145 152 -7
150 157 -7
155 156 -1
160 171 -11
165 164 1
170 179 -9
175 181 -6
180 184 -4
185 190 -5
190 196 -6
195 203 -8
200 206 -6
Diferencia Porcentaje
Frecuencia
absoluta acumulado
0 1 3,3%
1 5 20,0%
2 7 43,3%
3 3 53,3%
4 4 66,7%
5 1 70,0%
6 3 80,0%
7 2 86,7%
8 2 93,3%
9 1 96,7%
11 1 100,0%
Figura 3. Correlación entre los valores de Tensión Arterial Sistólica medida con
esfigmomanómetro de mercurio en brazo dominante y monitor digital en dedo
índice.
Figura 6. Diferencias en los valores de tensión arterial sistólica (TAS) según dos
métodos de medida A y C en relación con su promedio.
Actualizada el 07/02/2006.
Tabla de contenidos:
Introducción
Antes de exponer las distintas fases que ha de incluir toda revisión sistemática,
es importante destacar las limitaciones metodológicas inherentes a este tipo de
4-7
estudios , a fin de valorar convenientemente la importancia de cada una de
las etapas que se señalarán a continuación. Uno de los principales sesgos que
7
afectan a este tipo de revisiones es el conocido como sesgo de publicación .
Viene derivado del hecho de que muchos trabajos científicos, en su mayoría
con resultados “negativos” (aquellos que no hallan diferencias significativas o
Bibliografía
Arriba
Actualizada el 07/02/2006.
Tabla de contenidos:
Introducción.
El análisis de la heterogeneidad.
Antes de optar por alguno de los distintos métodos estadísticos que permiten
combinar los resultados individuales de cada estudio para obtener un
estimador combinado del efecto, habrá que determinar:
con .
3
Por un lado, en el gráfico de Galbraith se representa la precisión de cada
estudio (el inverso del error estándar de la estimación del efecto) frente al
efecto estandarizado (i.e., la estimación del efecto dividida entre su error
estándar). Se representa también la línea de regresión ajustada a estos puntos
y una banda de confianza, de modo que todos los puntos deberían situarse
dentro de dicha banda. Los puntos fuera de esos márgenes de confianza son
los que mayor variabilidad aportan al análisis. Además, aquellos estudios con
un mayor peso en el metaanálisis serán los de mayor precisión y podrán
identificarse, por lo tanto, a la derecha del gráfico.
4
El gráfico de L’Abbé es otra herramienta útil en el caso de trabajar con una
respuesta binaria (por ejemplo, respuesta a un nuevo tratamiento frente a otro
estándar). En él se representa la proporción de eventos en el grupo control
frente a la proporción de eventos en el grupo de tratamiento. Cada uno de los
puntos en el gráfico representa así el riesgo relativo correspondiente a los
diferentes estudios, de modo que la diagonal que divide el gráfico en dos
secciones dejará a uno de los lados los estudios favorables al grupo de
tratamiento y al otro los favorables al grupo control. La presencia de puntos
dispersos, que no se sitúen de forma paralela a dicha diagonal, indicará posible
heterogeneidad.
estimación correspondiente:
La medida global del efecto así obtenida tendrá una varianza que viene dada
por:
de modo que si se asume que sigue una distribución normal podrá calcularse
Del mismo modo que en el modelo de efectos fijos, el efecto global se estima
aquí como una media ponderada de los estimadores individuales, donde los
pesos se calculan ahora como el inverso de la suma de la varianza del estudio
individual más la varianza entre estudios:
La medida global del efecto así obtenida tendrá una varianza que viene dada
por:
Junto con el análisis de sensibilidad, una vez obtenidos los resultados del
metaanálisis se debe analizar la existencia de un posible sesgo de selección
que pudiese poner en entredicho los resultados alcanzados. Entre los métodos
más utilizados para evaluar la existencia de este tipo de sesgos el más popular
6
es el gráfico de embudo (“funnel plot”), el cual se basa en representar el
tamaño muestral de cada trabajo frente al tamaño del efecto detectado. Lo
normal sería que todos los estudios detectasen un efecto de magnitud similar,
en torno a una línea horizontal, con mayor dispersión cuanto menor fuese el
tamaño muestral. De esta forma, los puntos tenderían a distribuirse en forma
de un embudo invertido. Si, por el contrario, existiese un sesgo de publicación,
de los estudios de menor tamaño muestral solo se publicarían aquellos que
encontrasen diferencias significativas entre los grupos, de forma que la nube
de puntos aparecería deformada en uno de sus extremos. Existen otras
6 7
técnicas estadísticas como la prueba de Begg o de Egger , implementadas en
la mayoría de los programas para la realización de metaanálisis, que permiten
evaluar de una manera más objetiva la existencia de un posible sesgo de
publicación.
Para los datos del ejemplo previo, los resultados del análisis de sensibilidad y
el gráfico “funnel plot” se muestran en las Figuras 4 y 5, respectivamente. Tal
y como se puede apreciar, ninguno de los trabajos parece modificar
sustancialmente los resultados si es eliminado del metaanálisis. Así mismo, la
Figura 5 no evidencia la existencia de sesgo de publicación, lo cual es
refrendado por los resultados de las pruebas de Begg (p=0,720) y Egger
(p=0,316).
0,63-
1 80 20 82 18 1,11
1,97
1,04-
2 40 40 60 30 1,50
2,16
1,03-
3 67 40 80 25 1.57
2,39
0,79-
4 20 34 22 32 1,06
1,44
0,77-
5 387 107 350 100 0,97
1,24
1,22-
6 765 222 830 150 1,47
1,77
0,76-
7 75 30 80 25 1,20
1,89
1,20-
8 703 345 765 240 1,38
1,59
1,19-
9 255 120 290 77 1,53
1,95
0,73-
10 111 45 109 42 1,04
1,48
Tamaño Modelo
Estudio RR IC 95% (RR) Modelo de
muestral de
efectos
efectos
aleatorios
fijos
Efectos
6913 1,2880 1,1504 1,4421
aleatorios
Bibliografía
Arriba