Metodologia de La Investigacion Fisterra

Fisterra: Metodología de la investigación
Guías Clínicas Ayuda en consulta Medicamentos Formación Biblioteca virtual Tienda

Formación - Metodología de la
Investigación
Metodología de la Investigación Mapa Buscador Avanzado
Elementos básicos en el Actualizada el 26/03/2006.

1.
diseño de un estudio
"La medicina es una ciencia de probabilidades y el arte de manejar la incertidumbre..."
Dificultades de los médicos
para la realización de
2.
estudios clínico- Presentación
epidemiológicos La realización de estudios clínico epidemiológicos precisa no solo de tiempo y entusiasmo
Dificultades de la dirigido a responder una pregunta, sino de conocimiento metodológico.
3. Investigación en Atención
Primaria
La estadística y la epidemiología clínica proporcionan los instrumentos metodológicos
Medidas de frecuencia de
adecuados para dicha carrera de obstáculos en la que habitualmente se convierte la
4. enfermedad: incidencia y
realización y publicación de un trabajo.
prevalencia
Cálculo de probabilidades:
5. Los trabajos aquí presentados pretenden proporcionar los principios básicos de diseño,
nociones básicas
Determinación de factores
análisis e interpretación de los resultados que capaciten al lector para entender e incluso
6. realizar dichos estudios.
de riesgo
Determinación de factores
7. Pretendemos abordar conjuntamente aspectos metodológicos, estadísticos y
pronósticos
Número necesario de epidemiológicos ya que todos ellos se precisan para interpretar y realizar un estudio.
8. pacientes a tratar para
reducir un evento (NNTs) Más...
Tipos de estudios clínico Más en Fisterra
9.
epidemiológicos Principios éticos para las investigaciones médicas en seres humanos (Declaración de Helsinki)
10. Estudios experimentales Programas estadísticos para análisis de datos en Internet
en la práctica clínica.
Investigación terapéutica. Más en otros sitios
Ensayos Clínicos Bioestadística: métodos y aplicaciones (Universidad de Málaga)
El consentimiento
Material docente de la Unidad de Bioestadística Clínica (Hospital Ramón y Cajal) - MetaDiSc
11. informado en los Ensayos
Clínicos Páginas sobre bioestadística (SEH-LELHA)
Determinación del tamaño Redes Centinelas Sanitarias en A.P.

12.
muestral Revista Investigación Clínica y Farmacéutica
12.1. Cálculo del
A New View of Statistics
tamaño
The Little Handbook of Statistical Practice
muestral para
la
determinación
de factores
pronósticos
12.2. Cálculo del
tamaño
muestral en
estudios de
casos y
controles
http://www.fisterra.com/mbe/investiga/index.asp (1 of 3)22/04/2006 1:18:08 PM

12.3. Determinación
del tamaño
muestral para
calcular la
significación
del coeficiente
de correlación
lineal
Cálculo del poder
13.
estadístico de un estudio
Significancia estadística y
14.
relevancia clínica
Estadística descriptiva de
15.
los datos
16. La Distribución Normal
Representación gráfica en
17.
el análisis de datos
Métodos paramétricos para
18. la comparación de dos
medias. t de Student
Relación entre variables
19.
cuantitativas
Asociación de variables
20. cualitativas: Test de
Chi-cuadrado
Asociación de variables
cualitativas: test exacto
21.
de Fisher y test de
McNemar
Técnicas de regresión.
22.
Regresión lineal simple
Técnicas de regresión.
23.
Regresión lineal múltiple
24. Análisis de supervivencia
Medidas de concordancia:
25.
El índice Kappa
26. Pruebas diagnósticas
27. Curvas ROC
Investigación cuantitativa y
28.
cualitativa
29. La fiabilidad de las
mediciones clínicas: el
análisis de concordancia
para variable numéricas
30. Revisiones sistemáticas y
metaanálisis
31. Revisiones sistemáticas y
metaanálisis (II)

Salvador Pita Fernández

Médico de Familia
Profesor de la Universidad de A Coruña (España)
[ Correo de contacto ]
Arriba
Mis Datos | Contacto-Sugerencias | FAQ's | Condiciones de uso | Política de

© 2006 fisterra.com
privacidad

Elementos básicos en el diseño de un estudio
Metodología de la Investigación
Atención Primaria en la Red
Principal | MBE | Investigación 08/01/01
Pita Fernández, S. [ Correo de contacto ]

Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A
Coruña (España)
Cad Aten Primaria 1996; 3: 83-85.
La investigación se debe entender como el proceso dedicado a responder a una Contenido

pregunta. Dicha respuesta lo que pretender es aclarar la incertidumbre de nuestro Planteamiento
conocimiento. No se trata de almacenar datos de forma indiscriminada sino que se de un estudio
define como un proceso sistemático, organizado y objetivo destinado a responder a Elementos de la

inferencia
una pregunta. La palabra "sistemático" significa que a partir de la formulación de estadística
una hipótesis u objetivo de trabajo se recogen unos datos según un plan Utilidad de la
preestablecido que, una vez analizados e interpretados, modificarán o añadirán revisión
nuevos conocimientos a los ya existentes (Tabla 1) (1,2). El método científico bibliográfica
parte de la observación de una realidad, se elabora una hipótesis explicativa, se Criterios de una
contrastan las hipótesis y dicha hipótesis se acepta se realizan proposiciones que buena pregunta
forman la teoría científica. Bibliografía
Documento
en PDF (86
TABLA 1. Esquema general del planteamiento de un estudio.
Kb)
● Hipótesis de trabajo ¿Problemas
Objetivos
con PDF?
●
● Diseño de estudio
● Selección de variables
● Definición de variables
● Escala de medida
● Protocolo de recogida de datos
● Selección de la muestra
❍ ¿Cuántos?
❍ ¿Quiénes?
● Recogida de datos
● Automatización de los datos
● Depuración de los datos
● Análisis
● Resultados
● Conclusiones
La epidemiología y la estadística son instrumentos indispensables para la realización de

este proceso. En general podemos decir lo que habitualmente sucede es que de una
población se extrae una muestra, sobre la que se realiza un experimento o medición y los
resultados del mismo se extrapolan nuevamente a la población realizando una
estimación con una seguridad definida completando así la inferencia (Tabla 2) (3,4).
http://www.fisterra.com/mbe/investiga/1diseno/1diseno.htm (1 of 4)22/04/2006 1:18:26 PM

Tabla 2. ELEMENTOS DE LA INFERENCIA ESTADÍSTICA
La definición del objetivo es el eje en torno al cual se construye la estructura del estudio.
Si este objetivo no está claramente definido será difícil tomar decisiones sobre el tipo de
estudio más apropiado, sobre la selección de la muestra, sobre el tamaño muestral, sobre
las variables a medir y sobre el análisis estadístico a realizar.
El problema a investigar debe entenderse como la incertidumbre sobre algún hecho o

fenómeno que el investigador desea resolver realizando mediciones en los sujetos del
estudio. En este proceso es fundamental la realización de la revisión bibliográfica que
como se señala en la tabla 3 presenta importantes utilidades y por consiguiente es
imprescindible (5).
Tabla 3. UTILIDAD DE LA REVISIÓN BIBLIOGRÁFICA

● Fuente de ideas susceptibles de investigación.
● Valoración de los conocimientos actuales sobre el tema.
● Valoración sobre la pertinencia y viabilidad del proyecto.
● Provisión del marco conceptual para la investigación.
● Ayuda en la delimitación del objetivo específico.
● Información sobre aspectos concretos del diseño:
❍ Estrategias
❍ Procedimientos
❍ Pautas de seguimiento
❍ Criterios de selección
❍ Determinación del tamaño de la muestra
❍ Definición de variables
❍ Instrumentos de medición
❍ Prevención de problemas
❍ Análisis estadístico
● Comparación de los propios resultados con estudios similares.
● Contribución a la valoración de la validez extrema.
Fuente: Argimón Pallas J.M., Jiménez Villa J. (5)
La pregunta a investigar debe reunir en definitiva una serie de características que se

señalan en la tabla 4 y que se resumirían diciendo que debe ser factible, interesante,

novedosa, ética y relevante (2).
Tabla 4. CRITERIOS DE UNA BUENA PREGUNTA A INVESTIGAR

● FACTIBLE
❍ Número adecuado de individuos
❍ Experiencia técnica adecuada
❍ Abordable en cuanto a tiempo y dinero
❍ Manejable en cuanto al alcance
● INTERESANTE PARA EL INVESTIGADOR. NOVEDOSA
❍ Confirma o refuta hallazgos previos
❍ Amplia hallazgos previos
❍ Proporciona nuevos resultados
● ÉTICA Y RELEVANTE
❍ Para el conocimiento científico
❍ Para la política clínica sanitaria
❍ Para líneas de investigación futuras
Fuente: Stephen B. Hulley, Steven R. Cummings (2)
La falta de claridad en nuestra pregunta no nos permitirá entre otras cosas poder calcular
el tamaño muestral de nuestro estudio, donde precisaremos conocer la seguridad de
nuestra estimación, la precisión de nuestra inferencia, el poder estadístico o la capacidad
para detectar diferencias si es que existen. Si estos pasos han sido solucionados,
debemos decidir a la vez que tipo de estudio epidemiológico vamos a realizar. Los
estudios epidemiológicos clásicamente se dividen en experimentales y no
experimentales. En los estudios experimentales (ensayos clínicos, ensayos de campo,
ensayos comunitarios) se produce una manipulación de una exposición determinada en
un grupo de individuos que se compara con otro grupo en el que no se intervino, o al que
se expone a otra intervención. Cuando el experimento no es posible se diseñan estudios
no experimentales que simulan de alguna forma el experimento que no se ha podido
realizar (estudios ecológicos, estudios de prevalencia, estudios de casos y controles,
estudios de cohortes o de seguimiento) (6,7).
Tras decidir el tipo de estudio habrá que tener en consideración las amenazas o riesgos
que dicho estudio lleva implícitos; en particular debemos reflexionar sobre los sesgos
del estudio. En el sesgo de selección los grupos no son comparables debido a como
fueron seleccionados los pacientes (elección inadecuada del grupo control, elección
inadecuada del espacio muestral, pérdidas de seguimiento y supervivencia selectiva), en
el sesgo de información los grupos no son comparables debido a como se obtuvieron los
datos (instrumento de medida no adecuado, diagnóstico incorrecto, omisiones,
imprecisiones, vigilancia desigual en expuestos y no expuestos, errores de clasificación,
errores en los cuestionarios o procedimientos…) y finalmente en el sesgo de confusión
existe una mezcla de efectos debido a una tercera o más variables. Esta variable está
asociada con la exposición a estudio e independientemente de la exposición es un factor
de riesgo para la enfermedad. La confusión puede ser controlada en el diseño del estudio
y en el análisis del mismo con lo cual nuestro estudio podría ser válido. La presencia de
sesgos de selección e información podrían ser cuantificados en algunas ocasiones pero
invalidarían el estudio (8).
Podemos afirmar sin lugar a dudas que realizar un estudio es una carrera de obstáculos
que aún no siendo infranqueables, permanentemente están presentes y dificultan a la vez

que hacen atractivo la realización de cualquier trabajo de investigación.
M. Susser en sus reflexiones sobre causalidad (9) señalaba "cuando hay minas por todas
partes no debe uno aventurarse sin un detector de minas". El conocimiento de la
metodología y su aplicación a la práctica clínica debemos considerarla como un
elemento útil, necesario y atractivo pues nos va a permitir aumentar nuestra capacidad
para responder a preguntas a la vez que incrementará nuestra capacidad crítica para
discriminar lo seguro y correcto de lo que no lo es tanto.
Bibliografía
1. Contandriopoulos AP. Champagne F. Potvin L, Denis JL, Boyle P. Preparar un

proyecto de investigación. Barcelona: SG Editores; 1991.
2. Stephen B. Hulley, Steven R. Cummings. Diseño de la investigación clínica. Un
enfoque epidemiológico. Barcelona: Doyma; 1993.
3. Beth Dawson-sauders, Robert G. Trapp. Bioestadística Médica México, D.F.:
Editorial el Manuel Moderno; 1993.
4. J.S. Milton, J.O. Tsokos. Estadistica para biología y ciencias de la salud. Madrid:
Interamericana-McGraw Hill; 1989.
5. Argimón Pallas J.M. Jimenez Villa J. Métodos de Investigación aplicados a la
atención primaria de salud. Barcelona: Ediciones Doyma; 1991.
6. Hennekens CH, Buring JE. Epidemioloy in Medicine. Boston: Little Brown and
Company; 1987.
7. Kelsey JL, Thompson WD, Evans AS. Methods in Observational Epidemiology.
New York: Oxford University Press; 1986.
8. Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic research. Principles
and Quantiative Methods. Belmont. California: Lifetime Learning Publications;
1982.
9. Susser M. Conceptos y estrategias en epidemiología. El pensamiento causal en
ciencias de la salud. México: Biblioteca de la Salud; 1991.
Arriba | Página Principal | Material para la Consulta | Metodología de la Investigación

Dificultades de los médicos para la realización de estudios clínico-epidemiológicos
Dificultades de los médicos para la realización

de estudios clínico-epidemiológicos

Coruña (España)
Ponencia: Congreso Galego de Estadística e Investigación de Operacións.
Santiago de Compostela, A Coruña (España). 11-13 Novembre-1999
La práctica médica diaria requiere la toma de decisiones sobre actividades Contenido

preventivas, diagnósticas, terapéuticas y pronósticas basadas en cálculo de Planteamiento
probabilidades que pretenden delimitar la incertidumbre que envuelve la práctica de de un estudio
la medicina. Con frecuencia existen dificultades para trasladar los resultados de una Dificultades en
relación a la
investigación a la práctica clínica por la forma en que habitualmente se presentan viabilidad y
los resultados en términos de: p<0.05, p<0.01, riesgo relativo, odds ratio, reducción pertinencia de
absoluta del riesgo, reducción relativa del riesgo, fracción atribuible poblacional o un estudio
fracción etiológica. A este lenguaje con el que muchos profesionales sanitarios no Problemas
están familiarizados y tienen dificultades para su compresión (1,2) se suma el hecho estadísticos de
los ensayos
que además los resultados de un estudio pueden ser estadísticamente significativos
clínicos
y no ser clínicamente relevantes (3).
Bibliografía
Documento
El método científico parte de la observación de una realidad, se elabora una en PDF (54
hipótesis explicativa, se contrastan las hipótesis y si dicha hipótesis es aceptada se Kb)
realizan proposiciones que forman la teoría científica. Dicho procedimiento requiere ¿Problemas
un proceso sistemático, organizado y objetivo destinado a responder a una pregunta con PDF?
(Tabla 1) (4,5) que los profesionales sanitarios perciben como una carrera infinita
de obstáculos. En este contesto de dificultad muchos profesionales sanitarios acuden a los
epidemiólogos y estadísticos solicitando diferentes tipo de ayudas. Así algunos acuden
solamente para que se les calcule una "p", otras acuden porque quieren cruzar variables,
otros a que le "echen los números", otros a que se les calcule el tamaño de la muestra y
otros cada vez más numeroso a que se les ayude a diseñar el estudio desde el principio.
TABLA 1. Esquema general del planteamiento de un estudio.
http://www.fisterra.com/mbe/investiga/2dificultades/2dificultades.htm (1 of 6)22/04/2006 1:18:47 PM

● Hipótesis de trabajo
● Objetivos
● Diseño de estudio
● Selección de variables
● Definición de variables
● Escala de medida
● Protocolo de recogida de datos
● Selección de la muestra
❍ ¿Cuántos?
❍ ¿Quiénes?
● Recogida de datos
● Automatización de los datos
● Depuración de los datos
● Análisis
● Resultados
● Conclusiones
Las dificultades que presentan los médicos para entender el lenguaje y/o metodología de
los estadísticos y epidemiólogos radica fundamentalmente y entre otras razones en que
ambos trabajan en escenarios diferentes. Los clínicos y los epidemiólogos/estadísticos
deben de resolver problemas diferentes. El clínico trabaja con un paciente que conoce por
nombre y apellidos, sabe sus antecedentes y hasta conoce a su familia, los estadísticos
estudian a los pacientes de cien en cien o de mil en mil y siempre le dicen al clínico que
tiene pocos pacientes. El clínico desea realizar un diagnóstico concreto a un paciente
determinado y el estadístico le habla de curvas ROC, valores predictivos, sensibilidad,
especificidad.... El clínico quiere concretar la causa de la enfermedad y el estadístico le
calcula un OR (odds ratio) un RR (riesgo relativo), 95% intervalos de confianza y
gradientes biológicos controlando eso sí por confusión con técnicas de regresión
múltiple. El clínico desea conocer la mejor terapéutica y el estadístico le calcula
reducciones relativas de riesgo, reducciones absolutas y número necesario de pacientes a
tratar para prevenir un evento. El clínico desea conocer el pronóstico de un paciente
determinado y el estadístico le habla de Kaplan-Meier, de asunción de riesgos
proporcionales y de regresiones de Cox. Ambos abordan problemas en escenarios
diferentes de los cuales ambos logran objetivos diferentes, el clínico se centra en el
paciente y los estadísticos y epidemiólogos se centran en la enfermedad (6,7). A parte de
los problemas estrictamente metodológicos los profesesionales sanitarios deben a su vez
afrontar problemas en relación con la viabilidad y pertinencia de los diferentes estudios
como se indican en la tabla 2. El disponer del tiempo, independientemente del
conocimiento metodológico, es uno de los importantes problemas que todos los
profesionales sanitarios acusan como muy importante.
TABLA 2. Dificultades en relación a la viabilidad y pertinencia de un estudio.

● Viabilidad
Disponibilidad de tiempo
❍
Conocimiento metodológico
❍
❍ Disposición de grupos de apoyo metodológico, estadístico, informático

❍ Disponibilidad de número de pacientes suficientes
❍ Utilización de variables que puedan medirse y cuantificarse
❍ Colaboración con otros profesionales, equipos o centros
❍ Disponibilidad de recursos económicos
❍ Consideraciones ético-legales
❍ Experiencia del investigador
● Pertinencia
❍ La pregunta planteada no ha sido contestada, lo ha sido de forma contradictoria

o se requiere adecuarla a la propia práctica
❍ Importancia del problema:
Frecuencia
■
Gravedad
■
■ Interés social
■ Beneficios que pueden derivarse de los resultados
■ Importancia de su valor teórico
❍ Los resultados espereables compensan los recursos utilizados
Los problemas que presentas los clínicos para la ejecución de diferentes tipos de estudios
clínico epidemiológicos no son solo puramente estadísticos como lo muestra el resultado
de la evaluación de los 454 ensayos clínicos evaluados por el comité ético de ensayos
clínicos de la Comunidad Autónoma de Galicia que siguiendo los procedimientos
normalizados de trabajo se presentan en la tabla 3 (8). La causa más frecuente de
valoración positiva condicional o negativa han sido los aspectos éticos entendiendo como
tales y por orden de frecuencia: la información al paciente/consentimiento informado,
póliza de seguros/indemnización, consideraciones éticas generales y contenidos del
presupuesto económico. Los problemas de análisis estadístico figuran en último lugar. Es
evidente que este hallazgo refleja la realidad de que el aspecto cuantitativo del ensayo
este diseñado por grupos de expertos conocedores la metodología cuantitativa que la
industria farmacéutica posee.
TABLA 3. Dictamen final de todos los ensayos clínicos evaluados por el Comité Etico de
investigación Clínica de Galicia (Octubre/1996 a Octubre/1999).
N %
Procedentes 337 74.2
Procedente condicionado 61 13.4
No procedente 43 9.5
Retirado 12 2.6
Otros 1 0.2
TOTAL 454 100
Causas de valoración positiva condicional o negativa
Aspectos éticos 49.1 %
Investigador Principal (falta de firma del proyecto...) 8.4 %
Selección de los pacientes 8.3 %
Justificación y objetivos 6.8 %

Consideraciones prácticas 5.6 %

Tipo de ensayo clínico y diseño del mismo 5.6 %
Descripción del tratamiento 3.6 %
Desarrollo del ensayo y evaluación de la respuesta 3.4 %
Análisis estadístico 2.4 %
Otras causas 6.8 %
Los problemas estrictamente estadísticos de los ensayos clínicos han sido por otra parte
señalados por Pocock (9) y se resumen en la tabla 4.
Tabla 4. Problemas estadísticos de los ensayos clínicos

● Múltiples "end points".
● Los resultados de objetivos secundarios deben presentarse como datos exploratorios.
● Si no hay suficiente poder estadístico los análisis de subgrupos deben evitarse.
● Los ensayos con medidas repetidas en el tiempo requieren un abordaje estadístico de análisis
diferente y los test estadísticos repetidos en cada punto en el tiempo deben evitarse.
● En ensayos con más de dos tratamientos el tratamiento primario de contraste debe claramente
indicarse y enfatizarse en el informe.
● Limitar el número de test estadísticos realizados.
● Poner el valor exacto de la p, indicar la magnitud del efecto del tratamiento y sus intervalos de
confianza.
● El tamaño muestral y su justificación deben indicarse en el diseño.
● Los análisis y frecuencia de análisis intermedios a realizar deben estar claramente definidos.
● La decisión de parar el estudio debe basarse en criterios estadísticos claramente definidos e
indicados en el diseño.
● El resumen mencionará la magnitud del efecto del tratamiento más que su significancia
estadística.
Una parte importante de la investigación que se realiza en el ámbito de la atención

primaria en nuestro país se presenta en los congresos nacionales de Medicina Familiar y
Comunitaria. En el año 1993 nosotros pusimos en marcha un sistema de evaluación de
las comunicaciones que se presentan en los congresos nacionales de esta especialidad
(10). Dicho sistema pretende identificar las causas de denegación de los trabajos que se
rechazan considerando las normas de presentación, la originalidad, el interés y la
metodología. En dicho año se aceptaron 358 comunicaciones (54.9%) de un total de 652,
siendo las causas de exclusión las que se resumen en la tabla 5. En dicho análisis se
objetivó que los problemas más frecuentemente detectados han sido la falta de
originalidad, resúmenes mal estructurados que no aportaban elementos de valoración,
conclusiones que no se derivaban del estudio y estudios no apropiados para alcanzar los
objetivos del mismo.
En las fases de una investigación clinico-epidemiológoica la colaboración del

bioestadístico con los profesionales sanitarios consideramos que es de suma utilidad para
activamente participar en apartados como: selección de la variable respuesta, definición
de los criterios de selección de la población de estudio, elección de la técnica de
selección de los sujetos, cálculo del número de sujetos necesarios, selección de las
variables que deben ser medidas, estimación de la magnitud del efecto o respuesta
observada, control de factores de confusión e interpretación de los resultados.
Señalábamos inicialmente que los problemas que presentan los profesionales sanitarios

para la ejecución de estudios clínico-epidemiológicos son múltiples y como hemos

indicado no solo se limitan a problemas estrictamente metodológicos y estadísticos sino
que se deben abordar además problemas éticos y problemas de originalidad entre otros.
La estadística y el método epidemiológico consideramos que pretenden aportar más
ciencia al arte de la medicina y es por ello que la colaboración de expertos en
metodología, bioestadísticos y los clínicos deben conjuntamente colaborar para en un
esfuerzo conjunto reducir la variabilidad que rodea al ejercicio de la medicina que es una
ciencia de probabilidades y un arte de manejar la incertidumbre.
TABLA 5. Causas de denegación de comunicaciones. XIII Congreso Nacional de Medicina

Familiar y Comunitaria (9)
Presentación
n %
No cumple las normas de aceptación
Ilegible
17 5.8
Tachaduras o erratas graves
Abreviaturas no explicadas
Originalidad
112 38.1 Tema reiteradamente expuesto
Interés para la atención primaria
El tema de investigación no está, o lo está escasamente relacionado con la
14 4.8
Atención Primaria
Metodología
36 12.2 Objetivos mal definidos
79 26.9 El tipo de estudio no es apropiado para alcanzar los objetivos del estudio
19 6.5 Selección de muestra inadecuada
13 4.4 Tamaño de muestra inadecuada
49 16.7 Presencia de sesgos de selección información o confusión que invalidan el estudio
12 4.1 La inferencia es incorrecta
35 11.9 Resultados no cuantificados
26 8.8 Análisis incorrecto del estudio
31 10.5 Presentación inadecuada de resultados
14 4.8 No hay conclusiones
80 27.2 Las conclusiones no se derivan del estudio realizado o de los resultados obtenidos
83 28.2 Trabajo invalorable pues no aporta elementos
Bibliografía
1. Greenwood M. The statistician and medical research. BMJ 1948; 2:467-8.

2. Berwick DM, Fineberg HV, Weinstein MC. When doctors meet numbers. Am J
Med 1981; 71:991-998. [Medline]
3. Laupacis A, Sackett DI, Roberts RS. An assesment of clinically useful measures
of the consequences of treatment. N. Engl J Med 1988; 318: 1728-1733. [Medline]
4. Contandripoulos AP, Champagne F. Potvin L, Denis JL, Boyle P. Preparar un
proyecto de investigación. Barcelona: SG Editores; 1991.
5. StephenB. Hulley, Steven R. Cummings. Diseño de la investigación clínica. Un

enfoque epidemiológico. Barcelon. Doyma; 1993.

6. Jenicek M. Cléroux R. Epidemiología. Principios-Técnicas-Aplicaciones.
Barcelona; Salvat; 1988.
7. Sackett DL, Haynes RB , Guyatt GH, Tugwell P. Epidemiología clínica. Ciencias
básicas para la medicina clínica, 2ª ed. Madrid: Editorial Médica Panamericana;
1994.
8. Memoria. Comité Etico de investigación Clínica de Galicia 1996-1999. División
de Farmacia e Productos Sanitarios. Santiago: Xunta de Galicia, Servicio Galego
de Saude; 1999.
9. Pocock SJ. Hughes MD, Lee RJ. Statistical Problemas in the reporting of clinical
trials. A survey of Three Meical Journals. N Eng J Med 1987; 317: 426-32.
[Medline]
10. Pita Fernández S. Evaluación de comunicaciones del XIII Congreso de Medicina
Familiar y Comunitaria (La Coruña). Aten Primaria 1994; 13: 150-152. [Medline]

Dificultades de la Investigación en A.P.

Formación - MBE - Metodología de
la Investigación
Metodología de la
Mapa Buscador Avanzado
Investigación
Dificultades de la investigación en Atención Primaria
Autores:
(1) (2)
Salvador Pita Fernández , Sonia Pértega Díaz
(1) Médico de Familia. Centro de Salud de Cambre (A Coruña).
(2) Unidad de Epidemiología Clínica y Bioestadística. Complejo Hospitalario Juan Canalejo
(A Coruña).
Actualizada el 30/04/2005.
Tabla de contenidos:
Tablas Imprimir documento [145 Kb] ¿Problemas con

Tabla 1. Dificultades para la PDF?
investigación en Atención Primaria -----------------------

Figuras
Tabla 2. Principales dificultades Figura 1. Nº de comunicaciones
para la investigación en A.P. presentadas a Congresos nacionales
Tabla 3. Aspectos positivos para semFYC
hacer investigación en A.P. Figura 2. Comunidades autónomas
según su producción científica por
Tabla 4. Condiciones para mejorar
100.000 habitantes. Período 1990-1997.
la investigación en A.P.
Figura 3. Comunidades autónomas
Bibliografía según su producción científica por 100
facultativos. Período 1990-1997.
La medicina es una ciencia de probabilidades y un arte de manejar la

incertidumbre. Dicha incertidumbre invade la práctica clínica que realizamos
diariamente cuando ponemos en marcha actividades preventivas,
diagnósticas, terapéuticas y pronosticas. Es por ello que el buscar respuestas a
dicha incertidumbre es una fuente inagotable de investigación. La atención
sanitaria junto con la docencia y la investigación son a su vez actividades
cotidianas en atención primaria. Inicialmente la investigación se producía en
los ámbitos hospitalarios y universitarios considerándose la atención primaria
como incapaz de realizar este tipo de actividad (1). Aunque se ha producido un
incremento sustancial en el número de publicaciones en el ámbito de la
atención primaria no se ha alcanzado el grado de desarrollo que le
corresponde en relación con la importancia de la misma (2). Según el informe
bibliométrico del Fondo de Investigaciones Sanitarias (3) la práctica totalidad
de la producción científica reunida bajo el epígrafe "Centros Sanitarios"
http://www.fisterra.com/mbe/investiga/difInvestAP/difInvesAP.asp (1 of 8)22/04/2006 1:18:55 PM

proviene de la firma de centros hospitalarios. Los documentos citables

provenientes de centros de asistencia primaria sólo constituyen el 0.4% del
total de este sector institucional.
Es evidente que existen dificultades importantes para la realización de

investigación en nuestro ámbito de trabajo derivadas de la dispersión en el
trabajo, el exceso de tareas a realizar, excesiva presión asistencial y por tanto
falta de tiempo, falta de incentivos profesionales, falta de formación, falta de
estructuras de apoyo y necesidad de favorecer la coordinación de las iniciativas
investigadoras (Tabla 1) (4-6). Estas dificultades no solo las presentan los
profesionales de nuestro país sino que también están presentes en
profesionales de otros países como el Reino Unido donde un 92% identifica la
falta de tiempo como barrera principal (7). La presión asistencial y la falta de
tiempo son hallazgos por otro lado constantemente presentes para realizar
actividades investigadoras en diferentes publicaciones y en diferentes
países (8,9). Los identificados como principales motivos para la realización de
investigación en atención primaria en nuestro país se muestran en la Tabla
2 (10, 11). La falta de tiempo secundaria a la enorme presión asistencial hace
que la investigación en atención primaria aún teniendo conocimientos
metodológicos sea una misión imposible.
Tabla 1. Dificultades para la investigación en Atención

Primaria.
● Importante presión asistencial.

● Falta de tiempo.
● Falta de conocimiento metodológico.
● Dispersión en el trabajo.
● Falta de reconocimiento:
❍ No figura dentro de los objetivos de
gestión en Atención Primaria.
❍ No valorada adecuadamente en los
baremos.
❍ No existe carrera profesional que la
contemple.
● Falta de motivación.
● Falta de estructuras de apoyo.
● Dificultades de financiación.
● Escasa tradición investigadora.
Tabla 2. Principales dificultades para la investigación en

Atención Primaria.

Principales dificultades (10)

● Falta de tiempo.
● Ausencia de motivación.
● Falta de formación y recursos.
Estudios con técnicas multivariadas (11) identifican y

asocian la investigación con:
● La formación.
● El trabajo en unidades docentes.
● El trabajar en centros con mayor número de
profesionales.
A su vez han sido identificados la existencia de problemas metodológicos en

los trabajos publicados por dichos profesionales como estudio de muestras de
tamaño reducido, procedentes casi exclusivamente de la población
demandante y insuficiente uso de técnicas de muestreo aleatorio (12).
Independientemente del incremento de comunicaciones a los congresos
nacionales de la SEMFYC (Figura 1) diferentes razones han sido identificadas
para excluir trabajos en congresos nacionales por falta de originalidad, interés
para la atención primaria o causas metodológicas (13).
Figura 1. Número de comunicaciones presentadas a Congresos Nacionales semFYC

A pesar de las dificultades existentes y del reducido porcentaje relativo de la

producción científica respecto a otros ámbitos, la producción científica en la
atención primaria experimenta un incremento progresivo. En el período 1990-
1997 se produjo un incremento de la producción científica de los profesionales
de atención primaria ,a juzgar por los artículos recuperables por MEDLINE.
Dicho incremento alcanza el 73.7% de los artículos publicados en la revista
Atención Primaria, el 22.6% en otras revistas nacionales y el 3.7% en revistas
extranjeras (14).
Por otra parte existen a su vez desigualdades en la producción científica en el

ámbito de la atención primaria en diferentes autonomías como se objetiva en
la Figura 2 y figura 3 (14).
En atención primaria como en otros ámbitos asistenciales hay falta de

evidencias y dado que la atención medica de calidad debe basarse en el
conocimiento la investigación es irrenunciable (15). Hemos además de tener
en consideración que la atención primaria tiene unas características propias
que la identifican como son, la atención continua a los pacientes y que por
tanto nos permite tener una visión muy precisa de la historia natural de la
enfermedad. A su vez la accesibilidad que por una lado sobrecarga o puede
sobrecargar nuestra labor asistencial nos permite tener acceso a una
población que de otra forma no sería tan accesible. La incertidumbre en la
práctica clínica es por otro lado una constante y el conocerla, delimitarla y
reducirla a la mínima expresión posible es un reto de nuestra actividad (Tabla
3).
Tabla 3. Aspectos positivos para realizar investigación en

Atención Primaria.
● La Atención Primaria dispone de un campo

específico de conocimientos.
● Se atienden estadios más precoces de la
enfermedad que en otros ámbitos
especializados.
● Se puede investigar en salud.
● Existe una relación continua con los pacientes.
● Situación de privilegio para el estudio natural
de la enfermedad.
● Mayor facilidad de acceso a la población.
● En Atención Primaria es donde se atienden las
patologías más prevalentes.
● Existe inquietud entre los profesionales.
● Existe incertidumbre:
❍ ¿Se puede evitar la aparición de la
enfermedad?
❍ ¿La detección precoz mejora el
pronóstico?

❍ ¿Cuál es el diagnóstico?
❍ ¿Qué prueba diagnóstica debería pedir?
❍ ¿Qué tratamiento es el mejor para el
paciente?
❍ ¿Cómo será la evolución tras el
tratamiento?
● Existe gran variabilidad en la práctica clínica
entre los profesionales que debe ser
investigada.
A pesar de las dificultades que hacen que hacen aún teniendo conocimientos
metodológicos, el realizar investigación en atención primaria sea una misión
imposible, como previamente hemos señalado, no quiero terminar dando un
mensaje de pesimismo ya que entre otras razones los profesionales sanitarios
debemos ser dispensadores de esperanza. Es posible realizar investigación en
atención primaria pues la evidencia científica y la producción científica en otras
autonomías y en otros países así lo han demostrado. Para ello hay que
establecer las condiciones mínimas que realmente lo permitan como son que
las Gerencias crean en ella, que forme parte de sus objetivos, que pongan los
recursos necesarios para su realización y que se incentive a los profesionales
(Tabla 4).
Tabla 4. Condiciones para mejorar la investigación en

Atención Primaria
● Debe formar parte de los objetivos de gestión

en Atención Primaria.
● Establecer por parte de la Administración
líneas prioritarias de investigación.
● Potenciación de las actividades científicas.
● Promover la existencia de grupos
multicéntricos.
● Incentivar a los profesionales de Atención
primaria:
❍ Profesionalmente.
❍ Formativamente.
❍ Económicamente.
● Formación en Metodología de la investigación.
● Apoyo estadístico y metodológico a grupos de
investigadores.
● Proporcionar tiempo dentro de la jornada
laboral para realizar dicha actividad.
● Evaluar la producción científica de los
profesionales.
● Introducción de la Atención Primaria/Medicina
de Familia como área de conocimiento en la

Universidad.
● Creación de departamentos de Medicina de
Familia en la Universidad.
La finalidad de la investigación en medicina debe ser el análisis del proceso de

enfermar y como enfrentarse a él. Por tanto es primordial enfocar la
investigación hacia la eficacia clínica. Las sociedades científicas, las unidades
docentes, las unidades de investigación, las redes de investigación, los
departamentos universitarios deben procurar estructuras organizativas
diferenciadas que favorezcan la obtención de recursos para seguir potenciando
la investigación y por tanto permitan el ejercicio de la medicina y de la
práctica clínica basada en el conocimiento. Dicha actividad no solo
proporcionará una atención médica de calidad a los pacientes objetivo principal
de nuestro trabajo sino que será un incentivo de satisfacción profesional para
los que la ejecuten.
Figura 2. Comunidades autónomas según su producción científica por 100.000 habitantes.

Período 1990-1997.
Figura 3. Comunidades autónomas según su producción científica por 100 facultativos.

Período 1990-1997.

Bibliografía
1. Martín Zurro A. Investigación en atención primaria. En: Argimón Pallás

JM, Jiménez Villa J, eds. Métodos de investigación aplicados a la atención
primaria de salud. Barcelona: Doyma, 1991.
2. Jiménez Villa J. Investigación y atención primaria. Aten primaria 1999;
23 [Supl. 1]: 66-70. [Medline]
3. Camí J, Suñen E, Carbó JM, Coma L. Producción Científica Española en
Biomedicina y Ciencias de la Salud (1994-2000). [Internet]. Informe del
Instituto de Salud Carlos III-Fondo de Investigación Sanitaria. [Acceso 20
de Abril de 2005]. Disponible en: http://www.isciii.es/sgis/mapa
4. Fernández Fernández I. ¿Investigación en atención primaria? Aten
Primaria 2003; 31(5): 281-4. [Medline] [Texto completo]
5. Vega Cubillo E, García Sánchez JA, García Ortega P, Carvajal A. La
investigación en atención primaria debe ser potenciada. Aten Primaria
2002; 30(3): 97. [Medline] [Texto completo]
6. de la Fuente JA, Mercader J, Borrell C, Martín C, Birules M, Marcos L,
Fernández de Sanmamed MJ. Factores relacionados con la actividad
investigadora de los médicos de atención primaria. Aten Primaria. 1997;
19(6): 283-9. [Medline] [Texto completo]
7. Jowett SM, Macleod J, Wilson S, Hobbs FD. Research in primary care:
extent of involvement and perceived determinants among practitioners

from one English region. Br J Gen Pract. 2000; 50(454): 387-9. [Medline]
8. Falk WA.Research in general practice. Can Med Assoc J. 1979; 120(10):
1198-200. [Medline]
9. Culpepper L, Franks P. Family medicine research. Status at the end of the
first decade. JAMA. 1983; 249(1): 63-8.
10. Llovera Canaves J. Reflexionando sobre los obstáculos en la investigación
de atención primaria. Opinión de los investigadores. En: Documentos de
trabajo sobre investigación en Atención Primaria. FIS; 1996.
11. Fernández de Sanmamed MJ, De la Fuente JA, Mercader J, Borrel C,
Martín C, Birulés M, Marcos L. Factores relacionados con la actividad
investigadora de los médicos de atención primaria. Aten Primaria 1997;
19: 283-289. [Medline] [Texto completo]
12. López Fernández LA, Martínez Millán JI, García Calvente MM, March Cerdá
JC. La investigación en atención primaria en España. Revisiones en Salud
Pública 1993;.3:.135-154.
13. Pita Fernández S. Evaluación de las comunicaciones del XIII Congreso de
Medicina Familiar y Comunitaria (La Coruña). Aten Primaria 1994; 13
(3): 150-2. [Medline]
14. Simo Miñana J, Gaztambide Ganuza M, Latour Pérez J. Producción
científica de los profesionales españoles de atención primaria (1990-
1997). Un análisis bibliométrico a partir de MEDLINE. Aten Primaria
1999; 23 [Supl. 1]: 14-28. [Medline]
15. Gómez de la Cámara A. La investigación en atención primaria. El ensayo
clínico y los estudios observacionales de productos farmacéuticos. Aten
Primaria 1999; 24: 431-435. [Medline] [Texto completo]
Arriba
Mis Datos | Contacto-Sugerencias | FAQ's | Condiciones de uso | Política

de privacidad

Medidas de frecuencia de enfermedad: incidencia y prevalencia
Medidas de frecuencia de enfermedad
Pita Fernández S (1) [ Correo de contacto ], Pértegas Díaz S (1), Valdés Cañedo F (2)
(1) Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario-Universitario
Juan Canalejo. A Coruña (España).
(2) Servicio de nefrología. Complexo Hospitalario-Universitario Juan Canalejo. A Coruña
(España).
La epidemiología tiene entre uno de sus objetivos primordiales el estudio de la Contenido

distribución y los determinantes de las diferentes enfermedades. La cuantificación Proporción -
y la medida de la enfermedad o de otras variables de interés son elementos Razón - Tasa
fundamentales para formular y testar hipótesis, así como para permitir comparar las Prevalencia
frecuencias de enfermedad entre diferentes poblaciones o entre personas con o sin - Prevalencia de
periodo
una exposición o característica dentro de una población determinada.
Incidencia
- Incidencia
La medida más elemental de frecuencia de una enfermedad, o de cualquier otro acumulada
evento en general, es el número de personas que la padecen o lo presentan (por - Tasa de
ejemplo, el número de pacientes con hipertensión arterial, el número de fallecidos incidencia
por accidentes de tráfico o el número de pacientes con algún tipo de cáncer en los (densidad de
incidencia)
que se ha registrado una recidiva). Sin embargo, dicha medida por sí sola carece
Relación entre
de utilidad para determinar la importancia de un problema de salud determinado, incidencia y
pues debe referirse siempre al tamaño de la población de donde provienen los prevalencia
casos y al periodo de tiempo en el cual estos fueron identificados. Para este Bibliografía
propósito, en epidemiología suele trabajarse con diferentes tipos de fracciones que Tablas y Figuras
permiten cuantificar correctamente el impacto de una determinada enfermedad: Figura 1.
Documento
a. Proporción: es un cociente en el que el numerador está incluido en el en PDF (52
denominador. Por ejemplo, si en una población de 25.000 habitantes se Kb)
¿Problemas
diagnostican 1.500 pacientes con diabetes, la proporción de diabetes en esa
con PDF?
población es de 1.500/25.000 = 0.06 (6%). El valor de una proporción
puede variar así de 0 a 1, y suele expresarse como un porcentaje.
b. Razón: En este cociente el numerador no forma parte del denominador. En el
ejemplo anterior, la razón entre la población con diabetes y la población no
diabética es de 1.500/23.500 = 3/47 =0,064. Cuando, como en el caso del
ejemplo, la razón se calcula entre la probabilidad de que ocurra un evento y la
probabilidad de que éste no ocurra, la razón recibe también el nombre de odds.
En el ejemplo, la odds de diabetes es de 0,06, es decir, en el área de estudio por
cada 1/0,064 = 16,7 pacientes no diabéticos hay 1 que sí lo es.
El valor de una odds puede ir de 0 a infinito. El valor 0 corresponde al caso en que la

enfermedad nunca ocurre, mientras que el valor infinito correspondería teóricamente a
una enfermedad que esté siempre presente. En realidad, una proporción y una odds
miden el mismo evento pero en escalas diferentes, y pueden relacionarse mediante las
http://www.fisterra.com/mbe/investiga/medidas_frecuencia/med_frec.htm (1 of 8)22/04/2006 1:19:08 PM

fórmulas siguientes:
c. Tasa: El concepto de tasa es similar al de una proporción, con la diferencia de

que las tasas llevan incorporado el concepto de tiempo. El numerador lo
constituye la frecuencia absoluta de casos del problema a estudiar. A su vez, el
denominador está constituido por la suma de los períodos individuales de riesgo a
los que han estado expuestos los sujetos susceptibles de la población a estudio. De
su cálculo se desprende la velocidad con que se produce el cambio de una
situación clínica a otra.
En epidemiología, las medidas de frecuencia de enfermedad más comúnmente utilizadas

1-6
se engloban en dos categorías : Prevalencia e Incidencia.
Prevalencia
7
La prevalencia (P) cuantifica la proporción de individuos de una población que
padecen una enfermedad en un momento o periodo de tiempo determinado. Su cálculo se
estima mediante la expresión:
Para ilustrar su cálculo, consideremos el siguiente ejemplo: en una muestra de 270

habitantes aleatoriamente seleccionada de una población de 65 y más años se objetivó
que 111 presentaban obesidad (IMC≥30). En este caso, la prevalencia de obesidad en ese
grupo de edad y en esa población sería de:
Como todas las proporciones, la prevalencia no tiene dimensión y nunca toma valores
menores de 0 ó mayores de 1, siendo frecuente expresarla en términos de porcentaje, en
tanto por ciento, tanto por mil,... en función de la “rareza” de la enfermedad estudiada.
La prevalencia de un problema de salud en una comunidad determinada suele estimarse a
partir de estudios transversales para determinar su importancia en un momento concreto,
y no con fines predictivos. Además, es evidente que el cálculo de la prevalencia será
especialmente apropiado para la medición de procesos de carácter prolongado, pero no
tendrá mucho sentido para valorar la importancia de otros fenómenos de carácter más
momentáneo (accidentes de tráfico, apendicitis, infarto de miocardio,...).
Otra medida de prevalencia utilizada en epidemiología, aunque no con tanta frecuencia,

es la llamada prevalencia de periodo, calculada como la proporción de personas que

han presentado la enfermedad en algún momento a lo largo de un periodo de tiempo

determinado (por ejemplo, la prevalencia de cáncer en España en los últimos 5 años). El
principal problema que plantea el cálculo de este índice es que la población total a la que
se refiere puede haber cambiado durante el periodo de estudio. Normalmente, la
población que se toma como denominador corresponde al punto medio del periodo
considerado. Un caso especial de esta prevalencia de periodo, pero que presenta
importantes dificultades para su cálculo, es la llamada prevalencia de vida, que trata de
estimar la probabilidad de que un individuo desarrolle una enfermedad en algún
momento a lo largo de su existencia.
Incidencia
8
La incidencia se define como el número de casos nuevos de una enfermedad que se
desarrollan en una población durante un período de tiempo determinado. Hay dos tipos
de medidas de incidencia: la incidencia acumulada y la tasa de incidencia, también
denominada densidad de incidencia.
La incidencia acumulada ( IA) es la proporción de individuos sanos que desarrollan la

enfermedad a lo largo de un período de tiempo concreto. Se calcula según:
La incidencia acumulada proporciona una estimación de la probabilidad o el riesgo de

que un individuo libre de una determinada enfermedad la desarrolle durante un período
especificado de tiempo. Como cualquier proporción, suele venir dada en términos de
porcentaje. Además, al no ser una tasa, es imprescindible que se acompañe del periodo
de observación para poder ser interpretada.
Por ejemplo: Durante un período de 6 años se siguió a 431 varones entre 40 y 59 años
sanos, con colesterol sérico normal y tensión arterial normal, para detectar la presencia
de cardiopatía isquémica, registrándose al final del período l0 casos de cardiopatía
isquémica. La incidencia acumulada en este caso sería:
en seis años
La incidencia acumulada asume que la población entera a riesgo al principio del estudio
ha sido seguida durante todo un período de tiempo determinado para observar si se
desarrollaba la enfermedad objeto del estudio. Sin embargo, en la realidad lo que sucede
es que:
a. Las personas objeto de la investigación entran en el estudio en diferentes

momentos en el tiempo.
b. El seguimiento de dichos sujetos objeto de la investigación no es uniforme ya que
de algunos no se obtiene toda la información.

c. Por otra parte, algunos pacientes abandonan el estudio y sólo proporcionan un

seguimiento limitado a un período corto de tiempo.
Para poder tener en consideración estas variaciones de seguimiento existentes en el

tiempo, una primera aproximación sería limitar el cálculo de la incidencia acumulada al
período de tiempo durante el cual la población entera proporcionase información. Esto de
todos modos haría que perdiésemos información adicional del seguimiento disponible en
alguna de las personas incluidas. La estimación más precisa es la que utiliza toda la
información disponible es la denominada tasa de incidencia o densidad de incidencia
(DI). Se calcula como el cociente entre el número de casos nuevos de una enfermedad
ocurridos durante el periodo de seguimiento y la suma de todos los tiempos individuales
de observación:
El total de personas-tiempo de observación (suma de los tiempos individuales de

observación) es la suma de los períodos de tiempo en riesgo de contraer la enfermedad
correspondiente a cada uno de los individuos de la población. La suma de los períodos de
tiempo del denominador se mide preferentemente en años y se conoce como tiempo en
riesgo. El tiempo en riesgo para cada individuo objeto de estudio es el tiempo durante el
cual permanece en la población de estudio y se encuentra libre de la enfermedad, y por lo
tanto en riesgo de contraerla.
La densidad de incidencia no es por lo tanto una proporción, sino una tasa, ya que el
denominador incorpora la dimensión tiempo. Su valor no puede ser inferior a cero pero
no tiene límite superior.
Para ilustrar su cálculo consideremos el siguiente ejemplo: En un estudio de seguimiento

durante 20 años de tratamiento hormonal en 8 mujeres postmenopáusicas se observó que
se presentaron 3 casos de enfermedad coronaria. Con estos datos, la incidencia
acumulada sería de un 3/8 = 0,375 ⇒ 37,5% durante los 20 años de seguimiento. Sin
embargo, tal y como se muestra en la Figura 1, el tiempo de seguimiento no es el mismo
para todas las pacientes. Mientras que, por ejemplo, la paciente A ha sido observada
durante todo el periodo, la paciente D ha comenzado el tratamiento más tarde, una vez
comenzada la investigación, y ha sido seguida sólo durante 15 años. En otros casos,
como la paciente C, han abandonado el tratamiento antes de finalizar el estudio sin
presentar ninguna afección coronaria. En total se obtienen 84 personas-año de
observación. La tasa de incidencia resultó por tanto ser igual a:
personas por año
Esto es, la densidad de incidencia de enfermedad coronaria en esa población es de 3,6

nuevos casos por cada 100 personas-año de seguimiento.
La elección de una de las medidas de incidencia (incidencia acumulada o densidad de

incidencia) dependerá, además del objetivo que se persiga, de las características de la

enfermedad que se pretende estudiar. Así, la incidencia acumulada se utilizará
generalmente cuando la enfermedad tenga un periodo de latencia corto, recurriéndose a
la densidad de incidencia en el caso de enfermedades crónicas y con un periodo de
latencia mayor. En cualquier caso, debe tenerse en cuenta que la utilización de la
densidad de incidencia como medida de frecuencia de una enfermedad está sujeta a las
siguientes condiciones:
a. El riesgo de contraer la enfermedad es constante durante todo el periodo de

seguimiento. Si esto no se cumple y, por ejemplo, se estudia una enfermedad con
un periodo de incubación muy largo, el periodo de observación debe dividirse en
varios subperiodos.
b. La tasa de incidencia entre los casos que completan o no el seguimiento es
similar. En caso contrario se obtendría un resultado sesgado.
c. El denominador es adecuado a la historia de la enfermedad.
Además, en el cálculo de cualquier medida de incidencia han de tenerse en consideración

otros aspectos. En primer lugar, no deben incluirse en el denominador casos prevalentes
o sujetos que no estén en condiciones de padecer la enfermedad a estudio. El
denominador sólo debe incluir a aquellas personas en riesgo de contraer la enfermedad
(por ejemplo, la incidencia de cáncer de próstata deberá calcularse en relación a la
población masculina en una comunidad y no sobre la población total), aunque también es
cierto que en problemas poco frecuentes la inclusión de casos prevalentes no cambiará
mucho el resultado. En segundo lugar, además, es importante aclarar, cuando la
enfermedad pueda ser recurrente, si el numerador se refiere a casos nuevos o a episodios
de una misma patología.
Relación entre incidencia y prevalencia
Prevalencia e incidencia son conceptos a su vez muy relacionados. La prevalencia

depende de la incidencia y de la duración de la enfermedad. Si la incidencia de una
enfermedad es baja pero los afectados tienen la enfermedad durante un largo período de
tiempo, la proporción de la población que tenga la enfermedad en un momento dado
puede ser alta en relación con su incidencia. Inversamente, si la incidencia es alta y la
duración es corta, ya sea porque se recuperan pronto o fallecen, la prevalencia puede ser
baja en relación a la incidencia de dicha patología. Por lo tanto, los cambios de
prevalencia de un momento a otro pueden ser resultado de cambios en la incidencia,
cambios en la duración de la enfermedad o ambos.
Esta relación entre incidencia y prevalencia puede expresarse matemáticamente de un

4,7,9
modo bastante sencillo . Si se asume que las circunstancias de la población son
estables, entendiendo por estable que la incidencia de la enfermedad haya permanecido
constante a lo largo del tiempo, así como su duración, entonces la prevalencia tampoco
variará. Así, si el número de casos prevalentes no cambia, el número de casos nuevos de
la enfermedad ha de compensar a aquellos individuos que dejan de padecerla:
Nº de casos nuevos de la enfermedad = Nº de casos que se curan o fallecen (1)

Si se denota por N al total de la población y E al número de enfermos en la misma, N-E

será el total de sujetos sanos en esa población. Durante un periodo de tiempo t, el número
de gente que contrae la enfermedad viene dado entonces por:
(2)
donde DI denota a la densidad de incidencia.
Por otro lado, el número de enfermos que se curan o fallecen en ese periodo puede
calcularse como:
(3)
donde D es la duración media de la enfermedad objeto de estudio.
Combinando (2) y (3) en (1) se obtiene que:
(4)
El cociente E/N-E es el cociente entre los individuos enfermos y los no enfermos, o

equivalentemente, entre la prevalencia y su complementario, P/1-P (lo que habíamos
denominado odds), de modo que la expresión (4) puede escribirse equivalentemente
como:
(5)
En el caso además en el que la prevalencia de la enfermedad en la población sea baja, la

cantidad 1 - P es aproximadamente igual a 1 y la expresión (5) quedaría finalmente:
(6)
Es decir, si se asume que las circunstancias de la población son estables y la enfermedad

es poco frecunente, la prevalencia es proporcional al producto de la densidad de
incidencia (DI) y el promedio de duración de la enfermedad (D).
De las consideraciones anteriores se deduce que la prevalencia carece de utilidad para

confirmar hipótesis etiológicas, por lo que resulta más adecuado trabajar con casos
incidentes. Los estudios de prevalencia pueden obtener asociaciones que reflejen los
determinantes de la supervivencia y no las causas de la misma, conduciendo a
conclusiones erróneas. No obstante, su relación con la incidencia permite que en
ocasiones pueda utilizarse como una buena aproximación del riesgo para evaluar la
asociación entre las causas y la enfermedad. También es cierto que en otras aplicaciones
distintas a la investigación etiológica, como en la planificación de recursos o las

prestaciones sanitarias, la prevalencia puede ser una mejor medida que la incidencia ya
que nos permite conocer la magnitud global del problema.
Bibliografía
1. Kark SL. Epidemiology and community medicine. Nueva York: Appleton-Century-Crofts;

1975. p.19-21.
2. Kleimbaum D, Kupper I, Morgenstern H. Epidemiologic Research. Belmont: Lifetime
Learning Publications; 1982.
3. Mausner J, Kramer S. Epidemiology: an introductory text. 2ª ed. Filadelfia: WB Saunders
Company; 1985.
4. Rothman KJ. Modern Epidemiology. Boston: Little, Brown & Co; 1986.
5. Colimón KM. Fundamentos de epidemiología. 2ª ed. Madrid: Díaz de Santos; 1990.
6. Argimón Pallás JM, Jiménez Villa J. Métodos de Investigación Clínica y Epidemiológica.
2ª ed. Madrid: Harcourt; 2000.
7. Tapia Granados JA. Medidas de prevalencia y relación incidencia-prevalencia. Med Clin
(Barc) 1995; 105: 216-218. [Medline]
8. Tapia Granados JA. Incidencia: concepto, terminología y análisis dimensional. Med Clin
(Barc) 1994; 103: 140-142. [Medline]
9. Freeman J, Hutchinson GB. Prevalence, incidente and duration. Am J Epidemiol 1980; 112:
707-723. [Medline]
Figura 1. Ejemplo de cálculo de la densidad de incidencia: estudio de seguimiento de una cohorte de

mujeres postmenopáusicas con tratamiento hormonal.

Paciente Seguimiento (años) Enfermedad coronaria

A 20 No
B 10 Sí
C 15 No
D 15 No
E 4 Sí
F 6 No
G 7 No
H 7 Sí
Página Principal | Material para la Consulta | Metodología de la Investigación

Cálculo de probabilidades: nociones básicas
Pértegas Díaz S (1), Pita Fernández S (1) [ Correo de contacto ],

(1) Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario-Universitario Juan
Canalejo. A Coruña (España).
La estadística, junto con la epidemiología, es un instrumento indispensable en el Contenido

proceso de investigación en medicina. Formalmente, se puede clasificar la estadística en El concepto de
descriptiva, cuando se utiliza simplemente para la presentación y síntesis de la probabilidad
información recogida en un estudio, e inferencial, que tiene por objetivo generalizar la Probabilidades
condicionadas
información obtenida en una muestra a resultados válidos para la población de la que
Teorema de las
1
procede . Supongamos, por ejemplo, que nos interesa comparar dos fármacos A y B y Probabilidades
totales
determinar cuál de ellos es más eficaz para el tratamiento de una determinada
Teorema de
enfermedad. Para ello, se diseña un estudio distribuyendo 100 enfermos en dos grupos, Bayes
cada uno de los cuales recibe uno de los dos tratamientos. Al cabo de 1 mes, la tasa de Bibliografía
curación en cada grupo es del 80% y del 70%, respectivamente. Ante esta información, Tablas y Figuras
¿es correcto suponer que el tratamiento A es mejor que el tratamiento B para esta Tabla 1.
enfermedad en concreto? La respuesta a esta pregunta, como a la mayor parte de Asociación entre
problemas que pueden plantearse en medicina, está sujeta a un cierto grado de el hábito
incertidumbre que hacen muy complicado tomar una decisión al respecto. En la tabáquico y el
desarrollo de
respuesta de un paciente al tratamiento pueden influir diversos factores, entre los que se una enfermedad.
incluye el azar, que pueden provocar una gran variabilidad en los resultados. La
Documento
aplicación de los principios de la estadística a la clínica permite reducir y cuantificar
en PDF (56
dicha variabilidad y ayudar a la toma de decisiones. En particular, el cálculo de Kb)
probabilidades suministra las reglas apropiadas para cuantificar esa incertidumbre y ¿Problemas
constituye la base para la estadística inductiva o inferencial. con PDF?
El objetivo de este trabajo consiste en introducir algunos de los conceptos básicos del cálculo
de probabilidades, así como las reglas necesarias para el desarrollo de la inferencia estadística
en medicina. Una exposición más detallada de estos y otros conceptos puede encontrarse en
2-8
referencias más especializadas .
El concepto de probabilidad resulta familiar a cualquier profesional del ámbito sanitario,

pero una definición más precisa exige considerar la naturaleza matemática de dicho concepto.
La probabilidad de ocurrencia de un determinado suceso podría definirse como la proporción
de veces que ocurriría dicho suceso si se repitiese un experimento o una observación en un
número grande de ocasiones bajo condiciones similares. Por definición, entonces, la
probabilidad se mide por un número entre cero y uno: si un suceso no ocurre nunca, su
probabilidad asociada es cero, mientras que si ocurriese siempre su probabilidad sería igual a
uno. Así, las probabilidades suelen venir expresadas como decimales, fracciones o porcentajes.
La definición anterior de probabilidad corresponde a la conocida como definición frecuentista.

Existe otra descripción más formal desde el punto teórico que permite definir el concepto de
probabilidad mediante la verificación de ciertos axiomas a partir de los que se deducen todas
http://www.fisterra.com/mbe/investiga/probabilidades/probabilidades.htm (1 of 7)22/04/2006 1:19:20 PM

2
las demás propiedades del cálculo de probabilidades . En otros contextos, se ha defendido una
interpretación más amplia del concepto de probabilidad que incluye las que podemos
denominar probabilidades subjetivas o personales, mediante las cuales se expresa el grado de
confianza o experiencia en una proposición. Esta definición constituye la base de los llamados
métodos bayesianos, que se presentan como alternativa a la estadística tradicional centrada en
9-11
el contraste de hipótesis . No obstante, y en relación con el propósito de este trabajo,
bastará con considerar la definición frecuentista anterior. Así, a partir de una población con N
elementos, de los cuales k presentan una característica A, se estimará la probabilidad de la
característica A como P(A) = k/N. Así, por ejemplo, en una población de 100 pacientes, 5 de
los cuales son diabéticos, la probabilidad de padecer diabetes p(Diabetes) se estimará como el
cocient:e 5/100= 0.5.
Es conveniente conocer algunas de las propiedades básicas del cálculo de probabilidades:
● Para un suceso A, la probabilidad de que suceda su complementario (o

equivalentemente, de que no suceda A) es igual a uno menos la probabilidad de A:
donde denota al suceso contrario o suceso complementario de A.
● Si un fenómeno determinado tiene dos posibles resultados A y B mutuamente

excluyentes (es decir, que no pueden darse de forma simultánea, como ocurre en el
lanzamiento de una moneda al aire), la probabilidad de que una de esas dos
posibilidades ocurra se calcula como la suma de las dos probabilidades individuales:
(1)
La extensión de la ley aditiva anterior al caso de más de dos sucesos mutuamente excluyentes
A, B, C... indica que:
Consideremos, como ejemplo, un servicio de urología en el que el 38,2% de los pacientes a

los que se les practica una biopsia prostática presentan una hiperplasia benigna (HB), el
18,2% prostatitis (PR) y en un 43,6% el diagnóstico es de cáncer (C). La probabilidad de que
en un paciente que se somete a una biopsia de próstata no se confirme el diagnóstico de cáncer
prostático será igual a:
Es decir, en un 56,4% de los casos se logra descartar un diagnóstico maligno. De modo

equivalente, la probabilidad anterior podría haberse calculado como la probabilidad del suceso
contrario al del diagnóstico de cáncer:

Nótese la importancia del hecho de que los sucesos anteriores sean mutuamente excluyentes.
Sin esta condición, la ley de adición no será válida. Por ejemplo, se sabe que en una
determinada Unidad de Cuidados Intensivos (UCI) el 6,9% de los pacientes que ingresan lo
hacen con una infección adquirida en el exterior, mientras que el 13,7% adquieren una
infección durante su estancia en el hospital. Se conoce además que el 1,5% de los enfermos
ingresados en dicha unidad presentan una infección de ambos tipos. ¿Cuál será entonces la
probabilidad de que un determinado paciente presente una infección de cualquier tipo en UCI?
Para realizar el cálculo, si se suman simplemente las probabilidades individuales (0,069
+0,137) la probabilidad de un suceso doble (infección comunitaria y nosocomial) se estará
evaluando dos veces, la primera como parte de la probabilidad de padecer una infección
comunitaria y la segunda como parte de la probabilidad de adquirir una infección en la UCI.
Para obtener la respuesta correcta se debe restar la probabilidad del doble suceso. Así:
● Si un fenómeno determinado tiene dos posibles resultados A y B, la probabilidad de

que una de esas dos posibilidades ocurra viene dada, en general, por la expresión:
Por lo tanto, si dos o más sucesos no son mutuamente excluyentes, la probabilidad de que
ocurra uno de ellos o ambos se calcula sumando las probabilidades individuales de que ocurra
una de esas circunstancia, pero restando la probabilidad de que ocurra la común.
Resulta evidente que, para el caso de procesos mutuamente excluyentes, y se

obtiene (1).
En el ejemplo anterior, la probabilidad de infección en UCI vendrá dada, por lo tanto, como:
Es decir, 19 de cada 100 enfermos registrará alguna infección (ya sea de tipo comunitario o
nosocomial) durante su ingreso en la citada unidad.
A veces, la probabilidad de que un determinado suceso tenga lugar depende de que otro
suceso se haya producido o no con anterioridad. Esto es, en ocasiones el hecho de que se
produzca un determinado fenómeno puede hacer más o menos probable la aparición de otro.
Este tipo de probabilidades se denominan probabilidades condicionadas, y se denotará por
a la probabilidad condicionada del suceso A suponiendo que el suceso B haya
ocurrido ya.
● La ley multiplicativa de probabilidades indica que la probabilidad de que dos

sucesos A y B ocurran simultáneamente es igual a:
(3)
La ley multiplicativa anterior se utiliza también con el fin de determinar una probabilidad
condicional a partir de los valores de y :

(4)
Supongamos, por ejemplo, que queremos estudiar la incidencia del hecho de ser fumador
como factor de riesgo en el desarrollo de una enfermedad en una determinada población. Para
ello se diseñó un estudio prospectivo y, tras seleccionar una muestra de 180 sujetos, los
resultados son los que se muestran en la Tabla 1. Considerando toda la muestra, la
probabilidad de desarrollar la enfermedad (E) en la población de estudio es:
Mientras que la probabilidad de padecer la enfermedad un fumador (F) es:
Y un no fumador:
Teniendo en cuenta que:
Podría haberse aplicado la fórmula (4) para obtener cualquiera de las dos probabilidades
condicionadas anteriores, resultando idénticos valores:
En el ejemplo, se constata por lo tanto que la incidencia de la enfermedad es diferente en la

población fumadora que en la no fumadora (85,7% vs 18,2%). Así pues, la probabilidad de
desarrollar la enfermedad depende de si se es o no fumador. En otras ocasiones, sin embargo,
sucede que la ocurrencia o no de un determinado fenómeno B no influye en la ocurrencia de
otro suceso A. Se dice entonces que los sucesos A y B son independientes y se verificará que:
(5)
Sustituyendo (5) en (3) se obtiene entonces que:

Es decir, en caso de independencia, la probabilidad de que ocurran dos sucesos de forma

simultánea es igual al producto de las probabilidades individuales de ambos sucesos.Así, dos
sucesos son independientes, si el resultado de uno no tiene efecto en el otro; o si el que ocurra
el primero de ellos no hace variar la probabilidad de que se de el segundo.
Obviamente, en la práctica, y debido a las variaciones en el muestreo, será extremadamente

difícil encontrar una muestra que reproduzca de forma exacta las condiciones de
independencia anteriores. El determinar si las diferencias observadas son o no compatibles
con la hipótesis de independencia constituye uno de los principales problemas que aborda la
estadística inferencial.
● Si se considera un fenómeno con k resultados posibles, mutuamente excluyentes, B1,

B2,...,Bk y se conoce la probabilidad de cada uno de ellos, el llamado Teorema de las
Probabilidades Totales permite calcular la probabilidad de un suceso A a partir de las
probabilidades condicionadas:
Utilizando la expresión para el cálculo de la probabilidad de la intersección de dos sucesos se
tiene que y, por lo tanto:
En el ejemplo anterior, podría aplicarse este resultado para el cálculo de la incidencia de la

enfermedad en la población de estudio:
Las leyes aditiva y multiplicativa, junto con la noción de probabilidades condicionadas y el

teorema de las probabilidades totales se han empleado para desarrollar el llamado Teorema
de Bayes, de indudable interés en la aplicación de la estadística al campo de la medicina. Si se
parte de la definición de probabilidad condicionada (4):
siempre que y . Aplicando además el teorema de las probabilidades totales

se llega a que:
El diagnóstico médico constituye un problema típico de aplicación del Teorema de Bayes en

el campo médico, puesto que permite el cálculo de la probabilidad de que un paciente padezca
una determinada enfermedad una vez dados unos síntomas concretos. La capacidad predictiva
de un test o de una prueba diagnóstica suele venir dada en términos de su sensibilidad y
12
especificidad . Tanto la sensibilidad como la especificidad son propiedades intrínsecas a la
prueba diagnóstica, y definen su validez independientemente de cuál sea la prevalencia de la
enfermedad en la población a la cual se aplica. Sin embargo, carecen de utilidad en la práctica
clínica, ya que sólo proporcionan información acerca de la probabilidad de obtener un
resultado concreto (positivo o negativo) en función de si un paciente está realmente enfermo o
no. Por el contrario, el concepto de valores predictivos, a pesar de ser de enorme utilidad a la
hora de tomar decisiones clínicas y transmitir información sobre el diagnóstico, presenta la
limitación de que dependen en gran medida de lo frecuente que sea la enfermedad a
diagnosticar en la población objeto de estudio. El Teorema de Bayes permite obtener el valor
predictivo asociado a un test al aplicarlo en poblaciones con índices de prevalencia muy
diferentes.
Consideremos como ejemplo un caso clínico en el que una gestante se somete a la prueba de
sobrecarga oral con 50 gramos de glucosa para explorar la presencia de diabetes gestacional,
obteniéndose un resultado positivo. Es sabido que dicho test presenta unos valores
aproximados de sensibilidad y especificidad en torno al 80% y al 87%, respectivamente. Si se
conoce además que la prevalencia de diabetes gestacional en la población de procedencia es
aproximadamente de un 3%, por medio del teorema de Bayes podemos conocer la
probabilidad de que el diagnóstico sea correcto o, equivalentemente, el valor predictivo
positivo:
Se puede concluir por lo tanto que, a pesar de obtener un resultado positivo en la prueba,
existe sólo una probabilidad de un 15,9% de que la paciente padezca diabetes gestacional.
Supongamos que además dicha paciente tiene más de 40 años de edad. Se sabe que en grupos
de edad más avanzada la prevalencia de diabetes gestacional entre las gestantes llega a
aumentar hasta aproximadamente un 8%. En este caso, el valor predicativo positivo asociado
vendrá dado por:
En este caso las posibilidades de un diagnóstico de diabetes gestacional aumentan hasta un

34,86%.
En un caso como este, en que se realiza una prueba para obtener información sobre un

diagnóstico, suele hablarse de probabilidad a priori, que es la disponible antes de realizar la

prueba (la prevalencia, en este caso) y probabilidad a posteriori, que es la obtenida después de
realizarla (los valores predictivos). A su vez, se suele denominar verosimilitudes a las
probabilidades de un suceso bajo distintas hipótesis. El teorema de Bayes permite así obtener
los valores de las probabilidades a posteriori a partir de las probabilidades a priori mediante
una multiplicación proporcional a las verosimilitudes.
Tal y como se indicó al inicio del presente artículo, la teoría de la probabilidad constituye la
base matemática para la aplicación de la estadística inferencial en medicina. El cálculo de
probabilidades constituye una herramienta que permitirá hacer inferencia sobre distintos
parámetros poblacionales a partir de los resultados obtenidos en una muestra, y después tomar
decisiones con el mínimo riesgo de equivocación en situaciones de incertidumbre.
Bibliografía
1. Argimón Pallás JM, Jiménez Villa J. Métodos de investigación clínica y epidemiológica. 2ª ed.
Madrid: Harcourt; 2000.
2. Sentís J, Pardell H, Cobo E, Canela J. Bioestadística. 3ª ed. Barcelona: Masson; 2003.
3. Colton T. Estadística en medicina. Barcelona: Salvat; 1979.
4. Armitage P, Berry G. Estadística para la investigación biomédica. Barcelona: Doyma; 1992.
5. Departamento de Medicina y Psiquiatría. Universidad de Alicante. Tratado de Epidemiología
Clínica. Madrid: DuPont Pharma; 1995.
6. Altman DG. Practical Statistics for Medical Research. London: Chapman & Hall; 2004.
7. Vélez R, Hernández V. Cálculo de Probabilidades I. Madrid: UNED; 1995.
8. Quesada V, García A. Lecciones de Cálculo de Probabilidades. Madrid: Díaz de Santos; 1988.
9. Silva LC, Benavides A. El enfoque bayesiano: otra manera de inferir. Gac Sanit 2001; 15(4): 341-
346.
10. Silva LC, Suárez P. ¿Qué es la inferencia bayesiana? JANO 2000; 58: 65-66.
11. Silva LC, Muñoz A. Debate sobre métodos frecuentistas vs bayesianos. Gac Sanit 2000; 14: 482-
494.
12. Pértega Díaz S, Pita Fernández S. Pruebas diagnósticas. Cad Aten Primaria 2003; 10: 120-124.
[Texto completo]
Tabla 1. Asociación entre el hábito tabáquico y el desarrollo de una enfermedad. Datos de

un estudio de seguimiento en 180 individuos.
Enfermos Sanos Total:
Fumador 60 10 70
No fumador 20 90 110
Total: 80 100 180

Determinación de factores de riesgo
Pita Fernández S, Vila Alonso MT, Carpente Montero J. [ Correo de contacto ]

Coruña (España)
En cada sociedad existen comunidades, grupos de individuos, familias o individuos Contenido

que presentan más posibilidades que otros, de sufrir en un futuro enfermedades, Utilización del
accidentes, muertes prematuras…, se dice que son individuos o colectivos riesgo
especialmente vulnerables. A medida que se incrementan los conocimientos sobre Cuantificación

del riesgo
los diferentes procesos, la evidencia científica demuestra en cada uno de ellos que:
- Riesgo
en primer lugar las enfermedades no se presentan aleatoriamente y en segundo que absoluto
muy a menudo esa "vulnerabilidad" tiene sus razones. - Riesgo relativo
- Odds Ratio
- Fracción y
La vulnerabilidad se debe a la presencia de cierto número de características de tipo riesgo atribuible
genético, ambiental, biológicas, psicosociales, que actuando individualmente o Intervalos de
entre sí desencadenan la presencia de un proceso. Surge entonces el término de confianza para
"riesgo" que implica la presencia de una característica o factor (o de varios) que la estimación
del riesgo
aumenta la probabilidad de consecuencias adversas. En este sentido el riesgo
Bibliografía
constituye una medida de probabilidad estadística de que en un futuro se produzca
un acontecimiento por lo general no deseado. El termino de riesgo implica que la Documento
en PDF (54
presencia de una característica o factor aumenta la probabilidad de consecuencias
Kb)
adversas. La medición de esta probabilidad constituye el enfoque de riesgo (1-4). ¿Problemas
con PDF?
Un factor de riesgo es cualquier característica o circunstancia detectable de una UBC Clinical
persona o grupo de personas que se sabe asociada con un aumento en la Significance
probabilidad de padecer, desarrollar o estar especialmente expuesto a un proceso Calculator
mórbido. Estos factores de riesgo (biológicos, ambientales, de comportamiento,
socio-culturales, económicos..) pueden sumándose unos a otros, aumentar el efecto
aislado de cada uno de ellos produciendo un fenómeno de interacción.
UTILIZACIÓN DEL RIESGO
El conocimiento y la información sobre los factores de riesgo tienen diversos objetivos

(5):
a. Predicción: La presencia de un factor de riesgo significa un riesgo aumentado de

presentar en un futuro una enfermedad, en comparación con personas no
expuestas. En este sentido sirven como elemento para predecir la futura presencia
http://www.fisterra.com/mbe/investiga/3f_de_riesgo/3f_de_riesgo.htm (1 of 8)22/04/2006 1:19:29 PM

de una enfermedad.
b. Causalidad: La presencia de un factor de riesgo no es necesariamente causal. El

aumento de incidencias de una enfermedad entre un grupo expuesto en relación a
un grupo no expuesto, se asume como factor de riesgo, sin embargo esta
asociación puede ser debida a una tercera variable. La presencia de esta o estas
terceras variables se conocen como variables de confusión. Así por ejemplo el
ejercicio físico se conoce como factor de protección asociado al infarto de
miocardio. El efecto protector que pueda tener el ejercicio, se debe controlar por la
edad de los pacientes, ya que la edad está asociada con el infarto de miocardio en
el sentido de que a más edad más riesgo. Por otra parte la mayor dosis de ejercicio
la realiza la gente más joven; por lo tanto parte del efecto protector detectado entre
el ejercicio y el infarto de miocardio esta condicionado por la edad. La edad en
este caso actúa como variable de confusión.
c. Diagnóstico: La presencia de un factor de riesgo aumenta la probabilidad de que
se presente una enfermedad. Este conocimiento se utiliza en el proceso
diagnóstico ya que las pruebas diagnósticas tienen un valor predictivo positivo
más elevado, en pacientes con mayor prevalencia de enfermedad. El conocimiento
de los factores de riesgo se utiliza también para mejorar la eficiencia de los
programas de cribaje, mediante la selección de subgrupos de pacientes con riesgo
aumentado.
d. Prevención: Si un factor de riesgo se conoce asociado con la presencia de una
enfermedad, su eliminación reducirá la probabilidad de su presencia. Este es el
objetivo de la prevención primaria. Así por ejemplo se relacionan la obesidad y la
hipertensión, la hipercolesterolemia y la enfermedad coronaria, el tabaco y el
cáncer de pulmón….
Cuantificación del riesgo
El término de riesgo implica que la presencia de una característica o factor aumenta la

probabilidad de consecuencias adversas.
La cuantificación del grado de riesgo constituye un elemento esencial y fundamental en la

formulación de políticas y prioridades que no deben dejar hueco a la intuición ni a la
casualidad. Hay diferentes maneras de cuantificar ese riesgo (1,6):
a. Riesgo Absoluto: Mide la incidencia del daño en la población total.
b. Riesgo Relativo: Compara la frecuencia con que ocurre el daño entre los que
tienen el factor de riesgo y los que no lo tienen (Tabla 1).
TABLA 1.1. TABLA DE 2 x 2 PARA EL CALCULO DE LAS MEDIDAS DE ASOCIACIÓN EN UN

ESTUDIO DE SEGUIMIENTO
Enfermos Sanos Total

Expuestos a b a+b
No expuestos c d c+d
Total a+c b+d a+b+c+d
TABLA 1.2. TABLA DE 2 x 2 EN LOS ESTUDIOS DE CASOS Y CONTROLES

Casos Controles
Expuestos a b
No expuestos c d
Odds ratio (razón de predominio, oportunidad relativa)
El riesgo relativo mide la fuerza de la asociación entre la exposición y la enfermedad.

Indica la probabilidad de que se desarrolle la enfermedad en los expuestos a un factor de
riesgo en relación al grupo de los no expuestos. Su cálculo se estima dividiendo la
incidencia de la enfermedad en los expuestos (Ie) entre la incidencia de la enfermedad en
los no expuestos (Io).
En la Tabla 2, exponemos los resultados de un estudio de seguimiento (7) donde 853

mujeres estuvieron pasivamente expuestas al humo del tabaco durante la gestación y 1620
no lo estuvieron, y su asociación con el bajo peso al nacer.
TABLA 2. DISTRIBUCION DE GESTANTES SEGÚN EXPOSICIÓN PASIVA AL HUMO DE TABACO

Y RECIEN NACIDOS SEGÚN BAJO PESO O PESO NORMAL (7)
Tabaco Recien Nacido de Bajo peso

Total
Exposición pasiva Sí No
Sí 20 833 853
No 14 1606 1620
Total 34 2439 2473
X2 = 9.03; p = 0.00265
95% IC (1.38;5.34)
El riesgo relativo igual a 2.71 de la tabla 2, significa que las expuestas al factor x
(exposición pasiva al tabaco) tienen 2,71 veces más probabilidades de tener niños de bajo
peso que las no expuestas.

En los estudios de casos y controles, dado que la incidencia es desconocida, el método de

estimación del riesgo relativo es diferente y se estima calculando el Odds ratio, traducida
al castellano con múltiples nombres como (8,9,10,11): razón de productos cruzados,
razón de disparidad, razón de predominio, proporción de desigualdades, razón de
oposiciones, oposición de probabilidades contrarias, cociente de probabilidades relativas,
oportunidad relativa.
Su cálculo se indica en la tabla 1 y es:
c. Fracción Atribuible y Riesgo Atribuible
La Fracción atribuible: Estima la proporción de la enfermedad entre los expuestos que

puede ser atribuible al hecho de estar expuestos. Esta medida la podemos calcular:
a. en el grupo de expuestos y
b. en la población.
La fracción atribuible en el grupo expuesto (fracción etiológica, o porcentaje de riesgo

atribuible en los expuestos), establece el grado de influencia que tiene la exposición en la
presencia de enfermedad entre los expuestos. Su cálculo se realiza:
Según los datos de la Tabla 2 la FAe sería:
Lo que significa que el 63.14% del bajo peso en los expuestos se debe a la exposición.
Si dividimos en numerador y el denomidador por la Io (Incidencia en los no expuestos),

obtendremos una nueva fórmula que expresa la misma idea.
Dado que en nuestro ejemplo previo el riesgo relativo era 2.71 el cálculo se podría
expresar también como:

El Riesgo Atribuible en los expuestos se calcula: RAe = Ie – Io
Su cálculo esta determinado por la diferencia entre la incidencia de expuestos y no

expuestos. La diferencia entre ambos valores da el valor del riesgo de enfermedad en la
cohorte expuesta, que se debe exclusivamente a la exposición.
La Fracción Atribuible en la Población (FAP), muestra la proporción en que el daño

podría ser reducido si los factores de riesgo causales desapareciesen de la población total.
It = Incidencia en la población total
Io = Incidencia en los no expuestos
Si la prevalencia de la exposición en la población es disponible él calculo también se

puede realizar del siguiente modo con esta fórmula alternativa:
Pt = Prevalencia de la exposición (o factor de riesgo) en la población.
La fracción atribuible en la población total es una medida de asociación influenciada por

la prevalencia del factor de riesgo en la población total. Para el cálculo de la misma
utilizaremos el ejemplo de la tabla 3 (1).
Este valor, es el porcentaje de riesgo atribuible en la población para el factor de riesgo

"sin control prenatal". El concepto que encierra es totalmente similar al de la FAe, con la
salvedad de que es un parámetro que se refiere a toda la colectividad y no solamente a los
expuestos.
La fórmula alternativa previamente indicada permite objetivar como cambia el impacto

de una intervención con la prevalencia de un factor de riesgo. En los estudios de casos y
controles, en los cuales no se pueden obtener tasas reales de incidencia, uno puede usarla
tomando la razón de productos cruzados, la razón de predominio, la oportunidad relativa,
el OR en definitiva, como una aproximación para el riesgo relativo.

Tabla 3. MORTALIDAD PERINATAL SEGÚN LA PRESENCIA O AUSENCIA DE CONTROLES

PRENATALES (1)
Mortalidad perinatal
Controles Prenatales Total
Sí No
0 2056 25891 27947
1 ó más 776 22387 23163
Total 2832 48278 51110
El Riesgo Atribuible en Población general se calcula: RAp = It – Io.
Se podría definir como la cantidad de riesgo que sufre toda la población como
consecuencia de la exposición. Representa lo mismo que el RAe, pero referido a la
comunidad.
Intervalos de confianza para la estimación del riesgo.
Cuando calculamos el Riesgo Relativo debemos expresar sí dicho riesgo es diferente de

1. Si al construir el 95% intervalo de confianza el intervalo no incluye el valor 1
concluimos que el riesgo es estadísticamente significativo p<0.05. Si el 99% intervalo de
confianza no incluye el valor 1, el riesgo relativo es significativo p<0.01.
Si el riesgo relativo fuese menor de 1 y su intervalo de confianza también, estaríamos

ante la presencia de un factor de protección.
El cálculo de dicho 95% IC para el riesgo relativo se realiza del siguiente modo
(12,13,14):
(RR) exp [± 1.96 Error Estándar del Ln RR)
donde:
-RR es la estimación puntual del riesgo relativo
-exp es la base del logaritmo natural elevada a la cantidad entre paréntesis
- a,b,c y d representan los valores numéricos de la tabla de 2 x 2
Si utilizamos el ejemplo de la tabla 2 tendríamos:

1. Logaritmo natural de 2.71 = 0.996
2. Error estándar =
3. El 95% intervalo de confianza del logaritmo de RR= 0.99 ± 1.96 * 0.34 = (0.319;
1.674)
4. El antilogaritmo de estos límites es: e 0.319 a e1.67 = (1.38 a 5.34)
Por tanto en el ejemplo (tabla 2) el RR = 2.71 y el 95% Intervalo de confianza es: 1.38 a
5.34
El cálculo del 95% IC para el OR en un estudio de casos y controles seria:
donde:
● OR es la estimación puntual del Odds ratio

● exp es la base del logaritmo natural elevada a la cantidad entre paréntesis.
● a,b,c y d representan los valores numéricos de la tabla de 2 x 2
El cálculo del intervalo de confianza del riesgo relativo y del odds ratio es fundamental al
realizar el análisis de cualquier estudio. Dicho cálculo nos indica no solo la dirección del
efecto, sino la significancia estadística, si el intervalo no engloba el valor 1 y la precisión
del intervalo que está directamente relacionada con el tamaño muestral del estudio.
Estimado el riesgo de cada variable de forma independiente, se debe en un siguiente paso

determinar el riesgo de dicha variable teniendo en cuenta las demás variables utilizando
técnicas de regresión múltiples.
BIBLIOGRAFÍA
1. Serie PALTEX para ejecutores de programas de salud Nº 7. Manual sobre el

enfoque de riesgo en al atención materno-infantil. Washington: Organización
Panamericana de la salud; 1986.
2. MacMahon, Trichopoulos D. Epidemiology: Principles and Methods. Second
edition. Boston: Little Brown & Company; 1996.
3. Brownson R.C., Remington P.L., Davis J.R. Chronic disease epidemiology and
control. Baltimore: American Public Health Association; 1993.
4. Lilienfeld D.E., Stolley P.D. Foundation of Epidemiology. 3 td. ed. New York:
Oxford University Press; 1994.
5. Fletcher R.H., Fletcher S.W., Wagner E.H. Epidemiología clínica. Barcelona:
Ediciones Consulta; 1989.
6. Pita Fernández S. Epidemiología. Conceptos básicos. En: Tratado de

epidemiología clínica. Madrid: DuPont Pharma; 1995.

7. Martín TR, Bracken MB. Association of low birth weight with passive smoke
exposure in pregnancy. Am J. Epidemiol 1986; 124: 633-642. [Medline]
8. Rigau Pérez J.G. Traducción del término "odds ratio". Gac Sanit 1990; 16: 35.
9. Becerra J.E. Traducción del término "odds ratio". Gac Sanit 1990; 16:36.
10. Martín Moreno J.M. Oportunidad relativa; reflexiones en torno a la traducción del
termino "odds ratio". Gac Sanit 1990; 16:37
11. Porta Serra M. Traducir o no traducir. ¿es esa la cuestión?. Gac Sanit 1990; 16:
38-39.
12. Garb J.L. Understanding medical research. A practitioner´s guide. Boston: Little
Brown and Company; 1996.
13. Gardner M. J., Altman D.G. Confidence intervals rather than P values: estimation
rather than hypothesis testing. Br Med J (Clin Res Ed) 1986; 292: 746-750.
[Medline]
14. Simon R. Confidence intervals for reportin results of clinical trials. Ann Intern
Med 1986; 105: 429-435. [Medline]

Determinación de factores pronósticos
Pita Fernández S, Valdés Cañedo FA [ Correo de contacto ]

La actividad clínica diaria esta fundamentada en tres elementos: el juicio diagnóstico, el Contenido
pronóstico y el tratamiento. Estas tres actividades están basadas en estudios probabilísticos. Diferencia
Tras el diagnóstico de una enfermedad se precisa conocer el pronóstico de la misma. La entre riesgo y
pronóstico
determinación de un pronóstico es estimar las probabilidades de los diversos modos de
Parámetros de
evolución; es predecir la evolución de una enfermedad en un paciente determinado. El interés
conocimiento del pronóstico es una variable fundamental ya que en muchos casos decidirá el pronóstico
tratamiento (1). Por otra parte las actividades terapéuticas y preventivas pueden modificar él Determinación
pronostico de una enfermedad. de factores
pronósticos:
- Experiencia
La historia natural de una enfermedad es la evolución sin intervención médica. El curso clínico personal
describe la evolución de la enfermedad que se encuentra bajo atención médica(2). - Revisión de la
literatura
- Realización
El pronóstico depende por tanto de la historia natural de la enfermedad y de su curso clínico. de estudios
Dicho pronóstico no siempre cambia con la intervención médica. Errores en el
estudio del
La incertidumbre sobre el futuro de una enfermedad, puede estimarse sobre la experiencia curso clínico:
- Sesgo de
clínica y la información epidemiológica. Es evidente que la experiencia clínica individual aún selección
siendo de gran valor, por si sola es inadecuada ya que esta basada en un conjunto mas o menos - Sesgo de
limitado de pacientes que no representan la totalidad de los mismos sobre los que se tiene pérdidas de
seguimiento
además un seguimiento desigual.
- Sesgo por
errores de
Diferencia entre riesgo y pronóstico medición
Bibliografía
Por otra parte debemos a su vez tener en cuenta la diferencia entre factores de riesgo y factores
Documento
pronósticos. Los factores de riesgo son los que condicionan la probabilidad de presentar una en PDF (62
enfermedad determinada. Dichos factores pueden estar presentes en población sana y aumentan Kb)
el riesgo de tener la enfermedad. La identificación de los factores de riesgo son imprescindibles ¿Problemas
para la prevención primaria. con PDF?
Los factores pronósticos son aquellos que predicen el curso clínico de un padecimiento una vez que
la enfermedad esta presente. La identificación de estos factores son de gran interés para la
prevención secundaria y terciaria (2,3,4).
Para la estimación del riesgo el suceso final que se busca es la presencia de una enfermedad
específica. Para la estimación del pronóstico la variable final como elemento de interés para estudio
puede ser: la muerte, la recurrencia del proceso, la invalidez, las complicaciones (5).
Existen a su vez marcadores de riesgo que son características de las personas que no son
modificables (edad, sexo, estado socio-económico,…) y que determinan la probabilidad de presentar
una enfermedad. Los marcadores de pronóstico son a su vez características no modificables del
sujeto que tienen una probabilidad determinada de afectar el curso clínico de la enfermedad.
http://www.fisterra.com/mbe/investiga/4f_pronosticos/4f_pronosticos.htm (1 of 7)22/04/2006 1:20:47 PM

Hay factores de riesgo (edad, HTA,...) que cuando aparece la enfermedad (cardiopatía isquémica) a
su vez son factores pronósticos para la presencia o no de muerte por dicha enfermedad (2), Tabla 1.
Tabla 1. Diferencias entre Factores de Riesgo y Pronósticos en el Infarto

agudo de miocardio (2)
Factores de Riesgo Factores Pronósticos
● Edad ● Edad
● Sexo masculino ● Sexo masculino
● LDL elevado ● Infarto previo
● HDL descendido ● Hipotensión
● Tabaquismo ● Insuficiencia cardíaca congestiva
● HTA ● Cardiomegalia
● Sedentarismo ● Arritmia ventricular
En la práctica clínica diaria es preciso tener un conocimiento del pronostico de un problema

determinado para tomar decisiones respecto a exploraciones continuadas, ingresos hospitalarios,
tratamientos específicos, que no modificando el pronóstico no podrían objetivamente ser
justificados. Por otra parte se precisa conocer el curso clínico de la enfermedad para informar al
paciente de su futuro.
Parámetros de interés pronóstico
Los parámetros de interés pronóstico dependen de la enfermedad que se estudie pero los de uso más
frecuente son (2,6,7):
a. Tasa de supervivencia a los cinco años.

Porcentaje de pacientes que sobreviven cinco años a partir de algún momento en el curso de
la enfermedad.
b. Tasa de letalidad.
Porcentaje de pacientes con una enfermedad que mueren a causa de ella.
c. Tasa de respuesta.
Porcentaje de pacientes que muestran alguna señal de mejoría después de una intervención.
d. Tasa de remisiones.
Porcentaje de pacientes que entran en una fase en la que la enfermedad deja de ser detectable.
e. Tasa de recurrencia.
Porcentaje de pacientes que vuelven a tener la enfermedad después de un período libre de ella.
Determinación de los factores pronósticos.
En la actividad diaria conoceremos el pronóstico de muchos de los pacientes por nuestra formación
y experiencia previa. Las estrategias para conocer el pronóstico podrían resumirse en las siguientes
posibilidades (3,7,8):
1. Experiencia personal:
● Consultar a otro compañero de trabajo.

● Consultar a un "experto" o especialista en el tema.

2. Hacer una revisión de la literatura.

3. Realización de estudios:
● Revisión de casos.
● Estudios de casos y controles
● Estudios de cohortes
● Ensayos clínicos.
1. Experiencia personal. La experiencia personal, ya sea la de uno mismo o la de un experto, sin

duda es muy valorable en todo el proceso clínico asistencial, sin embargo tiene limitaciones en
relación con:
a. Sesgos de selección de pacientes: El sesgo de selección viene determinado por la dificultad

de haber tenido contacto con todos los tipos de pacientes de una determinada enfermedad. El
lugar de trabajo condiciona la patología que sé diagnóstica y se trata.
b. Sesgos de información: El sesgo de información nos lleva a valorar los factores
acompañantes de pacientes que han presentado un excelente pronóstico o un fatal pronóstico.
c. Falta de precisión: La falta de precisión viene determinada por el tamaño muestral de la
casuística que si es reducida puede estar afectada por el azar.
Por otra parte la identificación de factores de riesgo para la presencia de una enfermedad tampoco
puede ser producto de la experiencia personal. Existen riesgos que pueden ser identificados
fácilmente entre exposición y enfermedad (traumatismos por accidente de coche, intoxicación por
sobredosis de fármacos…) pero en la mayoría de las enfermedades crónicas las relaciones entre
exposición y enfermedad son menos aparentes. Las razones por las que la experiencia personal es
insuficiente para establecer una relación entre una exposición y una enfermedad se señalan en la
tabla 2 (2).
Tabla 2. Situaciones en las que la experiencia personal es insuficiente

para establecer una relación entre una exposición una enfermedad (2)
● Período de latencia largo entre la exposición y la enfermedad.
● Exposición frecuente al factor de riesgo.
● Incidencia baja de la enfermedad.
● Riesgo pequeño producido por la exposición.
● Enfermedad frecuente.
● Causas múltiples de enfermedad.
2. Revisión de la literatura. La revisión de la literatura es siempre recomendable. Un artículo

aisladamente puede estar sesgado o limitado en sus conclusiones, es por ello aconsejable revisar la
literatura buscando: a) artículos de revisión b) estudios de metanálisis.
Los artículos de revisión discuten la información sobre el tema teniendo en cuenta aspectos
metodológicos, concordancias y divergencias sobre diferentes trabajos que nos permitirán una
información actualizada sobre el tema (9).
El metanálisis ha sido definido por Jenicek como "una integración estructurada, con una revisión
cualitativa y cuantitativa de los resultados de diversos estudios independientes acerca de un mismo
tópico". El metanálisis desplazó de la literatura médica a la revisión por un experto.

El metanalisis como método ha generado reacciones muy diferentes en el campo de la ciencia

médica. Dichas reacciones van desde un rechazo y escepticismo total (10) hasta un ferviente apoyo
y entusiasmo (11). Los epidemiologos lo consideran una herramienta útil pero que hay que saber
utilizar (12). Los objetivos del metanálisis son fundamentalmente dos (13): revisar con técnicas
cuantitativas la situación actual de un tema que ha sido investigado previamente en múltiples o
diversos trabajos. Esta revisión cuantitativa permitiría resumir los resultados de todos los estudios
previos. En segundo lugar el metanálisis nos permite incrementar el poder estadístico para detectar
diferencias entre variables. Claramente si podemos reunir en una misma tabla de contingencia
diferentes estudios, el tamaño muestral de dicha tabla se incrementará y por tanto también lo hará
nuestro poder estadístico para detectar diferencias. En definitiva la precisión del estudio mejora y la
posibilidad de cometer errores de tipo II o beta (no detectar diferencias cuando realmente las hay)
disminuye. Esta técnica es por tanto muy útil cuando estimamos incidencias o mortalidad de eventos
muy poco frecuentes o cuando en un estudio de casos y controles la exposición de interés es muy
rara o muy frecuente.
3. Realización de estudios. Existen diferentes diseños de investigación para conocer la historia

natural y el curso clínico de la enfermedad:
a. Revisión de casos: Permiten reconstruir retrospectivamente el curso clínico de una

enfermedad. En estos estudios los sesgos de selección son muy frecuentes y no es
aconsejable utilizarlos para hacer inferencias sobre el pronóstico. Estos estudios aunque son
muy útiles para formular hipótesis, no sirven para evaluar o testar la presencia de una
asociación estadística. La presencia de una asociación puede ser un hecho fortuito. La gran
limitación de este tipo de estudios es en definitiva la ausencia de un grupo control.
b. Estudio de casos y controles: Todos los pacientes en el estudio, tienen la enfermedad de
interés. En este tipo de estudios los casos son pacientes que han fallecido en un período
determinado de tiempo o presentaron la complicación de interés o la recurrencia. Los
controles son pacientes que no han fallecido o no han tenido el evento de interés. El objetivo
del estudio se centra en determinar que variables están asociadas con el hecho de pertenecer a
uno u otro grupo. La estimación del efecto se determina por medio del calculo del odds ratio
(Tabla 3).
c. Estudio de cohortes: Estos estudios describen paso a paso la historia natural o el curso
clínico de la enfermedad y calculan el riesgo relativo debido a un determinado factor
pronóstico. Los integrantes de la cohorte de pacientes son todos los individuos afectados por
la enfermedad. Tras el seguimiento de la cohorte durante un tiempo, se estudia la
supervivencia, la presencia de complicaciones, la recurrencia.., en relación con diferentes
variables de exposición (Tabla 3). Este tipo de estudio es el ideal para determinar factores
pronósticos.
Tabla 3.1. Tabla de 2 x 2 en los Estudios de Casos y Controles

Casos Controles
Expuestos a b
No expuestos c d
Tabla 3.2. Tabla de 2 x 2 para el Cálculo de las medidas de asociación en

un estudio de seguimiento para determinar pronóstico

Enfermos
Enfermos
(fallecidos, Total
(no fallecidos...)
recurrentes...)
Expuestos a b a+b
d. Ensayos clínicos: Este tipo de estudios permiten estudiar las modificaciones del curso
clínico de la enfermedad como respuesta a nuevas intervenciones terapéuticas.
Los datos proporcionados por los estudios clínicos se expresan en múltiples ocasiones en
términos de supervivencia. Este término no queda limitado a los términos de vida o muerte,
sino a situaciones en las que se mide el tiempo que transcurre hasta que sucede el evento de
interés, como puede ser tiempo de recurrencia, tiempo que dura la eficacia de una
intervención, tiempo de un aprendizaje determinado etc. Por tanto, la supervivencia es una
medida de tiempo a una respuesta, fallo, muerte, recaída o desarrollo de una determinada
enfermedad o evento.
El termino supervivencia se debe a que las primeras aplicaciones de este método de análisis
utilizaba como evento la muerte de un paciente (14).
La estimación de la supervivencia de una cohorte de pacientes se determina por técnicas

paramétricas (distribución exponencial, Weibul, lognormal) o no parametricas (Kaplan-
Meier, logrank, regresión de Cox). El método Kaplan-Meier calcula la supervivencia cada
vez que un paciente muere (o se produce el evento de interés) (Fig 1).
Figura 1. Supervivencia del Injerto renal. Hospital Juan Canalejo. 1981-1999.

La característica distintiva del análisis con este método es que la proporción acumulada que
sobrevive, se calcula para el tiempo de supervivencia individual de cada paciente y no se agrupan
los tiempos de supervivencia en intervalos (14).
En los estudios de seguimiento no todos los pacientes presentan el evento tras un tiempo de
seguimiento (observaciones censuradas). La técnica ideada por Cox (modelo de riesgo proporcional
o regresión de Cox) es la proporcionada para realizar el análisis cuando hay observaciones
censuradas que dependen del tiempo. Este modelo utiliza como variable dependiente el tiempo de
supervivencia del paciente y como covariables variables independientes) que se modifican con el
tiempo. Los coeficientes de regresión de Cox pueden usarse para determinar el riesgo relativo entre
cada variable independiente y la variable respuesta, ajustado por el efecto de las demás variables en
la ecuación (15).
Errores frecuentes en el estudio del curso clínico
Los errores más frecuentes en los estudios sobre el curso clínico de enfermedades, vienen
determinados por los sesgos (estimaciones equivocadas del riesgo): de selección, de pérdidas de
seguimiento, y de errores en la medición (3,5,7).
a) Sesgo de selección: Este tipo de sesgo puede presentarse en cualquiera de los diseños
previamente señalados y es muy frecuente. Los pacientes que acuden a centros hospitalarios, los
candidatos a cirugía, son diferentes de los que no ingresan o no se operan por razones diferentes. Por
tanto las conclusiones que se deriven del estudio de un grupo de ellos, no son representativas de
todos los pacientes que tengan la enfermedad.
Si no se dispone del seguimiento del paciente desde el inicio de la enfermedad o evento, el resultado
sobre su pronóstico puede ser impredecible. Pueden fácilmente presentarse sesgos de supervivencia
selectiva ya que aquellos que fallecieron antes o siguen vivos ahora (en el momento que se
incorporan al estudio) son diferentes. Es por ello fundamental incorporar al estudio casos incidentes
desde el inicio de la enfermedad o evento de interés.
b) Sesgo por perdidas de seguimiento: Las pérdidas de seguimiento son frecuentes e los estudios de
cohortes y ensayos clínicos. Si las perdidas son aleatorias y no se asocian con el evento de interés no
se produce un sesgo. Debe ser un objetivo prioritario reducir al mínimo las perdidas con un
cuidadoso seguimiento de todos los pacientes ya que de lo contrario pueden tener un efecto
impredecible e invalidar las conclusiones del estudio.
c) Sesgo por errores de medición: Se produce una estimación equivocada del riesgo por errores en
la medición, siendo las fuentes más frecuentes de sesgo: un instrumento no adecuado de medida, un
diagnóstico incorrecto, omisiones, imprecisiones, vigilancia desigual en expuestos y no expuestos,
procedimientos de encuesta no validos, encuestadores no entrenados o conocedores de las hipótesis
del estudio. Este tipo de sesgos pueden reducirse si se tienen en cuenta los siguientes conceptos
básicos: a) los observadores (encargados de la medición o evaluación) deben ser ciegos al tipo de
tratamiento que recibe el enfermo, b) las mediciones del proceso de interés han de desarrollarse en
condiciones similares en ambos grupos con el mismo instrumento de medida y en los mismos
momentos de seguimiento, y c) los criterios diagnósticos que señalen la presencia del evento de
interés deben estar claramente definidos.

BIBLIOGRAFÍA
1. Sackett, D.L., Haynes, R.B., Guyatt, G.H., Tugwell, P. Epidemiología clínica. Ciencia
básica para la medicina clínica. 2ª ed. Madrid: Editorial Médica Panamericana; 1994.
2. Fletcher, R.H., Fletcher S.W., Wagner E.H. Epidemiología clínica. Barcelona: Ediciones
Consulta; 1989.
3. Moreno A., Cano V., García M. Epidemiología clínica. 2ª ed. México: Interamericana.
McGraw-Hill; 1994.
4. Brownson R.C., Remigton P.L., Davis J.R. Chronic disease epidemiology and control.
Baltimore: American Public Health Association; 1993.
5. Jenicek M., Cleroux R. Epidemiología. Principios-Técnicas-Aplicaciones. Barcelona:
Salvat; 1987.
6. Barker D.J.P., Rose G. Epidemiología en la práctica médica 2ª Edición. Barcelona:
Ediciones Científicas y Técnicas; 1992.
7. Alvarez Caceres R. El método científico en las ciencias de la salud. Las bases de la
investigación biomédica. Madrid: Díaz de Santos; 1996.
8. Villagrasa F., Bañares J., Barona C., PLA E. El juicio pronóstico. En: Tratado de
epidemiología clínica. Madrid: DuPont Pharma Madrid; 1995. p. 255-269.
9. Guyatt GH, Sackett DL, Cook DJ. Evidence-Based Medicine Working Group. Users´ guides
to the medical literature.II. How to use an article about therapy or prevention. Are the result
of the study valid? JAMA 1993; 270: 2598-2601. [Medline]
10. Goldman L., Feinstein AR. Anticoagulants and myocardial infarction. The problems of
pooling, drowing and floating. Ann Intern Med 1979; 90: 92-94. [Medline]
11. Chalmers T.C., Matta R.J., Smith H Jr, Kunzler AM. Evidence of favoring the use of
anticoagulants in the hospital phase of acute miocardial infarction. N. Engl J Med 1977; 297:
1091-1096. [Medline]
12. Abramson J.H. Meta-analysis: a review of pros and cons. Public Health Rev 1991; 18: 1-47.
[Medline]
13. Delgado Rodríguez M., Sillero Arenas M., Gálvez Vargas R. Metaanalisis en epidemiología
(primera parte): Características generales. Gac Sanit 1991; 5: 265-272. [Medline]
14. Pita Fernández S. Análisis de supervivencia. En: Tratado de epidemiología clínica. Madrid:
DuPónt pharma Madrid; 1995. p.597-610.
15. Dawson S.B. Trapp R.G. Basic & Clínical Biostatistics. 2ºnd ed. New Jersey: Appleton &
Lange; 1994.

Número necesario de pacientes a tratar para reducir un evento
Pita Fernández S, López de Ullibarri Galparsoro I. [ Correo de contacto ]

Coruña
CAD ATEN PRIMARIA 1998; 96-98 (Actualizado 26/01/2001)
La práctica clínica requiere la toma de decisiones sobre actividades preventivas, Contenido

terapéuticas y pronósticas. Con frecuencia existen dificultades para trasladar los RR = Riesgo
Relativo
resultados de una investigación a la practica clínica por la forma en que
RRR =
habitualmente se presentan los resultados en términos de: p<0.05, p<0.001, riesgo Reducción
relativo, odds ratio, reducción absoluta del riesgo, fracción atribuible poblacional o Relativa del
Riesgo
fracción etiológica. Por otra parte los resultados de un estudio pueden ser
RAR =
estadísticamente significativos y no ser clínicamente relevantes por lo que los Reducción
médicos necesitamos instrumentos que nos permitan decidir si una actitud Absoluta del
Riesgo
determinada o un tratamiento específico deben ser incorporados en la rutina diaria
NNT = Número
(1). necesario de
pacientes a
tratar para
La medicina basada en la evidencia incorpora la utilización de términos, como el reducir un
número necesario de pacientes a tratar para reducir un evento (NNT) que cada vez evento
se utiliza con más frecuencia (2,3). Una de las razones por la que se utiliza cada vez Cálculo del RR,
RRR, RAR y NNT
con más frecuencia se deriva de las deficiencias de expresiones alternativas y porque
NNT para
expresa de una manera muy evidente los beneficios de utilizar un tratamiento o diferentes
actividad preventiva sobre un control, indicando por así decir "el precio a pagar para tratamientos
obtener un beneficio" (4,5). Bibliografía
La práctica de la medicina basada en la evidencia considera el ensayo clínico Documento

aleatorizado como el estándar para valorar la eficacia de las tecnologías sanitarias y en PDF (35
recomienda que las decisiones se tomen, siempre que se pueda, con opciones Kb)
¿Problemas
diagnósticas o terapéuticas de demostrada eficacia (6,7). con PDF?
Cálculos online
La forma recomendada de presentar los resultados de un ensayo clínico aleatorizado
y otros tipos de estudio debe incluir (1,2,6,8): La reducción relativa del riesgo
(RRR), la reducción absoluta del riesgo (RAR) y el número necesario de pacientes a
tratar para reducir un evento (NNT).
Consideremos para su cálculo este ejemplo: Mueren 15% de pacientes en el grupo

de intervención y mueren un 20% en el grupo control. El riesgo relativo, que es el
cociente entre los expuestos al nuevo tratamiento o actividad preventiva y los no
expuestos, es en este caso (0.15/0.20=0.75). El riesgo de muerte de los pacientes
que reciben el nuevo tratamiento relativo al de los pacientes del grupo control fue de
0.75. La RRR es el complemento del RR, es decir, (1-0.75)* 100 = 25%. El nuevo
http://www.fisterra.com/mbe/investiga/5nnt/5nnt.htm (1 of 4)22/04/2006 1:20:53 PM

tratamiento reduce el riesgo de muerte en un 25% relativo al que ha ocurrido en el UBC Clinical
grupo control. La reducción absoluta del riesgo (RAR) sería: 0.20-0.15= 0.05 Significance
Calculator
(5%). Podríamos decir por tanto que de cada 100 personas tratadas con el nuevo
NNT/NNH
tratamiento podemos evitar 5 casos de muerte. La siguiente pregunta sería: si de
Calculator
cada 100 personas tratadas con el nuevo tratamiento podemos evitar 5 casos de Number
muerte. ¿Cuántos tendríamos que tratar para evitar un solo caso de muerte?. En Needed to
otras palabras ¿cuál es el NNT?. Su cálculo requiere una simple regla de tres que se Harm Multicalc
resuelve dividiendo 1/RAR. En este caso 1/0.05 = 20. Por tanto la respuesta es que Number
necesitamos tratar a 20 pacientes con el nuevo tratamiento para evitar un caso de Needed to
Treat Multicalc
muerte.
Number
Needed to
Este modo de presentar los resultados nos cuantifica el esfuerzo a realizar para Harm (NNH)
conseguir la reducción de un evento desfavorable. El presentar los resultados sólo from Odds
como reducción porcentual del riesgo relativo (RRR), aunque es técnicamente Ratio (OR) and
Patient
correcto, tiende a magnificar el efecto de la intervención al describir del mismo
Expected Event
modo situaciones muy dispares. Dicho efecto lo podemos objetivar en la tabla 1, Rate (PEER)
donde se objetiva que la reducción del riesgo es igual pero el NNT es Number
completamente diferente. Cambios pequeños en el riesgo basal absoluto de un Needed to
hecho clínico infrecuente conducen a grandes cambios en el número de pacientes Treat (NNT)
que necesitamos tratar con la intención de prevenir uno. from Odds
Ratio (OR) and
Patient
Tabla 1. Cálculo de Riesgo relativo (RR), Reducción Relativa del Expected Event
Riesgo (RRR), Reducción Absoluta del Riesgo (RAR) y Número Rate (PEER)
Necesario de Pacientes a Tratar para reducir un evento (NNT) en
situaciones diferentes. Table of NNTs -
Bandolier
Incidencia Incidencia
en en No RR RRR RAR NNT
Expuestos Expuestos
(1-RR)
(Ie) (Io) Ie/Io Io-Ie 1/RAR
*100
8% 10 % 0.8 20 % 0.10-0.08 50
0.01-
0.8% 1% 0.8 20 % 500
0.008
El cálculo del NNT representa como ya hemos indicado el número de pacientes a tratar
de manera experimental a fin de evitar que uno de ellos desarrolle un resultado negativo.
Es por tanto una forma excelente de determinar la significancia clínica de un ensayo que
además sea estadísticamente significativo. Cuanto más reducido es NNT el efecto de la
magnitud del tratamiento es mayor. Si no se encontrase eficacia en el tratamiento la
reducción absoluta del riesgo sería cero y el NNT sería infinito. Como sucede en las
estimaciones de otros parámetros, se debe expresar el NNT con intervalos de confianza
para estimar la incertidumbre que dicho parámetro presenta (9,10).
En la tabla 2 se presentan algunos NNT para diferentes tratamientos (6).
Tabla 2. NNT para tratamientos diferentes (6)

Tasa en el NNT para evitar
Episodios que Tasa en el Duración del
Enfermedad Intervención grupo un episodio
se previenen grupo control seguimiento
experimental adicional

Regímenes
Neuropatía
Diabetes (DMID) (1) intensivos de 0.096 0.028 6.5 años 15
Diabética
Insulina
Diabetes (DMNID) Regímenes Retinopatías 0.38 0.13 6 años 4

(2) intensivos de
Insulina Nefropatía 0.30 0.10 6 años 5
Muerte a las 5
0.134 0.081 5 semanas 19
Infarto de Estreptoquinasa y semanas
Miocardio (3) Aspirina Muerte a los 2
0.216 0.174 2 años 24
años
Presión Arterial Muerte,

Fármacos apoplejía o
Diastólica 115-129 0.0545 0.0467 5.5 años 128
antihipertensivos infarto de
mmHg (4)
miocardio
Permanencia en
Personas mayores Estudio geriátrico residencias por
0.10 0.04 3 años 17
independientes (5) exhaustivo un largo período
de tiempo
Mujeres
MgSO4 iv (vs Convulsiones
embarazadas con 0.279 0.132 Horas 7
Diacepan) recurrentes
eclampsia (6)
Exploración de
Mujeres sanas de Muerte por
mamas además 0.00345 0.00252 9 años 1075
edad 50-69 años (7) cáncer de mama
de mamografía
Estenosis grave
Aplplejía total o
sintomática de la Endarterectomía 0.181 0.08 2 años 10
muerte
arteria (8)
Síndrome de
Niños prematuros Corticosteroides
distrés 0.23 0.13 Días 11
(9) prenatales
respiratorio
(1) Ann Intern Med 1995; 122: 561-8; EBM 1995;1:9
(2) Diabetes Res Clín Pract 1995; 28: 103-17
(3) Lancet 1988; 2: 349-60
(4) JAMA 1967; 202: 116-22
(5) BMJ 1985; 291: 97-104
(6) N Engl J Med 1995; 333: 1184-9; EBM 1996;1:44
(7) Lancet 1995; 345: 1455-63; EBM 1996; 1:44
(8) Lancet 1993; 341: 973-8
(9) N Engl J Med 1991; 325: 445-53
(9) Am J Obstet Gynecol 1995; 173: 322-35; EBM 1996; 1: 92
La creciente demanda de este tipo de información se puede obtener en Internet en el

Centro de Medicina Basada en la Evidencia que existe en Oxford, Inglaterra en la
dirección: http://cebm.jr2.ox.ac.uk.
El cálculo de NNT con sus intervalos de confianza se puede realizar de manera

automática con programas disponibles al efecto en la dirección: http://www.healthcare.
ubc.ca/calc/clinsig.html
El cálculo del NNT proporciona a los clínicos un excelente instrumento en relación a las
decisiones de incorporar prácticas en la actividad clínica diaria. Proporciona una manera

clara y útil de medir el esfuerzo para conseguir un beneficio y es una excelente

herramienta que la medicina basada en la evidencia nos proporciona y que debe ser
utilizada en la toma de decisiones.
Tabla de NNTs de Bandolier en http://www.jr2.ox.ac.uk/bandolier/band50/b50-8.html
Bibliografía
1. Laupacis A, Sackett DL, Roberts RS: An assesment of clinically useful measures of treatment.
N Engl J Med 1988; 318: 1728-1733. [Medline]
2. Guyatt GH, Sackett DL, Cook DJ. Users´ guides to the medical literature. II. How to use an
article about therapy or prevention. B. What were the results and will they help in caring for my
patients? Evidence Based Medicine Working Group. JAMA 1994; 271: 59-63. [Medline]
3. Cordell WH. Number Needed to treat (NNT). Ann Emerg Med 1999; 33: 433-436. [Medline]
4. Chatellier G, Zapletal E. Lemaitre D. Menard J. Degoulet P. The number needed to treal: A

clinically useful nomogram in its proper context. BMJ 1996; 312: 426-429. . [Medline] [Texto
completo]
5. McQuay HJ, Moore A. Using numerical result from systematic reviews in clinical practice.
Ann Intern Med 1997; 126: 712-720. [Medline]
6. Sackett DL, Richarson WS, Rosenberg W, Hynes RB. Evidence-based medicine: how to
practice and teach EBM. London: Churchill-livingstone; 1997.
7. Guyatt GH, Sackett DL, Cook DJ. Users´guides to the medical literature. II. How to use an
articie about therapy or prevention. A. Are the results of the study valid? Evidence-Based
Medicine Working Group. JAMA 1993; 270: 2598-2601. [Medline]
8. Cook RJ, Sackett DL. The number needed to treal: a clincally useful measure of treatment
effect. BMJ 1995; 310: 452-454. [Medline] [Texto completo]
9. Altman DG. Confidence intervals for the nember needed to treat. BMJ 1998; 317: 1309-1312.
[Medline] [Texto completo]
10. Daly LE. Confidence limits made easy: interval estimation using a subsitution method. Am J
Epidemiol 1998; 147: 783-90. [Medline]

Tipos de estudios clínico epidemiológicos
Pita Fernández S. [ Correo de contacto ]

Coruña
Pita Fernández, S. Epidemiología. Conceptos básicos. En: Tratado de Epidemiología Clínica.

Madrid; DuPont Pharma, S.A.; Unidad de epidemiología Clínica, Departamento de Medicina y
Psiquiatría. Universidad de Alicante: 1995. p. 25-47. (Actualizado 28/02/2001)
Los estudios epidemiológicos clásicamente se dividen en Experimentales y No Contenido

experimentales. En los estudios experimentales se produce una manipulación de una Tipos de
estudios
exposición determinada en un grupo de individuos que se compara con otro grupo en
Estudios
el que no se intervino, o al que se expone a otra intervención. Cuando el experimento descriptivos
no es posible se diseñan estudios no experimentales que simulan de alguna forma el Estudios
experimento que no se ha podido realizar (1-5). En la Tabla 1 se resumen los analíticos
diferentes tipos de estudios. Si ha existido manipulación pero no aleatorización se Estudios
habla de estudios Cuasi-experimentales. Existen diferentes clasificaciones de los experimentales
diferentes estudios y así también algunos autores describen los estudios como se Sesgos. La
precisión y
señalan en la Tabla 2. (6)
validez de un
estudio
Tabla 1. Tipos de Estudios Epidemiológicos I Bibliografía
Experimentales No Experimentales
● Estudios ecológicos Documento
● Ensayo clínico ● Estudios de prevalencia en PDF (75
● Ensayo de campo ● Estudios de casos y Kb)
● Ensayo comunitario de controles ¿Problemas
intervención ● Estudios de cohortes o de con PDF?
seguimiento
Cálculos online
UBC Clinical
Significance
Calculator
NNT/NNH
Calculator
Tabla 2. Tipos de Estudios Epidemiológicos II
DESCRIPTIVOS
● En Poblaciones
❍ Estudios ecológicos
● En Individuos
❍ A propósito de un caso
❍ Series de casos
❍ Transversales / Prevalencia
ANALÍTICOS
http://www.fisterra.com/mbe/investiga/6tipos_estudios/6tipos_estudios.htm (1 of 13)22/04/2006 1:21:02 PM

● Observacionales
❍ Estudios de casos y controles
❍ Estudios de cohortes (retrospectivos y
prospectivos)
● Intervención
❍ Ensayo clínico
❍ Ensayo de campo
❍ Ensayo comunitario
Las diferentes estrategias de los diferentes estudios han hecho que en la literatura
científica exista una proliferación de nombres y sinónimos cuando se hace referencia a
los estudios epidemiológicos. Resumimos en la Tabla 3 alguno de estos sinónimos.
Tabla 3. Sinónimos y nombre en inglés de los diferentes tipos de

estudios.
Estudio Experimental (Experimental study)
Ensayo clínico (Clinical Trial)
Ensayo de campo (Field trial)
Ensayo comunitario de intervención (Community intervention trial)
Estudio de Observación (Observational study)
Estudios de Cohortes (Cohort study)
Estudio
prospectivo
Sinónimos: -
Prospective
study
Estudio de
Seguimiento
- Follow-up
study
Estudio
concurrente
-
Concurrent
study
Estudio de
incidencia -
Incidence
study
Estudio
Longitudinal
-
Longitudinal
study
Estudio de Cohortes histórico (Historical cohort study)
Estudio
prospectivo
Sinónimos: no
concurrente -
Nonconcurrent
prospective
study
Estudio de
seguimiento
retrospectivo
- Prospective
study in
retrospect

Estudios de Casos y Controles (Case control-study)

Retrospective
study
Sinónimos:
Case
comparison
study
Case history
study
Case
compeer
study
Case
referent
study
Trohoc study
Estudio Transversal (Cross-sectional study)
Estudio de
prevalencia
Sinónimos: -
Prevalence
study -
Disease
frequencie
study
Estudio de
morbilidad
-
Morbidity
survey
Encuesta
de salud -
Health
survey
Dado el objetivo introductorio de este apartado presentamos muy brevemente las

características fundamentales de los diferente tipos de estudios.
ESTUDIOS DESCRIPTIVOS.
Estos estudios describen la frecuencia y las características más importantes de un

problema de salud. Los datos proporcionados por estos estudios son esenciales para los
administradores sanitarios así como para los epidemiólogos y los clínicos. Los primeros
podrán identificar los grupos de población más vulnerables y distribuir los recursos según
dichas necesidades y para los segundos son el primer paso en la investigación de los
determinantes de la enfermedad y la identificación de los factores de riesgo (5,6).
Los principales tipos de estudios descriptivos son: los estudios ecológicos, los estudios de
series de casos y los transversales o de prevalencia.
Estudios ecológicos: Estos estudios no utilizan la información del individuo de una

forma aislada sino que utilizan datos agregados de toda la población. Describen la
enfermedad en la población en relación a variables de interés como puede ser la edad, la
utilización de servicios, el consumo de alimentos, de bebidas alcohólicas, de tabaco, la
renta per cápita… Un ejemplo de este estudio sería correlacionar la mortalidad por

enfermedad coronaria con el consumo per cápita de cigarrillos. Estos estudios son el
primer paso en muchas ocasiones en la investigación de una posible relación entre una
enfermedad y una exposición determinada. Su gran ventaja reside en que se realizan muy
rápidamente, prácticamente sin coste y con información que suele estar disponible. Así
por ejemplo los datos demográficos y el consumo de diferentes productos se pueden
correlacionar con la utilización de servicios sanitarios, con registros de mortalidad y
registros de cáncer.
La principal limitación de estos estudios es que no pueden determinar si existe una

asociación entre una exposición y una enfermedad a nivel individual. La falacia ecológica
consiste precisamente en obtener conclusiones inadecuadas a nivel individual basados en
datos poblacionales.
Otra gran limitación de los estudios ecológicos es la incapacidad para controlar por
variables potencialmente confusoras. La asociación o correlación que encontremos entre
dos variables puede ser debida a una tercera variable que a su vez esté asociada con la
enfermedad y la exposición objeto de estudio.
Series de casos: Estos estudios describen la experiencia de un paciente o un grupo de

pacientes con un diagnóstico similar. En estos estudios frecuentemente se describe una
característica de una enfermedad o de un paciente, que sirven para generar nuevas
hipótesis. Muchas veces documentan la presencia de nuevas enfermedades o efectos
adversos y en este sentido sirven para mantener una vigilancia epidemiológica.
Estos estudios aunque son muy útiles para formular hipótesis, no sirven para evaluar o
testar la presencia de una asociación estadística. La presencia de una asociación puede ser
un hecho fortuito. La gran limitación de este tipo de estudios es en definitiva la ausencia
de un grupo control.
Estudios transversales: Este tipo de estudios denominados también de prevalencia,

estudian simultáneamente la exposición y la enfermedad en una población bien definida
en un momento determinado. Esta medición simultánea no permite conocer la secuencia
temporal de los acontecimientos y no es por tanto posible determinar si la exposición
precedió a la enfermedad o viceversa.
La realización de este tipo de estudios requiere definir claramente:
a. La población de referencia sobre la que se desea extrapolar los resultados.

b. La población susceptible de ser incluida en nuestra muestra delimitando
claramente los que pueden ser incluidos en dicho estudio.
c. La selección y definición de variables por las que se va a caracterizar el proceso.
d. Las escalas de medida a utilizar.
e. La definición de "caso"
Los estudios transversales se utilizan fundamentalmente para conocer la prevalencia de

una enfermedad o de un factor de riesgo.
Esta información es de gran utilidad para valorar el estado de salud de una comunidad y

determinar sus necesidades. Así mismo sirven como todos los estudios descriptivos para
formular hipótesis etiológicas.
ESTUDIOS ANALÍTICOS.
Estudio de casos y controles: Este tipo de estudio identifica a personas con una
enfermedad (u otra variable de interés) que estudiemos y los compara con un grupo
control apropiado que no tenga la enfermedad. La relación entre uno o varios factores
relacionados con la enfermedad se examina comparando la frecuencia de exposición a
éste u otros factores entre los casos y los controles (5,6) .
A este tipo de estudio que es de los más utilizados en la investigación se le podría

describir como un procedimiento epidemiológico analítico, no experimental con un
sentido retrospectivo, ya que partiendo del efecto, se estudian sus antecedentes, en el que
se seleccionan dos grupos de sujetos llamados casos y controles según tengan o no la
enfermedad.
En los estudios de casos y controles (Tabla 4) tenemos casos expuestos (a), casos no
expuestos (c), controles expuestos (b) y controles no expuestos (d). En este estudio la
frecuencia de exposición a la causa entre los casos (a/c) se compara con la frecuencia de
exposición en una muestra que represente a los individuos en los que el efecto no se ha
producido y entre los que la frecuencia de exposición es (b/d).
TABLA 4. Tabla de 2 x 2 en los estudios de Casos y Controles

Casos Controles
Expuestos a b
No expuestos c d
Si la frecuencia de exposición a la causa es mayor en el grupo de casos de la enfermedad

que en los controles, podemos decir que hay una asociación entre la causa y el efecto. La
medida de asociación que permite cuantificar esta asociación se llama "odds ratio" (razón
de productos cruzados, razón de disparidad, razón de predominio, proporción de
desigualdades, razón de oposiciones, oposición de probabilidades contrarias, cociente de
probabilidades relativas, oportunidad relativa) y su cálculo se estima:
Los grandes temas que se deben abordar al realizar un estudio de casos y controles son
después de la definición de caso, la selección de los controles y las fuentes de

información sobre la exposición y la enfermedad .
No es el objetivo de este apartado realizar una revisión exhaustiva del diseño de este tipo
de estudios por lo que resumiremos diciendo que la selección de los casos debe:
a. Establecer de forma clara y explícita la definición de la enfermedad y los criterios

de inclusión.
b. Los casos deben ser incidentes ya que los casos prevalentes:
1. Cambian sus hábitos en relación con la exposición.

2. Los casos prevalentes pueden ser los sobrevivientes de casos incidentes y
la supervivencia puede estar relacionada con la exposición.
La selección del grupo control debe tener en cuenta:
a. La función del grupo control es estimar la proporción de exposición esperada en

un grupo que no tiene la enfermedad.
b. Los controles deben ser representativos de la población de donde provienen los
casos. Los casos y los controles no deben entenderse como dos grupos
representativos de dos poblaciones distintas, sino como dos grupos que proceden
de una misma población.
Los controles deben ser comparables a los casos en el sentido de haber tenido la misma
probabilidad de haber estado expuestos.
Estudio de cohortes (o de seguimiento): En este tipo de estudio los individuos son

identificados en función de la presencia o ausencia de exposición a un determinado
factor. En este momento todos están libres de la enfermedad de interés y son seguidos
durante un período de tiempo para observar la frecuencia de aparición del fenómeno que
nos interesa. Si al finalizar el período de observación la incidencia de la enfermedad es
mayor en el grupo de expuestos, podremos concluir que existe una asociación estadística
entre la exposición a la variable y la incidencia de la enfermedad.
La cuantificación de esta asociación la podemos calcular construyendo una razón entre la

incidencia del fenómeno en los expuestos a la variable (le) y la incidencia del fenómeno
en los no expuestos (lo). Esta razón entre incidencias se conoce como riesgo relativo y su
cálculo se estima como (Tabla 5):
Tabla 5. Tabla de 2 x 2 en los estudios de Cohortes

Enfermos Sanos Total
Expuestos a b a+b

En este tipo de estudio como quiera que los participantes están libres de la enfermedad al
inicio del seguimiento, la secuencia temporal entre exposición y enfermedad se puede
establecer más claramente. A su vez este tipo de estudio permite el examen de múltiples
efectos ante una exposición determinada.
Las ventajas y limitaciones de este tipo de estudio y de los diferentes tipos de estudios se
resumen en la Tabla 6 (6).
Los estudios de cohortes pueden ser prospectivos y retrospectivos dependiendo de la

relación temporal entre el inicio del estudio y la presencia de la enfermedad. En los
retrospectivos tanto la exposición como la enfermedad ya han sucedido cuando el estudio
se inició. En los prospectivos la exposición pudo haber ocurrido o no, pero desde luego lo
que aún no ha sucedido es la presencia de la enfermedad. Por tanto se requiere un período
de seguimiento en el futuro para determinar la frecuencia de la misma.
Tabla 6. Ventajas y limitaciones de los diferentes estudios

epidemiológicos
Ensayos Clínicos
Ventajas Limitaciones
● Mayor control en el diseño. ● Coste elevado.
● Menos posibilidad de ● Limitaciones de tipo ético y
sesgos debido a la responsabilidad en la
selección aleatoria de los manipulación de la
grupos. exposición.
● Repetibles y comparables ● Dificultades en la
con otras experiencias. generalización debido a la
selección y o a la propia
rigidez de la intervención.
Estudios de Cohortes
● Estiman incidencia. ● Coste elevado.
● Mejor posibilidad de sesgos ● Dificultad en la ejecución.
en la medición de la ● No son útiles en
exposición. enfermedades raras.
● Requieren generalmente un
tamaño muestral elevado.
● El paso del tiempo puede
introducir cambios en los
métodos y criterios
diagnósticos.
● Posibilidad de pérdida en el
seguimiento.
Estudios de Casos y Controles


● Relativamente menos ● No estiman directamente la

costosos que los estudios incidencia.
de seguimiento. ● Facilidad de introducir
● Corta duración. sesgos de selección y/o
● Aplicaciones para el estudio información.
de enfermedades raras. ● La secuencia temporal
● Permite el análisis de entre exposición y
varios factores de riesgo enfermedad no siempre es
para una determinada fácil de establecer.
enfermedad.
Estudios Transversales
● Fáciles de ejecutar. ● Por sí mismos no sirven
● Relativamente poco para la investigación causal.
costosos. ● No son útiles en
● Se pueden estudiar varias enfermedades raras ni de
enfermedades y/o factores corta duración.
de riesgo a la vez. ● Posibilidad de sesgos de
● Caracterizan la distribución información y selección.
de la enfermedad respecto
a diferentes variables.
● Precisan poco tiempo para
su ejecución.
● Útiles en la planificación y
Administración Sanitaria
(Identifican el nivel de
salud, los grupos
vulnerables y la
prevalencia).
Este tipo de estudios son de la suficiente complejidad para requerir, no sólo un equipo
multidisciplinario que los aborde sino una cantidad de recursos suficientes para
mantenerlos a lo largo del tiempo.
ESTUDIOS EXPERIMENTALES.
En los estudios experimentales el investigador manipula las condiciones de la

investigación. Este tipo de estudios se utilizan para evaluar la eficacia de diferentes
terapias, de actividades preventivas o para la evaluación de actividades de planificación y
programación sanitarias. Como en los estudios de seguimiento los individuos son
identificados en base a su exposición, pero a diferencia de estos, en los estudios
experimentales es el investigador el que decide la exposición. El gran control que se tiene
sobre el diseño facilita la interpretación de las asociaciones como causales . Para el
médico clínico es de gran interés poder realizar inferencias causales en medio de la
incertidumbre que rodea la practica clínica ya sea en actividades de prevención, de
diagnóstico o terapéuticas (7,8).
Los estudios experimentales pueden ser considerados:
1. Terapéuticos (o prevención secundaria) se realizan con pacientes con una

enfermedad determinada y determinan la capacidad de un agente o un

procedimiento para disminuir síntomas, para prevenir la recurrencia o para reducir
el riesgo de muerte por dicha enfermedad.
2. Los preventivos (o prevención primaria) evalúan si una agente o procedimiento
reduce el riesgo de desarrollar una enfermedad. Por ello los estudios
experimentales preventivos se realizan entre individuos sanos que están a riesgo
de desarrollar una enfermedad. Esta intervención puede ser sobre una base
individual o comunitaria a toda una población determinada.
Ensayo clínico: Es el estudio experimental más frecuente. Los sujetos son pacientes y
evalúa uno o más tratamientos para una enfermedad o proceso. La validez de este estudio
radica fundamentalmente en que el proceso aleatorio haga los grupos comparables en las
variables más relevantes en relación al problema a estudiar. El diseño del estudio debe
contemplar básicamente:
a. La ética y justificación del ensayo.

b. La población susceptible de ser estudiada.
c. La selección de los pacientes con su consentimiento a participar.
d. El proceso de aleatorización.
e. La descripción minuciosa de la intervención.
f. El seguimiento exhaustivo que contemple las pérdidas y los no cumplidores.
g. La medición de la variable final.
h. La comparación de los resultados en los grupos de intervención y control.
Ensayos de campo: Tratan con sujetos que aún no han adquirido la enfermedad o con
aquéllos que estén en riesgo de adquirirla y estudian factores preventivos de
enfermedades como pueden ser la administración de vacunas o el seguimiento de dietas.
Ensayos comunitarios: Incluyen intervenciones sobre bases comunitarias amplias. Este

tipo de diseños suelen ser cuasiexperimentales (existe manipulación pero no
aleatorización), en los que una o varias comunidades recibirán la intervención, mientras
que otras servirán como control.
Los estudios experimentales si tienen un diseño cuidadoso con un tamaño muestral

suficiente, un proceso de aleatorización adecuado, una intervención y un seguimiento
perfectamente controlados pueden proporcionar evidencias muy fuertes que nos permitan
emitir juicios sobre la existencia de relaciones causales entre variables.
SESGOS. LA PRECISIÓN Y VALIDEZ DE UN ESTUDIO.
Independientemente del tema y los objetivos de un estudio, que pueden ser de mayor o
menor interés para el lector o para la comunidad científica, lo que siempre se debe
perseguir es que el estudio sea preciso y válido.
Todo estudio debe ser entendido como un ejercicio de medida en cada uno de los
apartados de planificación, ejecución e interpretación. Es por tanto necesario formular

unos objetivos de forma clara y cuantitativa para dejar muy bien sentado desde el
principio que es lo que se quiere medir. Si este primer paso es deficiente o poco claro la
calidad de un estudio se tambalea. (9-11)
La meta fundamental que todo estudio epidemiológico debe perseguir es la agudeza en la

medición. Por ello, que todo lo que amenace esta correcta medición debe ser identificado
y corregido. Los elementos que amenazan estas mediciones son: El Error Aleatorio y el
Error Sistemático.
La carencia de error aleatorio se conoce como precisión y se corresponde con la

reducción del error debido al azar. Para reducir este error el elemento más importante del
que disponemos es incrementar el tamaño de la muestra y con ello aumentamos la
precisión. Los intervalos de confianza y el error estándar se reducen al aumentar el
tamaño muestral. Es por tanto necesario desde un principio preocuparse por el tamaño
muestral del estudio que vamos a realizar definiendo la precisión y la seguridad del
mismo. La precisión también se puede mejorar modificando el diseño del estudio para
aumentar la eficiencia de la información que obtengo de los sujetos del estudio.
La carencia del error sistemático se conoce como validez. Esta validez tiene dos
componentes: La validez interna, que es la validez de las inferencias a los sujetos reales
del estudio y la validez externa o generalización en tanto se aplica a individuos que están
fuera de la población del estudio. La validez interna es por tanto un prerrequisito para que
pueda darse la extrema.
La validez interna que es la que implica validez de inferencia para los propios sujetos de
estudio. Se ve amenazada por varios tipos de sesgos.
Entendemos por sesgos los errores sistemáticos en un estudio epidemiológico que

producen una estimación incorrecta de asociación entre la exposición y la enfermedad. En
definitiva producen una estimación equivocada del efecto.
Cuando realizamos un estudio o interpretamos los resultados del mismo nos podemos
preguntar: ¿Podrían los resultados deberse a algo que los autores no han tenido en
consideración?, como por ejemplo:
a. Los grupos del estudio no son comparables debido a como fueron seleccionados
los pacientes (sesgos en la selección).
b. Los grupos de pacientes del estudio no son comparables debido a como se
obtuvieron los datos (sesgos en la información).
c. Los autores no han recogido información (o la han obtenido pero no la han
utilizado) sobre un factor que se relaciona a la vez con la exposición y con el
efecto estudiados (factor de confusión).
Los principales sesgos que comentaremos son los sesgos de selección, observación e
información.
SESGO DE SELECCIÓN

Este sesgo hace referencia a cualquier error que se deriva del proceso de identificación de
la población a estudiar. La distorsión resulta de la forma en que los sujetos han sido
seleccionados. Estos sesgos se pueden cometer:
a. Al seleccionar el grupo control.

b. Al seleccionar el espacio muestral donde se realizará el estudio.
c. Por pérdidas en el seguimiento.
d. Por la presencia de una supervivencia selectiva.
Los sesgos de selección pueden presentarse también en los estudios de casos y controles,
cuando el procedimiento utilizado para identificar el status de enfermedad (sesgo
diagnóstico) varía o se modifica con el status exposición. Este sesgo se llama "sesgo de
detección".
Los sesgos de selección son un problema fundamental en los estudios de casos y

controles y en los estudios de cohortes retrospectivos donde la exposición y el resultado
final ya han ocurrido en el momento que los individuos son seleccionados para el estudio.
Los sesgos de selección son poco probables en los estudios de cohortes prospectivos
porque la exposición se determina antes de la presencia de enfermedad de interés. En
todos los casos, cuando el sesgo de selección ocurre, el resultado produce una relación
entre exposición y enfermedad que es diferente entre los individuos que entraron en el
estudio que entre los que pudiendo haber sido elegidos para participar, no fueron elegidos.
La evitación de los sesgos de selección depende en gran medida de que el investigador

conozca las fuentes de sesgo potenciales. En los estudios de casos y controles para evitar
sesgos de selección, se recomienda al menos teóricamente, ya que desde el punto de vista
práctico es muy costoso, utilizar dos grupos control. Uno de ellos una muestra
poblacional, lo que posibilita el detectar el posible sesgo de selección al hacer
estimaciones del efecto por separado. Si obtenemos la misma estimación del efecto en los
controles poblacionales que con los otros controles podremos asumir que no hay sesgos
en la selección de los mismos. A pesar de todo siempre existe la posibilidad remota de
que las dos estimaciones tuviesen el mismo grado de sesgo. Otra recomendación es
utilizar muchas patologías como grupo control en lugar de pocas patologías y comprobar
que las frecuencias de exposición son similares entre los diferentes grupos diagnosticados
en los controles. En los estudios de seguimiento se debe asegurar un seguimiento
completo en ambos grupos.
SESGO DE INFORMACIÓN U OBSERVACIÓN.
Este sesgo incluye cualquier error sistemático en la medida de información sobre la

exposición a estudiar o los resultados. Los sesgos de observación o información se
derivan de las diferencias sistemáticas en las que los datos sobre exposición o resultado
final, se obtienen de los diferentes grupos. El rehusar o no responder en un estudio puede
introducir sesgos si la tasa de respuesta está relacionada con el status de exposición. El
sesgo de información es por tanto una distorsión en la estimación del efecto por errores
de medición en la exposición o enfermedad o en la clasificación errónea de los sujetos.
Las fuentes de sesgo de información más frecuentes son:

a. Instrumento de medida no adecuado.

b. Criterios diagnósticos incorrectos.
c. Omisiones.
d. Imprecisiones en la información.
e. Errores en la clasificación.
f. Errores introducidos por los cuestionarios o las encuestadoras.
Los errores de clasificación son una consecuencia directa del sesgo de información. Esta
clasificación puede ser "diferencial" si el error de clasificación es independiente para
ambos grupos o "no diferencial" si el error de clasificación es igual para ambos grupos de
estudio, produciéndose una dilución del efecto con una subestimación del mismo.
Los encuestadores pueden introducir errores de clasificación "diferencial" si conocen las

hipótesis del estudio y la condición del entrevistado. Este tipo de problema se puede
controlar por medio de:
a. Desconocimiento del entrevistado.

b. Desconocimiento de las hipótesis de estudio.
c. Utilización de cuestionarios estructurados.
d. Tiempos de ejecución de la entrevista definitiva.
e. Utilización de pocos entrevistadores.
La prevención y control de sesgos potenciales debe prevenirse durante el diseño del

estudio ya que en el análisis no va a ser posible solucionar los sesgos de selección e
información. Por el contrario los factores de confusión sí pueden ser controlados en el
análisis. Dichos factores de confusión van a producir una distorsión en la estimación del
efecto, en el sentido de que el efecto observado en a población en estudio es una mezcla
de los efectos debidos a una tercera (o más) variables.
Los sesgos, el azar y la presencia de variables confusoras deben finalmente siempre,

tenerse en cuenta, como explicación posible de cualquier asociación estadística ya sea
esta positiva, negativa o no existente; Y es que como señalaba M. Susser en sus
reflexiones sobre causalidad "cuando hay minas por todas partes no debe uno aventurarse
sin un detector de minas" (12).
Bibliografía
1- MacMahon B., Trichopoulos D. Epidemiology: Principles and Methods. 2nd ed. Boston:
Lippincott Williams & Wilkins; 1996. [editor]
2- Jenicek M., Cleroux R. Epidemiología: la lógica de la medicina moderna. Barcelona: Masson;

1996.
3- Armijo R.R. Epidemiología básica en Atención primaria de salud. Madrid: Díaz de Santos;
1993.

4- Rothman K.J. Epidemiología Moderna. Madrid: Ediciones Días de Santos; 1987.
5- Kelsey JL., Thompson WD., Evans AS. Methods in Observational Epidemiology. New York:
Oxford University Press; 1986. [Amazon]
6- Hennekens CH., Buring JE. Epidemiology in Medicine Boston: Litte, Brown and Company;
1987.
7- Sackett DL., Haynes RB., Guyatt GH., Tugwell P. Epidemiología clínica. Ciencia básica para
la medicina clínica. 2ª ed. Madrid: Editorial Médica Panamericana; 1994.
8- Fletcher RH., Fletcher SW., Wagner EH. Epidemiología clínica. 2ª ed. Barcelona: Masson-
Williams & Wilkins; 1998.
9- Kleinbaum DG., Kupper LL., Morggenstern H. Epidemiologic Research. Principles and

Quantitative Methods. Belmont, California: John Wiley & Sons; 1982.
10- Miettinem OS. Theoretical Epidemiology. New York: Jhon Wiley & Sons; 1985.
11- Rothman KJ. (ed). Causal Inference. Chesnut Hill: Epidemiology Resources Inc; 1988.
12- Susser M. Conceptos y estrategias en epidemiología. El pensamiento causal en ciencias de la

salud. México: Biblioteca de la Salud; 1991.

Estudios experimentales en la Práctica Clínica: los Ensayos clínicos
Estudios experimentales en la práctica clínica.

Investigación terapéutica. Ensayos clínicos.

Coruña (España)
Pita Fernández, S. Estudios experimentales en la práctica clínica. Investigación terapéutica.

Ensayos clínicos. En: Gómez de la Cámara, A. ed. Manual de Medicina Basada en la
Evidencia. Elementos para su desarrollo y aplicación en Atención Primaria. Madrid:
Jarpyo Editores; 1998. p. 147-163. (Actualización 28/02/2001)
¿Qué es un ensayo clínico? Contenido

Qué es un
Ensayo Clínico
Un ensayo clínico es una evaluación experimental de un producto, sustancia,
Consideraciones
medicamento, técnica diagnóstica o terapéutica que a través de su aplicación a seres
metodológicas
humanos pretende valorar su eficacia y seguridad (1-3) Protocolo de un
Ensayo Clínico
Diferentes grupos han propuesto que en la práctica médica diaria se empleen sólo - Justificación y
los medicamentos y procedimientos que hayan demostrado mayor eficacia y Objetivos
eficiencia sobre la salud de la población (4). - Tipo de
Ensayo Clínico
- Selección de
En la práctica médica actual un ensayo clínico aleatorio controlado de una los sujetos
terapéutica contra otra es la norma aceptada por la cual se juzga la utilidad de un - Descripción
tratamiento. del Tratamiento
- Desarrollo del
El diseño del estudio debe contemplar básicamente: ensayo y
evaluación de
la respuesta
1. La ética y justificación del ensayo. -
2. La población susceptible de ser estudiada. Acontecimientos
3. La selección de los pacientes con su consentimiento a participar. adversos
4. El proceso de aleatorización. - Aspectos

éticos
5. La descripción minuciosa de la intervención.
-
6. El seguimiento exhaustivo que contemple las pérdidas y los no cumplidores. Consideraciones
7. La medición de la variable final. prácticas
8. La comparación de los resultados en los grupos de intervención y control. Bibliografía
Consideraciones metodológicas Documento

en PDF (55
Kb)
El protocolo del ensayo debe estar claramente desarrollado y escrito antes del ¿Problemas
proceso de selección de los pacientes. Los elementos básicos de dicho protocolo se con PDF?
indican en la tabla 1 (5).
http://www.fisterra.com/mbe/investiga/7ensayos/7ensayos.htm (1 of 9)22/04/2006 1:21:08 PM

Cálculos online
Todos los detalles de cómo se realizarán cada una de las actividades del ensayo no UBC Clinical
Significance
es necesario que se incluyan en el protocolo siempre y cuando exista un manual del
Calculator
investigador y unos procedimientos normalizados de trabajo en que sí se incluyan.
NNT / NNH
A continuación revisaremos alguno de los aspectos metodológicos más relevantes Calculator
en el diseño de un ensayo clínico (1,5-7) Real Decreto
223/2004, por el
Tabla 1. Apartados del protocolo de un Ensayo Clínico que se regulan los
ensayos clínicos
● Resumen
con medicamentos
● Índice
● Información general:
❍ Título del ensayo

❍ Identificación del promotor
❍ Investigador/es principal/es
❍ Centros en los que se prevé realizar el ensayo
❍ Fase del ensayo
● Justificación y objetivos
● Tipo de ensayo y diseño del mismo
● Selección de sujetos
● Descripción del tratamiento
● Desarrollo del ensayo y evaluación de la respuesta
● Acontecimientos adversos
● Aspectos ético-legales:
❍ Consentimiento informado
❍ Póliza de seguros
❍ Indemnización
● Consideraciones prácticas
● Análisis estadístico
● Documentación complementaria:
Contratos relacionados con el ensayo clínico

❍
Presupuesto
❍
❍ Distribución de gastos
● Cuaderno de recogida de datos
● Manual del investigador
● Procedimientos normalizados de trabajo:
❍ Identificación y calificación del equipo investigador

❍ Procedimiento de archivo de la documentación
❍ Procedimientos de monitorización
❍ Regulación de los procedimientos de suministro
❍ Procedimiento de notificación de acontecimientos
adversos graves e inesperados
❍ Procedimiento para proporcionar información adecuada
al sujeto y consentimiento informado
Justificación y objetivos
En este apartado se debe indicar toda la información relevante y las evidencias científicas
que apoyen la realización del estudio. Es evidente que el ensayo depende de la pregunta a
investigar, que debe ser científica y médicamente relevante. El tamaño muestral
dependerá del objetivo principal, que debe estar claramente definido. Si existiesen
objetivos debe quedar claramente de manifiesto y se pretende valorar la eficacia, la
seguridad, la farmacocinética o la búsqueda de dosis de un fármaco.

Tipo de ensayo clínico
La integridad científica del ensayo y la credibilidad de los datos obtenidos en el mismo

dependen sustancialmente del diseño. En este apartado se debe incluir:
● Descripción del tipo de ensayo que se va a realizar (como, por ejemplo: doble
ciego, controlado con placebo, cruzado o paralelo…).
● Tipo de control (placebo u otros).
● Descripción detallada del proceso de aleatorización (procedimiento y
consideraciones prácticas).
Selección de los sujetos
● Criterios de inclusión y exclusión.

● Criterios diagnósticos para las patologías en estudio.
● Número de sujetos previstos (totales y por centros sí procede) y justificación de
dicho tamaño muestral.
● Variables que se estudiarán en cada sujeto, con su escala de medida y calendario
de recogida.
● Criterios de retirada y análisis previsto de las retiradas y los abandonos.
● Tratamiento de las pérdidas pre-randomización.
● Duración aproximada del periodo de reclutamiento en función del número de
pacientes disponibles.
Descripción del tratamiento
● Descripción de la dosis, intervalo, vía y forma de administración y duración del

tratamiento a ensayo.
● Criterios de modificación de pautas a lo largo del ensayo.
● Tratamientos concomitantes permitidos y prohibidos.
● Especificación de la "medicación de rescate" en los casos en que proceda.
● Normas especiales del manejo de fármacos en estudio.
● En caso de tratamientos no permitidos, especificar el período de tiempo mínimo
transcurrido desde su suspensión hasta que el sujeto pueda ser incluido en el
estudio.
● Medidas para valorar el cumplimiento terapéutico.
Desarrollo del ensayo y evaluación de la respuesta
● Enfermedad o trastorno a estudio.

● Variable principal de valoración.
● Número y tiempo de las visitas durante el mismo, especificando las pruebas o
exploraciones que se realizarán para la valoración de la respuesta.
● Descripción de los métodos (radiológicos, de laboratorio…) utilizados para la
valoración de la respuesta y control de calidad de los mismos.
Acontecimientos adversos

● Indicación de la información mínima que se deberá especificar para los

acontecimientos adversos (descripción, gravedad, duración, secuencia temporal,
método de detección, tratamiento administrado en su caso; causas alternativas,
factores predisponentes…).
● Indicar criterios de imputabilidad que se van a utilizar.
● Indicar los procedimientos para la notificación inmediata de los acontecimientos
adversos graves o inesperados.
● Incluir un modelo de hoja de notificación de acontecimientos adversos a las
autoridades sanitarias.
Aspectos éticos. Principios éticos para las investigaciones

médicas en seres humanos
● Consideraciones generales: aceptación de las (Declaración de Helsinki)
normas nacionales e internacionales al respecto Principios de Buena Práctica Clínica
(Declaración de Helsinki). Normas de buena
Comité ético de Investigación Clínica de Galicia
práctica clínica [anexo I].
● Información que será proporcionada a los
pacientes y tipo de consentimiento que será solicitado en el ensayo clínico.
● Especificación de quién tendrá acceso a los datos, con el fin de garantizar su
confidencialidad.
● Contenidos del presupuesto del ensayo clínico (compensación para los pacientes
del ensayo, investigadores…) que deben ser comunicados al comité ético de
investigación clínica correspondiente.
● Garantía de la existencia de una póliza de seguro o indemnización suscrita y
característica de la misma.
Consideraciones prácticas
● Especificar las responsabilidades de todos los participantes en el ensayo clínico.

● Especificar las condiciones de archivo de datos, su manejo, procesamiento y
correcciones.
● Identificación de las muestras de investigación clínica y responsables de su
suministro y conservación, así como del etiquetado de las mismas.
● Condiciones de publicación.
Valoración de un ensayo
La valoración de un ensayo se debe contemplar teniendo en cuenta dos aspectos

diferentes: por un lado, lo que deben contemplar los comités de investigación clínica para
evaluar un ensayo y, por otro lado, cómo evaluar un artículo sobre terapéutica.
La valoración que de un ensayo clínico deben contemplar los comités de investigación

clínica comprende los siguientes criterios:
1. Evaluación de la idoneidad del protocolo en relación con los objetivos del estudio,
su eficiencia científica o la posibilidad de alcanzar conclusiones válidas, con la
menor exposición posible de sujetos y la justificación de los riesgos y molestias

previsibles, ponderadas en función de los beneficios esperados para los sujetos y

la sociedad.
2. Evaluación de la idoneidad del/de los equipos investigadores para el ensayo
clínico propuesto. En este apartado hay que tener en cuenta la experiencia y
capacidad investigadora para llevar a cabo el estudio.
3. Evaluación de la información escrita sobre las características del ensayo clínico
que se dará a los posibles sujetos de la investigación, la forma en que dicha
información será proporcionada y el tipo de consentimiento que va a obtenerse.
4. Comprobación de la previsión de la compensación y tratamiento que se ofrecerá a
los sujetos participantes en caso de lesión o de muerte atribuible al ensayo clínico
y del seguro o indemnización para cubrir las responsabilidades especificadas por
la legislación.
5. Conocimiento y evaluación del alcance de las compensaciones que se ofrecerán a
los investigadores y a los sujetos de la investigación por su participación.
Para la evaluación de un artículo sobre terapéutica siguiendo las recomendaciones de

"The Evidence-Based Medicine Working Group" (8,9) debemos tener en cuenta las
siguientes consideraciones:
● Son válidos los resultados del estudio.
¿ Fue aleatoria la asignación de los pacientes al tratamiento?

❍
❍ ¿ Se ha tenido en cuenta en las conclusiones a todos los pacientes
correctamente incluidos, en cuanto a su número y a sus características?

❍ ¿Se realizó un enmascaramiento de los pacientes, los médicos y del
personal del estudio?

❍ Aparte de la intervención experimental del estudio ¿fueron ambos grupos
igualmente tratados?
● ¿Cuáles fueron los resultados del estudio?
¿Cuál fue la magnitud del efecto terapéutico?

❍
¿Cuál ha sido la precisión en la estimación del efecto?

❍
❍ ¿Cuál fue la magnitud del efecto terapéutico?
❍ ¿Cuál ha sido la precisión en la estimación del efecto?
● ¿Los resultados del estudio son útiles para mis pacientes?
❍ ¿Puedo aplicar estos resultados a mis pacientes?

❍ ¿Se han considerado todos los resultados clínicamente importantes?
❍ Los beneficios terapéuticos ¿compensan los riesgos potenciales y los
costes?
Aunque los investigadores tienen la obligación de revisar críticamente el estudio y sus

hallazgos y presentar suficiente información para que el lector pueda evaluar
adecuadamente el ensayo, los lectores deben tener la suficiente capacidad crítica para
discriminar la calidad de la mejor evidencia. Consideramos que el conocimiento
metodológico de los diferentes aspectos de un ensayo clínico ayudan a valorar la calidad
de la evidencia científica y, en definitiva, ayudan a mejorar el cuidado de los pacientes,
que es el objetivo fundamental de nuestro trabajo.

Un ejemplo
Un ejemplo de la estructura de un artículo sobre terapéutica para que el lector

realice su propio análisis crítico podría venir dado por la pregunta frecuente de
considerar el tratamiento de un paciente con cardiopatía isquémica y concentraciones
elevadas de colesterol en sangre. Se pretende buscar información científica sobre la
eficacia del tratamiento hipolipemiante. La búsqueda bibliográfica aporta el siguiente
artículo y se realiza una valoración crítica detenida ponderando el beneficio del
tratamiento sobre tanto la reducción relativa como la absoluta del riesgo y verificando
fácilmente el esfuerzo a realizar según el número de sujetos a tratar por cardiopatía
isquémica para evitar un caso de muerte o de infarto de miocardio
Randomised trial of cholesterol lowering in 4444 patients with coronary heart

disease: the Scandivarian Simvastatin Survival Study (4S). Lancet 1994; 334: 1383-
1389.
Objetivo: evaluar la eficacia de la disminución de colesterol con simvastatina en la

reducción de la mortalidad y morbilidad en pacientes con enfermedad coronaria (EC).
Diseño: ensayo clínico controlado, aleatorizado en dos ramas, a doble ciego con placebo
y un seguimiento medio de 5,4 años.
Ámbito: pacientes procedentes de 95 centros médicos de Escandinavia.
Sujetos de estudio: 4.444 pacientes de entre 35 y 70 años, 81% hombres, 51% mayores
de 60 años, con antecedentes de infarto de miocardio previo a angina de pecho, colesterol
sérico de 5,5 a 8,8 mmol/l, concentraciones medias de HDL de 1,18 mmol/l, LDL 4,87
mmol/l, triglicéridos 1,50 mmol/l y dieta hipolipemiante concurrente.
Intervención: a 2.223 sujetos se les administraron 20 mgr de simvastatina y a 2.221 el

correspondiente placebo.
Parámetros principales de eficacia: mortalidad total, mortalidad de causa coronaria,

infarto de miocardio no letal probable o definitivo verificado.
Resultados principales: durante los 5,4 años en promedio de seguimiento la simvastatina

produjo unos cambios medios de colesterol total, LDL colesterol y HDL colesterol de –
25%, -35% y +8%, respectivamente. Doscientos cincuenta y seis (12%) sujetos en el
grupo de placebo murieron en comparación con 182 (8%) en el grupo de simvastatina.
Hubo 189 muertes de origen coronario en el grupo de placebo y 111 en el de simvastatina
y 49 y 46 muertes de origen no cardiovascular en dichos grupos, respectivamente.
Seiscientos veintidós sujetos (28%) en el grupo con placebo y 431 (19%) en el de
simvastatina tuvieron uno o más incidentes coronarios mayores (tabla II).
Conclusiones: la disminución de la concentración de colesterol con simvastatina reduce

la mortalidad total y la incidencia de incidentes cardiovasculares mayores.

Tabla 2. Simvastatina vs Placebo. Resultados a los 5.4 años de seguimiento

RRR RAR NNT
Simvastatina Placebo Reduccción Reducción Absoluta Número que se

Relativa del Riesgo del Riesgo necesita tratar
TEE TEC
Tasa de Episodios Tasa de Episodios

TEC-TEE / TEC TEC-TEE 1 / RAR
en el grupo en el grupo
Experimental % Control %
1/4 = 25
Mortalidad total 8% 12 % 12-8 / 12 = 33% 12-8 = 4%
pacientes
Incidentes
1/9 = 11
coronarios 19 % 28 % 28-19 / 28 = 32% 28-19 = 9%
pacientes
mayores
Bibliografía
1. Friedman LM, Furberg CD, DeMets DL. Fundamentals of clinical trials. 3 rd. ed. New York:
Springer Verlag; 1998.
2. Hennekens CH, Buring JE. Epidemiology in Medicine. Boston: Little Brown; 1987.
3. Hulley SB, Cummings Sr. Designing clinical research. 2 nd. ed. Baltimore: Lippincott
Williams and Wilkins; 2001.
4. Evidence-Based Medicine Working Group. Evidence Based medicine. A new approach to

teaching the practice of medicine. JAMA 1992; 268: 2420-5. [Medline]
5. Procedimientos normalizados de trabajo del Comité ético de investigación clínica (CEIC) de

la Comunidad Autónoma de Galicia. Santiago de Compostela: Consellería de Sanidade, Servicio
Galego de Saúde; 1996. [Texto complementario]
6. Sacket DL, Haynes RB, Cuyatt GH, Tugwell P. Epidemiología clínica. Ciencia básica para la
medicina clínica. 2ª ed. Madrid: Médica Panamericana; 1994.
7. Fletcher RH, Fletcher SW, Wagner EH. Clinical Epidemiology. The Essentials. 3 rd. ed.
Baltimore: Williams and Wilkins; 1996.
8. Evidence-Based Medicine Working Group. User´Guides to the Medical Literature. II How to

Use an Article About Therapy or Prevention. A. Are the results of the study valid? JAMA 1993;
270: 2598-2601. [Medline]
9. Evidence-Based Medicine Working Group. User´ Guides to the Medical Literature. II How to
Use an Article About Therapy or Prevention. B. What were the results and will they help me in
caring for my patients? JAMA 1994; 271: 59-63. [Medline]

10. Real Decreto 561/1993 de 16 de abril por el que se establecen requisitos para la realización
de Ensayos clínicos con Medicamentos (Boletín Oficial del Estado, nº114, del 13 de mayo de
1993).
11. Directiva 91/507/CEE de 19 de julio sobre Normas y Protocolos Analíticos,

Toxifarmacológicos y Clínicos en materia de medicamentos (DOCE ,nº L 270, 26 de septiembre
de 1991).
Anexo I
Principios de Buena práctica clínica y garantía de calidad
De acuerdo con la legislación del Estado (R.D. 561/1993)10 y de la Directiva

Comunitaria (91/507/CEE)11, todos los ensayos clínicos en todas sus fases, incluyendo
aquellos de biodisponibilidad y bioequivalencia, se realizarán según las normas de buena
práctica clínica.
Las normas de buena práctica clínica (BPC) son una ayuda para asegurar que la
investigación clínica se lleva a cabo según los más elevados estándares de calidad,
siguiendo los criterios éticos (basados en la Declaración de Helsinki y desarrollos
ulteriores) y con un equipo médico de garantía. En este sentido, las normas de BPC
constituyen una norma para el diseño, dirección, realización, cumplimiento,
monitorización, auditoría, registro, análisis e información de ensayos clínicos que asegura
que los datos y resultados obtenidos son correctos y creíbles y que se protegen los
derechos, integridad y confidencialidad de los sujetos del ensayo.
Los principios de la BPC (buena práctica clínica) son los siguientes:
1. Los ensayos clínicos deben ser realizados de acuerdo con los principios éticos que
tienen su origen en la Declaración Helsinki, los cuales son consistentes con la
BPC y los requisitos reguladores pertinentes.
2. Antes de iniciar un ensayo, deben considerarse las inconveniencias y riesgos
previsibles en relación con el beneficio previsto paras el sujeto individual del
ensayo y para la sociedad. Un ensayo debe ser iniciado y continuado sólo si los
beneficios previstos justifican los riesgos.
3. Los derechos, seguridad y bienestar de los sujetos del ensayo son las
consideraciones más importantes y deben prevalecer sobre los intereses de la
ciencia y la sociedad.
4. La información clínica y no clínica disponible sobre un producto en investigación
debe ser adecuada para respaldar el ensayo clínico propuesto.
5. Los ensayos clínicos deben ser científicamente razonables y estar descritos en un
protocolo claro y detallado.
6. Un ensayo debe ser realizado de acuerdo con el protocolo, que ha recibido una
revisión previa y una opinión favorable/aprobación de un Consejo Institucional de
Revisión (CIR) / Comité Ético Independiente (CEI).
7. El cuidado médico que reciben los sujetos y las decisiones médicas que afectan a

los mismos deben ser siempre responsabilidad de un médico cualificado o, en su

caso de un odontólogo cualificado.
8. Cada individuo implicado en la realización de un ensayo debe ser cualificado, por
educación, formación y experiencia, para realizar su labor.
9. Se debe obtener un consentimiento informado, dado libremente, de cada sujeto,
previamente a su participación en el ensayo clínico.
10. Toda la información del ensayo clínico debe ser registrada, manejada y
almacenada de forma que permita su comunicación, verificación e interpretación
exactas.
11. Debe protegerse la confidencialidad de los registros que pudieran identificar a los
sujetos, respetando la privacidad y las normas de confidencialidad de acuerdo con
los requisitos reguladores pertinentes.
12. Los productos en investigación deben ser fabricados, manejos y almacenados de
acuerdo con las normas de buena práctica de fabricación pertinentes y se deben
utilizar de acuerdo con el protocolo aprobado.
Se deberán llevar a cabo los sistemas y procedimientos que aseguren la calidad de cada
aspecto del ensayo.

El Consentimiento Informado en los Ensayos Clínicos
El Consentimiento Informado en los ensayos clínicos
Lamas Meilán, Manuel María* Pita Fernández, Salvador** [ Correo de contacto ]

* Doctor en Derecho
** Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A
Coruña (España)
Un ensayo clínico es una evaluación experimental de un producto, sustancia, Contenido

medicamento, técnica diagnóstica o terapéutica que a través de su aplicación a seres Criterios de los
humanos pretende evaluar su eficacia y seguridad (1-3). Evaluadores de
los comités
éticos
Diferentes grupos han propuesto que en la práctica médica diaria se empleen solo Requisitos para
los medicamentos y procedimientos que hayan demostrado mayor eficacia y la realización
eficiencia sobre la salud de la población (4). de Ensayos
Clínicos con
medicamentos
En la práctica médica actual un ensayo clínico aleatorio controlado de una (R.D.
terapéutica contra otra es la norma aceptada por la cual se juzga la utilidad de un 561/1993)
tratamiento. Bibliografía
El diseño del estudio debe contemplar básicamente: Documento

en PDF
(52Kb)
a. La ética y justificación del ensayo. ¿Problemas
b. La población susceptible de ser estudiada. con PDF?
c. La selección de los pacientes con su consentimiento a participar. Tablas
d. El proceso de aleatorización. Tabla 1.
e. La descripción minuciosa de la intervención. Apartados del
f. El seguimiento exhaustivo que contemple las perdidas y los no cumplidores. Protocolo de un
Ensayo Clínico
g. La medición de la variable final.
Tabla 2.
h. La comparación de los resultados en los grupos de intervención y control.
Modelo de
Consentimiento
El protocolo del ensayo debe estar claramente desarrollado y escrito antes del Informado
proceso de selección de los pacientes. Los elementos básicos de dicho protocolo se Real Decreto
indican en la tabla 1 (5). 223/2004, por el
que se regulan
los ensayos
La evaluación y valoración del protocolo del ensayo clínico se llevará a cabo clínicos con
por evaluadores de los comités éticos correspondientes según los siguientes medicamentos
criterios (6,7):
1. Evaluación de la idoneidad del protocolo en relación a los objetivos del estudio, su

eficiencia científica o la posibilidad de alcanzar conclusiones válidas, con la
menor exposición posible de sujetos y la justificación de los riesgos y molestias
previsibles, ponderadas en función de los beneficios esperados para los sujetos y la
http://www.fisterra.com/mbe/investiga/8consentimiento/consentimiento_ensayos.htm (1 of 9)22/04/2006 1:21:16 PM

sociedad.
2. Evaluación de la idoneidad del/de los equipos investigador/es para el ensayo
clínico propuesto. Se tendrá en cuenta la experiencia y capacidad investigadora
para llevar adelante el estudio, en función de sus obligaciones asistenciales y de
los compromisos previamente adquiridos con otros protocolos de investigación.
3. Evaluación de la información escrita sobre las características del ensayo clínico
que se dará a los posibles sujetos de la investigación, o en su defecto, a su
representante legal, la forma en que dicha información será proporcionada y el
tipo de consentimiento que va a obtenerse.
4. Comprobación de la previsión de la compensación y tratamiento que se ofrecerá a
los sujetos participantes en caso de lesión o de muerte atribuibles al ensayo
clínico, y del seguro o indemnización para cubrir las responsabilidades
especificadas por la legislación.
5. Conocimiento y evaluación del alcance de las compensaciones que se ofrecerán a
los investigadores y a los sujetos de la investigación por su participación.
La valoración del consentimiento informado debe contemplar los apartados que se

señalan en la tabla 2, según el Real Decreto 561/93 (6).
Real Decreto 561/1993, de 16 de abril, por el que se establecen los

requisitos para la realización de ensayos clínicos con medicamentos.
[ texto completo ]
Aquí analizaremos su art.12, en el cual se regula el consentimiento informado en estos

procedimientos.
Artículo 12. Consentimiento informado.
1. Es imprescindible que el sujeto otorgue libremente su consentimiento informado

antes de poder ser incluido en un ensayo clínico.
Imprescindible: pese a comenzar el párrafo 1º de este artículo con el término

imprescindible, en el apartado 6º se regula cuando "excepcionalmente se puede prescindir
de este requisito".
Sujetos: Las personas sanas o enfermas, con o sin interés terapéutico particular. Los
menores o incapaces sólo podrán ser sujetos de ensayos clínicos sin interés terapéutico
particular si el Comité Etico de Investigación Médica determina que se cumple todo lo
siguiente : a) Adopción de las medidas necesarias que garanticen que el riesgo sea
mínimo ; b) Las experiencias a que van a ser sometidos son equivalentes a las que
correspondan a su situación médica, psicológica, social o educacional ; c) Del ensayo se
obtendrán conocimientos relevantes sobre la enfermedad o situación objeto de
investigación, de vital importancia para entenderla, paliarla o curarla ; d) Estos
conocimientos no pueden ser obtenidos de otro modo. Las mujeres gestantes o en período
de lactancia sólo podrán realizar ensayos clínicos sin finalidad terapéutica cuando el
Comité Etico de Investigación Clínica concluya que no supone ningún riesgo previsible
para su salud ni para la del feto o niño y se obtendrán conocimientos útiles y relevantes

sobre el embarazo o la lactancia (art. 11 apartados 1, 2, 3 y 4 del mencionado Real

Decreto (R.D.).
Resulta evidente que los grupos de sujetos objeto de especial protección como los
menores, incapaces, mujeres gestantes... a los que se les someta a un ensayo clínico sin
beneficio directo para su salud, el Comité deberá actuar muy diligentemente toda vez que
los requisitos que se establecen " riesgos mínimos, no solo útiles, sino relevantes, que no
se puedan obtener de otro modo" conlleva un análisis exhaustivo previo de dicho ensayo
lo que implicará una revisión amplia y actualizada de toda la literatura científica
relacionada con dicho estudio.
Libre: Ha de ser emitido sin vicios que lo invaliden.
2. Todas las personas implicadas en un ensayo clínico evitarán cualquier influencia

sobre el sujeto participante en el ensayo.
Influencia: Entendemos que una información objetiva de los riesgos que se asuman así
como de los beneficios esperados y una compensación económica moderada en los
ensayos clínicos sin beneficio directo para la salud de los sujetos participantes,
evidencian una falta de influencia. Ya que pese a la fuerte carga de subjetividad del
término influencia, esta última como todo hecho subjetivo se demuestra mediante hechos
objetivos. Así contribuiremos a no inducir al sujeto participante a hacerlo por motivos
que no sean beneficio directo para su salud o interés por el avance científico tal y como se
establece en el art. 11 de este R.D.
3. El consentimiento informado es el procedimiento que garantiza que el sujeto ha

expresado voluntariamente su intención de participar en el ensayo clínico, después
de haber comprendido la información que se le ha dado acerca de los objetivos del
estudio, beneficios, incomodidades y riesgos previstos, alternativas posibles,
derechos y responsabilidades, tal como se recoge en el anexo 6, apartado 1. El
documento de consentimiento informado (anexo 6, apartado 2 ó 3) acredita que
dicho consentimiento ha sido otorgado.
La jurisprudencia entiende que el compromiso que asume el médico con el paciente es

solo de medios, no de resultados, si bien en la denominada medicina voluntaria (cirugía
estética, ensayos clínicos, medios profilácticos), se exige un mayor rigor en la obligación
de informar.
4. El sujeto expresará su consentimiento preferiblemente por escrito (anexo 6,

apartado 2), en su defecto, de forma oral ante testigos independientes del equipo
investigado que lo declaran por escrito bajo su responsabilidad (anexo 6, apartado

3). En aquellos ensayos sin interés terapéutico particular para el sujeto, su

consentimiento constará necesariamente por escrito.
Deberá el médico y no el sujeto del ensayo, probar que existió el consentimiento. La

carga de la prueba corresponderá en estos supuestos al facultativo.
5. En los casos de menores de edad e incapaces, el consentimiento lo otorgará

siempre por escrito su representante legal (anexo 6, apartado 4), tras haber recibido
y comprendido la información mencionada. Cuando las condiciones del sujeto lo
permitan y, en todo caso, cuando el menor tenga doce o más años, deberá prestar
además su consentimiento (anexo 6, apartado 2) para participar en el ensayo,
después de haberle dado toda la información pertinente adaptada a su nivel de
entendimiento. El consentimiento del representante legal y del menor, en su caso,
será puesto en conocimiento del Ministerio Fiscal, previamente a la realización del
ensayo.
El Estatuto Orgánico del Ministerio Fiscal, en su art. 3 apartado 7 (8). atribuye al Fiscal la
defensa y la representación de los intereses de los menores e incapaces.
En estos supuestos, el Ministerio Fiscal actuará como garante de los derechos de estos
sujetos objeto de especial protección, velando para que la información recibida por los
destinatarios sea lo más detallada e inequívoca haciendo especial hincapié en que se
minimicen los riesgos y que se obtenga un beneficio directo para la salud del menor o
incapaz, debiendo actuar con gran rigor profesional cuando el ensayo no represente un
beneficio directo para la salud de estos sujetos, exigiendo que se cumpla todo lo
preceptuado en el art. 11 párrafo 3 del Reglamento tras haberlo así determinado
previamente el Comité Etico de Investigación Clínica.
6. En el caso excepcional en que por la urgencia de la aplicación del tratamiento no

fuera posible disponer del consentimiento del sujeto o de su representante legal en el
momento de su inclusión en el ensayo clínico, este hecho será informado al Comité
Etico de Investigación Clínica y al promotor por el investigador, explicando las
razones que ha dado lugar al mismo. En cualquier caso, esta situación estará
prevista en el protocolo del ensayo clínico aprobado por el correspondiente Comité
Etico de Investigación Clínica, y únicamente procederá cuando tenga un específico
interés terapéutico particular para el paciente. El sujeto o su representante legal
será informado en cuanto sea posible y otorgará su consentimiento para continuar
en el ensayo si procediera. Esta circunstancia excepcional sólo podrá aplicarse a
ensayos clínicos con interés terapéutico particular para el paciente.
Dada la media excepcional que regula esta apartado, el Comité antes de aprobar el
protocolo deberá acreditar que la urgencia en la aplicación del tratamiento en este tipo de
supuestos no es tan solo una manifestación del equipo investigador, sino una realidad
objetivable y como únicamente procederá cuando tenga un específico interés terapéutico

particular para el paciente, este interés habrá de poder cuantificarlo ya sea para
compararlo con otra alternativa terapéutica al objeto de poder demostrar esta notable
mejora que justifique su aplicación sin contar con el consentimiento del paciente o bien
acreditar la ausencia de alternativa y las razones que hagan prever que reportará un
específico interés terapéutico particular para el sujeto.
Entre otras por las siguientes razones:
a. La directiva 91/507/C.E.E. de 19 de julio, (9) nos dice que todos los ensayos
clínicos en todas las fases se realizarán según las normas de buena práctica clínica.
Estas normas pretenden garantizar que los ensayos clínicos sean diseñados,
realizados y comunicados de modo que aseguren que los datos sean fiables y que
se protejan los derechos de los sujetos. Si bien el orden de los factores no altera el
producto, consideramos poco acertado comenzar hablando antes de la eficiencia
científica que de los derechos de los sujetos.
b. En el art. 43 de la Constitución Española, (10) se reconoce el derecho a la

protección a la salud. Todo lo anterior es una lógica consecuencia del derecho a la
vida y a la integridad física, el derecho en abstracto a la vida se concreta en el
derecho a la protección a la salud. Por tanto, cuando al negar el derecho a la
protección de la salud se pusiera en peligro la vida o la integridad física de las
personas, nos encontraríamos en presencia de un ataque al derecho a la vida,
derecho fundamental, en todas sus consecuencias.
c. Los poderes públicos garantizarán la defensa de los consumidores y usuarios,

protegiendo mediante procedimientos eficaces, la seguridad, la salud y los
legítimos intereses económicos de los mismos, art. 51 de la Constitución. (10).
d. Nuestro ordenamiento jurídico sanitario se basa en el principio de autonomía del

paciente, lo que supone un cambio cultural en las relaciones médico-paciente
regidas ayer y todavía hoy en gran medida por el principio de beneficencia. La
cristalización de ese gran cambio cultural en la relaciones usuario-facultativo, se
manifiesta bajo la forma de "consentimiento informado" , art. 10 de la Ley
General de Sanidad en los apartados 5 y 6, (11) que no es otra cosa que la
manifestación del respeto debido a la dignidad humana, reconociendo su derecho a
tomar sus propias decisiones y garantizando su libertad en algo tan fundamental
como es su propia salud.
e. La lex artis, consiste en dar al enfermo los cuidados conscientes, atentos y, salvo
circunstancias excepcionales, con arreglo a los datos y conclusiones actuales de la
ciencia. Lo anterior tiene su origen en el art. 1.104 del Código Civil (12) cuando
alude a la "diligencia que exija la naturaleza de la obligación y corresponda a las
circunstancias de la persona, del tiempo y del lugar..... y cuando la obligación no
exprese la diligencia que ha de presentarse en su cumplimiento, se exigirá la que
correspondería a un buen padre de familia...".
f. En el ensayo clínico el fin que se persigue es fundamentalmente investigador, pero

no sería posible oponer el interés de la ciencia como justificación para llevar a

cabo los experimentos frontalmente contra la vida o la integridad física de las

personas, so pena de convertir al ser humano en una cobaya.
7. El sujeto participante en un ensayo clínico o su representante podrán revocar su

consentimiento en cualquier momento, sin expresión de causa y sin que por ello se
derive para él responsabilidad ni perjuicio alguno.
Bibliografía
1- Friedman LM, Furberg CD, DeMets DL. Fundamentals of clinical trials. 3 rd.
ed. New York: Springer Verlag; 1998.
2- Hennekens CH., Buring JE. Epidemiology in Medicine. Boston : Little Brown

and Company; 1987.
3- Hulley SB, Cummings Sr. Designing clinical research. 2 nd. ed. Baltimore:
Lippincott Williams and Wilkins; 2001.
4- Evidence-Based Medicine Working Group. Evidence based medicine. A new

approach to teaching the practice of medicine. JAMA 1992 ; 268: 2420-5.
[Medline]
5- Procedimientos normalizados de trabajo del Comité Etico de Investigación

Clínica. (CEIC) de la Comunidad Autónoma de Galicia. Santiago de Compostela:
Servicio Galego de Saude, Consellería de Sanidade; 1996.
6- Real Decreto 561/1993 de 16 de abril por el que se establecen requisitos para

la realización de Ensayos clínicos con Medicamentos (Boletín Oficial del Estado,
nº114, del 13 de mayo de 1993).
7- Real Decreto 32/1996, de 25 de enero, sobre Ensayos Clínicos en Galicia.

Diario Oficial de Galicia, 26 de 6 de febrero de 1996.
8- Ley 50/81, de 30 de diciembre por la que se regula el Estatuto Orgánico del

Ministerio Fiscal, art. 3.
9- Directiva de la Comisión de 19 de julio de 1991 por la que se modifica el

Anexo de la Directiva 75/318/CEE del Consejo relativa a la aproximación de las
legislaciones de los Estados miembros sobre normas y protocolos analíticos,
toxicofarmacológicos y clínicos en materia de pruebas de medicamentos (91/507/
CEE).
10- Constitución Española. Aprobada por las Cortes en Sesiones Plenarias del
Congreso de los Diputados y del Senado celebradas el 31 de Octubre de 1978.
[texto completo]
11- Ley 14/1986, de 25 de Abril, General de Sanidad. [texto completo]

12- Código Civil. Real Orden de 29 de Julio de 1889, por la que se significa el
real agrado a los miembros de la sección primera de la Comisión General de
Codificación que redactaron las enmiendas y adiciones de la edición reformada
del Código Civil, y por la que se dispone la publicación en la Gaceta de Madrid
de la "Exposición" en la que se expresan los fundamentos de las mismas.
Arriba
Tabla 1. Apartados del Protocolo de un Ensayo Clínico.

● Resumen
● Índice
● Información general:
❍Título del ensayo

❍Identificación del promotor
❍ Investigador/res principal/es
❍ Centros en los que se prevee realizar el ensayo
❍ Fase del ensayo
● Justificación y Objetivos
● Tipo de ensayo y diseño del mismo
● Selección de sujetos
● Descripción del tratamiento
● Desarrollo del ensayo y evaluación de la respuesta
● Acontecimientos adversos
● Aspectos ético-legales:
❍Consentimiento informado
❍Póliza de seguros
❍ Indemnización
● Consideraciones prácticas
● Análisis estadísticos
● Documentación complementaria:
Contratos relacionados con el ensayo clínico

❍
Presupuesto
❍
❍ Distribución de gastos
● Cuaderno de recogida de datos
● Manual del investigador
● Procedimientos normalizados de trabajo
❍ Identificación y calificación del equipo investigador

❍ Procedimiento de archivo de la documentación
❍ Procedimientos de monitorización
❍ Regulación de los procedimientos de suministros
❍ Procedimiento de notificación de acontecimientos
adversos, graves e inesperados
❍ Procedimiento para proporcionar información adecuada
al sujeto y consentimiento informado.
Arriba

Tabla 2. Consentimiento informado (anexo 6 Real Decreto

561/93)
1. Hoja de información para el posible participante
Es el documento escrito, específico para cada ensayo clínico, que se
entregará al posible participante antes de que este otorgue su
consentimiento para ser incluido en el mismo.
Contendrá información referente a los siguientes aspectos del ensayo

clínico:
1. Objetivo
2. Metodología empleada
3. Tratamiento que puede serle administrado, haciendo referencia al
placebo si procede.
4. Beneficios derivados del estudio.
5. Incomodidades y riesgos derivados del estudio (número de visitas,
pruebas complementarias a que se someterá...).
6. Posibles acontecimientos adversos.
7. Tratamientos alternativos disponibles.
8. Carácter voluntario de su participación, así como posibilidad de
retirarse del estudio en cualquier momento, sin que por ello se
altere la relación médico-enfermo ni se produzca perjuicio en su
tratamiento.
9. Personas que tendrán acceso a los datos del voluntario y forma en
que se mantendrá la confidencialidad.
10. Modo de compensación económica y tratamiento en caso de daño
o lesión por su participación en el ensayo, tal como consta en la
Ley de medicamento.
11. Investigador responsable del ensayo y de informar al sujeto y
contestar a sus dudas y preguntas, y modo de contactar con él en
caso de urgencia.
2. Modelo de Consentimiento por escrito
Título del
ensayo..............................................................................................
Yo .................................................... (Nombre y
apellidos)................................
He leído la hoja de información que se me ha entregado.
He podido hacer preguntas sobre el estudio.
He recibido suficiente información sobre el estudio.
He hablado con..................... (Nombre del

investigador)...................................
Comprendo que mi participación es voluntaria.
Comprendo que puedo retirarme del estudio:
1. Cuando quiera
2. Sin tener que dar explicaciones

3. Sin que esto repercuta en mis cuidados médicos
Presto libremente mi conformidad para participar en el ensayo
Fecha
Firma del participante

Determinación de tamaño muestral
Determinación del tamaño muestral

Coruña
CAD ATEN PRIMARIA 1996; 3: 138-14.
Todo estudio epidemiológico lleva implícito en la fase de diseño la determinación Contenido

del tamaño muestral necesario para la ejecución del mismo (1-4). El no realizar dicho Estudios para
proceso, puede llevarnos a dos situaciones diferentes: primera que realicemos el determinar
parámetros
estudio sin el número adecuado de pacientes, con lo cual no podremos ser precisos
- Estimar una
al estimar los parámetros y además no encontraremos diferencias significativas proporción
cuando en la realidad sí existen. La segunda situación es que podríamos estudiar un - Estimar una
número innecesario de pacientes, lo cual lleva implícito no solo la pérdida de media
tiempo e incremento de recursos innecesarios sino que además la calidad del [Seguridad -
estudio, dado dicho incremento, puede verse afectada en sentido negativo. Precisión -
Proporción
esperada]
Para determinar el tamaño muestral de un estudio, debemos considerar diferentes [Población
situaciones (5-7): infinita -
Población finita]
Estudios para
A. Estudios para determinar parámetros. Es decir pretendemos hacer inferencias contraste de
a valores poblacionales (proporciones, medias) a partir de una muestra (Tabla 1). hipótesis
- Comparación
de dos
B. Estudios para contraste de hipótesis. Es decir pretendemos comparar si las proporciones
medias o las proporciones de las muestras son diferentes. - Comparación
de dos medias
Tabla 1. Elementos de la Inferencia Estadística Tamaño
muestral
ajustado a las
pérdidas
Valores de Z y
α
Z más
β
frecuentes
Bibliografía
Documento
en PDF (95
Kb)
¿Problemas
con PDF?
http://www.fisterra.com/mbe/investiga/9muestras/9muestras.htm (1 of 8)22/04/2006 1:21:27 PM

A. Estudios para determinar parámetros
Con estos estudios pretendemos hacer inferencias a valores poblacionales (proporciones,

medias) a partir de una muestra.
A.1. Estimar una proporción:
Si deseamos estimar una proporción, debemos saber:
a) El nivel de confianza o seguridad (1-α ). El nivel de confianza prefijado

da lugar a un coeficiente (Zα ). Para una seguridad del 95% = 1.96, para
una seguridad del 99% = 2.58.
b) La precisión que deseamos para nuestro estudio.
c) Una idea del valor aproximado del parámetro que queremos medir (en
este caso una proporción). Esta idea se puede obtener revisando la
literatura, por estudio pilotos previos. En caso de no tener dicha
información utilizaremos el valor p = 0.5 (50%).
Ejemplo: ¿A cuantas personas tendríamos que estudiar para conocer la prevalencia de

diabetes?
Seguridad = 95%; Precisión = 3%: Proporción esperada = asumamos que puede ser
próxima al 5%; si no tuviésemos ninguna idea de dicha proporción utilizaríamos el valor
p = 0,5 (50%) que maximiza el tamaño muestral:
donde:
● Z 2 = 1.962 (ya que la seguridad es del 95%)

α
● p = proporción esperada (en este caso 5% = 0.05)
● q = 1 – p (en este caso 1 – 0.05 = 0.95)
● d = precisión (en este caso deseamos un 3%)
Si la población es finita, es decir conocemos el total de la población y deseásemos saber

cuántos del total tendremos que estudiar la respuesta seria:

donde:
● N = Total de la población
● Zα2 = 1.962 (si la seguridad es del 95%)
● p = proporción esperada (en este caso 5% = 0.05)
● q = 1 – p (en este caso 1-0.05 = 0.95)
● d = precisión (en este caso deseamos un 3%).
¿A cuántas personas tendría que estudiar de una población de 15.000 habitantes para
conocer la prevalencia de diabetes?
Seguridad = 95%; Precisión = 3%; proporción esperada = asumamos que puede ser
próxima al 5% ; si no tuviese ninguna idea de dicha proporción utilizaríamos el valor p =
0.5 (50%) que maximiza el tamaño muestral.
Según diferentes seguridades el coeficiente de Zα varía, así:
● Si la seguridad Zα fuese del 90% el coeficiente sería 1.645

● Si la seguridad Zα fuese del 97.5% el coeficiente sería 2.24
A.2. Estimar una media:
Si deseamos estimar una media: debemos saber:
a. El nivel de confianza o seguridad (1-α ). El nivel de confianza prefijado da lugar a

un coeficiente (Zα ). Para una seguridad del 95% = 1.96; para una seguridad del
99% = 2.58.
*
b. La precisión con que se desea estimar el parámetro (2 d es la amplitud del
intervalo de confianza).
c. Una idea de la varianza S2 de la distribución de la variable cuantitativa que se
supone existe en la población.

Ejemplo: Si deseamos conocer la media de la glucemia basal de una población, con una
seguridad del 95 % y una precisión de ± 3 mg/dl y tenemos información por un estudio
piloto o revisión bibliográfica que la varianza es de 250 mg/dl
Si la población es finita, como previamente se señaló, es decir conocemos el total de la población

y desearíamos saber cuantos del total tendríamos que estudiar, la respuesta sería:
B. Estudios para contraste de hipótesis:
Estos estudios pretenden comparar si las medias o las proporciones de las muestras son
diferentes. Habitualmente el investigador pretende comparar dos tratamientos. Para el
cálculo del tamaño muestral se precisa conocer:
a. Magnitud de la diferencia a detectar que tenga interés clínicamente relevante. Se

pueden comparar dos proporciones o dos medias.
b. Tener una idea aproximada de los parámetros de la variable que se estudia
(bibliografía, estudios previos).
c. Seguridad del estudio (riesgo de cometer un error α)
d. Poder estadístico (1 - β) (riesgo de cometer un error β)
e. Definir si la hipótesis va a ser unilateral o bilateral.
● Bilateral: Cualquiera de los dos parámetros a comparar (medias o

proporciones) puede ser mayor o menor que el otro. No se establece
dirección.
● Unilateral: Cuando se considera que uno de los parámetros debe ser mayor
que el otro, indicando por tanto una dirección de las diferencias.
La hipótesis bilateral es una hipótesis más conservadora y disminuye el riesgo de cometer

un error de tipo I (rechazar la H0 cuando en realidad es verdadera).
B.1. Comparación de dos proporciones:
Donde:
● n = sujetos necesarios en cada una de las muestras

● Zα = Valor Z correspondiente al riesgo deseado
● Zβ = Valor Z correspondiente al riesgo deseado

● p1 = Valor de la proporción en el grupo de referencia, placebo, control o

tratamiento habitual.
● p2 = Valor de la proporción en el grupo del nuevo tratamiento, intervención o
técnica.
● p = Media de las dos proporciones p1 y p2
Los valores Zα según la seguridad y Zβ según el poder se indican en la Tabla 2 (8).
B.2. Comparación de dos medias:
Donde:
● n = sujetos necesarios en cada una de las muestras

● Zα = Valor Z correspondiente al riesgo deseado
● Zβ = Valor Z correspondiente al riesgo deseado
● S2 = Varianza de la variable cuantitativa que tiene el grupo control o de referencia.
● d = Valor mínimo de la diferencia que se desea detectar (datos cuantitativos)
Los valores Zα según la seguridad y Zβ según el poder se indican en la Tabla 2 (8).
Tabla 2. Valores de Z y Z más frecuentemente utilizados

α β
Zα
α Test unilateral Test bilateral

0.200 0.842 1.282
0.150 1.036 1.440
0.100 1.282 1.645
0.050 1.645 1.960
0.025 1.960 2.240
0.010 2.326 2.576
Potencia
β (1-β) Zβ

0.01 0.99 2.326

0.05 0.95 1.645
0.10 0.90 1.282
0.15 0.85 1.036
0.20 0.80 0.842
0.25 0.75 0.674
0.30 0.70 0.524
0.35 0.65 0.385
0.40 0.60 0.253
0.45 0.55 0.126
0.50 0.50 0.000
Ejemplo de comparación de dos medias:
Deseamos utilizar un nuevo fármaco antidiabético y consideramos que seria clínicamente

eficaz si lograse un descenso de 15 mg/dl respecto al tto. Habitual con el antidiabético
estándar. Por estudios previos sabemos que la desviación típica de la glucemia en
pacientes que reciben el tratamiento habitual es de 16 mg/dl. Aceptamos un riesgo de
0.05 y deseamos un poder estadístico de 90% para detectar diferencias si es que existen.
precisamos 20 pacientes en cada grupo.
Ejemplo de comparación de dos proporciones:
Deseamos evaluar si el Tratamiento T2 es mejor que el tratamiento T1 para el alivio del

dolor para lo que diseñamos un ensayo clínico. Sabemos por datos previos que la eficacia
del fármaco habitual está alrededor del 70% y consideramos clínicamente relevante si el
nuevo fármaco alivia el dolor en un 90%. Nuestro nivel de riesgo lo fijamos en 0.05 y
deseamos un poder estadístico de un 80%.

n = 48 pacientes. En cada grupo precisamos 48 pacientes.
El tamaño muestral ajustado a las pérdidas:
En todos los estudios es preciso estimar las posibles perdidas de pacientes por razones
diversas (pérdida de información, abandono, no respuesta….) por lo que se debe
incrementar el tamaño muestral respecto a dichas pérdidas.
El tamaño muestral ajustado a las pérdidas se puede calcular:
Muestra ajustada a las pérdidas = n (1 / 1–R)
● n = número de sujetos sin pérdidas

● R = proporción esperada de pérdidas
Así por ejemplo si en el estudio anterior esperamos tener un 15% de pérdidas el tamaño
muestral necesario seria: 48 (1 / 1-0.15) = 56 pacientes en cada grupo.
Bibliografía
1 - Contandriopoulos AP, Champagne F, Potvin L, Denis JL, Boyle P. Preparar un proyecto de

investigación. Barcelona: SG Editores ; 1991.
2 - Hulley SB, Cummings SR. Diseño de la investigación clínica. Un enfoque epidemiológico.

Barcelona: Doyma; 1993.
3 – Cook TD., Campbell DT. Quasi-Experimentation. Design & Analysis Issues for Field
Settings. Boston: Houghton Mifflin Company; 1979.
4 - Kleinbaum DG., Kupper LL., Morgenstern H. Epidemiologic Research. Principles and

Quantitative Methods. Belmont, California: Lifetime Learning Publications. Wadsworth; 1982.
5 – Dawson-Saunders B, Trapp RG. Bioestadística Médica . 2ª ed. México: Editorial el Manual

Moderno; 1996.
6 – Milton JS, Tsokos JO. Estadística para biología y ciencias de la salud. Madrid:
Interamericana McGraw Hill; 2001.
7 - Martín Andrés A, Luna del Castillo JD. Bioestadística para las ciencias de la salud. 4ª ed.
Madrid: NORMA; 1993.

8 – Argimón Pallas J.M., Jiménez Villa J. Métodos de investigación aplicados a la atención

primaria de salud. 2ª ed. Barcelona: Mosby-Doyma; 1994.

Cálculo del tamaño muestral para la determinación de factores pronósticos
Pértegas Díaz, S. [ Correo de contacto ], Pita Fernández, S. [ Correo de contacto ]

Coruña (España)
La identificación de factores capaces de influir en el pronóstico de una enfermedad Contenido

es de suma importancia para la actividad clínica diaria. Por un lado, porque facilita Cálculo del
la toma de decisiones en cuanto a procedimientos diagnósticos o tratamientos y, por tamaño de la
muestra para
otro, porque el conocer la posible evolución de un paciente concreto permitirá
la estimación
1 de un riesgo
informarlo sobre el curso clínico de su enfermedad .
relativo
Cálculo del
La realización de estudios clínico-epidemiológicos es una de las principales vías de tamaño de la
las que se dispone para conocer el pronóstico de una patología determinada. muestra en
Aunque pueden utilizarse diferentes diseños de investigación, los estudios de estudios de
supervivencia
seguimiento, ya sean prospectivos o retrospectivos, son los más adecuados para
Bibliografía
tratar de determinar factores pronóstico. En este tipo de trabajos, una vez
identificada una cohorte de pacientes con una patología determinada, se realiza un
Documento
1,2
seguimiento y se calcula el riesgo relativo asociado a un determinado factor . En en PDF (95
Kb)
múltiples ocasiones, además, los datos proporcionados por los estudios clínicos ¿Problemas
suelen venir expresados en términos de tiempo de supervivencia. Una de las con PDF?
características esenciales de los estudios de seguimiento donde se pretende objetivar Cálculos online
la presencia de un evento es la posible presencia de datos censurados. El paciente Cálculos del
censurado es el que durante este seguimiento no ha presentado el evento de interés. tamaño
Esto puede suceder bien porque haya abandonado el estudio antes de fallecer, o muestral
bien porque éste termine sin que se haya producido la muerte o el evento estudiado. factores
pronósticos
Esta circunstancia obliga a utilizar métodos estadísticos específicos que permitan
(Excel)
manejar este tipo de observaciones. La regresión de Cox es el método apropiado
para realizar el análisis cuando existen datos censurados permitiendo, a partir de los
coeficientes estimados, calcular el riesgo relativo asociado a cada uno de los factores
3
incluidos en el modelo .
Todo estudio epidemiológico lleva implícita en la fase de diseño la determinación del

4
tamaño muestral necesario para su ejecución . Existen fórmulas sencillas que permiten
calcular el tamaño muestral necesario para la estimación de un RR cuando no se dispone
del tiempo de seguimiento. Sin embargo, en estudios de supervivencia, las fórmulas para
el cálculo del tamaño muestral suelen ser más complicadas y se utilizan con menor
frecuencia. El presente trabajo tiene por objetivo describir algunas de las fórmulas
existentes para calcular el tamaño de la muestra a estudiar cuando se quiere investigar la
importancia de un nuevo factor sobre el pronóstico de una enfermedad. En primer lugar,
http://www.fisterra.com/mbe/investiga/muestra_pronos/pronosti.htm (1 of 7)22/04/2006 1:21:35 PM

se describe cómo calcular el tamaño muestral mínimo necesario para detectar un

determinado riesgo relativo cuando se dispone de información acerca del estatus final del
paciente pero no de su tiempo de seguimiento. A continuación, se presentan dos formas
sencillas de calcular el tamaño muestral en estudios de supervivencia cuando la
importancia pronóstica del factor a estudio se investiga por medio de un modelo de
regresión de Cox. Se distingue el caso en el que se hace un análisis univariante de aquel
en el que en el que el efecto del nuevo factor se estudia controlando por otras covariables.
Cálculo del tamaño de la muestra para la estimación de un riesgo relativo
El riesgo relativo mide la fuerza de la asociación entre la exposición a un factor y la

presencia del evento estudiado (muerte, complicaciones, recidiva, etc.). Se calcula
dividiendo la probabilidad de presentar dicho evento entre los expuestos (por ejemplo, la
probabilidad de muerte entre esos pacientes) y esa misma probabilidad entre los no
1,2
expuestos . Si deseamos calcular el tamaño muestral mínimo necesario para detectar un
determinado riesgo relativo, deberemos conocer:
1. Dos de los siguientes tres parámetros:
❍ Una idea del valor aproximado del riesgo relativo que se desea estimar
(RR).
❍ La proporción de expuestos al factor de estudio que presentaron el evento
de interés (P1).
❍ La proporción de no expuestos que presentaron ese mismo evento (P2).
2. El nivel de confianza o seguridad (1-α). Generalmente se trabajará con una
seguridad del 95%.
3. La precisión relativa que se quiere para el estudio . Dicha precisión es la
oscilación mínima con la que se quiere estimar el RR correspondiente, expresada
como porcentaje del valor real esperado para ese riesgo.
Con estos datos, el cálculo del tamaño muestral se puede realizar mediante la fórmula5:
Ecuación 1
Donde el valor se obtiene de la distribución normal estándar en función de la

seguridad (1-α) elegida para el estudio6. En particular, para una seguridad de un 95%, se
tiene que .
Ilustraremos con un ejemplo el uso de la fórmula anterior: supongamos que deseamos

saber si existen diferencias entre dos terapias diferentes A y B utilizadas habitualmente

para tratar un determinado tipo de cáncer. Para ello se planea realizar un estudio
prospectivo en el que se recogerá el estatus de los pacientes (vivos/muertos) al cabo de
un año de ser tratados ¿Cuántos pacientes deberán estudiarse con cada tratamiento si se
desea calcular el riesgo relativo con una precisión del 50% de su valor real y una
seguridad del 95%? De experiencias previas, se estima que el valor real del riesgo
relativo es aproximadamente igual a 3 y la probabilidad de fallecer entre los pacientes
tratados con el tratamiento A de un 20%.
En este caso se tiene que:
Aplicando la Ecuación 1:
Es decir, se necesitaría en cada grupo una muestra de 38 pacientes.
Si el tamaño del efecto a detectar fuese menor, el tamaño muestral necesario para llevar a
cabo el estudio aumentará. Por ejemplo, si estimamos que el RR correspondiente al
nuevo tratamiento es aproximadamente igual a 2 (P1=0.4) el tamaño necesario sería:
Es decir, un total de 44 pacientes tratados con cada una de las dos terapias.
Cálculo del tamaño de la muestra en estudios de supervivencia
Supongamos ahora que, en el ejemplo anterior, se dispone de información no sólo acerca

del estatus final de los pacientes en cada uno de los dos grupos, sino que además estamos
en condiciones de conocer el tiempo de supervivencia de cada uno de ellos. En este caso,
para conocer si el tratamiento A tiene un efecto beneficioso sobre la evolución de los
enfermos, podremos utilizar un modelo de regresión de Cox en el que se ajuste por la
variable tratamiento, y a partir de cuyos coeficientes podremos estimar el RR asociado a
la terapia recibida.

Si, con este procedimiento, deseamos calcular el tamaño muestral mínimo necesario para
detectar un determinado riesgo relativo, deberemos conocer:
a) Una idea del valor aproximado del riesgo relativo que se desea detectar (RR).
b) La proporción de expuestos al factor de estudio (p), es decir, en nuestro caso,

la proporción de enfermos habitualmente tratados con la terapia A.
c) El porcentaje de observaciones censuradas que se espera en el total de la

muestra.
d) El nivel de confianza o seguridad con el que se desea trabajar.
e) El poder que se quiere para el estudio.
Con estos datos, el cálculo del tamaño muestral puede abordarse mediante la fórmula7:
Ecuación 2
donde, de nuevo denota el -cuantil de la distribución normal estándar6.
Siguiendo con el ejemplo anterior, supongamos que el primer tratamiento (A) suele
aplicarse a un 70% de los pacientes que padecen ese tipo de cáncer, mientras que la otra
terapia (B) es recibida sólo por un 30% de los enfermos. Si el efecto pronóstico del
tratamiento recibido va a analizarse de modo univariado, la Ecuación 2 puede aplicarse
para calcular el número necesario de pacientes a estudiar. Así, para detectar un riesgo
relativo de 3, y trabajando con una seguridad del 95% y un poder del 80% se tendría:
Esto es, se necesitaría recoger información de 31 pacientes en total para detectar un

efecto de RR=3. Si el efecto fuese menor (RR=2), se necesitarían un total de 78 pacientes
y si este riesgo incluso descendiese a RR=1.5, el tamaño aumentaría hasta 228 enfermos.
Todo ello si se asume que no existirá censura. Si, por el contrario, se prevé que un 20%
de los datos corresponderán a observaciones censuradas, el tamaño muestral obtenido
deberá multiplicarse por , resultando en un total de 47 pacientes para

detectar un RR=3, 117 para detectar un RR=2 ó 342 para un RR=1.5.

La fórmula anterior por tanto nos permite calcular el n para detectar un efecto ante la
presencia de una característica o exposición determinada. Si, como sucede
habitualmente, deseamos controlar o tener en cuenta más variables, el tamaño de la
muestra se debe modificar teniendo en cuenta esas posibles variables.
En una situación como la del ejemplo anterior, el conocimiento apropiado del efecto
pronóstico del tratamiento recibido casi siempre exige ajustar por diferentes covariables
en un modelo de regresión de Cox. Intuitivamente, el tratar de ajustar un modelo más
complejo (ie, con un mayor número de variables) con el mismo número de pacientes
llevará consigo una pérdida de precisión en la estimación de los coeficientes y, con ello,
del RR asociado a cada una de las variables incluidas en el modelo multivariante. En esta
situación, es obvio, que se necesita realizar alguna corrección en la Ecuación 2 que
permita adaptar el tamaño muestral calculado a las variables que se incluirán a posteriori
en el modelo.
8
En este supuesto, la fórmula para el cálculo del tamaño muestral vendrá dada por :
Ecuación 3
La Ecuación 3 es así idéntica a la Ecuación 2, salvo en el factor , normalmente

llamado “factor de inflación de la varianza”, donde denota al coeficiente de
correlación de Pearson entre el factor a estudio y aquella otra variable que incluiremos en
el modelo. En el caso en el que se ajuste por más de otro factor en el modelo, lo más
sencillo es considerar como el mayor coeficiente de correlación entre el factor a
estudio y todas las variables incluidas. Este coeficiente de correlación, cuanto mayor sea,
más incrementará el valor del factor de inflacción de la varianza y, por tanto, se
incrementará el tamaño de la muestra a estudiar.
Siguiendo con el ejemplo anterior, posiblemente el tratamiento aplicado a cada enfermo

dependerá, como ya se apuntó, de las características clínicas particulares del mismo, y
recibirá una u otra terapia en función, por ejemplo, del estadiaje del tumor. En términos
estadísticos, podrá entonces decirse que el factor tratamiento se encuentra
“correlacionado” con esta característica. Supongamos, por ejemplo, que la correlación
existente entre el nuevo tratamiento y el estadiaje del tumor es de 0.25. Este dato lo
podremos obtener a partir de un estudio piloto o de otros trabajos sobre el tema. En caso
de desconocerse, deberemos asumir una correlación suficientemente alta para así
asegurar un poder suficiente. Una correlación de 0.25 implica un factor de inflación de la
varianza de . Aplicando la Ecuación 3, se obtendría un tamaño

muestral mínimo necesario de pacientes para detectar un

efecto de RR=3, de si se quiere detectar un efecto de

RR=2 y para detectar un RR=1.5. De nuevo,
deberemos ajustar el tamaño muestral a posibles pérdidas. Si se prevé, como antes, un
20% de censuras, el tamaño muestral será de 43 pacientes para detectar un RR=3, de 105
para detectar un RR=2 y de 305 enfermos para detectar un RR=1.5.
El cálculo del tamaño muestral, por tanto, permite al investigador precisar el número de
pacientes a estudiar para detectar como significativos efectos de una magnitud
determinada. El no hacerlo, o el no conocer cuantos pacientes necesitamos para detectar
un efecto como significativo podría llevarnos a cometer un error de tipo II, es decir, no
encontrar diferencias cuando sí las hay. Es por ello recomendable, por tanto, no sólo
tener una idea aproximada del número de pacientes sino además estimar los riesgos con
su 95% intervalo de confianza para conocer la precisión y la dirección del efecto
investigado.
Bibliografía
1. Pita Fernández S, Valdés Cañedo FA. Determinación de factores pronósticos. Cad Aten
Primaria 1997; 4: 26-29. [Texto completo]
2. Pita Fernández S, Vila Alonso MT, Carpente Montero J. Determinación de factores de riesgo.
Cad Aten Primaria 1997; 4: 75-78. [Texto completo]
3. Lee ET. Statistical Methods for Survival Data Analysis. Belmont, California: Lifetime
Learning Publications; 1980.
4. Pita Fernández S. Determinación del tamaño muestral. Cad Aten Primaria 1996; 3: 138-141.
[Texto completo]
5. Lwanga SK, Lemeshow S. Determinación del tamaño muestral en los estudios sanitarios.
Manual Práctico. Ginebra: O.M.S.; 1991.
6. Pértega Díaz S, Pita Fernández S. La distribución normal. Cad Aten Primaria 2001; 8: 268-
274. [Texto completo]
7. Schoenfeld DA. Sample-size formula for the proportional-hazard regression model.

Biometrics 1983; 39: 499-503. [Medline]
8. Schmoor C, Sauerbrei W, Schumacher M. Sample size considerations for the evaluation of

prognostic factors in survival analysis. Statistic Med 2000; 19: 441-452. [Medline]


Cálculo del tamaño muestral en estudios de casos y controles

Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña
(España)
Estimación del riesgo en los estudios de casos y controles. Contenido

Estimación del
riesgo en los
Los estudios de casos y controles son un tipo de diseño habitualmente empleado en estudios de
investigaciones clínicas que tienen por objeto la identificación de factores de riesgo. Si casos y
controles
bien los estudios de cohortes reúnen las características idóneas para llevar a cabo este Cálculo del
tipo de análisis, los estudios de casos y controles cuentan con la ventaja de que suelen tamaño
muestral en los
1,2 estudios de
exigir menos tiempo y ser menos costosos que aquellos .
casos y
controles
Una de las características esenciales de los estudios de casos y controles, y su principal Ejemplo
Bibliografía
diferencia con los estudios de cohortes, es la forma de selección de los sujetos de
estudio. En un estudio de cohortes se selecciona a los sujetos en base a su exposición. Documento
Por el contrario, en un estudio de casos y controles, se identifica a un grupo de personas en PDF
(119 Kb)
con una enfermedad (casos) y se les compara con un grupo apropiado que no tenga la ¿Problemas
enfermedad (controles). Ya que los individuos son seleccionados en función de la con PDF?
presencia o ausencia del evento de estudio y no por su exposición, no podrá estimarse Cálculos online
Cálculos del
directamente el riesgo de enfermar entre los sujetos expuestos y los no expuestos. La tamaño
relación entre uno o varios factores y la presencia de la enfermedad deberá estudiarse muestral en
estudios de
comparando la frecuencia de exposición entre los casos y los controles. Si la frecuencia casos y
de exposición es mayor en el grupo de casos que en los controles, podremos decir que controles
(Excel)
hay una asociación entre la causa y el efecto.
En estudios de este tipo, la distribución de n sujetos estudiados según presenten o no la

enfermedad y según su exposición a cada factor se puede mostrar en una tabla 2 x 2, similar
a la Tabla 1: así, existirán en la muestra casos expuestos (a), casos no expuestos (c), controles
expuestos (b) y controles no expuestos (d). Como medida de la frecuencia de exposición entre
los casos se puede utilizar el cociente:
http://www.fisterra.com/mbe/investiga/muestra_casos/casos_controles.htm (1 of 7)22/04/2006 1:21:44 PM

donde p es la probabilidad de exposición entre los casos. A partir de una muestra como la de
1
la Tabla1, Ω se puede estimar dividiendo los casos expuestos entre los casos no expuestos:
1
De modo similar, se valora la frecuencia de exposición entre los controles mediante el

cociente:
donde p2 es la probabilidad de exposición entre los controles.
La medida más utilizada para cuantificar la asociación entre la exposición y la presencia de

enfermedad es el "odds ratio" (OR) y su cálculo se estima mediante el cociente de las dos
cantidades anteriores:
La interpretación del OR es la siguiente: si el OR es igual a 1, la exposición no se asocia con

la enfermedad, mientras que si el OR es menor de 1 la exposición tiene un efecto protector (es
decir, la exposición disminuye la probabilidad de desarrollar la enfermedad). Por último, si el
valor del OR es mayor de 1, la exposición aumenta las posibilidades de desarrollar la
enfermedad. De cualquier modo, las estimaciones del OR se deben realizar con su 95%
intervalo de confianza para poder confirmar o rechazar la asociación de la exposición con la
enfermedad.
Como se puede observar, el valor del OR puede obtenerse de la Tabla 1 multiplicando “en
cruz” sus cuatro valores. De ahí que también reciba el nombre de “razón de productos
cruzados”, o también “razón de ventajas”. Bajo suposiciones adecuadas, el OR puede ser un
estimador adecuado de la razón de tasas de incidencia o del riesgo relativo, medidas
habitualmente utilizadas para valorar la asociación entre una exposición y un evento. Cuando
la frecuencia de exposición es reducida, el valor del OR y del riesgo relativo son muy
similares.

Cálculo del tamaño muestral en estudios de casos y controles.
Supongamos que se quiere llevar a cabo un estudio de casos y controles con el fin de
determinar si existe una relación significativa entre la exposición a un factor y la presencia de
una determinada enfermedad. A continuación se explica cómo calcular el tamaño de muestra
necesario para contrastar la hipótesis de que el OR sea igual a 1.
Si se conoce la probabilidad de exposición entre los controles p2, y se prevé que el OR

asociado al factor de estudio es w, el valor de p , la frecuencia de exposición entre los casos,
1
puede obtenerse fácilmente:
Así, el problema del cálculo del tamaño muestral podrá abordarse mediante las fórmulas
habituales empleadas en la comparación de dos proporciones, asumiendo aquí que las
3
proporciones esperadas son p y p2 .
1
Recurriendo a las fórmulas habituales para determinar el tamaño muestral mínimo necesario
3
para la comparación de dos proporciones, se precisará conocer :
a) La magnitud de la diferencia a detectar, que tenga interés clínicamente relevante. En

este caso, como ya vimos, bastaría con conocer dos de los siguientes tres parámetros:
● Una idea del valor aproximado del odds ratio que se desea estimar (w)
● La frecuencia de la exposición entre los casos (p )
1
● La frecuencia de la exposición entre los controles (p2)
b) La seguridad con la que se desea trabajar (α), o riesgo de cometer un error de tipo I.
Generalmente se trabaja con una seguridad del 95% (α = 0,05).
c) El poder estadístico (1-β) que se quiere para el estudio, o riesgo de cometer un error
de tipo II. Es habitual tomar β = 0,2, es decir, un poder del 80%.
Con estos datos, y para un planteamiento bilateral, para el cálculo del tamaño muestral se
4,5
utilizará la expresión :

Ecuación 1
donde y los valores y son valores que se obtienen de la distribución

6
normal estándar en función de la seguridad y el poder elegidos para el estudio . En particular,
para una seguridad de un 95% y un poder estadístico del 80% se tiene que y
Hasta ahora se ha asumido un tamaño muestral igual para casos y controles. En caso de que el
número de casos y controles no esté balanceado, la expresión anterior deberá ser ligeramente
modificada. Denotando ahora por n el número de casos y por m el número de controles la
4
fórmula a aplicar sería :
Ecuación 2
donde c = m/n es el número de controles por cada caso. Así, el número de controles vendría
dado por m = c x n.
Debe precisarse que en el presente trabajo se ha tratado de exponer del modo lo más sencillo
posible el procedimiento a seguir en el cálculo del tamaño de la muestra en un estudio de
casos y controles. No obstante, en ocasiones se utilizan para este cálculo expresiones más
complejas basadas en un corrección de la fórmula del cálculo del tamaño muestral para la
4
comparación de dos proporciones . Así mismo, existen fórmulas específicas para el cálculo
del tamaño de la muestra en el caso de que el diseño corresponda a un estudio de casos y
7,8
controles pareados .
Ejemplo del cálculo del tamaño muestral en un estudio de casos y controles.
Como ejemplo, supongamos que se desea estudiar la existencia de una asociación entre el
consumo de tabaco y el hecho de sufrir un infarto de miocardio. Para poner en evidencia
dicha asociación y cuantificar su magnitud se diseña un estudio de casos y controles en el que
se investigará el consumo de tabaco de una serie de pacientes que han padecido un infarto de
miocardio (casos) y una serie de pacientes sanos (controles). Se cree que alrededor de un 40%

de los controles son fumadores y se considera como diferencia importante entre ambos
grupos un odds ratio de 4. Con estos datos, podemos calcular el tamaño de muestra necesario
en cada grupo para detectar un odds ratio de 4 como significativamente diferente de 1 con una
seguridad del 95% y un poder del 80%. De acuerdo con lo expuesto con anterioridad,
conocemos los siguientes parámetros:
a. Frecuencia de exposición entre los controles: 40%

b. Odds ratio previsto: 4
c. Nivel de seguridad: 95%
d. Poder estadístico: 80%
De acuerdo con estos datos, se estima que la frecuencia de exposición entre los casos vendrá
dada por:
Esto es, se estima que aproximadamente un 73% de los casos son fumadores. Aplicando la
Ecuación 1, se obtiene:
Es decir, se necesitaría estudiar a 35 sujetos por grupo (35 pacientes con infarto de miocardio
y 35 controles) para detectar como significativo un valor del odds ratio de 4.
Si se reduce el tamaño del efecto a detectar, asumiendo que el odds ratio es aproximadamente
igual a 3, se obtiene:
y, de acuerdo con la Ecuación 1, serían necesarios n=54 pacientes por grupo para llevar a
cabo el estudio.
En algunos estudios, el investigador reune un número mayor de controles que de casos con el
objeto de incrementar el poder estadístico. Supongamos que en el presente ejemplo se planea
obtener dos controles por caso, y se asume que el odds ratio a detectar es aproximadamente
igual a 3. Aplicando la Ecuación 2:

Por tanto, se necesitaría un grupo de n=40 casos (pacientes con infarto de miocardio) y
m=2x40=80 controles para llevar a cabo la investigación.
El cálculo del tamaño de la muestra en los estudios de casos y controles debe formar parte del
diseño metodológico del mismo, ya que la ejecución de este tipo de estudios es costosa. El
iniciar un estudio sin conocer el poder estadístico y la seguridad para detectar diferencias, si
es que existen, podría ser motivo de cometer un error de tipo II en el sentido de no detectar
diferencias cuando realmente las hay.
TABLA 1. Disposición de los sujetos incluidos en un estudio de casos y

controles. Tabla de 2 x 2.
Casos Controles
Expuestos a b a+b
a+c b+d n
Bibliografía
1. Kelsey JL, Thompson WD, Evans AS. Methods in Observational Epidemiology. New York:
2. Hennekens CH, Buring JE. Epidemiology in Medicine Boston: Litte, Brown and Company; 1987.
[Texto completo]
4. Fleiss JL. Statistical methods for rates and proportions. 2nd edition. New York: John Wiley &
Sons; 1981.
5. Lwanga SK, Lemeshow S. Determinación del tamaño de las muestras en los estudios sanitarios.
Manual práctico. Ginebra: O.M.S.; 1991
6. Pértega Díaz S, Pita Fernández S. La distribución normal. Cad Aten Primaria 2001; 8: 268-274.
[Texto completo]
7. Fleiss JL, Levin B. Sample size determination in studies with matched pairs. J Clin Epidemiol
1988; 41(8): 727-730. [Medline]
8. Schlesselman JJ. Case-Control Studies. New York: Oxford University Press; 1982.


Cálculo del tamaño muestral para calcular la significación del coeficiente de correlación lineal
Determinación del tamaño muestral para calcular la
significación del coeficiente de correlación lineal

Coruña (España)
CAD ATEN PRIMARIA 2001; 2002; 9: 209-211.
El coeficiente de correlación lineal de Pearson Contenido

El coeficiente de
correlación
En el análisis de estudios clínico-epidemiológicos con frecuencia interesa estudiar, lineal de Pearson
Cálculo del
a partir de los datos de un grupo de individuos, la posible asociación entre dos tamaño
variables. En el caso de datos cuantitativos ello implica conocer si los valores de muestral para
calcular la
una de las variables tienden a ser mayores (o menores) a medida que aumentan los significación del
valores de la otra, o si no tienen nada que ver entre sí. La correlación es el método coeficiente de
correlación
de análisis adecuado cuando se precisa conocer la posible relación entre dos lineal de Pearson
variables de este tipo. Así, el grado de asociación entre dos variables numéricas Ejemplo
1-5 Tabla 1
puede cuantificarse mediante el cálculo de un coeficiente de correlación . Debe Tabla 2
entenderse, no obstante, que el coeficiente de correlación no proporciona Bibliografía

Documento
necesariamente una medida de la causalidad entre ambas variables sino tan sólo del
en PDF
6 (115 Kb)
grado de relación entre las mismas . ¿Problemas
con PDF?
La medida más habitualmente utilizada para el estudio de la correlación es el Cálculos online
Cálculo del
coeficiente de correlación lineal de Pearson. El coeficiente de Pearson mide el tamaño
grado de asociación lineal entre dos variables cualesquiera, y puede calcularse muestral para
calcular la
dividiendo la covarianza de ambas entre el producto de las desviaciones típicas de significación del
las dos variables1. Para un conjunto de datos, el valor r de este coeficiente puede coeficiente de
correlación
tomar cualquier valor entre –1 y +1. El valor de r será positivo si existe una lineal (Excel)
relación directa entre ambas variables, esto es, si las dos aumentan al mismo
tiempo. Será negativo si la relación es inversa, es decir, cuando una variable disminuye a
medida que la otra aumenta. Un valor de +1 ó –1 indicará una relación lineal perfecta
entre ambas variables, mientras que un valor 0 indicará que no existe relación lineal entre
ellas. Hay que tener en consideración que un valor de cero no indica necesariamente que
no exista correlación, ya que las variables pueden presentar una relación no lineal.
Para un conjunto de datos cualquiera, y una vez calculado el coeficiente de correlación
http://www.fisterra.com/mbe/investiga/pearson/pearson.htm (1 of 6)22/04/2006 1:21:53 PM

entre un par de variables X e Y, puede realizarse un sencillo test de hipótesis, basado en

la distribución t de Student, para valorar la significación del coeficiente de correlación y
confirmar si existe o no una asociación estadísticamente significativa entre ambas
características. Estudiar la significación estadística del coeficiente de correlación es, en
definitiva, determinar si r es estadísticamente diferente de cero. Así mismo, puede
obtenerse un intervalo de confianza para el coeficiente de correlación en la población. Sin
embargo, mientras que el valor del coeficiente de correlación de Pearson puede ser
calculado para cualquier conjunto de datos, la validez del test de hipótesis sobre la
correlación entre las variables requiere que al menos una de ellas tenga una distribución
normal en la población de la cual procede la muestra. Para el cálculo del intervalo de
confianza, se requiere además que ambas variables presenten una distribución normal.
Aún bajo esta suposición, la distribución del coeficiente de correlación no será normal,
pero puede transformarse para conseguir un valor de z que siga una distribución normal y
calcular a partir de él su correspondiente intervalo de confianza2.
Cálculo del tamaño muestral para calcular la significación del coeficiente

de correlación lineal de Pearson.
Supongamos que se quiere llevar a cabo un estudio con el fin de determinar si existe o no
una relación significativa entre dos variables numéricas X e Y. Para llevar a cabo la
investigación, se recoge una muestra de individuos en donde de cada uno de ellos se
determina el valor que toma cada una de las dos variables. A continuación se muestra
cómo calcular el tamaño de muestra necesario para contrastar la hipótesis de que el
correspondiente coeficiente de correlación sea significativamente diferente de 0.
Como se dijo anteriormente, la distribución muestral del coeficiente de Pearson no es

normal, pero bajo la suposición de que las dos variables de estudio presentan una
distribución gaussiana, el coeficiente de Pearson puede transformarse para conseguir un
valor de z que sigue una distribución normal. Se suele considerar la transformación de
Fisher:
Siendo el error estándar de z aproximadamente igual a .
Utilizando esta aproximación, se obtiene fácilmente una fórmula para el cálculo del

número de sujetos necesarios en esta situación. Para su cómputo, se precisará conocer:
● La magnitud de la correlación que se desea detectar (r). Esto es, se precisa tener
una idea, a partir de publicaciones o estudios previos, del valor aproximado del
coeficiente de correlación existente entre las dos variables a estudio.
● La seguridad con la que se desea trabajar, , o riesgo de cometer un error de

tipo I. Generalmente se trabaja con una seguridad del 95% ( ).
● El poder estadístico, , que se quiere para el estudio, o riesgo de cometer un

error de tipo II. Es habitual tomar o, equivalentemente, un poder
estadístico del 80%.
Se debe precisar además si el contraste de hipótesis se va a realizar con un planteamiento

unilateral (el r calculado es mayor o menor de cero) o bilateral (el r calculado es diferente
de cero) .
Si se dispone de los datos anteriores, el cálculo del tamaño muestral con un

planteamiento bilateral puede realizarse mediante la expresión7:
donde los valores y se obtienen de la distribución normal estándar en función

de la seguridad y el poder elegidos para el estudio. En particular, para una seguridad del
95% y un poder estadístico del 80% se tiene que y . En las Tablas

1 y 2 se muestran los valores de estos parámetros utilizados con mayor frecuencia en el
cálculo del tamaño muestral, en función de la seguridad y el poder con los que se trabaje.
Para un planteamiento unilateral, el razonamiento es análogo, llegando a la siguiente

fórmula para el cálculo del tamaño muestral:

donde ahora el valor se obtiene igualmente de la distribución normal estándar,

siendo para una seguridad del 95% igual a . La Tabla 1 muestra los valores
más frecuentemente utilizados en función de la seguridad elegida cuando se trabaja con
un planteamiento unilateral.
Como resulta habitual, las fórmulas anteriores pueden modificarse con el fin de ajustar el
tamaño muestral previsto para el estudio a posibles pérdidas de información que se
produzcan durante el desarrollo del mismo. Así, asumiendo un porcentaje de pérdidas L,
el tamaño de la muestra a estudiar vendrá dado por:
donde n denota el valor del tamaño muestral calculado por cualquiera de las dos fórmulas
anteriores según el caso.
Ejemplo del cálculo del tamaño muestral para el cálculo del

coeficiente de correlación entre dos variables
Supongamos que se desea estudiar la asociación entre la edad y el nivel de colesterol

entre los pacientes que acuden a consulta en un determinado centro de salud. Para ello se
diseña un estudio en el que se determinará mediante una analítica los valores de
colesterol en una muestra aleatoria de los pacientes atendidos en ese centro durante un
periodo de tiempo prefijado, de los que también se registrará su edad. Se cree que el valor
del coeficiente de correlación lineal de Pearson entre los valores de la edad y el colesterol
puede oscilar alrededor de r=0,4. Aplicando las fórmulas anteriores, con un
planteamiento bilateral, una seguridad del 95% y un poder estadístico del 80%, se obtiene:
Es decir, se necesitará estudiar a una muestra de 47 pacientes para detectar como

significativo un valor del coeficiente de correlación de r=0,4.
Como resulta habitual, si el tamaño del efecto a detectar es menor, asumiendo ahora que
el valor del coeficiente de correlación es aproximadamente igual a r=0,3, se obtiene:

En este caso, se necesitaría incluir a 85 pacientes para llevar a cabo el estudio. Si,
además, en este último caso se prevé un 20% de posibles pérdidas de información
durante la ejecución del estudio, el tamaño muestral debe recalcularse según la
siguiente expresión:
Es decir, se necesitaría una muestra de 107 pacientes para llevar a cabo la investigación.
No debe olvidarse que el precisar convenientemente el tamaño de muestra necesario para

la ejecución de un estudio permite al investigador conocer el número mínimo de
pacientes a estudiar para detectar como significativos efectos de una magnitud
determinada. El no hacerlo podría llevar a realizar el estudio con un número insuficiente
de casos y a cometer un error de tipo II, es decir, a no detectar una correlación
significativa entre las dos variables cuando realmente la hay.
TABLA 1. Valores de y utilizados con mayor frecuencia en el cálculo

del tamaño muestral en función de la seguridad elegida para el estudio.
Prueba bilateral Prueba unilateral
Seguridad α
80 % 0,200 1,282 0,842

85 % 0,150 1,440 1,036
90 % 0,100 1,645 1,282
95 % 0,050 1,960 1,645
97,5 % 0,025 2,240 1,960
99 % 0,010 2,576 2,326
TABLA 2. Valores de z utilizados con mayor frecuencia en el cálculo del

1-β
tamaño muestral en función de el poder estadístico 1-β elegido para el estudio.

z
Poder estadístico β 1-β
99 % 0,01 2,326
95 % 0,05 1,645
90 % 0,1 1,282
85 % 0,15 1,036
80 % 0,2 0,842
75 % 0,25 0,674
70 % 0,3 0,524
65 % 0,35 0,385
60 % 0,4 0,253
55 % 0,45 0,126
80 % 0,5 0,000
Bibliografía
1. Pita Fernández S. Relación entre variables cuantitativas. Cad Aten Primaria 1997; 4: 141-
2. Altman D.G. Practical Statistics for Medical Research. London: Chapman&Hall, 1991.
3. Dawson-Saunders B, Trapp RG. Bioestadística Médica. 2ª ed. México: Editorial el Manual

Moderno; 1996.
4. Milton JS, Tsokos JO. Estadística para biología y ciencias de la salud. Madrid:
5. Armitage P, Berry G. Estadística para la investigación biomédica. Barcelona: Doyma; 1992.
6. Pita Fernández S. Correlación frente a causalidad. JANO 1996; (1774): 59-60.
7. Argimon Pallás J.M., Jiménez Villa J. Métodos de Investigación Clínica y Epidemiológica.

2ª ed. Madrid: Ediciones Harcourt, 2000.

Cálculo del poder estadístico de un estudio

Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario-Universitario Juan
Canalejo. A Coruña (España)
Las pruebas de contraste de hipótesis y el concepto de poder Contenido

estadístico. Las pruebas de
contraste de
hipótesis y el
El análisis de estudios clínico-epidemiológicos con frecuencia exige la concepto de
poder estadístico
comparación entre varios tratamientos o entre diferentes grupos de sujetos con
Factores que
respecto a una respuesta de interés. Por ejemplo, puede interesarnos comparar la influyen en el
eficacia de un nuevo fármaco frente a la de otro estándar en el tratamiento de una poder
determinada patología, o bien establecer la asociación entre la exposición a un estadístico de
factor de riesgo y el desarrollo de cierta enfermedad. Problemas de este tipo pueden un estudio
plantearse como un contraste de hipótesis, de forma que la hipótesis que se Cálculo del
poder
contrasta es la de que no existen diferencias entre ambos grupos o tratamientos
estadístico de
(hipótesis nula), frente a la hipótesis alternativa de que estos sean realmente un estudio
diferentes. - Ejemplo 1
- Ejemplo 2
Una prueba de contraste de hipótesis o de significación estadística calcula la Bibliografía
probabilidad de que los resultados obtenidos en una investigación puedan ser Tablas y Figuras
debidos al azar en el supuesto de que la hipótesis nula sea cierta, es decir, bajo el Tabla 1.
supuesto de que no existan diferencias entre ambos grupos. Esta probabilidad es el Posibles
conclusiones
grado de significación estadística o valor de p. Basándose en esta probabilidad, se
tras una prueba
decidirá rechazar o no la hipótesis nula. Así, cuanto menor sea el valor de p, menor estadística de
será la probabilidad de que los resultados obtenidos se deban al azar y mayor contraste de
evidencia habrá en contra de la hipótesis nula. Si dicha probabilidad es menor que hipótesis
un valor de p fijado previamente (habitualmente se toma p<0,05), la hipótesis nula Tabla 2.
se rechazará. Así, cuando el valor de p está por debajo de 0,05, se dirá que el Fórmulas para
el cálculo del
resultado es estadísticamente significativo y será no significativo en cualquier otro poder
caso. estadístico para
diferentes tipos
Así pues, a partir de los resultados de un estudio, puede llegarse a diferentes de diseño
conclusiones (Tabla 1). En primer lugar, puede concluirse que existen diferencias Tabla 3. Valores
de z más
entre los grupos que se comparan cuando realmente las hay. Asimismo, puede frecuentemente
concluirse que no hay diferencias cuando éstas no existen. En ambos casos, no se utilizados
comete ningún error. Sin embargo, también se puede concluir que existen
diferencias cuando de hecho no las hay. Es decir, puede rechazarse la hipótesis nula
cuando en realidad es verdadera. Si esto ocurre, se comete un error de tipo I o error
α. La probabilidad de cometer un error de este tipo es lo que mide precisamente el
grado de significación p.
http://www.fisterra.com/mbe/investiga/poder_estadistico/poder_estadistico.htm (1 of 10)22/04/2006 1:22:04 PM

Figura 1. Poder
En algunas ocasiones, por el contrario, los resultados de un estudio no son estadístico en
significativos. Se habla entonces de “estudios negativos”. No obstante, la ausencia función del
de significación estadística no implica necesariamente que no exista relación entre tamaño
el factor de estudio y la respuesta. Puede ocurrir, que aún existiendo tal asociación muestral y la
magnitud del
o una diferencia clínicamente relevante, el estudio haya sido incapaz de detectarla
efecto a
como estadísticamente significativa. En estudios de este tipo se concluirá que no detectar.
existen diferencias cuando realmente sí las hay. Este error se conoce como error de Comparación de
tipo II. La probabilidad de cometer un error de este tipo suele denotarse por β y su dos proporciones
complementario, 1-β, es lo que se conoce como poder estadístico o potencia Figura 2. Poder
estadístico en
1-3
estadística . función del
tamaño
muestral y el
En definitiva, el poder estadístico representa la probabilidad de rechazar la número de
hipótesis nula cuando es realmente falsa. Es decir, representa la capacidad de un controles por
test para detectar como estadísticamente significativas diferencias o asociaciones de caso en un
estudio de
una magnitud determinada.
casos y controles
Documento
en PDF
(189 Kb)
Factores que influyen en el poder estadístico de un estudio. ¿Problemas
con PDF?
3 Cálculo del
El poder estadístico de un estudio depende de diferentes factores, como : poder estadístico
(Excel)
Comparación de
● El tamaño del efecto a detectar, es decir, la magnitud mínima de la dos proporciones
diferencia o asociación entre los grupos que se considera clínicamente Comparación de
relevante. Cuanto mayor sea el tamaño del efecto que se desea detectar, dos medias
mayor será la probabilidad de obtener hallazgos significativos y, por lo Estimación de
tanto, mayor será el poder estadístico. un OR en
estudios de
● La variabilidad de la respuesta estudiada. Así, cuanto mayor sea la Casos y
variabilidad en la respuesta, más difícil será detectar diferencias entre los Controles
grupos que se comparan y menor será el poder estadístico de la Para la
investigación. De ahí que sea recomendable estudiar grupos lo más estimación de
homogéneos posibles. un RR
● El tamaño de la muestra a estudiar. Cuanto mayor sea el tamaño muestral, Para un
Coeficiente de
mayor será la potencia estadística de un estudio. Es por ello que en los
Correlación
estudios con muestras muy grandes se detectan como significativas Lineal
diferencias poco relevantes, y en los estudios con muestras menores es más
fácil obtener resultados falsamente negativos.
● El nivel de significación estadística. Si se disminuye el valor de también se
disminuye el poder de la prueba. Es decir, si disminuimos la probabilidad de
cometer un error de tipo I aumentamos simultáneamente la probabilidad de un
error de tipo II, por lo que se trata de encontrar un punto de “equilibrio” entre
ambas. Habitualmente se trabaja con un nivel de significación del 95% ( ),
por lo que el equilibrio hay que en encontrarlo finalmente entre el tamaño de la
muestra que es posible estudiar y el poder que se quiere para el estudio.
Los cuatro factores anteriores, junto con el poder estadístico, forman un sistema cerrado.

De este modo, una vez fijados tres de ellos, el cuarto queda completamente determinado.
Cálculo del poder estadístico de un estudio.
A la hora de diseñar una investigación, es importante determinar si dicho estudio

alcanzará una precisión suficiente. En anteriores trabajos se ha mostrado cómo calcular el
tamaño muestral necesario para alcanzar un determinado poder estadístico en diferentes
4-7
tipos de diseño . Generalmente, se suele trabajar con un poder en torno al 80% o al
90%. Con frecuencia, sin embargo, las condiciones en las que se lleva a cabo una
investigación son diferentes de las que se habían previsto en un principio. En
consecuencia, y a la vista de hallazgos no significativos, es recomendable evaluar de
nuevo a posteriori su potencia con el fin de discernir si el estudio carece del poder
necesario para detectar una diferencia relevante o bien si realmente puede no existir tal
diferencia.
En la Tabla 2 se muestran las fórmulas necesarias para el cálculo del poder estadístico en
función de la naturaleza de la investigación. Estas fórmulas permiten obtener un valor
a partir del cual se puede determinar el poder asociado recurriendo a las tablas de la
distribución normal. En la Tabla 3 se muestra la correspondencia entre algunos valores de
y el poder estadístico asociado. Sin embargo, y aunque dichas fórmulas nos

permitirían analizar el poder estadístico en diferentes tipos de diseño, puede resultar más
8
sencillo disponer de algún software específico con el que poder realizar dichos cálculos .
Ejemplo 1.
Ilustremos el proceso del cálculo de la potencia mediante un ejemplo. Supongamos que

se quiere llevar a cabo un ensayo clínico para comparar la efectividad de un nuevo
fármaco con la de otro estándar en el tratamiento de una determinada enfermedad. Al
inicio del estudio, se sabe que la eficacia del tratamiento habitual está en torno al 40%, y
se espera que con el nuevo fármaco la eficacia aumente al menos en un 15%. El estudio
se diseñó para que tuviese un poder del 80%, asumiendo una seguridad del 95%. Esto
implica que son necesarios 173 pacientes en cada uno de los grupos para llevar a cabo la
investigación. Tras finalizar el estudio, sólo fue posible tratar con cada uno de los
fármacos a 130 pacientes en cada grupo en lugar de los 173 pacientes estimados
inicialmente. Al realizar el análisis estadístico, se objetivó que no hay diferencias
significativas en la efectividad de ambos tratamientos. A partir de las fórmulas de la
Tabla 2, podemos calcular cuál ha sido finalmente el poder del estudio. Aplicando la
fórmula para el cálculo del poder estadístico de comparación de dos proporciones ante un
planteamiento unilateral se obtiene:

A partir de la Tabla 3, podemos determinar que un valor de corresponde a

un poder en torno al 65%-70%. Utilizando las tablas de la distribución normal, se sabe
que el poder es del 68%, es decir, el estudio tendría un 68% de posibilidades de detectar
una mejora en la eficacia del tratamiento del 15%.
Utilizando la fórmula anterior, podría obtenerse un gráfico como en el que se muestra en

la Figura 1, en la que, para este ejemplo, se estima el poder estadístico del estudio en
función del tamaño de la muestra estudiada y la magnitud del efecto a detectar. Así,
puede concluirse que de haber estudiado 130 pacientes por grupo, se obtiene una potencia
de sólo el 36.6% para detectar una diferencia mínima del 10%, una potencia del 68% para
detectar una diferencia del 15% y de un 90.2% para una diferencia del 20%. Este tipo de
gráficos resulta muy útil tanto en la fase de diseño de un estudio como a la hora de
valorar a posteriori el poder de una investigación.
Ejemplo 2.
De modo análogo, supongamos que se quiere llevar a cabo un estudio de casos y

controles para estudiar la posible asociación entre la presencia de cardiopatía isquémica y
el hábito de fumar. De acuerdo con estudios previos, se cree que la incidencia de
cardiopatía puede ser hasta 2 veces más alta entre los fumadores, y se asume que la
frecuencia de exposición entre los controles será de un 40%. Debido a ciertas
limitaciones, sólo es posible para el investigador incluir en el estudio a 100 pacientes con
cardiopatía isquémica (casos). Utilizando de nuevo las fórmulas de la Tabla 2, con un
planteamiento bilateral y una seguridad del 95%:

Recurriendo de nuevo a las tablas de la distribución normal, se obtiene para un valor

un poder del 68.17%.
Con el fin de mejorar el poder del estudio, los investigadores se plantean reclutar un
mayor número de controles que de casos. En la Figura 2 se muestra para el ejemplo
anterior el poder de la investigación en función del número de casos y controles
estudiados. Como se puede observar, la ganancia en el poder disminuye rápidamente, y es
prácticamente nula cuando la relación entre el número de controles y casos es 4:1. Esto se
3
verifica en cualquier estudio de casos y controles . En particular, para el ejemplo previo,
si se estudiasen 100 casos y 200 controles se alcanzaría un poder del 80.28%. Si se
incluyesen 100 casos y 300 controles, el poder sería de un 84.69%. Con 400 controles el
poder aumentaría sólo a un 86.89% y con 500 a un 88.19%. Con lo cual claramente es
ineficiente el incluir más de 4 controles por caso ya que no lograríamos un incremento
relevante del poder estadístico.
El análisis adecuado del poder estadístico de una investigación, que es en definitiva la

capacidad que tiene el estudio para encontrar diferencias si es que realmente las hay, es
un paso fundamental tanto en la fase de diseño como en la interpretación y discusión de
sus resultados. A la hora del diseño, por tanto, debe establecerse la magnitud mínima de
la diferencia o asociación que se considere de relevancia clínica, así como el poder
estadístico que se desea para el estudio y, de acuerdo con ello, calcular el tamaño de la
muestra necesaria. Tras realizar el análisis estadístico, cuando se dice que no existe
evidencia de que A se asocie con B o sea diferente de B, deberemos cuestionarnos antes
de nada si la ausencia de significación estadística indica realmente que no existe una
diferencia o asociación clínicamente relevante, o simplemente que no se dispone de
suficiente número de pacientes para obtener hallazgos significativos. Tanto si los
hallazgos son estadísticamente significativos como si no lo son, la estimación de
intervalos de confianza pueden también facilitar la interpretación de los resultados en
términos de magnitud y relevancia clínica, proporcionándonos una idea de la precisión
9-10
con la que se ha efectuado al estimación, de la magnitud y de la dirección del efecto .

De este modo, los intervalos de confianza nos permiten tener una idea acerca del poder
estadístico de un estudio y, por tanto, de la credibilidad de la ausencia de hallazgos
significativos.
Bibliografía
1. Altman D.G. Practical Statistics for Medical Research. London: Chapman & Hall; 1991.
2. Kelsey J.L., Whittemore A.S., Evans A., Thompson W.D. Methods in Observational
Epidemiology. 2nd ed. New York: Oxford University Press; 1996.
3. Argimon Pallás J.M., Jiménez Villa J. Métodos de investigación clínica y epidemiológica. 2ª
ed. Madrid: Ediciones Harcourt; 2000.
[Texto completo]
5. Pértega Díaz S, Pita Fernández S. Cálculo del tamaño muestral para la determinación de
factores pronósticos. Cad Aten Primaria 2002; 9: 30-33. [Texto completo]
6. Pértega Díaz S, Pita Fernández S. Cálculo del tamaño muestral en estudios de casos y
controles. Cad Aten Primaria 2002; 9:148-150. [Texto completo]
7. Pértega Díaz S, Pita Fernández S. Determinación del tamaño muestral para calcular la
significación del coeficiente de correlación lineal. Cad Aten Primaria 2002; 9: 209-211.
[Texto completo]
8. Thomas L, Krebs CJ. A review of Statistical power analysis software. Bulletin of the
Ecological Society of America 1997; 78 (2): 126-139.
9. Braitman LE. Confidence intervals assess both clinical significance and statistical
significance. Ann Intern Med. 1991; 114 (6): 515-7. [Medline]
10. Argimon JM. El intervalo de confianza: algo más que un valor de significación estadística.
Med Clin (Barc) 2002; 118(10): 382-384. [Medline]
Tabla 1. Posibles conclusiones tras una prueba estadística de contraste de hipótesis.

Resultado de la prueba
Asociación o Asociación o
diferencia diferencia no
significativa significativa
No error Error de tipo II
Existe asociación o
diferencia (1- ) β
Realidad
No existe asociación o Error de tipo I No error
diferencia (1- )
α = probabilidad de cometer un error de tipo I.

β = probabilidad de cometer un error de tipo II.
Tabla 2. Fórmulas para el cálculo del poder estadístico para diferentes tipos de diseño.

Test unilateral Test bilateral
Comparación
de dos
proporciones
Comparación
de dos media
Estimación
de un OR en
estudios de
casos y
controles
Estimación
de un RR
Estimación
de un
coeficiente
de
correlación
lineal
● n = Tamaño muestral. En un estudio de casos y controles, n es el número de casos.
= En un estudio transversal o de cohortes, proporción de expuestos que desarrollan la

enfermedad. En un estudio de casos y controles, proporción de casos expuestos.
●
= En un estudio transversal o de cohortes, proporción de no expuestos que desarrollan la

enfermedad. En un estudio de casos y controles, proporción de controles expuestos.
●
●
● d = Valor mínimo de la diferencia a detectar entre dos medias
● S2 = Varianza en el grupo control o de referencia
● c = Número de controles por caso
● m = En un estudio de casos y controles, número de controles
● OR = Valor aproximado del odds ratio a detectar
● RR = Valor aproximado del riesgo relativo a detectar
● r = Magnitud del coeficiente de correlación a detectar
Tabla 3. Valores de , y más frecuentemente utilizados.

Test unilateral Test bilateral

Seguridad α
80 % 0,200 0,842 1,282

85 % 0,150 1,036 1,440
90 % 0,100 1,282 1,645
95 % 0,050 1,645 1,960
97,5 % 0,025 1,960 2,240
99 % 0,010 2,326 2,576
Poder estadístico
99 % 0,99 0,01 2,326

95 % 0,95 0,05 1,645
90 % 0,90 0,10 1,282
85 % 0,85 0,15 1,036
80 % 0,80 0,20 0,842
75 % 0,75 0,25 0,674
70 % 0,70 0,30 0,524
65 % 0,65 0,35 0,385
60 % 0,60 0,40 0,253
55 % 0,55 0,45 0,126
50 % 0,50 0,50 0,000
Figura 1.

Figura 2.


Significancia estadística y relevancia clínica
Pita Fernández, S. [ Correo de contacto ], Pértega Díaz, S. [ Correo de contacto ],

Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña (España)
La realización de cualquier estudio clínico-epidemiológico pretende poner de manifiesto al final Contenido

del mismo si existe o no asociación entre diferentes variables. Esta asociación puede ser resultado Significancia
de que realmente exista la asociación indicada, pero esta asociación también puede ser producto estadística
del azar, de la presencia de sesgos o de la presencia de variables de confusión. - Ho (hipótesis

nula)
- Ha (hipótesis
1
Una de las aplicaciones de la estadística es hacer inferencias a poblaciones, a partir de muestras ( ). alternativa)
En la realización de este proceso inferencial, siempre existe el riesgo de error o imprecisión ya sea - Error de tipo I
por el azar o la variabilidad biológica del fenómeno a estudiar. La carencia de error aleatorio (a) (falso
positivo)
debido al azar se conoce como precisión. Cuanto más grande es el tamaño muestral, mayor es la - Error de tipo
precisión y la variabilidad explicada por el azar disminuye. Esta posibilidad de error o falta de II (b) (falso
precisión, siempre que no existan sesgos o variables de confusión, se corrige aumentando el negativo)
tamaño de la muestra. De cualquier manera el papel del azar debe ser siempre contemplado, Relevancia
clínica
evaluado y medido, realizando test de hipótesis o construyendo intervalos de confianza para
- RRR -
conocer la precisión de nuestra estimación dentro de una seguridad previamente definida.
Reducción
Relativa del
Desde el punto de vista clínico la significación estadística no resuelve todos los interrogantes que Riesgo
- RAR -
hay que responder ya que la asociación estadísticamente significativa puede no ser clínicamente
Reducción
relevante y además la asociación estadísticamente significativa puede no ser causal. En definitiva Absoluta del
2 Riesgo
podemos encontrar asociaciones "estadísticamente posibles y conceptualmente estériles" ( ). - NNTs - Nº
Necesario de
pacientes a
Tratar para
reducir un
Significación estadística evento
Bibliografía
A pesar de las limitaciones de la estadística, el término "estadísticamente significativo" invade la

Documento
literatura médica y se percibe como una etiqueta que indicase "garantía de calidad". El considerar en PDF (64
el término significativo implica utilizar términos comparativos de dos hipótesis. Los test de Kb)
hipótesis son test de significación estadística que cuantifican hasta que punto la variabilidad de la ¿Problemas
muestra puede ser responsable de los resultados de un estudio en particular. La Ho (hipótesis nula) con PDF?
Más...
representa la afirmación de que no hay asociación entre las dos variables estudiadas y la Ha
Número
(hipótesis alternativa) afirma que hay algún grado de relación o asociación entre las dos variables. Necesario de
Nuevamente la estadística nos muestra su utilidad ya que nos ayuda a tomar la decisión de que pacientes a
tratar para
hipótesis debemos elegir. Dicha decisión puede ser afirmada con una seguridad que nosotros reducir un
previamente decidimos. El nivel de significación se estableció siguiendo los comentarios del evento
estadístico Fisher que señaló "...es conveniente trazar una línea de demarcación a partir de la cual (fisterra)
3 Table NNTs
podamos decir: o bien hay algo en el tratamiento..." ( ). El mecanismo de los diferentes test se
Bandolier
realiza aunque con matices siempre de la siguiente forma: En primer lugar se mira la magnitud de
Cálculos online
la diferencia que hay entre los grupos a comparar (A y B). Si esta magnitud o valor absoluto es NNT/NNH
mayor que un error estándar definido multiplicado por una seguridad definida, concluimos que la Calculator
diferencia es significativa entre A y B. Por tanto aceptamos la hipótesis alternativa y rechazamos
la hipótesis nula.
http://www.fisterra.com/mbe/investiga/signi_estadi/signi_estadi.htm (1 of 8)22/04/2006 1:22:28 PM

Ejemplo:
Disponemos de 2 tratamientos ( A y B). El tratamiento A lo reciben 25 pacientes y el tratamiento B

otros 25 pacientes. 15 pacientes responden favorablemente al tratamiento A y 20 al tratamiento B.
¿Existe diferencia significativa entre ambos tratamientos?
Ho (hipótesis nula) = No hay diferencia entre ambos tratamientos.
Ha (hipótesis alternativa) = Sí existe diferencia.
Tratamiento N Porcentaje de respuesta

A 25 15/25 = 0.60
B 25 20/25 = 0.80
Si es mayor que el producto de 1.96 * el error estándar,

concluímos que la diferencia es significativa.
Error estándar = = 0.1296
Error estándar * 1.96 = 0.1296 * 1.96 = 0.25
Como quiera que la diferencia =
no supera el valor 0.25 concluimos que la diferencia entre 0.60 y 0.80 no es

estadísticamente significativa. A la vista de los resultados no podemos aceptar la Ha
(hipótesis alternativa).
El proceso de aceptación o rechazo de la hipótesis lleva implícito un riesgo que se cuantifica con el
valor de la "p", que es la probabilidad de aceptar la hipótesis alternativa como cierta, cuando la cierta
podría ser la hipótesis nula.
El valor de "p" que indica que la asociación es estadísticamente significativa ha sido arbitrariamente
seleccionado y por consenso se considera en 0.05. Una seguridad del 95% lleva implícito una p < de
0.05 y una seguridad del 99% lleva implícita una p < 0.01. Cuando rechazamos la Ho (hipótesis nula) y
aceptamos la Ha (hipótesis alternativa) como probablemente cierta afirmando que hay una asociación, o
que hay diferencia, estamos diciendo en otras palabras que es muy poco probable que el azar fuese
responsable de dicha asociación. Del mismo modo si la p>0.05 decimos que el azar no puede ser
excluido como explicación de dicho hallazgo y no rechazamos la Ho (hipótesis nula) que afirma que

4
ambas variables no están asociadas o correlacionadas ( ).
Conviene por otra parte considerar que la significación estadística entre dos variables depende de dos
componentes fundamentales. El primero es la magnitud de la diferencia a testar. Cuanto más grande
sea la diferencia entre las dos variables, más fácil es demostrar que la diferencia es significativa. Por el
contrario si la diferencia entre ambas variables es pequeña, las posibilidades de detectar diferencias
entre las mismas se dificulta. El segundo componente fundamental a tener en cuanta al testar
diferencias entre dos variables es el tamaño muestral. Cuanto más grande sea dicho tamaño muestral
más fácil es detectar diferencias entre las mismas. Pequeñas diferencias se pueden detectar con grandes
tamaños muestrales y grandes diferencias entre variables necesitan muchos menos pacientes o
individuos a ser estudiados. Cualquier diferencia puede ser estadísticamente significativa si se dispone
del suficiente número de pacientes.
Ejemplo:
En el ejemplo anterior objetivamos que no hay diferencia entre 60% y 80%. Supongamos que
realizamos ahora el estudio con 900 pacientes en cada grupo:
Si es mayor que el producto de 1.96 * el error estándar,

concluimos que la diferencia es significativa.
Error estándar = = 0.0216
Error estándar * 1.96 = 0.0216 * 1.96 = 0.042
Como quiera que la diferencia =
supera el valor 0.0423 concluimos que la diferencia entre 0.60 y 0.80 sí es

estadísticamente significativa. A la vista de los resultados por tanto
rechazamos la Ho (hipótesis nula) y aceptamos la Ha (hipótesis alternativa)
como probablemente cierta. Como podemos objetivar en este segundo
ejemplo ahora, si podemos decir que la diferencia entre 60% y 80% es
estadísticamente significativa (p< 0.05).
El tamaño muestral afecta a la probabilidad de la significación estadística a través del error estándar que
se hace más pequeño cuantos más pacientes tenga el estudio. Así pues el valor de la "p" es función de
la magnitud de la diferencia entre los dos grupos o dos variables y del tamaño de la muestra. Por esta
razón una pequeña diferencia puede ser estadísticamente significativa si disponemos de un tamaño
muestral lo suficientemente grande y por el contrario un efecto o diferencia relativamente grande puede

no alcanzar la significación estadística si la variabilidad es grande debida a un pequeño tamaño

muestral. Por estas razones los valores de la "p" deben ser considerados solo como una guía y no como
base de conclusiones definitivas e irrevocables.
Error de tipo I (α)
Al realizar el test estadístico, podríamos correr el riesgo de equivocarnos al rechazar la hipótesis nula.
La probabilidad de rechazar la hipótesis nula cuando en realidad es verdadera (error de tipo I) se le
denomina nivel de significación y es la "p". Esta probabilidad de rechazar la hipótesis nula cuando es
verdadera se le conoce también como error alfa. La "p" no es por tanto un indicador de fuerza de la
asociación ni de su importancia.
La significación estadística es por tanto una condición resultante del rechazo de una hipótesis nula
mediante la aplicación de una prueba estadística de significación. El nivel de significación es el riesgo
o la probabilidad que voluntariamente asume el investigador de equivocarse al rechazar la hipótesis
nula, cuando en realidad es cierta. Este riesgo se establece normalmente en 0.05 ó 0.01.
El proceso de poner a prueba una hipótesis involucra una toma de decisiones para rechazar o no la
hipótesis nula. Aunque los valores de la "p" son los de una variable continua, se utiliza para forzar una
decisión cualitativa, tomando partido por una u otra hipótesis. Si p < 0.05 se considera significativo, en
cuyo caso se rechaza la hipótesis nula y no significativo si p> 0.05 en cuyo caso no se rechaza. Una "p"
pequeña significa que la probabilidad de que los resultados obtenidos se deban al azar es pequeña. Los
5
sinónimos de la expresión estadísticamente significativos se muestran en la Tabla 1 ( ).
Error de tipo II (β)
El riesgo alfa α ("p") indica la probabilidad de cometer un error de tipo I (falso positivo). El error de
tipo I, es por lo tanto rechazar la Ho cuando en realidad es verdadera. Se podría considerar que para
evitar este tipo de error deberíamos de elegir un nivel de confianza más elevado, sin embargo al
aumentar el nivel de confianza aumenta la probabilidad de cometer el error de tipo II. El error de tipo II
consiste en aceptar la hipótesis nula cuando es falsa y esto se conoce como el error de tipo II o Beta (β )
6
(falso negativo) ( ) (Tabla 2).
En la ejecución de un estudio determinado no es posible saber si estamos cometiendo el error de tipo I o

error de tipo II, sin embargo hay una serie de recomendaciones que podríamos seguir para disminuir
dichos errores.
Recomendaciones para disminuir el error de tipo I:
● Disponer de una teoría que guíe la investigación, evitando el "salir de pesca" con el ordenador
buscando asociaciones entre variables.
● Disminuir el número de test estadísticos llevados a cabo en el estudio.
● Depurar la base de datos para evitar errores de valores extremos que puedan producir hallazgos
significativos.
● Utilizar valores de alfa más reducidos (0.01 ó 0.001).
● Reproducir el estudio. Si al reproducir el estudio se obtienen resultados similares, estaremos más
seguros de no estar cometiendo el error de tipo I.
Recomendaciones para disminuir el error de tipo II:
● Incrementar el tamaño de la muestra.

● Estimar el poder estadístico del estudio.

● Incrementar el tamaño del efecto a detectar.

● Incrementar el valor de alfa.
● Utilizar test paramétricos (más potentes) en lugar de test no paramétricos.
Relevancia clínica
La relevancia clínica de un fenómeno va más allá de cálculos aritméticos y está determinada por el
juicio clínico. La relevancia depende de la magnitud de la diferencia, la gravedad del problema a
investigar, la vulnerabilidad, la morbimortalidad generada por el mismo, su coste y por su frecuencia
entre otros elementos.
La reducción relativa del riesgo relativo es una medida de utilidad en el cálculo de la relevancia clínica.
Reducciones del riesgo relativo de 50% casi siempre y de 25% con frecuencia, son consideradas como
7
clínicamente relevantes ( ) independientemente de la significación estadística.
La práctica de la medicina basada en la evidencia considera el ensayo clínico aleatorizado como el

estándar para valorar la eficacia de las tecnologías sanitarias y recomienda que las decisiones se tomen,
8,9)
siempre que se pueda, con opciones diagnósticas o terapéuticas de demostrada eficacia ( .
La forma recomendada de presentar los resultados de un ensayo clínico aleatorizado y otros tipos de
8 10 11 12
estudio debe incluir ( , , , ): La reducción relativa del riesgo (RRR), la reducción absoluta del
riesgo (RAR) y el número necesario de pacientes a tratar para reducir un evento (NNT). Consideremos
para su cálculo este ejemplo: Mueren 15% de pacientes en el grupo de intervención y mueren un 20%
en el grupo control. El que la diferencia entre ambos sea significativa dependerá del tamaño muestral.
El riesgo relativo, que es el cociente entre los expuestos al nuevo tratamiento o actividad preventiva y
los no expuestos, es en este caso (0.15/0.20=0.75). El riesgo de muerte de los pacientes que reciben el
nuevo tratamiento relativo al de los pacientes del grupo control fue de 0.75. La RRR es el complemento
del RR, es decir, (1-0.75)* 100 = 25%. El nuevo tratamiento reduce el riesgo de muerte en un 25%
relativo al que ha ocurrido en el grupo control. La reducción absoluta del riesgo (RAR) sería: 0.20-
0.15= 0.05 (5%). Podríamos decir por tanto que de cada 100 personas tratadas con el nuevo tratamiento
podemos evitar 5 casos de muerte. La siguiente pregunta sería: si de cada 100 personas tratadas con el
nuevo tratamiento podemos evitar 5 casos de muerte. ¿Cuántos tendríamos que tratar para evitar un
solo caso de muerte?. En otras palabras ¿cuál es el NNT?. Su cálculo requiere una simple regla de tres
que se resuelve dividiendo 1/RAR. En este caso 1/0.05 = 20. Por tanto la respuesta es que necesitamos
tratar a 20 pacientes con el nuevo tratamiento para evitar un caso de muerte.
Este modo de presentar los resultados nos cuantifica el esfuerzo a realizar para conseguir la reducción
de un evento desfavorable. El presentar los resultados sólo como reducción porcentual del riesgo
relativo (RRR), aunque es técnicamente correcto, tiende a magnificar el efecto de la intervención al
describir del mismo modo situaciones muy dispares. Dicho efecto lo podemos objetivar en la tabla 3,
donde se objetiva que la reducción del riesgo es igual pero el NNT es completamente diferente.
Cambios pequeños en el riesgo basal absoluto de un hecho clínico infrecuente conducen a grandes
cambios en el número de pacientes que necesitamos tratar con la intención de prevenir uno.
El cálculo del NNT representa como ya hemos indicado el número de pacientes a tratar de manera
experimental a fin de evitar que uno de ellos desarrolle un resultado negativo. Es por tanto una forma
excelente de determinar la significación clínica de un ensayo que además sea estadísticamente
significativo. Cuanto más reducido es NNT el efecto de la magnitud del tratamiento es mayor. Si no se
encontrase eficacia en el tratamiento la reducción absoluta del riesgo sería cero y el NNT sería infinito.
Como sucede en las estimaciones de otros parámetros, se debe expresar el NNT con intervalos de

13,14)
confianza para estimar la incertidumbre que dicho parámetro presenta ( .
El test de significación estadística nos proporciona una "p" que nos permiten conocer la probabilidad de
equivocarse si rechazamos la Ho, pero es evidente que la relevancia del fenómeno a estudiar es un
elemento clave en la toma de decisiones. Por otro lado aún siendo estadísticamente significativo y
clínicamente relevante no debemos olvidar que antes de poner en marcha una practica clínica debemos a
su vez valorar la validez externa o generalización de los resultados al universo de pacientes que se
pretende aplicar dicha práctica clínica.
Tabla 1. Sinónimos de la expresión "Estadísticamente significativo"

● Rechazo de la hipótesis nula
● Aceptación de la hipótesis alternativa
● Existe la suficiente evidencia para dudar de la hipótesis nula
● El resultado observado no es compatible con la hipótesis nula
● Es improbable obtener un resultado como el observado si la hipótesis nula es cierta
● Es improbable que el resultado observado sea debido al azar
● Las variaciones inherentes al muestreo no bastan para explicar el resultado observado
● p < 0.05 (si el nivel de significación fijado previamente es 0.05)
● Las muestras proceden de poblaciones diferentes
Tabla 2. Error de tipo I y error de tipo II
Realidad
No existe diferencia Existe diferencia
(Ho cierta) (Ho falsa)
Diferencia significativa Error tipo I
No error
(Rechazo de Ho) (α )
Resultado de la prueba estadística
Diferencia no significativa Error tipo II
No error
(No rechazo de Ho) (β )
Tabla 3. Cálculo de Riesgo relativo (RR), Reducción Relativa del Riesgo (RRR), Reducción
Absoluta del Riesgo (RAR) y Número Necesario de Pacientes a Tratar para reducir un evento
(NNT) en situaciones diferentes.

Incidencia en Incidencia en
RR RRR RAR NNT
Expuestos No Expuestos
(Ie) (Io) Ie/Io (1-RR)*100 Io-Ie 1/RAR
8% 10 % 0.8 20 % 0.10-0.08 50
0.8% 1% 0.8 20 % 0.01-0.008 500
Bibliografía
1. Wassertheil-Smoller S. Biostatistics and Epidemiology. A primer for health professionals.

Second edition. New York: Springer-Verlag; 1995.
2. Silva Ayçaguer LC. Cultura estadística e investigación científica en el campo de la salud: una
mirada crítica. Madrid: Díaz de Santos; 1997.
3. Fisher R. The design of experiments. Londres: Oliver and Boyd; 1935.
4. Jekel JF, Elmore JG, Katz DL. Epidemiology Biostatistics and Preventive Medicine.
Philadelphia: W.B. Saunders Company; 1996.
5. Daly L.E, Bourke G.J. Interpretation and Uses of Medical Statistics. Oxford: Blackwell
Science Ltd; 2000.
6. Daly LE, Bourke GJ. Interpretation and uses of medical statistics. 5th ed.. Oxford: Blackwell
science; 2000.
7. Sackett DL, Haynes RB , Guyatt GH, Tugwell P. Epidemiología clínica. Ciencias básicas para
la medicina clínica, 2ª ed. Madrid: Editorial Médica Panamericana; 1994.
8. Sackett DL, Richarson WS, Rosenberg W, Hynes RB. Evidence-based medicine: how to
practice and teach EBM. 2nd ed. London: Churchill-livingstone; 2000.
9. Guyatt GH, Sackett DL, Cook DJ. Users´guides to the medical literature. II. How to use an
articie about therapy or prevention. A. Are the results of the study valid? Evidence-Based
Medicine Working Group. JAMA 1993; 270: 2598-2601.
10. Laupacis A, Sackett DL, Roberts RS: An assesment of clinically useful measures of
treatment. N Engl J Med 1988; 318: 1728-1733.
11. Guyatt GH, Sackett DL, Cook DJ. Users´ guides to the medical literature. II. How to use an
article about therapy or prevention. B. What were the results and will they help in caring for my
patients? Evidence Based Medicine Working Group. JAMA 1994; 271: 59-63. [Medline]
12. Cook RJ, Sackett DL. The number needed to treal: a clincally useful measure of treatment
effect. BMJ 1995; 310: 452-454. [Texto completo]
13. Altman DG. Confidence intervals for the nember needed to treat. BMJ 1998; 317: 1309-
14. Daly LE. Confidence limits made easy: interval estimation using a subsitution method. Am J
Epidemiol 1998; 147: 783-90. [Medline]


Estadística descriptiva de los datos
Pita Fernández S, Pértega Díaz, S. [ Correo de contacto ]

Coruña (España)
Pita Fernández, S. Uso de la estadística y la epidemiología en atención primaria. En: Gil VF,
Merino J, Orozco D, Quirce F. Manual de metodología de trabajo en atención primaria.
Universidad de Alicante. Madrid, Jarpyo Editores, S.A. 1997; 115-161. (Actualizado 06/03/2001)
Introducción Contenido
Introducción
Poblaciones y
Existen diferentes razones por las cuales los profesionales de la atención primaria
Muestras
deben conocer los fundamentos de la epidemiología y la estadística como
Tipos de datos
instrumentos del trabajo cotidiano. Entre dichas razones señalamos las siguientes: - Variables
los términos estadísticos y epidemiológicos invaden la literatura médica, la medicina cuantitativas
es cada vez más cuantitativa, su conocimiento nos permitirá leer la bibliografía - Variables
médica con más capacidad crítica para detectar errores potenciales y falacias. Nos cualitativas
será también útil para llegar a conclusiones correctas acerca de procedimientos para Estadística
descriptiva
1,2
el diagnóstico y del resultado de las pruebas . Su conocimiento nos permitirá a su Medidas de
vez valorar protocolos de estudio e informes remitidos para su publicación y tendencia
participar, en definitiva, en la investigación médica. Resulta imprescindible, por lo central
tanto, conocer los conceptos básicos de estadística que nos faciliten la realización de - Media,
Mediana y Moda
estudios y conocer las posibilidades a desarrollar con ayuda de profesionales
Medidas de
estadísticos para mejorar dicho análisis. dispersión
- Varianza
En este trabajo se pretende dar a conocer algunas nociones estadísticas que nos - Desviación
ayudarán a explorar y describir, en un primer momento, nuestros datos. típica
- Coeficiente de
variación
Poblaciones y muestras Medidas de
posición
Cuando se realiza un estudio de investigación, se pretende generalmente inferir o - Cuartiles y
generalizar resultados de una muestra a una población. Se estudia en particular a un Percentiles
Bibliografía
reducido número de individuos a los que tenemos acceso con la idea de poder
generalizar los hallazgos a la población de la cual esa muestra procede. Este proceso
Documento
de inferencia se efectúa por medio de métodos estadísticos basados en la
en PDF (46
probabilidad. Kb)
¿Problemas
La población representa el conjunto grande de individuos que deseamos estudiar y con PDF?
generalmente suele ser inaccesible. Es, en definitiva, un colectivo homogéneo que
reúne unas características determinadas.
http://www.fisterra.com/mbe/investiga/10descriptiva/10descriptiva.htm (1 of 7)22/04/2006 1:22:50 PM

La muestra es el conjunto menor de individuos (subconjunto de la población accesible y

limitado sobre el que realizamos las mediciones o el experimento con la idea de obtener
conclusiones generalizables a la población ). El individuo es cada uno de los
componentes de la población y la muestra. La muestra debe ser representativa de la
población y con ello queremos decir que cualquier individuo de la población en estudio
debe haber tenido la misma probabilidad de ser elegido.
Las razones para estudiar muestras en lugar de poblaciones son diversas y entre ellas
3
podemos señalar :
a. Ahorrar tiempo. Estudiar a menos individuos es evidente que lleva menos tiempo.
b. Como consecuencia del punto anterior ahorraremos costes.
c. Estudiar la totalidad de los pacientes o personas con una característica determinada
en muchas ocasiones puede ser una tarea inaccesible o imposible de realizar.
d. Aumentar la calidad del estudio. Al disponer de más tiempo y recursos, las
observaciones y mediciones realizadas a un reducido número de individuos
pueden ser más exactas y plurales que si las tuviésemos que realizar a una
población.
e. La selección de muestras específicas nos permitirá reducir la heterogeneidad de
una población al indicar los criterios de inclusión y/o exclusión.
Tipos de datos
Lo que estudiamos en cada individuo de la muestra son las variables (edad, sexo, peso,
talla, tensión arterial sistólica, etcétera). Los datos son los valores que toma la variable en
cada caso. Lo que vamos a realizar es medir, es decir, asignar valores a las variables
incluidas en el estudio. Deberemos además concretar la escala de medida que aplicaremos
a cada variable.
La naturaleza de las observaciones será de gran importancia a la hora de elegir el método

estadístico más apropiado para abordar su análisis. Con este fin, clasificaremos las
3-5
variables, a grandes rasgos, en dos tipos : variables cuantitativas o variables
cualitativas.
a. Variables cuantitativas. Son las variables que pueden medirse, cuantificarse o

expresarse numéricamente. Las variables cuantitativas pueden ser de dos tipos:
● Variables cuantitativas continuas, si admiten tomar cualquier valor dentro

de un rango numérico determinado (edad, peso, talla).
● Variables cuantitativas discretas, si no admiten todos los valores
intermedios en un rango. Suelen tomar solamente valores enteros (número
de hijos, número de partos, número de hermanos, etc).
b. Variables cualitativas. Este tipo de variables representan una cualidad o atributo

que clasifica a cada caso en una de varias categorías. La situación más sencilla es
aquella en la que se clasifica cada caso en uno de dos grupos (hombre/mujer,

enfermo/sano, fumador/no fumador). Son datos dicotómicos o binarios. Como

resulta obvio, en muchas ocasiones este tipo de clasificación no es suficiente y se
requiere de un mayor número de categorías (color de los ojos, grupo sanguíneo,
profesión, etcétera).
En el proceso de medición de estas variables, se pueden utilizar dos escalas:
● Escalas nominales: ésta es una forma de observar o medir en la que los

datos se ajustan por categorías que no mantienen una relación de orden
entre sí (color de los ojos, sexo, profesión, presencia o ausencia de un
factor de riesgo o enfermedad, etcétera).
● Escalas ordinales: en las escalas utilizadas, existe un cierto orden o
jerarquía entre las categorías (grados de disnea, estadiaje de un tumor,
etcétera).
Estadística descriptiva
Una vez que se han recogido los valores que toman las variables de nuestro estudio
(datos), procederemos al análisis descriptivo de los mismos. Para variables categóricas,
como el sexo o el estadiaje, se quiere conocer el número de casos en cada una de las
categorías, reflejando habitualmente el porcentaje que representan del total, y
expresándolo en una tabla de frecuencias.
Para variables numéricas, en las que puede haber un gran número de valores observados
distintos, se ha de optar por un método de análisis distinto, respondiendo a las siguientes
preguntas:
a. ¿Alrededor de qué valor se agrupan los datos?

b. Supuesto que se agrupan alrededor de un número, ¿cómo lo hacen? ¿muy
concentrados? ¿muy dispersos?
a. Medidas de tendencia central
Las medidas de centralización vienen a responder a la primera pregunta. La medida más

evidente que podemos calcular para describir un conjunto de observaciones numéricas es
su valor medio. La media no es más que la suma de todos los valores de una variable
dividida entre el número total de datos de los que se dispone.
Como ejemplo, consideremos 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60,
71, y 80. La media de edad de estos sujetos será de:

Más formalmente, si denotamos por (X1, X2,...,Xn) los n datos que tenemos recogidos de
la variable en cuestión, el valor medio vendrá dado por:
Otra medida de tendencia central que se utiliza habitualmente es la mediana. Es la

observación equidistante de los extremos.
La mediana del ejemplo anterior sería el valor que deja a la mitad de los datos por encima
de dicho valor y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor
observamos la secuencia:
15, 21, 32, 59, 60, 60,61, 64, 71, 80.
Como quiera que en este ejemplo el número de observaciones es par (10 individuos), los
dos valores que se encuentran en el medio son 60 y 60. Si realizamos el cálculo de la
media de estos dos valores nos dará a su vez 60, que es el valor de la mediana.
Si la media y la mediana son iguales, la distribución de la variable es simétrica. La media

es muy sensible a la variación de las puntuaciones. Sin embargo, la mediana es menos
sensible a dichos cambios.
Por último, otra medida de tendencia central, no tan usual como las anteriores, es la
moda, siendo éste el valor de la variable que presenta una mayor frecuencia.
En el ejemplo anterior el valor que más se repite es 60, que es la moda.
b. Medidas de dispersión
Tal y como se adelantaba antes, otro aspecto a tener en cuenta al describir datos continuos
es la dispersión de los mismos. Existen distintas formas de cuantificar esa variabilidad.
De todas ellas, la varianza (S2) de los datos es la más utilizada. Es la media de los
cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la
distribución.
Esta varianza muestral se obtiene como la suma de las de las diferencias de cuadrados y

por tanto tiene como unidades de medida el cuadrado de las unidades de medida en que se
mide la variable estudiada.
En el ejemplo anterior la varianza sería:
Sx2=
La desviación típica (S) es la raíz cuadrada de la varianza. Expresa la dispersión de la

distribución y se expresa en las mismas unidades de medida de la variable. La desviación
típica es la medida de dispersión más utilizada en estadística.
Aunque esta fórmula de la desviación típica muestral es correcta, en la práctica, la

estadística nos interesa para realizar inferencias poblacionales, por lo que en el
denominador se utiliza, en lugar de n, el valor n-1.
Por tanto, la medida que se utiliza es la cuasidesviación típica, dada por:
Aunque en muchos contextos se utiliza el término de desviación típica para referirse a

ambas expresiones.
En los cálculos del ejercicio previo, la desviación típica muestral, que tiene como
denominador n, el valor sería 20.678. A efectos de cálculo lo haremos como n-1 y el
resultado seria 21,79.
El haber cambiado el denominador de n por n-1 está en relación al hecho de que esta
segunda fórmula es una estimación más precisa de la desviación estándar verdadera de
la población y posee las propiedades que necesitamos para realizar inferencias a la
población.
Cuando se quieren señalar valores extremos en una distribución de datos, se suele utilizar
la amplitud como medida de dispersión. La amplitud es la diferencia entre el valor mayor
y el menor de la distribución.
Por ejemplo, utilizando los datos del ejemplo previo tendremos 80-15 =65.

Como medidas de variabilidad más importantes, conviene destacar algunas características

de la varianza y desviación típica:
● Son índices que describen la variabilidad o dispersión y por tanto cuando los datos
están muy alejados de la media, el numerador de sus fórmulas será grande y la
varianza y la desviación típica lo serán.
● Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación típica.
Para reducir a la mitad la desviación típica, la muestra se tiene que multiplicar por
4.
● Cuando todos los datos de la distribución son iguales, la varianza y la desviación
típica son iguales a 0.
● Para su cálculo se utilizan todos los datos de la distribución; por tanto, cualquier
cambio de valor será detectado.
Otra medida que se suele utilizar es el coeficiente de variación (CV). Es una medida de
dispersión relativa de los datos y se calcula dividiendo la desviación típica muestral por la
media y multiplicando el cociente por 100. Su utilidad estriba en que nos permite
comparar la dispersión o variabilidad de dos o más grupos. Así, por ejemplo, si tenemos
el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es de 69,6 kg. y su desviación
típica (s) = 10,44 y la TAS de los mismos (150, 170, 135, 180 y 195 mmHg) cuya media
es de 166 mmHg y su desviación típica de 21,3. La pregunta sería: ¿qué distribución es
más dispersa, el peso o la tensión arterial? Si comparamos las desviaciones típicas
observamos que la desviación típica de la tensión arterial es mucho mayor; sin embargo,
no podemos comparar dos variables que tienen escalas de medidas diferentes, por lo que
calculamos los coeficientes de variación:
CV de la variable peso =
CV de la variable TAS =
A la vista de los resultados, observamos que la variable peso tiene mayor dispersión.
Cuando los datos se distribuyen de forma simétrica (y ya hemos dicho que esto ocurre
cuando los valores de su media y mediana están próximos), se usan para describir esa
variable su media y desviación típica. En el caso de distribuciones asimétricas, la mediana
y la amplitud son medidas más adecuadas. En este caso, se suelen utilizar además los
cuartiles y percentiles.
Los cuartiles y percentiles no son medidas de tendencia central sino medidas de

posición. El percentil es el valor de la variable que indica el porcentaje de una
distribución que es igual o menor a esa cifra.
Así, por ejemplo, el percentil 80 es el valor de la variable que es igual o deja por debajo
de sí al 80% del total de las puntuaciones. Los cuartiles son los valores de la variable que

dejan por debajo de sí el 25%, 50% y el 75% del total de las puntuaciones y así tenemos
por tanto el primer cuartil (Q1), el segundo (Q2) y el tercer cuartil (Q3).
Bibliografía
1. Sackett, D.L., Haynes, R.B., Guyatt, G.H., Tugwell, P. Epidemiología clínica. Ciencia básica
para la medicina clínica. 2ª ed. Madrid : Médica Panamericana; 1994.
2. Fletcher RH., Fletcher SW., Wagner E.H. Epidemiología clínica. 2ª ed. Barcelona: Masson,
Williams & Wilkins; 1998.
3. Dawson-Saunders B, Trapp RG. Bioestadística Médica . 2ª ed. México: Editorial el Manual

Moderno; 1996.
4. Milton JS, Tsokos JO. Estadística para biología y ciencias de la salud. Madrid: Interamericana
McGraw Hill; 2001.
5. Martín Andrés A, Luna del Castillo JD. Bioestadística para las ciencias de la salud. 4ª ed.
Madrid: NORMA; 1993.

La Distribución Normal
La distribución normal

Coruña (España)
1. Introducción Contenido
Introducción
La Distribución
Al iniciar el análisis estadístico de una serie de datos, y después de la etapa de
Normal
detección y corrección de errores, un primer paso consiste en describir la
- Sus
distribución de las variables estudiadas y, en particular, de los datos numéricos. propiedades
Además de las medidas descriptivas correspondientes, el comportamiento de estas Contrastes de
variables puede explorarse gráficamente de un modo muy simple. Consideremos, Normalidad
como ejemplo, los datos de la Figura 1a, que muestra un histograma de la tensión Recursos
arterial sistólica de una serie de pacientes isquémicos ingresados en una unidad de relacionados en
Internet
cuidados intensivos. Para construir este tipo de gráfico, se divide el rango de
Bibliografía
valores de la variable en intervalos de igual longitud, representando sobre cada
intervalo un rectángulo con área proporcional al número de datos en ese rango1.
Documento
Uniendo los puntos medios del extremo superior de las barras, se obtiene el llamado en PDF
polígono de frecuencias. Si se observase una gran cantidad de valores de la (123 Kb)
variable de interés, se podría construir un histograma en el que las bases de los ¿Problemas
rectángulos fuesen cada vez más pequeñas, de modo que el polígono de frecuencias con PDF?
tendría una apariencia cada vez más suavizada, tal y como se muestra en la Figura Tablas y Figuras
1b. Esta curva suave "asintótica" representa de modo intuitivo la distribución Figura
1. Histogramas
teórica de la característica observada. Es la llamada función de densidad. Fig. 2. Gráfica
de una
Una de las distribuciones teóricas mejor estudiadas en los textos de bioestadística y Distribución
más utilizada en la práctica es la distribución normal, también llamada Normal
Tabla 1. Áreas
distribución gaussiana2, 3, 4, 5. Su importancia se debe fundamentalmente a la bajo la curva
frecuencia con la que distintas variables asociadas a fenómenos naturales y normal
cotidianos siguen, aproximadamente, esta distribución. Caracteres morfológicos estándar
(como la talla o el peso), o psicológicos (como el cociente intelectual) son ejemplos Fig.
de variables de las que frecuentemente se asume que siguen una distribución 3. Ejemplos de
distribuciones
normal. No obstante, y aunque algunos autores6, 7 han señalado que el normales
comportamiento de muchos parámetros en el campo de la salud puede ser descrito Fig.
mediante una distribución normal, puede resultar incluso poco frecuente encontrar 4. Histogramas
variables que se ajusten a este tipo de comportamiento. y gráfico Q-Q
de probabilidad
El uso extendido de la distribución normal en las aplicaciones estadísticas puede

explicarse, además, por otras razones. Muchos de los procedimientos estadísticos
habitualmente utilizados asumen la normalidad de los datos observados. Aunque muchas
de estas técnicas no son demasiado sensibles a desviaciones de la normal y, en general,
http://www.fisterra.com/mbe/investiga/distr_normal/distr_normal.htm (1 of 15)22/04/2006 1:23:35 PM

esta hipótesis puede obviarse cuando se dispone de un número suficiente de datos, resulta
recomendable contrastar siempre si se puede asumir o no una distribución normal. La
simple exploración visual de los datos puede sugerir la forma de su distribución. No
obstante, existen otras medidas, gráficos de normalidad y contrastes de hipótesis que
pueden ayudarnos a decidir, de un modo más riguroso, si la muestra de la que se dispone
procede o no de una distribución normal. Cuando los datos no sean normales, podremos
o bien transformarlos8 o emplear otros métodos estadísticos que no exijan este tipo de
restricciones (los llamados métodos no paramétricos).
A continuación se describirá la distribución normal, su ecuación matemática y sus

propiedades más relevantes, proporcionando algún ejemplo sobre sus aplicaciones a la
inferencia estadística. En la sección 3 se describirán los métodos habituales para
contrastar la hipótesis de normalidad.
2. La Distribución Normal
La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre
(1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más
profundos y formuló la ecuación de la curva; de ahí que también se la conozca, más
comúnmente, como la "campana de Gauss". La distribución de una variable normal
está completamente determinada por dos parámetros, su media y su desviación estándar,
denotadas generalmente por y . Con esta notación, la densidad de la normal viene
dada por la ecuación:
Ecuación 1:
que determina la curva en forma de campana que tan bien conocemos (Figura 2). Así, se
dice que una característica sigue una distribución normal de media y varianza ,
y se denota como , si su función de densidad viene dada por la Ecuación 1.
Al igual que ocurría con un histograma, en el que el área de cada rectángulo es

proporcional al número de datos en el rango de valores correspondiente si, tal y como se
muestra en la Figura 2, en el eje horizontal se levantan perpendiculares en dos puntos a y
b, el área bajo la curva delimitada por esas líneas indica la probabilidad de que la variable
de interés, X, tome un valor cualquiera en ese intervalo. Puesto que la curva alcanza su
mayor altura en torno a la media, mientras que sus "ramas" se extienden asintóticamente
hacia los ejes, cuando una variable siga una distribución normal, será mucho más
probable observar un dato cercano al valor medio que uno que se encuentre muy alejado
de éste.
Propiedades de la distribución normal:

La distribución normal posee ciertas propiedades importantes que conviene destacar:
i. Tiene una única moda, que coincide con su media y su mediana.

ii. La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor entre
y es teóricamente posible. El área total bajo la curva es, por tanto,
igual a 1.
iii. Es simétrica con respecto a su media . Según esto, para este tipo de variables
existe una probabilidad de un 50% de observar un dato mayor que la media, y un
50% de observar un dato menor.
iv. La distancia entre la línea trazada en la media y el punto de inflexión de la curva
es igual a una desviación típica ( ). Cuanto mayor sea , más aplanada será la
curva de la densidad.
v. El área bajo la curva comprendido entre los valores situados aproximadamente a
dos desviaciones estándar de la media es igual a 0.95. En concreto, existe un 95%
de posibilidades de observar un valor comprendido en el intervalo
.
vi. La forma de la campana de Gauss depende de los parámetros y (Figura 3).
La media indica la posición de la campana, de modo que para diferentes valores de
la gráfica es desplazada a lo largo del eje horizontal. Por otra parte, la
desviación estándar determina el grado de apuntamiento de la curva. Cuanto
mayor sea el valor de , más se dispersarán los datos en torno a la media y la
curva será más plana. Un valor pequeño de este parámetro indica, por tanto, una
gran probabilidad de obtener datos cercanos al valor medio de la distribución.
Como se deduce de este último apartado, no existe una única distribución normal, sino
una familia de distribuciones con una forma común, diferenciadas por los valores de su
media y su varianza. De entre todas ellas, la más utilizada es la distribución normal
estándar, que corresponde a una distribución de media 0 y varianza 1. Así, la expresión
que define su densidad se puede obtener de la Ecuación 1, resultando:
Es importante conocer que, a partir de cualquier variable X que siga una distribución
, se puede obtener otra característica Z con una distribución normal estándar,
sin más que efectuar la transformación:
Ecuación
2:
Esta propiedad resulta especialmente interesante en la práctica, ya que para una

distribución existen tablas publicadas (Tabla 1) a partir de las que se puede
obtener de modo sencillo la probabilidad de observar un dato menor o igual a un cierto

valor z, y que permitirán resolver preguntas de probabilidad acerca del comportamiento

de variables de las que se sabe o se asume que siguen una distribución aproximadamente
normal.
Consideremos, por ejemplo, el siguiente problema: supongamos que se sabe que el peso
de los sujetos de una determinada población sigue una distribución aproximadamente
normal, con una media de 80 Kg y una desviación estándar de 10 Kg. ¿Podremos saber
cuál es la probabilidad de que una persona, elegida al azar, tenga un peso superior a 100
Kg?
Denotando por X a la variable que representa el peso de los individuos en esa población,
ésta sigue una distribución . Si su distribución fuese la de una normal estándar
podríamos utilizar la Tabla 1 para calcular la probabilidad que nos interesa. Como éste
no es el caso, resultará entonces útil transformar esta característica según la Ecuación 2, y
obtener la variable:
para poder utilizar dicha tabla. Así, la probabilidad que se desea calcular será:
Como el área total bajo la curva es igual a 1, se puede deducir que:
Esta última probabilidad puede ser fácilmente obtenida a partir de la Tabla 1, resultando
ser . Por lo tanto, la probabilidad buscada de que una persona

elegida aleatoriamente de esa población tenga un peso mayor de 100 Kg , es de 1–
0.9772=0.0228, es decir, aproximadamente de un 2.3%.
De modo análogo, podemos obtener la probabilidad de que el peso de un sujeto esté entre
60 y 100 Kg:
De la Figura 2, tomando a=-2 y b=2, podemos deducir que:

Por el ejemplo previo, se sabe que . Para la segunda probabilidad,

sin embargo, encontramos el problema de que las tablas estándar no proporcionan el
valor de para valores negativos de la variable. Sin embargo, haciendo uso de
la simetría de la distribución normal, se tiene que:
Finalmente, la probabilidad buscada de que una persona elegida al azar tenga un peso
entre 60 y 100 Kg., es de 0.9772-0.0228=0.9544, es decir, aproximadamente de un 95%.
Resulta interesante comprobar que se obtendría la misma conclusión recurriendo a la
propiedad (iii) de la distribución normal.
No obstante, es fácil observar que este tipo de situaciones no corresponde a lo que

habitualmente nos encontramos en la práctica. Generalmente no se dispone de
información acerca de la distribución teórica de la población, sino que más bien el
problema se plantea a la inversa: a partir de una muestra extraída al azar de la población
que se desea estudiar, se realizan una serie de mediciones y se desea extrapolar los
resultados obtenidos a la población de origen. En un ejemplo similar al anterior,
supongamos que se dispone del peso de n=100 individuos de esa misma población,
obteniéndose una media muestral de Kg, y una desviación estándar muestral
Kg, querríamos extraer alguna conclusión acerca del valor medio real de ese
peso en la población original. La solución a este tipo de cuestiones se basa en un
resultado elemental de la teoría estadística, el llamado teorema central del límite. Dicho
axioma viene a decirnos que las medias de muestras aleatorias de cualquier variable
siguen ellas mismas una distribución normal con igual media que la de la población y
desviación estándar la de la población dividida por . En nuestro caso, podremos
entonces considerar la media muestral , con lo cual, a partir de la

propiedad (iii) se conoce que aproximadamente un 95% de los posibles valores de
caerían dentro del intervalo . Puesto que los valores de y

son desconocidos, podríamos pensar en aproximarlos por sus análogos muestrales,
resultando . Estaremos, por lo tanto,

un 95% seguros de que el peso medio real en la población de origen oscila entre 75.6 Kg
y 80.3 Kg. Aunque la teoría estadística subyacente es mucho más compleja, en líneas
generales éste es el modo de construir un intervalo de confianza para la media de una
población.

3. Contrastes de Normalidad
La verificación de la hipótesis de normalidad resulta esencial para poder aplicar muchos

de los procedimientos estadísticos que habitualmente se manejan. Tal y como ya se
apuntaba antes, la simple exploración visual de los datos observados mediante, por
ejemplo, un histograma o un diagrama de cajas, podrá ayudarnos a decidir si es razonable
o no el considerar que proceden de una característica de distribución normal. Como
ejemplo, consideremos los histogramas que se muestran en la Figura 4a, correspondientes
a una muestra de 100 mujeres de las que se determinó su peso y edad. Para el caso del
peso, la distribución se asemeja bastante a la de una normal. P ara la edad, sin embargo,
es claramente asimétrica y diferente de la gaussiana.
Resulta obvio que este tipo de estudio no puede llevarnos sino a obtener una opinión
meramente subjetiva acerca de la posible distribución de nuestros datos, y que es
necesario disponer de otros métodos más rigurosos para contrastar este tipo de hipótesis.
En primer lugar, deberemos plantearnos el saber si los datos se distribuyen de una forma
simétrica con respecto a su media o presentan algún grado de asimetría, pues es ésta una
de las características fundamentales de la distribución de Gauss. Aunque la simetría de la
distribución pueda valorarse, de modo simple, atendiendo a algunas medidas descriptivas
de la variable en cuestión8 (comparando, por ejemplo, los valores de media, mediana y
moda), resultará útil disponer de algún índice que nos permita cuantificar cualquier
desviación. Si se dispone de una muestra de tamaño n, de una característica

X, se define el coeficiente de asimetría de Fisher como:
a partir del cual podemos considerar que una distribución es simétrica ( =0), asimétrica
hacia la izquierda ( <0) o hacia la derecha ( >0). En segundo lugar, podemos
preguntarnos si la curva es más o menos "aplastada", en relación con el grado de
apuntamiento de una distribución gaussiana. El coeficiente de aplastamiento o curtosis
de Fisher, dado por:
permite clasificar una distribución de frecuencias en mesocúrtica (tan aplanada como una
normal, ), leptocúrtica (más apuntada que una normal, ) o platicúrtica

(más aplanada que una normal, ).
Siguiendo con los ejemplos anteriores, y tal y como cabía esperar, el coeficiente de
asimetría toma un valor mayor para la distribución de la edad ( ) que para el
peso observado ( ). En cuanto a los niveles de curtosis, no hay apenas
diferencias, siendo de –0.320 para el peso y de –0.366 para la edad.
Los gráficos de probabilidad normal constituyen otra importante herramienta gráfica

para comprobar si un conjunto de datos puede considerarse o no procedente de una
distribución normal. La idea básica consiste en enfrentar, en un mismo gráfico, los datos
que han sido observados frente a los datos teóricos que se obtendrían de una distribución
gaussiana. Si la distribución de la variable coincide con la normal, los puntos se
concentrarán en torno a una línea recta, aunque conviene tener en cuenta que siempre
tenderá a observarse mayor variabilidad en los extremos (Figura 4a, datos del peso). En
los gráficos P-P se confrontan las proporciones acumuladas de una variable con las de
una distribución normal. Los gráficos Q-Q se obtienen de modo análogo, esta vez
representando los cuantiles respecto a los cuantiles de la distribución normal. Además de
permitir valorar la desviación de la normalidad, los gráficos de probabilidad permiten
conocer la causa de esa desviación. Una curva en forma de "U" o con alguna curvatura,
como en el caso de la edad en la Figura 4b, significa que la distribución es asimétrica con
respecto a la gaussiana, mientras que un gráfico en forma de "S" significará que la
distribución tiene colas mayores o menores que la normal, esto es, que existen pocas o
demasiadas observaciones en las colas de la distribución.
Parece lógico que cada uno de estos métodos se complemente con procedimientos de
análisis que cuantifiquen de un modo más exacto las desviaciones de la distribución
normal. Existen distintos tests estadísticos que podemos utilizar para este propósito. El
test de Kolmogorov-Smirnov es el más extendido en la práctica. Se basa en la idea de
comparar la función de distribución acumulada de los datos observados con la de una
distribución normal, midiendo la máxima distancia entre ambas curvas. Como en
cualquier test de hipótesis, la hipótesis nula se rechaza cuando el valor del estadístico
supera un cierto valor crítico que se obtiene de una tabla de probabilidad. Dado que en la
mayoría de los paquetes estadísticos, como el SPSS, aparece programado dicho
procedimiento, y proporciona tanto el valor del test como el p-valor correspondiente, no
nos detendremos más en explicar su cálculo. Existen modificaciones de este test, como el
de Anderson-Darling que también pueden ser utilizados. Otro procedimiento muy
extendido es también el test chi-cuadrado de bondad de ajuste. No obstante, este tipo de
procedimientos deben ser utilizados con precaución. Cuando se dispone de un número
suficiente de datos, cualquier test será capaz de detectar diferencias pequeñas aún cuando
estas no sean relevantes para la mayor parte de los propósitos. El test de Kolmogorov-
Smirnov, en este sentido, otorga un peso menor a las observaciones extremas y por la
tanto es menos sensible a las desviaciones que normalmente se producen en estos tramos.
Para acabar, observemos el resultado de aplicar el test de Kolmogorov-Smirnov a los

datos de la Figura 4. Para el caso del peso, el valor del estadístico proporcionado por
dicho test fue de 0.705, con un p-valor correspondiente de p=0.702 que, al no ser

significativo, indica que podemos asumir una distribución normal. Por otra parte, para el
caso de la edad, en el que la distribución muestral era mucho más asimétrica, el mismo
test proporcionó un valor de 1.498, con p=0.022, lo que obligaría a rechazar en este caso
la hipótesis de una distribución gaussiana.
Recursos relacionados en Internet
● Normal Density Plotter (UCLA Department of Statistic)

Página que permite obtener la representación gráfica de la densidad de una
distribución normal de media y desviación estándar dados por el usuario.
● SurfStat Statistical Tables - Standard Normal Distribution (University of

Newcastle)
Página que permite calcular, a partir de una distribución normal estándar, la
probabilidad acumulada hasta un cierto valor, o la probabilidad de tomar un valor
en un intervalo. Así mismo, permite realizar los cálculos inversos, es decir,
obtener el p-cuantil de una distribución normal estándar.
● Normal Density Calculator (UCLA Department of Statistic)

Permite obtener, bajo una distribución normal, la probabilidad de observar un
valor mayor o igual que uno dado. La ventaja es que permite hacerlo no sólo para
la distribución normal estándar, sino para valores de la media y desviación
estándar dados por el usuario.
● Matt's spiffy normal plot maker (UCLA Department of Statistic)

Se introducen los datos de la variable de interes y produce el gráfico Q-Q de
probabilidad normal correspondiente, que puede ser fácilmente exportado a otros
programas.
● Calculation of 95% Confidence Interval on a Sample Mean (Arizona State

University)
A partir del valor de la media y la desviación estándar muestral, calcula el 95%
intervalo de confianza para la media poblacional.
Figura 1. Histograma de los valores de tensión arterial sistólica para dos muestras de
pacientes isquémicos ingresados en una unidad de cuidados intensivos.
Figura 1a.- Valores de tensión arterial sistólica en una muestra de 1000 pacientes
isquémicos ingresados en UCI.

Figura 1b.- Valores de tensión arterial sistólica de una muestra de 5000 pacientes
ingresados en UCI.
Figura 2. Gráfica de una distribución normal y significado del área bajo la curva.

Tabla 1. Áreas bajo la curva normal estándar. Los valores de la tabla que no se
muestran en negrita representan la probabilidad de observar un valor menor o igual a
z. La cifra entera y el primer decimal de z se buscan en la primera columna, y el
segundo decimal en la cabecera de la tabla.
Segunda cifra decimal del valor de z

z 0.00 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
0.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
0.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
0.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
0.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
0.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
0.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
0.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
0.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
0.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830

1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2.2 .9861 .9864 .9868 .9871 .9875 .4878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990
3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993
3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995
3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997
3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998
Figura 3. Ejemplos de distribuciones normales con diferentes parámetros.

Figura 4. Histogramas y gráficos de probabilidad normal de los valores de peso y edad

en dos muestras de pacientes.
Figura 4a.- Histogramas

Figura 4b.- Gráficos Q-Q de probabilidad.

Bibliografía
1. Pértega Díaz S, Pita Fernández S. Representación gráfica en el análisis de datos. Cad Aten
Primaria 2001; 8: 112-117.
2. Altman DA. Practical statistics for medical research. 1th ed., repr. 1997. London: Chapman
& Hall; 1997.
3. Daniel WW. Bioestadística. Base para el análisis de las ciencias de la salud. Mexico:
Limusa; 1995.
4. Elston RC, Johnson WD. Essentials of Biostatistics. Philadelphia: F.A. Davis Company;
1987.
5. Altman DG, Bland JM. Statistics notes: The normal distribution. BMJ 1995; 310: 298-298.
[Texto completo]
6. Elveback LR, Guilliver CL, Keating FR Jr. Health, Normality and the Gosth of Gauss.
JAMA 1970; 211: 69-75. [Medline]
7. Nelson JC, Haynes E, Willard R, Kuzma J. The Distribution of Eurhyroid Serum Protein-
Bound Iodine Levels. JAMA 1971; 216: 1639-1641. [Medline]
8. Altman DG, Bland JM. Statistics notes: Detecting skewness from summary information.
BMJ 1996; 313: 1200-1200. [Texto completo]

9. Bland JM, Altman DG. Statistics Notes: Transforming data. BMJ 1996; 312: 770. [Texto
completo]

Representación gráfica en el análisis de datos
Representación gráfica en el Análisis de Datos
Pértega Díaz S. [ Correo de contacto ] , Pita Fernández S.

Coruña (España)
Cad Aten Primaria (Pendiente de publicación)
La realización de los estudios clínico-epidemiológicos implica finalmente emitir Contenido

unos resultados cuantificables de dicho estudio o experimento. La claridad de dicha Análisis
presentación es de vital importancia para la comprensión de los resultados y la descriptivo
interpretación de los mismos. A la hora de representar los resultados de un análisis Comparación

de dos o más
estadístico de un modo adecuado, son varias las publicaciones que podemos grupos
consultar1. Aunque se aconseja que la presentación de datos numéricos se haga Relación entre
habitualmente por medio de tablas, en ocasiones un diagrama o un gráfico pueden dos variables
ayudarnos a representar de un modo más eficiente nuestros datos. numéricas
Otros gráficos
En este artículo se abordará la representación gráfica de los resultados de un estudio, Bibliografía
constatando su utilidad en el proceso de análisis estadístico y la presentación de

Documento
datos. Se describirán los distintos tipos de gráficos que podemos utilizar y su
en PDF (80
correspondencia con las distintas etapas del proceso de análisis.
Kb)
¿Problemas
Análisis descriptivo. con PDF?
Tablas y Figuras
Cuando se dispone de datos de una población, y antes de abordar análisis Fig. 1.
Diagrama de
estadísticos más complejos, un primer paso consiste en presentar esa información de
sectores
forma que ésta se pueda visualizar de una manera más sistemática y resumida. Los
Fig. 2.
datos que nos interesan dependen, en cada caso, del tipo de variables que estemos Diagrama de
manejando2. barras
Tabla I.
Distribución de
Para variables categóricas3, como el sexo, estadio TNM, profesión, etc., se quiere frecuencias:
conocer la frecuencia y el porcentaje del total de casos que "caen" en cada categoría. edad en 100
Una forma muy sencilla de representar gráficamente estos resultados es mediante pacientes
diagramas de barras o diagramas de sectores. En los gráficos de sectores, también Fig. 3.
conocidos como diagramas de "tartas", se divide un círculo en tantas porciones Histograma
como clases tenga la variable, de modo que a cada clase le corresponde un arco de Fig. 4. Polígono
de frecuencias
círculo proporcional a su frecuencia absoluta o relativa. Un ejemplo se muestra en la
Fig. 5.
Figura 1. Como se puede observar, la información que se debe mostrar en cada
Diagrama de
sector hace referencia al número de casos dentro de cada categoría y al porcentaje caja
del total que estos representan. Si el número de categorías es excesivamente grande, Fig. 6. Gráfico
la imagen proporcionada por el gráfico de sectores no es lo suficientemente clara y P-P
por lo tanto la situación ideal es cuando hay alrededor de tres categorías. En este
caso se pueden apreciar con claridad dichos subgrupos.
http://www.fisterra.com/mbe/investiga/graficos/graficos.htm (1 of 18)22/04/2006 1:23:47 PM

Los diagramas de barras son similares a los gráficos de sectores. Se representan Fig. 7.
tantas barras como categorías tiene la variable, de modo que la altura de cada una de Diagrama de
barras
ellas sea proporcional a la frecuencia o porcentaje de casos en cada clase (Figura 2).
agrupadas
Estos mismos gráficos pueden utilizarse también para describir variables numéricas Fig. 8.
discretas que toman pocos valores (número de hijos, número de recidivas, etc.). Diagrama de
barras de error
Para variables numéricas continuas, tales como la edad, la tensión arterial o el Fig. 9. Gráfico
de líneas
índice de masa corporal, el tipo de gráfico más utilizado es el histograma. Para
Fig. 10.
construir un gráfico de este tipo, se divide el rango de valores de la variable en Diagrama de
intervalos de igual amplitud, representando sobre cada intervalo un rectángulo que dispersión
tiene a este segmento como base. El criterio para calcular la altura de cada Fig. 11.
rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o Diagramas de
relativas) de los datos en cada intervalo y el área de los rectángulos. Como ejemplo, líneas
superpuestos
la Tabla I muestra la distribución de frecuencias de la edad de 100 pacientes,
Fig. 12.
comprendida entre los 18 y 42 años. Si se divide este rango en intervalos de dos Diagrama de
años, el primer tramo está comprendido entre los 18 y 19 años, entre los que se dispersión
encuentra el 4/100=4% del total. Por lo tanto, la primera barra tendrá altura (regresión
proporcional a 4. Procediendo así sucesivamente, se construye el histograma que se logística)
muestra en la Figura 3. Uniendo los puntos medios del extremo superior de las Fig. 13. Curvas
ROC
barras del histograma, se obtiene una imagen que se llama polígono de frecuencias.
Dicha figura pretende mostrar, de la forma más simple, en qué rangos se encuentra la
mayor parte de los datos. Un ejemplo, utilizando los datos anteriores, se presenta en la
Figura 4.
Otro modo habitual, y muy útil, de resumir una variable de tipo numérico es utilizando el
concepto de percentiles, mediante diagramas de cajas4,5. La Figura 5 muestra un
gráfico de cajas correspondiente a los datos de la Tabla I. La caja central indica el rango
en el que se concentra el 50% central de los datos. Sus extremos son, por lo tanto, el 1er y
3er cuartil de la distribución. La línea central en la caja es la mediana. De este modo, si la
variable es simétrica, dicha línea se encontrará en el centro de la caja. Los extremos de
los "bigotes" que salen de la caja son los valores que delimitan el 95% central de los
datos, aunque en ocasiones coinciden con los valores extremos de la distribución. Se
suelen también representar aquellas observaciones que caen fuera de este rango (outliers
o valores extremos). Esto resulta especialmente útil para comprobar, gráficamente,
posibles errores en nuestros datos. En general, los diagramas de cajas resultan más
apropiados para representar variables que presenten una gran desviación de la
distribución normal. Como se verá más adelante, resultan además de gran ayuda cuando
se dispone de datos en distintos grupos de sujetos.
Por último, y en lo que respecta a la descripción de los datos, suele ser necesario, para
posteriores análisis, comprobar la normalidad de alguna de las variables numéricas de las
que se dispone. Un diagrama de cajas o un histograma son gráficos sencillos que
permiten comprobar, de un modo puramente visual, la simetría y el "apuntamiento" de la
distribución de una variable y, por lo tanto, valorar su desviación de la normalidad.
Existen otros métodos gráficos específicos para este propósito, como son los gráficos P-
P o Q-Q. En los primeros, se confrontan las proporciones acumuladas de una variable
con las de una distribución normal. Si la variable seleccionada coincide con la

distribución de prueba, los puntos se concentran en torno a una línea recta. Los gráficos
Q-Q se obtienen de modo análogo, esta vez representando los cuantiles de distribución de
la variable respecto a los cuantiles de la distribución normal. En la Figura 6 se muestra el
gráfico P-P correspondientes a los datos de la Tabla I que sugiere, al igual que el
correspondiente histograma y el diagrama de cajas, que la distribución de la variable se
aleja de la normalidad.
Comparación de dos o más grupos.
Cuando se quieren comparar las observaciones tomadas en dos o más grupos de

individuos una vez más el método estadístico a utilizar, así como los gráficos apropiados
para visualizar esa relación, dependen del tipo de variables que estemos manejando.
Cuando se trabaja con dos variables cualitativas podemos seguir empleando gráficos de
barras o de sectores. Podemos querer determinar, por ejemplo, si en una muestra dada, la
frecuencia de sujetos que padecen una enfermedad coronaria es más frecuente en aquellos
que tienen algún familiar con antecedentes cardiacos. A partir de dicha muestra podemos
representar, como se hace en la Figura 7, dos grupos de barras: uno para los sujetos con
antecedentes cardiacos familiares y otro para los que no tienen este tipo de antecedentes.
En cada grupo, se dibujan dos barras representando el porcentaje de pacientes que tienen
o no alguna enfermedad coronaria. No se debe olvidar que cuando los tamaños de las dos
poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en
otro caso el gráfico podría resultar engañoso.
Por otro lado, la comparación de variables continuas en dos o más grupos se realiza
habitualmente en términos de su valor medio, por medio del test t de Student, análisis de
la varianza o métodos no paramétricos equivalentes, y así se ha de reflejar en el tipo de
gráfico utilizado. En este caso resulta muy útil un diagrama de barras de error, como
en la Figura 8. En él se compara el índice de masa corporal en una muestra de hombres y
mujeres. Para cada grupo, se representa su valor medio, junto con su 95% intervalo de
confianza. Conviene recordar que el hecho de que dichos intervalos no se solapen, no
implica necesariamente que la diferencia entre ambos grupos pueda ser estadísticamente
significativa, pero sí nos puede servir para valorar la magnitud de la misma. Así mismo,
para visualizar este tipo de asociaciones, pueden utilizarse dos diagramas de cajas, uno
para cada grupo. Estos diagramas son especialmente útiles aquí: no sólo permiten ver si
existe o no diferencia entre los grupos, sino que además nos permiten comprobar la
normalidad y la variabilidad de cada una de las distribuciones. No olvidemos que las
hipótesis de normalidad y homocedasticidad son condiciones necesarias para aplicar
algunos de los procedimientos de análisis paramétricos.
Por último, señalar que también en esta situación pueden utilizarse los ya conocidos
gráficos de barras, representando aquí como altura de cada barra el valor medio de la
variable de interés. Los gráficos de líneas pueden resultar también especialmente
interesantes, sobre todo cuando interesa estudiar tendencias a lo largo del tiempo (Figura
9). No son más que una serie de puntos conectados entre sí mediante rectas, donde cada

punto puede representar distintas cosas según lo que nos interese en cada momento (el
valor medio de una variable, porcentaje de casos en una categoría, el valor máximo en
cada grupo, etc).
Relación entre dos variables numéricas.
Cuando lo que interesa es estudiar la relación entre dos variables continuas, el método de
análisis adecuado es el estudio de la correlación. Los coeficientes de correlación
(Pearson, Spearman, etc.) valoran hasta qué punto el valor de una de las variables
aumenta o disminuye cuando crece el valor de la otra. Cuando se dispone de todos los
datos, un modo sencillo de comprobar, gráficamente, si existe una correlación alta, es
mediante diagramas de dispersión, donde se confronta, en el eje horizontal, el valor de
una variable y en el eje vertical el valor de la otra. Un ejemplo sencillo de variables
altamente correlacionados es la relación entre el peso y la talla de un sujeto. Partiendo de
una muestra arbitraria, podemos construir el diagrama de dispersión de la Figura 10. En
él puede observarse claramente como existe una relación directa entre ambas variables, y
valorar hasta qué punto dicha relación puede modelizarse por la ecuación de una recta.
Este tipo de gráficos son, por lo tanto, especialmente útiles en la etapa de selección de
variables cuando se ajusta un modelo de regresión lineal.
Otros gráficos.
Los tipos de gráficos mostrados hasta aquí son los más sencillos que podemos manejar,
pero ofrecen grandes posibilidades para la representación de datos y pueden ser utilizados
en múltiples situaciones, incluso para representar los resultados obtenidos por métodos de
análisis más complicados. Podemos utilizar, por ejemplo, dos diagramas de líneas
superpuestos para visualizar los resultados de un análisis de la varianza con dos factores
(Figura 11). Un diagrama de dispersión es el método adecuado para valorar el resultado
de un modelo de regresión logística (Figura 12). Existen incluso algunos análisis
concretos que están basados completamente en la representación gráfica. En particular, la
elaboración de curvas ROC (Figura 13) y el cálculo del área bajo la curva constituyen el
método más apropiado para valorar la exactitud de una prueba diagnóstica.
Hemos visto, por lo tanto, como la importancia y utilidad que las representaciones
gráficas pueden alcanzar en el proceso de análisis de datos. La mayoría de los textos
estadísticos y epidemiológicos4 hacen hincapié en los distintos tipos de gráficos que se
pueden crear, como una herramienta imprescindible en la presentación de resultados y el
proceso de análisis estadístico. No obstante, es difícil precisar cuándo es más apropiado
utilizar un gráfico que una tabla. Más bien podremos considerarlos dos modos distintos
pero complementarios de visualizar los mismos datos. La creciente utilización de
distintos programas informáticos hace especialmente sencillo la obtención de las mismas.

La mayoría de los paquetes estadísticos (SPSS, STATGRAPHICS, S-PLUS, EGRET,...)

ofrecen grandes posibilidades en este sentido. Además de los gráficos vistos, es posible
elaborar otros gráficos, incluso tridimensionales, permitiendo grandes cambios en su
apariencia y facilidad de exportación a otros programas para presentar finalmente los
resultados del estudio.
Figura 1. Ejemplo de gráfico de sectores. Distribución de una muestra de pacientes

según el hábito de fumar.
Arriba
Figura 2. Ejemplo de gráfico de barras. Estadio TNM en el cáncer gástrico.

Arriba
Tabla I.
Distribución de
frecuencias
de la edad en 100
pacientes.
Nº de
Edad
pacientes
18 1
19 3
20 4
21 7
22 5
23 8
24 10
25 8
26 9
27 6
28 6
29 4
30 3
31 4
32 5
33 3
34 2
35 3

36 1
37 2
38 3
39 1
41 1
42 1
Arriba
Figura 3. Ejemplo de un histograma correspondiente a los datos de la Tabla I.
Arriba
Figura 4. Polígono de frecuencias para los datos de la Tabla I.

Arriba
Figura 5. Ejemplo de un diagrama de caja correspondiente a lo datos en la Tabla I.

Arriba
Figura 6. Gráfico P-P de normalidad para los datos de la Tabla I.

Arriba
Figura 7. Diagrama de barras agrupadas. Relación entre la presencia de alguna

enfermedad coronaria y los antecedentes cardiacos familiares en una muestra.

Arriba
Figura 8. Barras de error. Variación en el índice de masa corporal según el sexo.

Arriba
Figura 9. Gráfico de líneas. Número de pacientes trasplantados renales en el Complexo

Hospitalario "Juan Canalejo" durante el periodo 1981-1997.

Arriba
Figura 10. Diagrama de dispersión entre la talla y el peso de una muestra de individuos.

Arriba
Figura 11. Dos diagramas de líneas superpuestos. Variación en el peso medio de una
muestra de recién nacidos según el control ginecológico del embarazo y el hábito de
fumar de la madre.

Arriba
Figura 12. Diagrama de dispersión (regresión logística). Probabilidad de padecer

cirrosis hepática, según un modelo de regresión logística ajustando por el % de
protrombina y el presentar o no hepatomegalia.

Arriba
Figura 13. Curva ROC para el porcentaje de protrombina en la predicción de cirrosis.

Arriba
Bibliografía
1. Lang TA, Secic M. How to report statistics in medicine. Annotated Guidelines

for authors, Editors, and reviewers. Philadelphia: Port City Press; 1997.
2. Altman DG, Bland JM. Statistics Notes: Presentation of numerical data. BMJ
1996; 312: 572. [Medline] [texto completo]
3. Singer PA, Feinstein AR. Graphical display of categorical data. J Clin

Epidemiol 1993; 46(3): 231-6. [Medline]
4. Simpson RJ, Johnson TA, Amara IA. The box-plot: an exploratory analysis for
biomedical publications. Am Heart J 1988; 116 (6 Part 1): 1663-5. [Medline]
5. Williamson DF, Parker RA, Kendrick JS. The box plot: a simple visual method
to interpret data. Ann Intern Med 1989; 110 (11): 916-21. [Medline]
6.Altman DA. Practical statistics for medical research. 1th ed., repr. 1997.
London: Chapman & Hall; 1997.


Métodos paramétricos para la comparación de dos medias. t de Student
Pértega Díaz S. [ Correo de contacto ] , Pita Fernández S. [ Correo de contacto ]

(España)
En muchos estudios, incluidos la mayoría de los ensayos clínicos, es necesario comparar Contenido
ciertas características en dos o más grupos de sujetos. Tal sería el caso, por ejemplo, si t de Student
pensamos que un tratamiento nuevo puede tener un porcentaje de mejoría mayor que otro para dos
muestras
estándar, o cuando nos planteamos si los niños de las distintas comunidades autónomas tienen
independientes
o no la misma altura. En este artículo se analizará únicamente el problema de la comparación Dos muestras
de dos grupos con respecto a una variable continua. La elección de un método de análisis independientes
apropiado en este caso dependerá de la naturaleza de los datos y la forma en la que estos con Varianza
hayan sido obtenidos. Fundamentalmente, cuando se comparan dos o más grupos de distinta
observaciones pueden darse dos tipos de diseño: aquel en el que las observaciones se refieren Dos muestras
dependientes
a dos grupos independientes de individuos, o el caso en el que cada serie de datos se recoge
Bibliografía
en los mismos sujetos bajo condiciones diferentes. El tipo de metodología será distinto según
el caso en el que nos encontremos. Otro aspecto a tener en consideración será el tipo y
Documento
distribución de los datos. Para grupos independientes, los métodos paramétricos requieren
en PDF
que las observaciones en cada grupo provengan de una distribución aproximadamente normal (139 Kb)
con una variabilidad semejante, de modo que si los datos disponibles no verifican tales ¿Problemas
condiciones, puede resultar útil una transformación(1,2,3) de los mismos (aplicación del con PDF?
logaritmo, raíz cuadrada, etc.) o, en todo caso, se debería recurrir a la utilización de Tablas y Figuras
procedimientos no paramétricos(4). Fig. 1.
Comparación
de dos
Normalmente en este tipo de análisis podremos establecer una hipótesis de partida (hipótesis poblaciones
nula), que generalmente asume que el efecto de interés es nulo, por ejemplo que la tensión normales
arterial es la misma en hombres y mujeres o que dos tratamientos para la hipercolesterolemia Fig. 2.
son igualmente efectivos. Posteriormente se puede evaluar la probabilidad de haber obtenido Regiones de
aceptación y
los datos observados si esa hipótesis es correcta. El valor de esta probabilidad coincide con el
rechazo en el
valor-p que nos proporciona cada test estadístico, de modo que cuanto menor sea éste más contraste de
improbable resulta que la hipótesis inicial se verifique. hipótesis
Tabla 1. Datos
En un primer apartado, se presentará el test t de Student para dos muestras independientes, de 75
pacientes con
introduciendo las modificaciones necesarias en el caso de que la variabilidad de ambos
sobrepeso
grupos sea distinta. A continuación se introducirá el test t de Student para el caso de dos sometidos a
muestras dependientes. dos dietas
alimenticias
Tabla 2.
Distribución t
de Student
Dos muestras independientes.
Uno de los análisis estadísticos más comunes en la práctica es probablemente el utilizado para
comparar dos grupos independientes de observaciones con respecto a una variable numérica. Como
ejemplo, consideremos los datos que se muestran en la Tabla 1, correspondientes a 75 individuos
con sobrepeso sometidos a dos dietas alimenticias distintas, de modo que se desea comparar el
http://www.fisterra.com/mbe/investiga/t_student/t_student.htm (1 of 10)22/04/2006 1:24:06 PM

peso de los individuos que iniciaron cada una de las dietas.
Como ya se ha adelantado, la aplicación de un contraste paramétrico requiere la normalidad de las

observaciones para cada uno de los grupos. La comprobación de esta hipótesis puede realizarse
tanto por métodos gráficos (por medio de histogramas, diagramas de cajas o gráficos de
normalidad) como mediante tests estadísticos(5) (test de Kolmogorov-Smirnov, test de Shapiro-
Wilks). Un número suficiente de observaciones (digamos mayor de 30) como ocurre en el ejemplo
planteado justifica, no obstante, la utilización del mismo test. Así mismo, este tipo de metodología
exigirá que la varianza en ambos grupos de observaciones sea la misma. En primer lugar se
desarrollará el test t de Student para el caso en el que se verifiquen ambas condiciones, discutiendo
posteriormente el modo de abordar formalmente el caso en el que las varianzas no sean similares.
Bajo las hipótesis de normalidad e igual varianza la comparación de ambos grupos puede realizarse
en términos de un único parámetro como el valor medio (Figura 1a), de modo que en el ejemplo
planteado la hipótesis de partida será, por lo tanto:
H0: La media de peso inicial es igual en ambos grupos
Se denotará por {X1, X2,...,Xn} e {Y1,Y2,...,Ym} al peso observado en cada uno de los sujetos
sometidos a la dieta A y a la dieta B respectivamente. En general no se exigirá que coincida el
número de observaciones en cada uno de los grupos que se comparan, de modo que en el ejemplo
n=40 y m=35.
El t test para dos muestras independientes se basa en el estadístico:
(1)
donde e denotan el peso medio en cada uno de los grupos:
y , las cuasivarianzas muestrales correspondientes:
Con lo cual, en este caso particular, el valor utilizado para el contraste será:

Si la hipótesis de partida es cierta el estadístico (1) seguirá una distribución t de Student con n+m-2
grados de libertad. De ser así, el valor obtenido debería estar dentro del rango de mayor
probabilidad según esta distribución (Figura 2). Usualmente se toma como referencia el rango de
datos en el que se concentra el 95% de la probabilidad. El valor-p que usualmente reportan la
mayoría de paquetes estadísticos no es más que la probabilidad de obtener, según esa distribución,
un dato más extremo que el que proporciona el test. Como ya se dijo, refleja también la
probabilidad de obtener los datos observados si fuese cierta la hipótesis inicial. Si el valor-p es
muy pequeño (usualmente se considera p<0.05) es poco probable que se cumpla la hipótesis de
partida y se debería de rechazar. La región de aceptación corresponde por lo tanto a los valores
centrales de la distribución para los que p>0.05. En el ejemplo planteado el valor-p
correspondiente es de 0.425, de modo que no existe evidencia estadística de que el peso medio en
ambos grupos sea diferente. En la Tabla 2, se determina los grados de libertad (en la primera
columna) y el valor de α (en la primera fila). El número que determina su intersección es el valor
crítico correspondiente. De este modo, si el estadístico que se obtiene toma un valor mayor se dirá
que la diferencia es significativa.
Otro modo de obtener esta misma información es mediante el cálculo de intervalos de confianza
para la diferencia de la respuesta media en ambos grupos. A mayores, el intervalo de confianza
constituye una medida de la incertidumbre con la que se estima esa diferencia a partir de la
muestra, permitiendo valorar tanto la significación estadística como la magnitud clínica de esa
diferencia(6). En el caso que nos ocupa, el intervalo de confianza vendrá dado como:
donde denota el valor que según la distribución t de Student con n+m-2 grados de libertad
deja a su derecha el 2.5% de los datos. En el ejemplo, el intervalo de confianza con una seguridad
del 95% para la diferencia de peso viene dado por:
que expresa en definitiva un rango de valores entre los que se puede encontrar el valor real de la
diferencia entre los pesos de ambos grupos. Proporciona además la misma información que
obteníamos del contraste estadístico. El hecho de que el valor cero pertenezca al intervalo indica
que no se dispone de evidencia para concluir que el peso sea distinto en ambos grupos.
A medida que el tamaño muestral aumenta, la distribución del estadístico (1) se hace más próxima
a la de una variable Normal estándar. De este modo, en algunos textos se opta por utilizar esta
distribución para realizar la comparación de medias. Aunque esta aproximación es correcta para
muestras suficientemente grandes, ambos métodos proporcionan en este caso resultados
prácticamente idénticos, por lo que resulta más simple utilizar, independientemente del tamaño de
la muestra, la misma metodología a partir de la distribución t. El mismo planteamiento podría

utilizarse en el caso de varianzas distintas o de muestras apareadas.
Dos muestras independientes con varianza distinta.
El caso en el que se dispone de dos grupos de observaciones independientes con diferentes

varianzas, la distribución de los datos en cada grupo no puede compararse únicamente en términos
de su valor medio (Figura 1b). El contraste estadístico planteado en el apartado anterior requiere de
alguna modificación que tenga en cuenta la variabilidad de los datos en cada población.
Obviamente, el primer problema a resolver es el de encontrar un método estadístico que nos
permita decidir si la varianza en ambos grupos es o no la misma. El F test o test de la razón de
varianzas viene a resolver este problema. Bajo la suposición de que las dos poblaciones siguen una
distribución normal y tienen igual varianza se espera que la razón de varianzas:
siga una distribución F de Snedecor con parámetros (n-1) y (m-1).
Supongamos que en el ejemplo anterior se desee comparar la pérdida de peso en los sujetos
sometidos a cada una de las dos dietas. La aplicación del estadístico (1) no será factible, ya que las
varianzas en ambos grupos son sustancialmente distintas. En este caso la razón de varianzas es de
3.97 / 0.80 = 4.96, valor que se debe comparar con una distribución F39,34. El valor-p asociado será
p<0.01, siendo muy poco probable que las observaciones provengan de poblaciones con igual
variabilidad.
En este tipo de situaciones, donde no se debe aplicar el contraste basado en (1), podemos utilizar
una modificación del t test para el caso de varianzas desiguales, conocido como el test de Welch(7)
basada en el estadístico:
que, bajo la hipótesis nula seguirá una distribución t de Student con un número f de grados de
libertad que dependerá de las varianzas muestrales según la expresión:
La técnica para realizar el contraste es análoga a la vista anteriormente cuando las varianzas son

desconocidas e iguales. Por ejemplo, en el caso planteado, la pérdida media de peso para los
individuos en cada una de las dietas fue de e con las variabilidades
anteriormente expresadas. Esto conduce a un valor del estadístico de t=5.58 a relacionar con una
distribución t de Student con aproximadamente 56 grados de libertad. El valor-p resultante es, por
lo tanto, p<0.001 con lo cual podemos rechazar la hipótesis de partida y concluir que la reducción
de peso experimentada es distinta según la dieta que se siga.
Al igual que en el caso anterior, podrá optarse por calcular el correspondiente 95% intervalo de
confianza para la diferencia de medias dado por:
Dos muestras dependientes.
Ya se ha comentado que cuando se trata de comparar dos grupos de observaciones, es importante

distinguir el caso en el que son independientes de aquel en el que los datos están apareados. Las
series dependientes surgen normalmente cuando se evalúa un mismo dato más de una vez en cada
sujeto de la muestra. También se puede encontrar este tipo de observaciones en estudios de casos y
controles donde cada caso se aparea individualmente con un control.
Supongamos que queremos comprobar, en los datos de la Tabla 1 si realmente se produce una
pérdida de peso significativa en esos individuos, para lo que se recoge en cada sujeto su peso antes
y después de someterse a la dieta. En este tipo de análisis el interés no se centra en la variabilidad
que puede haber entre los individuos, sino en las diferencias que se observan en un mismo sujeto
entre un momento y otro. Por este motivo, resulta intuitivo trabajar con la diferencia de ambas
observaciones (en el ejemplo será la pérdida de peso), de modo que se quiere contrastar la
hipótesis:
H0: La pérdida de peso es nula
frente a la alternativa de que la pérdida de peso sea importante (es decir, distinta de cero).
La veracidad de dicha hipótesis puede ser contrastada igualmente mediante el test t de Student.
Como se ha dicho, este tipo de métodos tienen como hipótesis fundamental la normalidad de los
datos. En este caso, sin embargo, no será necesario que las observaciones en ambos grupos
provengan de poblaciones normales, sino que únicamente se requiere verificar la normalidad de su
diferencia. Denotando por la pérdida media de peso la hipótesis de la que se parte es que:
frente a la alternativa

A partir de las observaciones muestrales {Y1,Y2,...,Yn} e {Y1,Y2,...,Yn} en cada uno de los grupos se
calcula la diferencia de peso para cada sujeto {d1,d2,...,dn} con dj=Xj-Yj j=1,2,...,n. Nótese que
en este caso un requisito fundamental es que se tenga un número igual de observaciones en ambos
grupos. A partir de estos datos, el contraste se basa en el estadístico:
o en el cálculo del 95% intervalo de confianza:
donde denota la media de la pérdida de peso estimada a partir de la muestra:
y denota la cuasivarianza muestral de la diferencia dada por:
En nuestro ejemplo el valor del estadístico vendría dado por:
a comparar del modo habitual con la distribución t de Student con n-1=74 grados de libertad. El
intervalo de confianza para la pérdida media de peso correspondiente a una seguridad del 95% es
de (3.56;4.41), lo cual se traduce en una pérdida de peso significativamente distinta de cero, tal y
como indica el valor-p correspondiente de p<0.001.
Figura 1. Comparación de dos poblaciones normales

a) Poblaciones normales con igual varianza y medias distintas

b) Poblaciones normales con igual y diferentes varianzas.
Figura 2. Regiones de aceptación y rechazo en el contraste de hipótesis

Tabla 1. Datos de 75 pacientes con sobrepeso sometidos a dos dietas alimenticias.

Dieta Peso inicial Peso final Dieta Peso inicial Peso final
A 94,07 86,59 B 88,02 84,12
A 96,79 93,08 B 88,22 86,13
A 92,15 87,85 B 103,45 101,21
A 92,30 86,83 B 82,94 79,08
A 96,50 92,70 B 89,71 86,19
A 83,11 76,80 B 94,83 91,93
A 91,16 83,40 B 81,93 78,97
A 90,81 86,74 B 83,41 78,89
A 81,37 77,67 B 73,59 69,76
A 89,81 85,70 B 108,47 104,20
A 84,92 79,96 B 72,67 70,01
A 84,43 79,80 B 96,84 93,66
A 86,33 81,15 B 88,48 87,00
A 87,60 81,92 B 89,57 87,24
A 81,08 76,32 B 85,22 82,09
A 92,07 90,20 B 103,76 102,24
A 81,14 73,34 B 87,84 84,66
A 96,87 93,58 B 91,50 88,95
A 99,59 92,36 B 93,04 88,73
A 83,90 77,23 B 92,14 88,07
A 89,41 85,45 B 85,26 81,36
A 85,31 84,59 B 89,42 86,64
A 89,25 84,89 B 92,42 88,99
A 93,20 93,10 B 93,13 89,73
A 89,17 86,87 B 80,86 77,81
A 93,51 86,36 B 88,75 85,93
A 88,85 83,24 B 95,02 91,90
A 88,40 81,20 B 92,29 91,28
A 82,45 77,18 B 89,43 87,22
A 96,47 88,61 B 93,32 89,77
A 99,48 94,67 B 92,88 89,38
A 99,95 93,87 B 89,88 88,00
A 100,05 94,15 B 82,25 80,81
A 87,33 82,17 B 88,99 86,87
A 87,61 86,01 B 82,07 79,74
A 89,28 83,78
A 89,72 83,56
A 95,57 89,58
A 97,71 91,35
A 98,73 97,82
Tabla 2. Distribución t de Student


Bibliografía
1. Bland JM, Altman DG. Statistics Notes: Transforming data. BMJ 1996; 312: 770. [Medline] [texto
completo]
2. Altman DG, Bland JM. Detecting skewness from summary information, BMJ 1996; 313:1200. [Medline]
3. Bland JM, Altman DG. Statistics Notes: The use of transformations when comparing two means. BMJ
1996; 312:1153. [Medline] [texto completo]
4. Moreno V, Vallescar R, Martín M. Las pruebas no paramétricas en el análisis estadístico de datos. Aten
Primaria 1991; 8 (1): 58-60. [Medline]
5. Altman D. G. Preparing to analyse data. En: Practical statistics for medical research. London: Chapman
and Hall; 1991. p.132-145.
6. Braitman LE. Confidence intervals asses both clinical significance and statistical significance [editorial].
Ann Intern Med 1991; 114 (6): 515-517. [Medline]
7. Berry G., Armitage P. Statistical Methods in Medical Research. 3 rd. ed. Oxford: Blackwell Science;
1994.

Relación entre variables cuantitativas
Pita Fernández, S. [ Correo de contacto ] , Pértega Díaz, S. [ Correo de contacto ]

(España)
Cad Aten Primaria 1997; 4: 141-144. [Actualizado: 30/03/2001]
En el análisis de los estudios clínico-epidemiológicos surge muy frecuentemente la necesidad Contenido

de determinar la relación entre dos variables cuantitativas en un grupo de sujetos. Los Correlación
objetivos de dicho análisis suelen ser: Test de
hipótesis de r
Intervalo de
a. Determinar si las dos variables están correlacionadas, es decir si los valores de una confianza del
variable tienden a ser más altos o más bajos para valores más altos o más bajos de la coeficiente de
otra variable. correlación
b. Poder predecir el valor de una variable dado un valor determinado de la otra variable. Presentación
c. Valorar el nivel de concordancia entre los valores de las dos variables. de la
correlación
Interpretación
Correlación de la
correlación
En este artículo trataremos de valorar la asociación entre dos variables cuantitativas Coeficiente de
estudiando el método conocido como correlación. Dicho cálculo es el primer paso para correlación de
los rangos de
determinar la relación entre las variables. La predicción de una variable. La predicción de una
Spearman
variable dado un valor determinado de la otra precisa de la regresión lineal que abordaremos
Bibliografía
en otro artículo.
Documento
La cuantificación de la fuerza de la relación lineal entre dos variables cuantitativas, se estudia en PDF (75
por medio del cálculo del coeficiente de correlación de Pearson (1-3). Dicho coeficiente Kb)
oscila entre –1 y +1. Un valor de –1 indica una relación lineal o línea recta positiva perfecta. ¿Problemas
Una correlación próxima a cero indica que no hay relación lineal entre las dos variables. con PDF?
Tablas y Figuras
Tabla 1.
El realizar la representación gráfica de los datos para demostrar la relación entre el valor del Cálculo del
coeficiente de correlación y la forma de la gráfica es fundamental ya que existen relaciones Coeficiente de
no lineales. correlación de
Pearson entre
las variables
El coeficiente de correlación posee las siguientes características (4): talla y peso de
20 niños
a. El valor del coeficiente de correlación es independiente de cualquier unidad usada varones
para medir las variables. Tabla 2.
b. El valor del coeficiente de correlación se altera de forma importante ante la presencia Distribución t
de Student
de un valor extremo, como sucede con la desviación típica. Ante estas situaciones
conviene realizar una transformación de datos que cambia la escala de medición y modera
el efecto de valores extremos (como la transformación logarítmica).
c. El coeficiente de correlación mide solo la relación con una línea recta. Dos variables
pueden tener una relación curvilínea fuerte, a pesar de que su correlación sea pequeña. Por
tanto cuando analicemos las relaciones entre dos variables debemos representarlas
gráficamente y posteriormente calcular el coeficiente de correlación.
d. El coeficiente de correlación no se debe extrapolar más allá del rango de valores observado
http://www.fisterra.com/mbe/investiga/var_cuantitativas/var_cuantitativas.htm (1 of 9)22/04/2006 1:24:35 PM

de las variables a estudio ya que la relación existente entre X e Y puede cambiar fuera de
dicho rango.
e. La correlación no implica causalidad. La causalidad es un juicio de valor que requiere más
información que un simple valor cuantitativo de un coeficiente de correlación (5).
El coeficiente de correlación de Pearson (r) puede calcularse en cualquier grupo de datos, sin
embargo la validez del test de hipótesis sobre la correlación entre las variables requiere en sentido
estricto (4): a) que las dos variables procedan de una muestra aleatoria de individuos. b) que al
menos una de las variables tenga una distribución normal en la población de la cual la muestra
procede. Para el cálculo válido de un intervalo de confianza del coeficiente de correlación de r
ambas variables deben tener una distribución normal. Si los datos no tienen una distribución
normal, una o ambas variables se pueden transformar (transformación logarítmica) o si no se
calcularía un coeficiente de correlación no paramétrico (coeficiente de correlación de Spearman)
que tiene el mismo significado que el coeficiente de correlación de Pearson y se calcula utilizando
el rango de las observaciones.
El cálculo del coeficiente de correlación (r) entre peso y talla de 20 niños varones se muestra en la
tabla 1. La covarianza, que en este ejemplo es el producto de peso (kg) por talla (cm), para que no
tenga dimensión y sea un coeficiente, se divide por la desviación típica de X (talla) y por la
desviación típica de Y (peso) con lo que obtenemos el coeficiente de correlación de Pearson que en
este caso es de 0.885 e indica una importante correlación entre las dos variables. Es evidente que el
hecho de que la correlación sea fuerte no implica causalidad. Si elevamos al cuadrado el
coeficiente de correlación obtendremos el coeficiente de determinación (r2=0.783) que nos indica
que el 78.3% de la variabilidad en el peso se explica por la talla del niño. Por lo tanto existen otras
variables que modifican y explican la variabilidad del peso de estos niños. La introducción de más
variable con técnicas de análisis multivariado nos permitirá identificar la importancia de que otras
variables pueden tener sobre el peso.
Tabla 1. Cálculo del Coeficiente de correlación de Pearson entre las

variables talla y peso de 20 niños varones
Y X
Peso (Kg) Talla (cm)
9 72 5.65 1.4 7.91
10 76 9.65 2.4 23.16
6 59 -7.35 -1.6 11.76
8 68 1.65 0.4 0.66
10 60 -6.35 2.4 -15.24
5 58 -8.35 -2.6 21.71
8 70 3.65 0.4 1.46
7 65 -1.35 -0.6 0.81
4 54 -12.35 -3.6 44.46
11 83 16.65 3.4 56.61
7 64 -2.35 -0.6 1.41
7 66 -0.35 -0.6 0.21
6 61 -5.35 -1.6 8.56
8 66 -0.35 0.4 -0.14
5 57 -9.35 -2.6 24.31
11 81 14.65 3.4 49.81
5 59 -7.35 -2.6 19.11
9 71 4.65 1.4 6.51
6 62 -4.35 -1.6 6.96
10 75 8.65 2.4 20.76

Sx = Desviación típica x = 8.087
Sy = Desviación típica y = 2.137
Test de hipótesis de r
Tras realizar el cálculo del coeficiente de correlación de Pearson (r) debemos determinar si dicho
coeficiente es estadísticamente diferente de cero. Para dicho calculo se aplica un test basado en la
distribución de la t de student.
Si el valor del r calculado (en el ejemplo previo r = 0.885) supera al valor del error estándar
multiplicado por la t de Student con n-2 grados de libertad, diremos que el coeficiente de
correlación es significativo.
El nivel de significación viene dado por la decisión que adoptemos al buscar el valor en la tabla de
la t de Student.
En el ejemplo previo con 20 niños, los grados de libertad son 18 y el valor de la tabla de la t de
student para una seguridad del 95% es de 2.10 y para un 99% de seguridad el valor es 2.88. (Tabla
2)
Como quiera que r = 0.885 > a 2.10 * 0.109 = 2.30 podemos asegurar que el coeficiente de
correlación es significativo (p<0.05). Si aplicamos el valor obtenido en la tabla de la t de Student
para una seguridad del 99% (t = 2.88) observamos que como r = 0.885 sigue siendo > 2.88 * 0.109
= 0.313 podemos a su vez asegurar que el coeficiente es significativo (p<0.001). Este proceso de
razonamiento es válido tanto para muestras pequeñas como para muestras grandes. En esta última
situación podemos comprobar en la tabla de la t de student que para una seguridad del 95% el valor

es 1.96 y para una seguridad del 99% el valor es 2.58.
Intervalo de confianza del coeficiente de correlación.
La distribución del coeficiente de correlación de Pearson no es normal pero no se puede

transformar r para conseguir un valor z que sigue una distribución normal (transformación de
Fisher) y calcular a partir del valor z el intervalo de confianza.
La transformación es:
Ln representa el logaritmo neperiano en la base e
donde n representa el tamaño muestral. El 95% intervalo de confianza de z se calcula de la

siguiente forma:
Tras calcular los intervalos de confianza con el valor z debemos volver a realizar el proceso
inverso para calcular los intervalos del coeficiente r
Utilizando el ejemplo de la Tabla 1, obtenemos r = 0.885
95% intervalo de confianza de z
Tras calcular los intervalos de confianza de z debemos proceder a hacer el cálculo inverso para
obtener los intervalos de confianza de coeficiente de correlación r que era lo que buscábamos en un

principio antes de la transformación logarítmica.
0.726 a 0.953 son los intervalos de confianza (95%) de r.
Presentación de la correlación
Se debe mostrar siempre que sea posible la gráfica que correlaciona las dos variables de estudio
(Fig 1). El valor de r se debe mostrar con dos decimales junto con el valor de la p si el test de
hipótesis se realizó para demostrar que r es estadísticamente diferente de cero. El número de
observaciones debe a su vez estar indicado.
Figura 1. Correlación entre Peso y Talla
Interpretación de la correlación
El coeficiente de correlación como previamente se indicó oscila entre –1 y +1 encontrándose en

medio el valor 0 que indica que no existe asociación lineal entre las dos variables a estudio. Un
coeficiente de valor reducido no indica necesariamente que no exista correlación ya que las
variables pueden presentar una relación no lineal como puede ser el peso del recién nacido y el
tiempo de gestación. En este caso el r infraestima la asociación al medirse linealmente. Los

métodos no paramétrico estarían mejor utilizados en este caso para mostrar si las variables tienden
a elevarse conjuntamente o a moverse en direcciones diferentes.
La significancia estadística de un coeficiente debe tenerse en cuenta conjuntamente con la

relevancia clínica del fenómeno que estudiamos ya que coeficientes de 0.5 a 0.7 tienden ya a ser
significativos como muestras pequeñas (6). Es por ello muy útil calcular el intervalo de confianza
del r ya que en muestras pequeñas tenderá a ser amplio.
La estimación del coeficiente de determinación (r2) nos muestra el porcentaje de la variabilidad de

los datos que se explica por la asociación entre las dos variables.
Como previamente se indicó la correlación elevada y estadísticamente significativa no tiene que

asociarse a causalidad. Cuando objetivamos que dos variables están correlacionadas diversas
razones pueden ser la causa de dicha correlación: a) pude que X influencie o cause Y, b) puede que
influencie o cause X, c) X e Y pueden estar influenciadas por terceras variables que hace que se
modifiquen ambas a la vez.
El coeficiente de correlación no debe utilizarse para comparar dos métodos que intentan medir el
mismo evento, como por ejemplo dos instrumentos que miden la tensión arterial. El coeficiente de
correlación mide el grado de asociación entre dos cantidades pero no mira el nivel de acuerdo o
concordancia. Si los instrumentos de medida miden sistemáticamente cantidades diferentes uno del
otro, la correlación puede ser 1 y su concordancia ser nula (7).
Coeficiente de correlación de los rangos de Spearman
Este coeficiente es una medida de asociación lineal que utiliza los rangos, números de orden, de
cada grupo de sujetos y compara dichos rangos. Existen dos métodos para calcular el coeficiente
de correlación de los rangos uno señalado por Spearman y otro por Kendall (8). El r de Spearman
llamado también rho de Spearman es más fácil de calcular que el de Kendall. El coeficiente de
correlación de Spearman es exactamente el mismo que el coeficiente de correlación de Pearson
calculado sobre el rango de observaciones. En definitiva la correlación estimada entre X e Y se
halla calculado el coeficiente de correlación de Pearson para el conjunto de rangos apareados. El
coeficiente de correlación de Spearman es recomendable utilizarlo cuando los datos presentan
valores externos ya que dichos valores afectan mucho el coeficiente de correlación de Pearson, o
ante distribuciones no normales.
El cálculo del coeficiente viene dado por:
en donde di = rxi – ryi es la diferencia entre los rangos de X e Y.
Los valores de los rangos se colocan según el orden numérico de los datos de la variable.
Ejemplo: Se realiza un estudio para determinar la asociación entre la concentración de nicotina en

sangre de un individuo y el contenido en nicotina de un cigarrillo (los valores de los rangos están
entre paréntesis) (2).

X Y
Concentración de Nicotina en sangre Contenido de Nicotina por cigarrillo
(nmol/litro) (mg)
185.7 (2) 1.51 (8)
197.3 (5) 0.96 (3)
204.2 (8) 1.21 (6)
199.9 (7) 1.66 (10)
199.1 (6) 1.11 (4)
192.8 (6) 0.84 (2)
207.4 (9) 1.14 (5)
183.0 (1) 1.28 (7)
234.1 (10) 1.53 (9)
196.5 (4) 0.76 (1)
Si existiesen valores coincidentes se pondría el promedio de los rangos que hubiesen sido asignado
si no hubiese coincidencias. Por ejemplo si en una de las variables X tenemos:
X (edad) (Los rangos serían)

23 1.5
23 1.5
27 3.5
27 3.5
39 5
41 6
45 7
... ...
Para el cálculo del ejemplo anterior de nicotina (2) obtendríamos el siguiente resultado:
Si utilizamos la fórmula para calcular el coeficiente de correlación de Pearson de los rangos

obtendríamos el mismo resultado

La interpretación del coeficiente rs de Spearman es similar a la Pearson. Valores próximos a 1

indican una correlación fuerte y positiva. Valores próximos a –1 indican una correlación fuerte y
negativa. Valores próximos a cero indican que no hay correlación lineal. Así mismo el tiene el
mismo significado que el coeficiente de determinación de r2.
La distribución de rs es similar a la r por tanto el calculo de los intervalos de confianza de rs se

pueden realizar utilizando la misma metodología previamente explicada para el coeficiente de
correlación de Pearson.
Tabla 2. Distribución t de Student

Bibliografía
1- Dawson-Saunders B, Trapp RG. Bioestadística Médica . 2ª ed. México: Editorial el

Manual Moderno; 1996.
2- Milton JS, Tsokos JO. Estadística para biología y ciencias de la salud. Madrid:
3- Martín Andrés A, Luna del Castillo JD. Bioestadística para las ciencias de la salud. 4ª ed.
Madrid: ORMA; 1993.
4- Altman DA. Practical statistics for medical research. 1th ed., repr. 1997. London:
Chapman & Hall; 1997.
5- Pita Fernández S. Correlación frente a causalidad JANO 1996; (1174): 59-60.
6- Feintein AR. Tempest in a P-pot?. (Editorial). Hypertension 1985; 7: 313-318. [Medline]
7- Bland JM, Altman DG. Statistical methods for assesing agreement between two methods
of clinical measurement. Lancet 1986; 1: 307-310. [Medline]
8- Conover WJ. Practical nonparametric statistics. 3rd . ed. New York: John Wiley & Sons;
1998.

Asociación de variables cualitativas: test de Chi-cuadrado

la Investigación
Metodología de la
Investigación
Autores:
(1) (2)
Salvador Pita Fernández , Sonia Pértega Díaz
(A Coruña).
Índice Imprimir documento [206

Introducción Kb] ¿Problemas con PDF?
La prueba de ji-cuadrado en el contraste de -----------------------

Más en Fisterra
independencia de variables aleatorias cualitativas Cálculo del Test de chi-
Bibliografía cuadrado para tablas de
contingencia de 2x2
(Excel)
En la investigación biomédica nos encontramos con frecuencia con datos o

variables de tipo cualitativo, mediante las cuales un grupo de individuos se
clasifican en dos o más categorías mutuamente excluyentes. Las proporciones
son una forma habitual de expresar frecuencias cuando la variable objeto de
estudio tiene dos posibles respuestas, como presentar o no un evento de
interés (enfermedad, muerte, curación, etc.). Cuando lo que se pretende es
comparar dos o más grupos de sujetos con respecto a una variable categórica,
los resultados se suelen presentar a modo de tablas de doble entrada que
reciben el nombre de tablas de contingencia. Así, la situación más simple de
comparación entre dos variables cualitativas es aquella en la que ambas tienen
sólo dos posibles opciones de respuesta (es decir, variables dicotómicas). En
esta situación la tabla de contingencia se reduce a una tabla dos por dos como
1,2
la que se muestra en la Tabla 1 .
Tabla 1. Tabla de contingencia general para la comparación

de dos variables dicotómicas.
http://www.fisterra.com/mbe/investiga/chi/chi.asp (1 of 9)22/04/2006 1:24:55 PM

Característica A
Característica
B
Presente Ausente Total
Presenta a b a+b
Ausente c d c+d
Total a+c b+d n
Supongamos que se quiere estudiar la posible asociación entre el hecho de que

una gestante fume durante el embarazo y que el niño presente bajo peso al
nacer. Por lo tanto, se trata de ver si la probabilidad de tener bajo peso es
diferente en gestantes que fumen o en gestantes que no fumen durante la
gestación. Para responder a esta pregunta se realiza un estudio de seguimiento
sobre una cohorte de 2000 gestantes, a las que se interroga sobre su hábito
tabáquico durante la gestación y se determina además el peso del recién
nacido. Los resultados de este estudio se muestran en la Tabla 2.
Tabla 2. Tabla de contingencia para estudiar la asociación

entre fumar durante la gestación y el bajo peso del niño al
nacer. Estudio de seguimiento de 2000 gestantes.
Recién nacido de bajo peso
Gestante Sí No Total
Fumadora 43 (a) 207 (b) 250
No
105 (c) 1645 (d) 1750
fumadora
Total 148 1852 2000
En la Tabla 1, a, b, c y d son las frecuencias observadas del suceso en la

realidad de nuestro ejemplo de estudio (43, 207, 105 y 1647), siendo n (2000)
el número total de casos estudiados, y a+b, c+d, a+c y b+d los totales
marginales. En el ejemplo, a+b=250 sería el número total de mujeres
fumadoras durante el embarazo, c+d=1750 el número total de mujeres no
fumadoras, a+c=148 el número de niños con bajo peso al nacer y b+d=1852
el número de niños con peso normal al nacimiento.
Ante una tabla de contingencia como la anterior pueden planteársenos

distintas cuestiones. En primer lugar, se querrá determinar si existe una
relación estadísticamente significativa entre las variables estudiadas. En
segundo lugar, nos interesará cuantificar dicha relación y estudiar su
relevancia clínica. Esta última cuestión podrá resolverse mediante las
denominadas medidas de asociación o de efecto (riesgo relativo (RR), odds
ratio (OR), reducción absoluta del riesgo (RAR)), que ya han sido abordadas en
3,4
otros trabajos . Por otro lado, para responder a la primera pregunta, la
metodología de análisis de las tablas de contingencia dependerá de varios

aspectos como son: el número de categorías de las variables a comparar, del

hecho de que las categorías estén ordenadas o no, del número de grupos
independientes de sujetos que se estén considerando o de la pregunta a la que
5
se desea responder .
Existen diferentes procedimientos estadísticos para el análisis de las tablas de

contingencia como la prueba , la prueba exacta de fisher, la prueba de
McNemar o la prueba Q de Cochran, entre otras. En este artículo se expondrá
el cálculo e interpretación de la prueba como método estándar de análisis
1,2,5,6
en el caso de grupos independientes .
La prueba en el contraste de independencia de variables aleatorias

cualitativas.
La prueba permite determinar si dos variables cualitativas están o no

asociadas. Si al final del estudio concluimos que las variables no están
relacionadas podremos decir con un determinado nivel de confianza,
previamente fijado, que ambas son independientes.
Para su cómputo es necesario calcular las frecuencias esperadas (aquellas que

deberían haberse observado si la hipótesis de independencia fuese cierta), y
compararlas con las frecuencias observadas en la realidad. De modo general,
para una tabla r x k (r filas y k columnas), se calcula el valor del estadístico
como sigue:
(1)
donde:
denota a las frecuencias observadas. Es el número de casos

observados clasificados en la fila i de la columna j.
●
denota a las frecuencias esperadas o teóricas. Es el número de casos

esperados correspondientes a cada fila y columna. Se puede definir como
●
aquella frecuencia que se observaría si ambas variables fuesen

independientes.
Así, el estadístico mide la diferencia entre el valor que debiera resultar si

las dos variables fuesen independientes y el que se ha observado en la

realidad. Cuanto mayor sea esa diferencia (y, por lo tanto, el valor del
estadístico), mayor será la relación entre ambas variables. El hecho de que las
diferencias entre los valores observados y esperados estén elevadas al
cuadrado en (1) convierte cualquier diferencia en positiva. El test es así un
test no dirigido (test de planteamiento bilateral), que nos indica si existe o no
relación entre dos factores pero no en qué sentido se produce tal asociación.
Para obtener los valores esperados , estos se calculan a través del producto
de los totales marginales dividido por el número total de casos (n). Para el
caso más sencillo de una tabla 2x2 como la Tabla 1, se tiene que:
Para los datos del ejemplo en la Tabla 2 los valores esperados se calcularían
como sigue:
De modo que los valores observados y esperados para los datos del ejemplo
planteado se muestran en la Tabla 3.
Tabla 3. Tabla de contingencia para estudiar la asociación

entre fumar durante la gestación y el bajo peso del niño al
nacer. Valores observados y valores esperados (entre
paréntesis) si los factores fuesen independientes.
Recién nacido de bajo peso
Gestante Sí No Total
Fumadora 43 (18.5) 207 (231.5) 250
No 1645
105 (129.5) 1750
fumadora (1620.5)
Total 148 1852 2000
El valor del estadístico , para este ejemplo en concreto, vendría dado

entonces como:
A la vista de este resultado, lo que tenemos que hacer ahora es plantear un

contraste de hipótesis entre la hipótesis nula:
H0: No hay asociación entre las variables (en el ejemplo, el bajo peso del niño
y el hecho de fumar durante la gestación son independientes, no están
asociados).
Y la hipótesis alternativa:
Ha: Sí hay asociación entre las variables, es decir, el bajo peso y el fumar
durante la gestación están asociados.
Bajo la hipótesis nula de independencia, se sabe que los valores del estadístico
se distribuyen según una distribución conocida denominada ji-cuadrado,
que depende de un parámetro llamado “grados de libertad” (g.l.). Para el caso
de una tabla de contingencia de r filas y k columnas, los g.l. son igual al
producto del número de filas menos 1 (r-1) por el número de columnas menos
1 (k-1). Así, para el caso en el que se estudie la relación entre dos variables
dicotómicas (Tabla 2x2) los g.l. son 1.
De ser cierta la hipótesis nula, el valor obtenido debería estar dentro del rango
de mayor probabilidad según la distribución ji-cuadrado correspondiente. El
valor-p que usualmente reportan la mayoría de paquetes estadísticos no es
más que la probabilidad de obtener, según esa distribución, un dato más
extremo que el que proporciona el test o, equivalentemente, la probabilidad de
obtener los datos observados si fuese cierta la hipótesis de independencia. Si
el valor-p es muy pequeño (usualmente se considera p<0.05) es poco probable
que se cumpla la hipótesis nula y se debería de rechazar.
En la Tabla 4, se determinan los grados de libertad (en la primera columna) y

el valor de α (en la primera fila). El número que determina su intersección es el
valor crítico correspondiente. De este modo, si el estadístico que se obtiene
toma un valor mayor se dirá que la diferencia es significativa. Así, para una
seguridad del 95% (α =0.05) el valor teórico de una distribución ji-cuadrado
con una grado de libertad es 3,84. Para α =0.01 es de 6,63 y para α =0.005
es de 7,88. Como quiera que en el cálculo del χ 2 en el ejemplo obtuvimos un
valor de 40,04, que supera al valor para α =0.005, podremos concluir que las
dos variables no son independientes, sino que están asociadas (p<0.005). Por

lo tanto, a la vista de los resultados, rechazamos la hipótesis nula (H0) y

aceptamos la hipótesis alternativa (Ha) como probablemente cierta.
Para el caso de una Tabla 2x2, la expresión (1) del estadístico puede
simplificarse y obtenerse como:
Cuando el tamaño muestral es reducido la utilización de la distribución ji-

cuadrado para aproximar las frecuencias puede introducir algún sesgo en los
cálculos, de modo que el valor del estadístico tiende a ser mayor. En
ocasiones se utiliza una corrección para eliminar este sesgo que, para el caso
de tablas 2x2 se conoce como la corrección de Yates:
En el ejemplo previo el cálculo del estadístico con la corrección de Yates

nos daría un valor de =38,43 (p<0.0.1) en lugar de =40,04. No existe
consenso en la literatura sobre la utilización o no de esta corrección
conservadora de Yates, que con muestras reducidas dificulta rechazar la
hipótesis nula, si bien el efecto es prácticamente imperceptible cuando se
trabaja con muestras de mayor tamaño.
No obstante, conviene mencionar que la utilización de la corrección de Yates no

exime de ciertos requerimientos acerca del tamaño muestral necesario para la
utilización del estadístico . Como norma general, se exigirá que el 80% de
las celdas en una tabla de contingencia deban tener valores esperados
mayores de 5. Así, en una tabla 2x2 será necesario que todas las celdas
verifiquen esta condición, si bien en la práctica suele permitirse que una de
ellas muestre frecuencias esperadas ligeramente por debajo de este valor. En
aquellos casos en los que no se verifique este requisito existe un test,
propuesto por R.A. Fisher, que puede utilizarse como alternativa al test y
que se conoce como test exacto de Fisher. El procedimiento consiste en
evaluar la probabilidad asociada a todas las tablas 2x2 que se pueden formar
con los mismos totales marginales que los datos observados, bajo el supuesto
de independencia. Los cálculos, aunque elementales, resultan algo engorrosos,
por lo que no se incluirán en este trabajo, siendo múltiples las referencias que

se pueden consultar a este respecto5,6.
Para finalizar, recalcar que existen otros métodos estadísticos que nos
permiten analizar la relación entre variables cualitativas, y que vienen a
complementar la información obtenida por el estadístico . Por una parte, el
análisis de los residuos estandarizados permitirá constatar la dirección en que
se da la relación entre las variables estudiadas. A su vez, existen también otras
medidas de asociación, muchas de las cuales resultan especialmente útiles
cuando alguna de las variables se mide en una escala nominal u ordinal, que
7
permiten cuantificar el grado de relación que existe entre ambos factores .
Bibliografía
1. Fleiss J L. Statistical Methods for rates and proportions. 3 rd. ed. New
York: John Wiley & Sons; 2003.
2. Selvin S. Statistical Analysis of epidemiologic data. 3 rd. ed. New York:
Oxfrod University Press; 2004.
3. Pita Fernández S, Vila Alonso MT, Carpente Montero J. Determinación de
factores de riesgo. Cad Aten Primaria 1997; 4: 75-78. [Texto completo]
4. Pita Fernández S, López de Ullibarri Galparsoro I. Número necesario de
pacientes a tratar para reducir un evento. Cad Aten Primaria 1998; 96-
5. Altman DG. Practical statistics for medical research. London: Chapman
& Hall; 1991.
6. Armitage P, Berry G. Estadística para la investigación biomédica.
Barcelona: Harcourt Brace; 1999.
7. Juez Martel P. Herramientas estadísticas para la investigación en
Medicina y Economía de la Salud. Madrid: Centro de Estudios Ramón
Areces; 2001.
Tabla 4. Distribución de ji-cuadrado
Probabilidad de un valor superior

Grados de libertad 0,1 0,05 0,025 0,01 0,005
1 2,71 3,84 5,02 6,63 7,88
2 4,61 5,99 7,38 9,21 10,60

3 6,25 7,81 9,35 11,34 12,84

4 7,78 9,49 11,14 13,28 14,86
5 9,24 11,07 12,83 15,09 16,75
6 10,64 12,59 14,45 16,81 18,55
7 12,02 14,07 16,01 18,48 20,28
8 13,36 15,51 17,53 20,09 21,95
9 14,68 16,92 19,02 21,67 23,59
10 15,99 18,31 20,48 23,21 25,19
11 17,28 19,68 21,92 24,73 26,76
12 18,55 21,03 23,34 26,22 28,30
13 19,81 22,36 24,74 27,69 29,82
14 21,06 23,68 26,12 29,14 31,32
15 22,31 25,00 27,49 30,58 32,80
16 23,54 26,30 28,85 32,00 34,27
17 24,77 27,59 30,19 33,41 35,72
18 25,99 28,87 31,53 34,81 37,16
19 27,20 30,14 32,85 36,19 38,58
20 28,41 31,41 34,17 37,57 40,00
21 29,62 32,67 35,48 38,93 41,40
22 30,81 33,92 36,78 40,29 42,80
23 32,01 35,17 38,08 41,64 44,18
24 33,20 36,42 39,36 42,98 45,56
25 34,38 37,65 40,65 44,31 46,93
26 35,56 38,89 41,92 45,64 48,29
27 36,74 40,11 43,19 46,96 49,65
28 37,92 41,34 44,46 48,28 50,99
29 39,09 42,56 45,72 49,59 52,34
30 40,26 43,77 46,98 50,89 53,67
40 51,81 55,76 59,34 63,69 66,77
50 63,17 67,50 71,42 76,15 79,49
60 74,40 79,08 83,30 88,38 91,95
70 85,53 90,53 95,02 100,43 104,21
80 96,58 101,88 106,63 112,33 116,32
90 107,57 113,15 118,14 124,12 128,30
100 118,50 124,34 129,56 135,81 140,17

Arriba

de privacidad

Asociación de variables cualitativas: el test exacto de Fisher y el test de Mcnemar

Formación - MBE - Metodología de la
Investigación
Metodología de la Investigación Mapa Buscador Avanzado
Asociación de variables cualitativas: El test exacto de Fisher y el test de Mcnemar

Autores:
(1) (2)
Sonia Pértega Díaza , Salvador Pita Fernández
(1) Unidad de Epidemiología Clínica y Bioestadística. Complejo Hospitalario Juan Canalejo (A Coruña).
Índice Imprimir documento [141 Kb] ¿Problemas

Introducción con PDF?
La prueba de probabilidad exacta de Fisher -----------------------

Más...
El test de McNemar Tabla 1 - Tabla 2 - Tabla 3 - Tabla 4
Bibliografía Tabla 5 - Tabla 6 - Tabla 7 - Tabla 8
1,2
Desde que Pearson introdujo el test de la en 1900, ésta se ha convertido en una
herramienta de uso general para conocer si existe o no relación entre variables de tipo
cualitativo. Sin embargo, su aplicación exige de ciertos requerimientos acerca del tamaño
3
muestral que no siempre son tenidos en cuenta . La prueba es aplicable a los datos de
una tabla de contingencia solamente si las frecuencias esperadas son suficientemente
grandes. Del mismo modo, cuando los datos exhiben algún grado de dependencia, el test
no será el método apropiado para contrastar la hipótesis nula de independencia. En este
trabajo se introducirán la prueba exacta de Fisher y el test de McNemar como alternativa
estadística al test cuando no se verifiquen las condiciones necesarias para su
4-7
utilización .
La prueba de probabilidad exacta de Fisher
El test exacto de Fisher permite analizar si dos variables dicotómicas están asociadas
cuando la muestra a estudiar es demasiado pequeña y no se cumplen las condiciones
necesarias para que la aplicación del test sea adecuada. Estas condiciones exigen que
los valores esperados de al menos el 80% de las celdas en una tabla de contingencia sean
mayores de 5. Así, en una tabla 2x2 será necesario que todas las celdas verifiquen esta
condición, si bien en la práctica suele permitirse que una de ellas muestre frecuencias
esperadas ligeramente por debajo de este valor.
En situaciones como esta, una forma de plantear los resultados es su disposición en una
tabla de contingencia de dos vías. Si las dos variables que se están considerando son
http://www.fisterra.com/mbe/investiga/fisher/fisher.asp (1 of 9)22/04/2006 1:25:33 PM

dicotómicas, nos encontraremos con el caso de una tabla 2 x 2 como la que se muestra en
la Tabla 1. El test exacto de Fisher se basa en evaluar la probabilidad asociada a cada una
de las tablas 2 x 2 que se pueden formar manteniendo los mismos totales de filas y
columnas que los de la tabla observada. Cada una de estas probabilidades se obtiene bajo
la hipótesis nula de independencia de las dos variables que se están considerando.
Tabla 1. Tabla de contingencia general para la comparación de dos

variables dicotómicas en el caso de grupos independientes.
Característica A
Característica B Presente Ausente Total

Presente a b a+b
Ausente c d c+d
Total a+c b+d n
La probabilidad exacta de observar un conjunto concreto de frecuencias a, b, c y d en una

tabla 2 x 2 cuando se asume independencia y los totales de filas y columnas se consideran
fijos viene dada por la distribución hipergeométrica:
(1)
Esta fórmula se obtiene calculando todas las posibles formas en las que podemos disponer
n sujetos en una tabla 2 x 2 de modo que los totales de filas y columnas sean siempre los
mismos, (a+b), (c+d), (a+c) y (b+d).
La probabilidad anterior deberá calcularse para todas las tablas de contingencia que puedan
formarse con los mismos totales marginales que la tabla observada. Posteriormente, estas
probabilidades se usan para calcular valor de la p asociado al test exacto de Fisher. Este
valor de p indicará la probabilidad de obtener una diferencia entre los grupos mayor o igual
a la observada, bajo la hipótesis nula de independencia. Si esta probabilidad es pequeña
(p<0.05) se deberá rechazar la hipótesis de partida y deberemos asumir que las dos
variables no son independientes, sino que están asociadas. En caso contrario, se dirá que
no existe evidencia estadística de asociación entre ambas variables.
En la literatura estadística, suelen proponerse dos métodos para el cómputo del valor de la
p asociado al test exacto de Fisher. En primer lugar, podremos calcularlo sumando las
probabilidades de aquellas tablas con una probabilidad asociada menor o igual a la
correspondiente a los datos observados. La otra posibilidad consiste en sumar las
probabilidades asociadas a resultados al menos tan favorables a la hipótesis alternativa
como los datos reales. Este cálculo proporcionaría el valor de p correspondiente al test en el
caso de un planteamiento unilateral. Duplicando este valor se obtendría el p-valor
correspondiente a un test bilateral.
Para ilustrar la explicación anterior, supongamos que en una determinada población se

desea averiguar si existen diferencias en la prevalencia de obesidad entre hombres y
mujeres o si, por el contrario, el porcentaje de obesos no varía entre sexos. Tras ser
observada una muestra de 14 sujetos se obtuvieron los resultados que se muestran en la
Tabla 2.

Tabla 2. Tabla de contingencia para estudiar las diferencias en la

prevalencia de obesidad entre sexos. Estudio de prevalencia sobre 14
sujetos.
Obesidad
Sexo Sí No Total
Mujeres 1 (a) 4 (b) 5 (a+b)
Hombres 7 (c) 2 (d) 9 (c+d)
Total 8 (a+c) 6 (b+d) 14 (n)
En esta tabla a=1, b=4, c=7 y d=2. Los totales marginales son así a+b=5, c+d= 9, a+c=8
y b+d=6. La frecuencia esperada en tres de las cuatro celdas es menor de 5, por lo que no
resulta adecuado aplicar el test , aunque sí el test exacto de Fisher. Si las variables sexo
y obesidad fuesen independientes, la probabilidad asociada a los datos que han sido
observados vendría dada por:
Tabla 3. Posibles combinaciones de frecuencias con los mismos totales marginales de filas y columnas que en la
Tabla 2.
Obesidad Obesidad
Si No Si No
(i) Mujeres 0 5 5 (iv) Mujeres 3 2 5
Hombres 8 1 9 Hombres 5 4 9
8 6 14 8 6 14
(ii) Mujeres 1 4 5 (v) Mujeres 4 1 5

8 6 14 8 6 14
(iii) Mujeres 2 3 5 (vi) Mujeres 5 0 5

8 6 14 8 6 14
La Tabla 3 muestra todas las posibles combinaciones de frecuencias que se podrían obtener
con los mismos totales marginales que en la Tabla 2. Para cada una de estas tablas, se ha
calculado la probabilidad exacta de ocurrencia bajo la hipótesis nula, según la expresión
(1). Los resultados obtenidos se muestran en la Tabla 4. El valor de la p asociado al test
exacto de Fisher puede entonces calcularse sumando las probabilidades de las tablas que
resultan ser menores o iguales a la probabilidad de la tabla que ha sido observada:
Tabla 4. Probabilidad exacta asociada con cada una de las disposiciones de

frecuencias de la Tabla 3.

a b c d p
(i) 0 5 8 1 0,0030
(ii) 1 4 7 2 0,0599
(iii) 2 3 6 3 0,2797
(iv) 3 2 5 4 0,4196
(v) 4 1 4 5 0,2098
(vi) 5 0 3 6 0,0280
Otro modo de calcular el valor de p correspondiente consistiría en sumar las probabilidades

asociadas a aquellas tablas que fuesen más favorables a la hipótesis alternativa que los
datos observados. Es decir, aquellas situaciones en las que la diferencia en la prevalencia
de obesidad entre hombres y mujeres fuese mayor que la observada en la realidad. En el
ejemplo, sólo existe una tabla más extrema que la correspondiente a los datos observados
(aquella en la que no se observa ninguna mujer obesa), de forma que:
(2)
Este sería el valor de la p correspondiente a un planteamiento unilateral. En este caso la

hipótesis a contrastar sería que la prevalencia de obesidad es igual en hombres y mujeres,
frente a la alternativa de que fuese mayor en los varones. Cuando el planteamiento se hace
con una perspectiva bilateral, la hipótesis alternativa consiste en asumir que existen
diferencias en la prevalencia de obesidad entre sexos, pero sin especificar de antemano en
qué sentido se producen dichas diferencias. Para obtener el valor de la p correspondiente a
la alternativa bilateral deberíamos multiplicar el valor obtenido en (2) por dos:
Como se puede observar, las dos formas de cálculo propuestas no tienen por qué
proporcionar necesariamente los mismos resultados. El primer método siempre resultará en
un valor de p menor o igual al del segundo método. Si recurrimos a un programa
estadístico como el SPSS para el cómputo del test, éste utilizará la primera vía para
obtener el p-valor correspondiente a la alternativa bilateral y el segundo método de cálculo
para el valor de p asociado a un planteamiento unilateral. En cualquier caso, y a la vista de
los resultados, no existe evidencia estadística de asociación entre el sexo y el hecho de ser
obeso en la población de estudio.
El test de McNemar
En otras ocasiones, una misma característica se mide en más de una ocasión para cada uno
de los individuos que se incluyen en una investigación. En estos casos, el interés se centra
en comparar si las mediciones efectuadas en dos momentos diferentes (normalmente antes
y después de alguna intervención) son iguales o si, por el contrario, se produce algún
cambio significativo. Por ejemplo, puede interesarnos estudiar, a distintos tiempos, el
porcentaje de sujetos que se mantienen con fiebre tras la aplicación de un antitérmico o
comparar la proporción de enfermos con un determinado síntoma antes y después de un
tratamiento.
Para el caso de datos pareados, existen claramente cuatro tipos de pares de observaciones,
según cada individuo presente o no la característica de interés en los dos momentos en los
que se efectúa la evaluación (Tabla 5). Así, los resultados obtenidos pueden mostrarse
igualmente en una tabla 2 x 2 como en la Tabla 1, con la salvedad de que aquí los datos

son dependientes y por lo tanto no resultará adecuada la utilización del test .
Tabla 5. Frecuencia de cada una de las posibles combinaciones en un estudio de

datos pareados.
Observación 1 Observación 2 Número de pares
Tipo Característica Característica
1 Presente Presente a
2 Presente Ausente b
3 Ausente Presente c
4 Ausente Ausente d
Total n
Con esta notación, las proporciones de individuos con la característica de interés en los dos
momentos en los que se efectúa la medición son y , respectivamente.

Estamos interesados por lo tanto en la diferencia entre estas dos proporciones:
La hipótesis nula que se quiere contrastar es que el valor esperado para esta diferencia es
cero, frente a la hipótesis alternativa de que las dos proporciones y sean
efectivamente diferentes. Esto se puede contrastar centrando nuestra atención en las
casillas b y c que son las que muestran discordancia en los dos momentos en los que se
efectuó la medición. La prueba de McNemar contrasta así si el número de individuos que
han dejado de presentar la característica de interés (b) es el mismo que el número de
individuos que han realizado el cambio inverso (c).
El error estándar para la diferencia entre dos proporciones viene dado por:
(3)
De modo que, bajo la hipótesis nula de que no existe diferencia entre ambas , la
ecuación (3) se reduce a:
El estadístico de contraste se construye así de la forma siguiente:
(4)
que sigue una distribución normal N(0,1).

Alternativamente, se puede considerar el estadístico de contraste:
que sigue una distribución chi-cuadrado con un grado de libertad y proporciona el mismo
valor de la p asociado.
A su vez, se puede aplicar una corrección de continuidad para trabajar sobre muestras
pequeñas:
refiriendo el valor de dicho estadístico al de una distribución normal N(0,1) ó,

equivalentemente, a una distribución chi-cuadrado con un grado de libertad si se trabaja
con su valor al cuadrado:
De modo análogo, es posible obtener un intervalo de confianza para la diferencia de

proporciones como:
Para ilustrar los cálculos anteriores, se dispone de información acerca de 20 pacientes a los
que se les administró un determinado tratamiento para tratar el dolor tras una intervención
quirúrgica. En cada individuo, se realizó una valoración del dolor inmediatamente después
de la operación y al cabo de 1 hora tras la administración del analgésico. Los datos
observados se muestran en la Tabla 6. En primer lugar se construye la tabla 2 x 2 con las
frecuencias observadas en el estudio (Tabla 7). Según estos datos, el porcentaje de
pacientes que manifiestan dolor inicialmente es de , frente al de los

enfermos que dicen tener dolor una vez administrado el analgésico. El estadístico de
contraste se construye según la expresión (4) como:
El valor obtenido del estadístico (z=2.49) se compara con los valores de una distribución
normal estándar (Tabla 8). El valor crítico correspondiente para α =0.01 es de z=2.576 y
para α =0.02 es de 2.326. Como quiera que en el cálculo del test de McNemar en el
ejemplo obtuvimos un valor de 2.49, que supera al valor para α =0.02, podremos concluir
que las dos variables no son independientes, sino que están asociadas (p<0.02). Aplicando
la corrección de continuidad proporciona un resultado de

, que sigue siendo un resultado significativo (p<0.03).
Otro modo de obtener esta misma información es mediante el cálculo de intervalos de

confianza para la diferencia de proporciones en los dos momentos de observación. A
mayores, el intervalo de confianza constituye una medida de la incertidumbre con la que se
estima esa diferencia a partir de la muestra, permitiendo valorar tanto la significación
estadística como la magnitud clínica de esa diferencia. En el caso que nos ocupa, el
intervalo de confianza vendrá dado como:
Es decir, podemos asegurar (con una seguridad del 95%) de que la diferencia real en el
porcentaje de pacientes que manifiestan dolor antes y después de recibir el tratamiento
analgésico se mueve entre un 9.72% y un 80.28%.
En definitiva, el uso generalizado de la metodología estadística ha contribuido a dotar de un

mayor rigor a la investigación clínico-epidemiológica en los últimos años. Sin embargo,
también ha hecho que estas técnicas se apliquen en ocasiones de una manera un tanto
superficial. Es extremadamente importante tener en cuenta las asunciones subyacentes a
los distintos métodos estadísticos, como en el caso del test , para comprender cuándo
es adecuado o no su uso y disponer de las técnicas estadísticas alternativas que deben
utilizarse en cada ocasión.
Bibliografía
1. Pearson K. On a criterion that a given system of deviations from the probable in the
case of correlated system of variables is Duch that it can be reasonably supposed to
have arisen from random sampling. Philosophical Magazine 1900, Series 5, No. 50:
157-175.
2. Pearson, K. On the testo f goodness of fit. Biometrika 1922; 14: 186-191.
3. Pita Fernández S, Pértega Díaz S. Asociación de variables cualitativas: Test de chi-
cuadrado. Cad Aten Primaria 2004 (en prensa). [Texto completo]
4. Altman DG. Practical statistics for medical research. London: Chapman & Hall; 1991.
5. Armitage P, Berry G. Estadística para la investigación biomédica. Madrid : Harcourt
Brace; 1999.
6. Juez Martel P. Herramientas estadísticas para la investigación en Medicina y Economía
de la Salud. Madrid: Ed. Centro de Estudios Ramón Areces; 2001.
7. Agresti A. Categoriacl Data Analisis. New York: John Wiley & Sons; 1990.
Tabla 6. Datos de 20 pacientes intervenidos quirúrgicamente en los que se valoró

el dolor tras la cirugía y al cabo de 1 hora tras la administración de un analgésico.
Individuo Dolor tras la intervención Dolor 1 horas después del Tto.
1 No No
2 Sí No
3 No No

4 No No
5 Sí No
6 Sí No
7 No No
8 Sí Sí
9 No Sí
10 No No
11 Sí No
12 Sí No
13 Sí No
14 Sí No
15 Sí No
16 No Sí
17 No Sí
18 Sí No
19 Sí No
20 Sí No
Tabla 7. Tabla de contingencia con los datos de 20 pacientes intervenidos

quirúrgicamente en los que se valoró el dolor tras la cirugía y al cabo de 1 hora
tras la administración de un analgésico.
Dolor 1 hora después del tratamiento
Dolor tras la
intervención
Sí No Total
Sí 1 (a) 11 (b) 12 (a+b)
No 2 (c) 6 (d) 8 (c+d)
Total 3 (a+c) 17 (b+d) 20 (n)
Tabla 8. Tabla de valores de la distribución normal. La tabla muestra los valores de z para los
que la probabilidad de observar un valor mayor o igual (en valor absoluto) es igual a α. La cifra
entera y el primer decimal de α se buscan en la primera columna, y la segunda cifra decimal en
la cabecera de la tabla.

Arriba
© 2006 fisterra.com Mis Datos | Contacto-Sugerencias | FAQ's | Condiciones de uso | Política de privacidad

Técnicas de regresión: Regresión Lineal Simple
Pértega Díaz, S. [ Correo de contacto ], Pita Fernández, S. [ Correo de contacto ],

CAD ATEN PRIMARIA 2000; 7: 91-94
En múltiples ocasiones en la práctica clínica nos encontramos con situaciones en las que se requiere Contenido
analizar la relación entre dos variables cuantitativas. Los dos objetivos fundamentales de este análisis La recta de
serán, por un lado, determinar si dichas variables están asociadas y en qué sentido se da dicha asociación regresión
(es decir, si los valores de una de las variables tienden a aumentar –o disminuir- al aumentar los valores Interpretación
de los
de la otra); y por otro, estudiar si los valores de una variable pueden ser utilizados para predecir el valor coeficientes de
de la otra. regresión y
tabla ANOVA
1 Hipótesis del
La forma correcta de abordar el primer problema es recurriendo a coeficientes de correlación( ). Sin
modelo
embargo, el estudio de la correlación es insuficiente para obtener una respuesta a la segunda cuestión: se Predicción
limita a indicar la fuerza de la asociación mediante un único número, tratando las variables de modo Bibliografía
simétrico, mientras que nosotros estaríamos interesados en modelizar dicha relación y usar una de las
variables para explicar la otra. Para tal propósito se recurrirá a la técnica de regresión. Aquí Documento
analizaremos el caso más sencillo en el que se considera únicamente la relación entre dos variables. Así en PDF (73
2 Kb)
mismo, nos limitaremos al caso en el que la relación que se pretende modelizar es de tipo lineal( ).
¿Problemas
con PDF?
La recta de regresión.
Consideremos una variable aleatoria respuesta (o dependiente) Y, que supondremos relacionada con otra
variable (no necesariamente aleatoria) que llamaremos explicativa, predictora o independiente y que se
denotará por X. A partir de una muestra de n individuos para los que se dispone de los valores de ambas
variables, {(Xi,Yi),i = 1,...n}, se puede visualizar gráficamente la relación existente entre ambas mediante un
gráfico de dispersión, en el que los valores de la variable X se disponen en el eje horizontal y los de Y en el
vertical. El problema que subyace a la metodología de la regresión lineal simple es el de encontrar una recta
que ajuste a la nube de puntos del diagrama así dibujado, y que pueda ser utilizada para predecir los valores
de Y a partir de los de X. La ecuación general de la recta de regresión será entonces de la forma: Y = a +
bX .
El problema radica en encontrar aquella recta que mejor ajuste a los datos. Tradicionalmente se ha recurrido
para ello al método de mínimos cuadrados, que elige como recta de regresión a aquella que minimiza las
distancias verticales de las observaciones a la recta. Más concretamente, se pretende encontrar a y b tales que:
Resolviendo este problema mediante un sencillo cálculo de diferenciación, se obtienen los estimadores
mínimo cuadráticos de los coeficientes de la recta de regresión:
http://www.fisterra.com/mbe/investiga/regre_lineal_simple/regre_lineal_simple.htm (1 of 8)22/04/2006 1:25:59 PM

Tabla 1. Tensión Arterial Sistólica y Edad de 69 pacientes

Nº Tensión Sistólica Edad Nº Tensión Sistólica Edad
1 114 17 36 156 47
2 134 18 37 159 47
3 124 19 38 130 48
4 128 19 39 157 48
5 116 20 40 142 50
6 120 21 41 144 50
7 138 21 42 160 51
8 130 22 43 174 51
9 139 23 44 156 52
10 125 25 45 158 53
11 132 26 46 174 55
12 130 29 47 150 56
13 140 33 48 154 56
14 144 33 49 165 56
15 110 34 50 164 57
16 148 35 51 168 57
17 124 36 52 140 59
18 136 36 53 170 59
19 150 38 54 185 60
20 120 39 55 154 61
21 144 39 56 169 61
22 153 40 57 172 62
23 134 41 58 144 63
24 152 41 59 162 64
25 158 41 60 158 65
26 124 42 61 162 65
27 128 42 62 176 65
28 138 42 63 176 66
29 142 44 64 158 67
30 160 44 65 170 67
31 135 45 66 172 68
32 138 45 67 184 68
33 142 46 68 175 69
34 145 47 69 180 70
35 149 47
La Tabla 1 muestra los datos de 69 pacientes de los que se conoce su edad y una medición de su tensión
sistólica. Si estamos interesados en estudiar la variación en la tensión sistólica en función de la edad del
individuo, deberemos considerar como variable respuesta la tensión y como variable predictora la edad. En la
Figura 1 se muestra, superpuesta al diagrama de dispersión, la recta de regresión de mínimos cuadrados
correspondientes, así como las distancias verticales de las observaciones muestrales a la recta. Aplicando los
cálculos anteriores a este caso, resultaría:

Como se puede suponer, la relación Y = a + bX no va a cumplirse exactamente, sino que existirá un error
que representa la variación de Y en todos los datos con un mismo valor de la variable independiente. Las
distancias verticales entre el valor observado y el valor dado por la recta para cada individuo (o valor
ajustado) reciben el nombre de residuos, y se suelen denotar por . La expresión teórica del modelo
matemático será, por tanto:
donde,
además, se
supondrá
Figura 1. Relación entre la Edad y Presión Sistólica. Recta de Regresión y diferencias entre los
valores observados y ajustados
Interpretación de los coeficientes de regresión y la tabla ANOVA.
En la ecuación general de la recta de regresión, claramente b es la pendiente de la recta y a el valor de la

variable dependiente Y para el que X = 0. En consecuencia, una vez estimados estos coeficientes, en la
mayoría de las aplicaciones clínicas el valor de â no tendrá una interpretación directa, mientras que el valor
servirá como un indicador del sentido de asociación entre ambas variables: así, nos indicará una
relación directa entre ellas (a mayor valor de la variable explicativa, el valor de la variable dependiente Y
aumentará), delatará una relación de tipo inverso, mientras que nos indica que no existe una
relación lineal clara entre ambas variables. Así mismo, y tal y como se deduce de la ecuación de la recta de
regresión, el coeficiente b nos da una estimación del cambio por término medio en la variable Y por cada
unidad en que se incrementa X. Al igual que ocurre con otros estimadores, existirá cierta incertidumbre en el
cálculo de las estimaciones, que se podrá reflejar mediante intervalos de confianza para ambos valores,

construidos bajo la hipótesis de normalidad de los residuos, mediante las expresiones:
donde denota al cuantil de orden ß de una distribución t de Student con n-2 grados de libertad.
De igual forma, podemos limitar esta incertidumbre realizando un test para contrastar la hipótesis de que b=0
mediante el cociente y comparando éste con la distribución t de Student con n-2 grados de
libertad. De modo análogo se llevaría a cabo un contraste para la hipótesis a=0. El hecho de que el test no
resulte significativo indicará la ausencia de una relación clara de tipo lineal entre las variables, aunque pueda
existir una asociación que no sea captada a través de una recta. Para los datos del ejemplo, el resultado de
ajustar un modelo de regresión lineal se muestra en la Tabla 2.
Tabla 2. Modelo de Regresión Lineal Simple de la Presión sistólica ajustando por edad
Variable Coeficiente (B) E.T.(B) IC 95% (B) t p
Constante 103.35 4.33 (94.72; 111.99) 23.89 <0.001
Edad 0.98 0.09 (0.81; 1.16) 11.03 <0.001
Fuente de Variación Suma de Cuadrados g.l. Media cuadrática F p
Regresión en edad 14,965.31 1 14,965.31 121.59 <0.001
Residual 8,246.46 67 123.08
Total 23,211.77 68
La recta así ajustada explica tan sólo una parte de la variabilidad de la variable dependiente, expresada ésta
comúnmente por medio de la varianza de Y, mientras que la cantidad de variabilidad que resta por explicar
puede ser expresada a través de los residuos. Generalmente un análisis de regresión suele ser expresado por
una tabla de análisis de la varianza en la que se refleja toda esta información. En la Tabla 2 se muestra
además la tabla correspondiente en el ejemplo de la tensión sistólica. La columna etiquetada por "Suma de
cuadrados" muestra una descomposición de la variación total de Y en las partes explicada y no explicada
(residual) por la regresión. La proporción de variabilidad explicada por el modelo coincide aquí con el
cuadrado del coeficiente de correlación lineal de Pearson, que recibe el nombre de coeficiente de
determinación, y que se persigue sea próximo a 1. En nuestro ejemplo sería R2=0.645.
A partir de esta información puede elaborarse un contraste para verificar la utilidad del modelo. En el caso de
regresión lineal simple, el estadístico de contraste se reduce a:
que se comparará con el cuantil correspondiente a una distribución F de Snedecor con parámetros 1 y n-1. El
test resultante será equivalente al test t para contrastar H0:b=0.

Hipótesis del modelo.
Una vez ajustado el modelo, y antes de usarlo para realizar nuevas predicciones, conviene asegurarse de que
no se violan las hipótesis sobre las que se soporta: independencia de las observaciones muestrales,
normalidad de los valores de la variable dependiente Y para cada valor de la variable explicativa,
homocedasticidad (i.e., la variabilidad de Y es la misma para todos los valores de X) y relación lineal entre
las dos variables. La información más relevante la aportan los residuos. Así, bajo las suposiciones anteriores,
los residuos habrán de tener una distribución normal de media cero y varianza constante. El modo más
sencillo de comprobar si esto se verifica es obteniendo una impresión visual a partir de un gráfico de los
residuos frente a la variable dependiente Y. La Figura 2 muestra las diferentes posibilidades en un gráfico de
residuos, mientras que el gráfico que se obtiene en el ejemplo manejado se refleja en la Figura 3.
Figura 2. Diferentes posibilidades del Gráfico de Residuos
Figura 3. Gráfico de Residuos de la regresión frente a la edad

Se puede complementar este análisis mediante gráficos de probabilidad normal y tests de normalidad para los
residuos, como el de Kolmogorov-Smirnov (Figura 4). Así mismo, la independencia de las observaciones
puede estudiarse mediante gráficos de autocorrelación y contrastes de independencia como el de Durbin-
Watson.
Figura 4. Gráfico de Probabilidad normal de los Residuos para la Tensión Sistólica frente a la Edad.
Aunque obviaremos un análisis detallado de la verificación de las hipótesis del modelo, conviene hacer
referencia a las medidas a tomar en caso de no cumplirse. Para el caso de no normalidad, resulta obvio que la
3
medida más inmediata es la transformación de la variable dependiente( ), aunque otra alternativa son los cada
4
vez más utilizados modelos de regresión no paramétrica( ), que evitan la suposición de una distribución
5
gaussiana. También se debe modificar el modelo en el caso de datos dependientes o valores repetidos( ).
Predicción.
Cuando se verifican las hipótesis sobre las que se asienta el modelo, la recta de regresión puede ser utilizada

para predecir el valor medio de la variable Y para cada valor concreto de X. Calculando la esperanza
matemática en ambos lados de la ecuación (1) se obtendrá:
de modo que la línea de regresión proporciona un estimador del valor medio de Y para cada valor de X.
Como tal estimador, debemos considerar la incertidumbre asociada a esta recta, que puede ser reflejada
mediante regiones de confianza que contienen a la recta. En la Figura 5 se muestra, superpuesta al diagrama
de dispersión, la recta de regresión en el ejemplo de la tensión sistólica que estamos manejando, así como una
región de confianza para la misma, que contendrá a la verdadera relación entre tensión sistólica y edad con
una seguridad del 95%.
Figura 5. Intervalos de confianza al 95 % para la Recta de Regresión y para la Predicción de la

Presión Sistólica en un individuo.
También se puede utilizar la recta de regresión como estimador del valor de Y en un individuo concreto. En
este caso se esperará una mayor incertidumbre en la estimación que en el caso de predecir una tendencia
media. En la Figura 4 se muestra además la banda de predicción para el ejemplo que estamos manejando,
siendo ésta mucho más amplia que en el caso de intentar predecir el valor medio.
La regresión lineal simple es entonces una técnica sencilla y accesible para valorar la relación entre dos
6
variables cuantitativas en la práctica clínica( ), proponiendo además un modelo al que se ajusta dicha
relación. No debemos olvidar que a lo largo de este artículo hemos abordado el caso más sencillo en el que se
obvia el problema de un número más elevado de variables entre las que valorar la relación. En este caso
7
entraríamos de lleno en la temática de la regresión lineal múltiple( ), lo cual nos obligaría a abordar
problemas de índole más complicado como el de la colinealidad, interacción entre variables, variables
confusoras o un análisis más detallado de los residuos del modelo. Así mismo, no se debe pasar por alto el
hecho de que en la mayoría de las aplicaciones prácticas la relación que se observa entre pares de variables no
es tanto lineal como de tipo curvilíneo (ya sea una relación logarítmica, exponencial, polinómica, etc.). En
estos casos, aunque se puede hablar de regresión curvilínea según el tipo de relación, una conveniente
transformación de las variables reduce el problema al caso que acabamos de abordar.
Bibliografía

1.- Pita Fernández S, Rey Sierra T, Vila Alonso MT. Relaciones entre variables cuantitativas (I).
Cadernos de Atención Primaria 1997; 4: 141-145.
2.- Seber GAF. Linear Regression Analysis. New York: John Wiley & Sons, 1977.
3.- Bland JM, Altman DG. Statistics Notes: Transforming data. BMJ 1996; 312:770. [Medline] [texto
completo]
4.- Härdle. Aplied Nonparametric Regression. Cambridge: University Press, 1990.
5.- Statistics notes: Correlation, regression and repeated data. BMJ 1994; 308: 896. [texto completo]
6.- Altman DA. Practical statistics for medical research. 1th ed., repr. 1997. London: Chapman & Hall;
1997.
7.- Etxebarría Murgiondo, J. Regresión Múltiple. Madrid: La Muralla; 1999.

Técnicas de regresión: Regresión Lineal Múltiple
Pértega Díaz, S. [ Correo de contacto ], Pita Fernández, S. [ Correo de contacto ],

La mayoría de los estudios clínicos conllevan la obtención de datos en un número más o menos Contenido
extenso de variables. En algunos casos el análisis de dicha información se lleva a cabo centrando Estimación de
la atención en pequeños subconjuntos de las variables recogidas utilizando para ello análisis parámetros y
bondad de
sencillos que involucran únicamente técnicas bivariadas. Un análisis apropiado, sin embargo,
ajuste
debe tener en consideración toda la información recogida o de interés para el clínico y requiere Selección de
de técnicas estadísticas multivariantes más complejas. En particular, hemos visto como el modelo variables
de regresión lineal simple es un método sencillo para analizar la relación lineal entre dos Interacción,
variables cuantitativas. Sin embargo, en la mayoría de los casos lo que se pretende es predecir Confusión y
una respuesta en función de un conjunto más amplio de variables, siendo necesario considerar el Colinealidad
modelo de regresión lineal múltiple como una extensión de la recta de regresión que permite la Bibliografía
inclusión de un número mayor de variables.
Documento
en PDF (99
Kb)
¿Problemas
ESTIMACIÓN DE PARÁMETROS Y BONDAD DE AJUSTE. con PDF?
Generalizando la notación usada para el modelo de regresión lineal simple, disponemos en n
individuos de los datos de una variable respuesta Y y de p variables

explicativas X1,X2,...,Xp. La situación más sencilla que extiende el caso de una única variable
regresora es aquella en la que se dispone de información en dos variables adicionales. Como ejemplo,
tomemos la medida de la tensión arterial diastólica en setenta individuos de los que se conoce además
su edad, colesterol e índice de masa corporal (Tabla 1). Es bien conocido que el valor de la tensión
arterial diastólica varía en función del colesterol e índice de masa corporal de cada sujeto. Al igual que
ocurría en el caso bidimensional, se puede visualizar la relación entre las tres variables en un gráfico
de dispersión, de modo que la técnica de regresión lineal múltiple proporcionaría el plano que mejor
ajusta a la nube de puntos resultante (Figura 1).
Figura 1. Plano de regresión para la Tensión Arterial Diastólica ajuntando por Colesterol e Índice
de Masa Corporal
http://www.fisterra.com/mbe/investiga/regre_lineal_multi/regre_lineal_multi.htm (1 of 8)22/04/2006 1:26:30 PM

Del gráfico se deduce fácilmente que los pacientes con tensión arterial diastólica más alta son aquellos
con valores mayores de colesterol e índice de masa corporal. Si el número de variables explicativas
aumenta (p>2) la representación gráfica ya no es factible, pero el resultado de la regresión se
generaliza al caso del mejor hiperplano que ajusta a los datos en el espacio (p+1)-dimensional
correspondiente.
Tabla 1. Edad, Colesterol, Índice de Masa Corporal y Tensión Arterial Diastólica de 70 pacientes.
EDAD COLESTEROL IMC TAD EDAD COLESTEROL IMC TAD
1 42 292 31,64 97 36 53 187 23,31 80
2 64 235 30,80 90 37 43 208 27,15 65
3 47 200 25,61 80 38 57 246 21,09 80
4 56 200 26,17 75 39 64 275 22,53 95
5 54 300 31,96 100 40 43 218 19,83 75
6 48 215 23,18 67 41 47 231 26,17 75
7 57 216 21,19 , 42 58 200 25,95 90
8 52 254 26,95 70 43 58 214 26,30 75
9 67 310 24,26 105 44 48 230 24,89 70
10 46 237 21,87 70 45 62 280 26,89 100
11 58 220 25,61 70 46 54 198 21,09 65
12 62 233 27,92 75 47 67 285 31,11 95
13 49 240 27,73 90 48 68 201 21,60 80
14 56 295 22,49 95 49 55 206 19,78 65
15 63 310 , 95 50 50 223 22,99 75

16 64 268 30,04 90 51 53 290 32,32 95

17 67 243 23,88 85 52 63 315 31,14 100
18 49 239 21,99 75 53 60 220 28,89 80
19 53 198 26,93 75 54 46 230 20,55 75
20 59 218 , 85 55 45 175 22,49 70
21 65 215 24,09 70 56 53 213 22,53 70
22 67 254 28,65 105 57 59 220 20,82 65
23 49 218 25,71 85 58 62 287 32,32 95
24 53 221 25,33 80 59 60 290 33,91 90
25 57 237 25,42 90 60 62 209 20,76 75
26 47 244 23,99 85 61 58 290 31,35 80
27 58 223 25,20 70 62 57 260 31,14 95
28 48 198 25,81 85 63 49 202 20,76 80
29 51 234 26,93 80 64 61 214 19,59 90
30 49 175 27,77 80 65 52 231 20,08 75
31 68 230 30,85 70 66 59 280 31,60 100
32 58 248 21,61 75 67 50 220 25,34 70
33 54 218 26,30 95 68 46 233 22,86 75
34 59 285 31,44 100 69 44 215 19,53 70
35 45 253 25,00 75 70 60 202 19,10 65
En el caso general, el modelo de regresión lineal múltiple con p variables responde a la ecuación:
(1)
de modo que los coeficientes se estiman siguiendo el criterio de mínimos cuadrados:
La obtención aquí de las expresiones de los estimadores mínimo cuadráticos de dichos coeficientes
exigen reescribir la expresión (1) utilizando notación matricial. Así, (1) quedaría:
donde:
De donde los estimadores mínimo cuadráticos se obtienen a partir de la ecuación:

y mantienen una interpretación análoga al caso de la regresión lineal simple (i.e. representa el
incremento por término medio en la variable respuesta por cada unidad adicional en la variable ).
Como se puede observar, la obtención de estimadores, intervalos de confianza y contrastes de
hipótesis para los coeficientes de regresión involucran expresiones matriciales y distribuciones
multivariantes que complican notablemente las operaciones, por lo que en la práctica dichos cálculos
se obtienen de un modo inmediato mediante el manejo de diferentes paquetes estadísticos. Son muchos
1 2
los textos en los que se pueden encontrar desarrollos teóricos de dichas expresiones( ),( ). Sin
detenerse en ello, basta decir que manteniendo las hipótesis habituales de independencia,
homocedasticidad, normalidad y linealidad se calculan expresiones para el error estándar de cada
coeficiente estimado e intervalos de confianza de modo análogo al caso de la regresión simple. La
significación estadística de cada variable se obtiene simplemente calculando el cociente entre el
coeficiente estimado y su error típico, y comparándolo con el cuantil correspondiente de una
distribución t de Student con n-p-1 grados de libertad. La bondad de ajuste del modelo se puede
valorar mediante la varianza residual y el estadístico R2 (coeficiente de determinación), definidos de la
forma habitual. También aquí puede utilizarse el contraste F global de la regresión, calculado a partir
de las sumas de cuadrados explicada y no explicada para valorar la utilidad del modelo. Como
ejemplo, tras ajustar un modelo de regresión múltiple a los datos que se muestran en la Tabla 1 usando
como variables predictoras de la tensión diastólica el colesterol e índice de masa corporal de un
individuo, los coeficientes de regresión para ambas variables fueron 0.18 (E.T. 0.03) y 0.73 (E.T. 0.30)
respectivamente, siendo ambos significativamente distintos de cero (Tabla 2). Esto indica que por
término medio la tensión arterial diastólica de un paciente se incrementa en 1.8 y 7.3 respectivamente
por cada 10 unidades a mayores en su colesterol o índice de masa corporal. El valor del coeficiente de
determinación R2=52% y la significación del contraste F global de la regresión (p<0.001) sugieren que
gran parte de la variabilidad de la respuesta viene explicada por el modelo ajustado.
Tabla 2. Modelo de regresión lineal múltiple para la tensión arterial diastólica ajustando por
colesterol e índice de masa corporal.
Constante 19.42 7.54 (4.37;34.48) 2.58 0.012
Colesterol 0.18 0.03 (0.11;0.25) 5.26 <0.001
IMC 0.73 0.30 (0.14;1.33) 2.45 0.017
Suma de Cuadrados g.l. Media cuadrática F p
Regresión 4,449.72 2 2,224.86 34.93 <0.001
Residual 4,076.40 64 63.69
Total 8,526.12 66
El hecho de contar con un número más extenso de variables exige que además del contraste F global
se puedan realizar pruebas parciales para constatar si un grupo de variables añadidas a un modelo lo
mejoran. Supongamos que al modelo (1) se suma una nueva variable explicativa . La proporción
de variabilidad residual que es explicada al introducir esta nueva variable viene dada por la diferencia
en las sumas de cuadrados de cada modelo:
Para valorar si la introducción de la nueva variable queda compensada por una mejora significativa en

la predicción de la respuesta se utiliza el estadístico:
que se compara con el cuantil correspondiente de una distribución F de Snedecor con 1 y n-p-2 grados
de libertad. Dicho contraste se denomina contraste F parcial. Para comprobar el uso de dicho
estadístico consideremos en el ejemplo anterior el modelo de regresión simple que resulta de tomar
como única variable regresora el colesterol de un individuo (Tabla 3). El valor del estadístico R2 en
este caso es del 69.1% frente al 72.2% del modelo que se consigue introduciendo el índice de masa
corporal como nueva variable explicativa. El cambio en el estadístico R2 es de 0.045 que coincide con
el cuadrado del coeficiente de correlación parcial entre la tensión arterial y el índice de masa corporal
ajustando por el colesterol. La significación del contraste F parcial para la introducción del índice de
masa corporal es de 0.017, indicando que el modelo con dos variables mejora al modelo más simple.
Tabla 3. Modelo de regresión lineal simple para la tensión arterial diastólica ajustando por
colesterol.
Constante 26.91 7.15 (12.63;41.19) 3.76 <0.001
Colesterol 0.23 0.03 (0.17;0.29) 7.70 <0.001
Regresión 4,067.11 1 4,067.11 59.29 <0.001
Residual 4,459.01 65 68.60
Total 8,526.12 66
Es importante recalcar la necesidad de uso de métodos estadísticos multivariantes para estudiar

correctamente la relación entre más de dos variables. La aplicación de las técnicas de regresión ha sido
3 4 5 6
tratada en diversos textos( ),( ),( ),( ) desde un punto de vista eminentemente práctico. Aunque el
modelo de regresión se ha planteado inicialmente para analizar la relación entre variables cuantitativas,
su generalización al caso de variables regresoras cualitativas es inmediata. Este tipo de análisis recibe
el nombre de análisis de covarianza o análisis de varianza según contenga o no además variables
numéricas. La limitación de este modelo por considerar que la relación de cada variable con la
respuesta es de tipo lineal queda solventada mediante la transformación (logarítmica, cuadrática,...) de
cada variable regresora.
SELECCIÓN DE VARIABLES.
Una de las principales dificultades a la hora de ajustar un modelo de regresión múltiple surge cuando
es necesario identificar entre el conjunto de variables disponibles aquellas que están relacionadas con
la respuesta y que la predicen de la mejor forma posible. Cuando el número de variables es reducido,
como en el ejemplo manejado, la selección no resulta complicada. Una primera alternativa es construir
un modelo por inclusión o hacia delante ("forward"), considerando en primer lugar la relación de cada
variable con la respuesta e ignorando todas las demás variables, valorándola por medio del coeficiente
de correlación lineal de Pearson (Figura 2). Aquella que muestra una correlación más alta con la
variable dependiente (en este caso el colesterol) se introduce en un modelo inicial (Tabla 3).

El segundo paso consiste en seleccionar entre las variables restantes aquella que al introducirla en el
modelo permite explicar una mayor parte de la variabilidad residual. La comparación entre distintos
modelos debe hacerse en términos del valor relativo de los coeficientes de determinación y el contraste
F parcial. Ya vimos como la inclusión del índice de masa corporal reportaba una mejora en el modelo
de regresión simple. La introducción de la variable edad, en cambio, proporciona un cambio en el
coeficiente de determinación de 0.028 que no resulta en una mejora significativa (p=0.059). Este
esquema se repetiría hasta que ninguna otra variable entrase a formar parte del modelo. En el ejemplo
el último paso sería comprobar si la introducción de la variable edad produce una mejora del ajuste del
modelo mostrado en la Tabla 2. El modelo ajustando por las tres variables se muestra en la Tabla 4. El
coeficiente correspondiente a esta última variable no es significativo (nótese que esta significación ha
de coincidir con la del contraste F parcial correspondiente).
Tabla 4. Modelo de regresión lineal múltiple para la tensión arterial diastólica ajustando por
colesterol, índice de masa corporal y edad.
Constante 10.55 9.13 (-7.70;28.81) 1.15 0.252
Colesterol 0.17 0.03 (0.1;0.24) 4.84 <0.001
IMC 0.68 0.30 (0.09;1.28) 2.31 0.024
Edad 0.24 0.14 (-0.05;0.53) 1.67 0.100
Regresión 4,622.52 3 1,540.84 24.87 <0.001
Residual 3,903.60 63 61.96
Total 8,526.12 66
En la mayoría de los casos se dispone de información en un conjunto mucho más amplio de variables
de las que se desconoce cuáles están relacionadas o pueden utilizarse para predecir la respuesta de
interés. La identificación del conjunto de variables que proporcionan el mejor modelo de regresión
dependerá en gran medida del objetivo del estudio y de experiencias previas. Así, aunque la práctica
habitual es eliminar del modelo aquellas variables que no resultan significativas, puede ser
recomendable mantenerlas en caso de que en experiencias previas se haya constatado una relación con
la variable dependiente. La mayoría de paquetes estadísticos proporcionan una variedad de técnicas
para identificar el mejor conjunto de variables regresoras que introducen o eliminan sucesivamente
variables atendiendo a su significación en el modelo (hacia delante, hacia atrás, pasos sucesivos).
Existen otras alternativas basadas en la comparación de todos los modelos posibles que se pueden
formar con un conjunto inicial de variables. Todas estas técnicas deben considerarse meramente
orientativas. Así, identificado el mejor conjunto de variables y ajustado el modelo es conveniente
realizar un análisis de residuos exhaustivo para valorar la posibilidad de elegir un modelo distinto a
pesar de que tenga un valor menor de R2.
INTERACCIÓN, CONFUSIÓN Y COLINEALIDAD.
Cuando se introduce más de una variable en el modelo de regresión es necesario contrastar además la
independencia de los efectos de todas ellas. Es decir, se supone que la asociación de cada variable con
la respuesta no depende del valor que tomen el resto en la ecuación de regresión. En otro caso se dirá
que existe interacción. Antes de aprobar el modelo definitivo, por lo tanto, se debe explorar la
necesidad de incluir términos de interacción calculados a partir del producto de pares de variables,
comprobando si mejora la predicción, siendo aconsejable investigar solamente aquellas interacciones
que puedan tener una explicación clínica.

En ocasiones el fenómeno de la interacción se hace coincidir erróneamente con los de confusión y

correlación. Existe confusión cuando el efecto de una variable difiere significativamente según se
considere o no en el modelo alguna otra. Ésta se asociará tanto con la variable inicial como con la
respuesta, de modo que en casos extremos puede invertir el primer efecto observado. En ese caso las
estimaciones adecuadas son aquellas que proporciona el modelo completo, y se dirán que están
controladas o ajustadas por variables de confusión. Por otro lado, el fenómeno que se produce cuando
dos variables explicativas muestran una correlación alta recibe el nombre de cuasi-colinealidad y
puede producir estimaciones inestables de los coeficientes que se traducen en valores desorbitados de
sus errores típicos y resultados poco creíbles. La mayoría de paquetes estadísticos muestran en sus
salidas diagnósticos de colinealidad (tolerancia, factor de inflacción de la varianza, índice de
condición) que pueden ayudarnos a solventar estos problemas. Por lo tanto, se ha de tener un cuidado
especial en la etapa de construcción del modelo: un cambio significativo en las estimaciones tras la
inclusión de una nueva variable puede evidenciar cualquiera de estos fenómenos. Nos corresponde a
nosotros evaluar la conveniencia de incluirla o no en el modelo.
Figura 2. Correlación lineal de la edad, colesterol e índice de masa corporal con la tensión arterial
diastólica.
Bibliografía
1.- Snedecor G.W., Cochran W.G. Statistical Methods. 8th ed. Iowa State University Press;
1989.
2.- Seber GAF. Linear Regression Analysis. New York: John Wiley & Sons; 1977.
3.- Etxebarría Murgiondo, J. Regresión Múltiple. Madrid: La Muralla; 1999.
4.- Altman DA. Practical statistics for medical research. 1th ed., repr. 1997. London: Chapman

& Hall; 1997.
5.- Carrasco J.L., Hernán M.A. Estadística Multivariante en las Ciencias de la Salud. Madrid:
Ed. Ciencia 3; 1993.
6.- Kleinbaum D.G., Kupper L.L. Applied Regression Analysis and other Multivariable
Methods. 3rd. ed. Massachusetts: Duxbury Press; 1997.

Análisis de supervivencia

Introducción
Conceptos
Los datos proporcionados por los estudios clínicos se expresan en múltiples
básicos
ocasiones en términos de supervivencia. Esta medida no queda limitada a los
Limitaciones e
términos de vida o muerte, sino a situaciones en la que se mide el tiempo que imprecisiones
transcurre hasta que sucede un evento de interés, como puede ser tiempo de de los datos.
recurrencia, tiempo que dura la eficacia de una intervención, tiempo de un Tipos de
aprendizaje determinado, etc. Por tanto, la supervivencia es una medida de tiempo a observaciones
una respuesta, fallo, muerte, recaída o desarrollo de una determinada enfermedad o Metodología
estadística
evento. El término supervivencia se debe a que en las primeras aplicaciones de este
Método de
método de análisis se utilizaba como evento la muerte de un paciente. Kaplan-Meier
- Ejemplo 1
En las enfermedades crónicas, tales como el cáncer, la supervivencia se mide como - Ejemplo 2
una probabilidad de permanecer vivo durante una determinada cantidad de tiempo. Método actuarial
La supervivencia al año o a los 5 años son a menudo expresadas como indicadores - Ejemplo 3
de la severidad de una enfermedad y como pronóstico. Típicamente, el pronóstico Comparación de
del cáncer se valora determinando el porcentaje de pacientes que sobrevive al dos curvas de
supervivencia
menos cinco años después del diagnóstico.
Bibliografía
Documento
Son muchos los textos que se pueden consultar acerca de la metodología estadística
en PDF (85
1-4
a emplear en estudios de supervivencia . Los objetivos de este trabajo son: Kb)
¿Problemas
familiarizarse con los conceptos y terminología básica del análisis de
con PDF?
supervivencia, conocer cómo estimar la proporción acumulada de supervivencia,
Tablas y Figuras
así como los tests estadísticos a emplear para comparar dos curvas de supervivencia.
Tabla 1. Método
para calcular la
Conceptos básicos curva de
supervivencia
de Kaplan-
La observación de cada paciente se inicia al diagnóstico (tiempo = 0) y continua Meier. Ejemplo1.
hasta la muerte o hasta que el tiempo de seguimiento se interrumpe. Cuando el Tabla 2. Método
tiempo de seguimiento termina antes de producirse la muerte o antes de completar para calcular la
el período de observación se habla de paciente “censurado” (Figuras 1 y 2). curva de
supervivencia
de Kaplan-
El periodo de seguimiento puede terminar por las siguientes razones: Meier. Ejemplo
2.
a. El paciente decide no participar más en el estudio y lo abandona.
http://www.fisterra.com/mbe/investiga/supervivencia/supervivencia.htm (1 of 15)22/04/2006 1:26:40 PM

b. El paciente se pierde y no tenemos información. Tabla 3. Método

c. El estudio termina antes de aparecer el evento. actuarial para
calcular la
función de
Cuando los tiempos de supervivencia no se conocen con exactitud, los datos se supervivencia.
consideran censurados. No se conoce el tiempo hasta el suceso de interés (muerte, Ejemplo 3.
recaída) porque los individuos en el estudio pueden haberse perdido o retirado, o el Tabla 4. Test de
suceso puede no haber ocurrido durante el período de estudio. log-rank para
comparar la
probabilidad de
El seguimiento viene definido por una fecha de inicio y una fecha de cierre que supervivencia
determinan el tiempo de seguimiento. Las fechas de inicio y cierre son diferentes entre grupos.
para cada individuo, pues los pacientes o personas incluidas en el estudio se Ejemplo 2.
incorporan en momentos diferentes. Figura 1.

Esquema
general de un
En las observaciones incompletas (censuradas) el evento de interés no se ha estudio de
producido, ya sea porque el estudio se finalizó antes de la aparición del evento, el supervivencia
paciente decide abandonar y no participar en el estudio, perdemos al paciente por Figura 2.
Seguimiento de
cambio en el lugar de residencia, muerte no relacionada con la investigación, etc.
pacientes con
distinta fecha
El tiempo de supervivencia se define como el tiempo transcurrido desde el de entrada
acontecimiento o estado inicial hasta el estado final. Figura 3. Curvas
de Kaplan-
Meier. Ejemplo
El estado inicial debe ser definido de manera que la fecha en que se produjo el 1.
evento pueda ser conocida exactamente (fecha de diagnóstico, fecha de la Figura 4. Curvas
intervención quirúrgica, fecha de inicio de la radioterapia o quimioterapia, etc.). de Kaplan-
Como previamente se señaló las fechas correspondientes al estado inicial son Meier. Ejemplo
diferentes para cada sujeto. 2.
El acontecimiento o suceso estudiado también debe estar perfectamente definido para

poder determinar exactamente la fecha del mismo. Este evento está casi siempre asociado
a la muerte del paciente pero no tiene por que ser así, ya que puede hacer referencia
también a la fecha de alta, la fecha de remisión de la enfermedad, la fecha de recidiva, la
fecha de recaída o fallo, etc.
En caso de estudiar la supervivencia, el evento considerado no es que se produzca o no la

muerte, sino la muerte relacionada con la enfermedad. Si consideramos una muerte no
relacionada con la enfermedad introduciremos un sesgo de información. El paciente
fallecido por una causa que no está vinculada al evento de interés debe ser considerado
como censurado y computar su tiempo de seguimiento como incompleto o perdido.
En la última observación se deben registrar dos variables fundamentales, la primera es el

estado del sujeto y la segunda es la fecha de la información de dicho estado. El período
de tiempo transcurrido entre la fecha de entrada y la fecha de la última observación o
contacto se conoce como tiempo de participación en el estudio. Si el paciente ha fallecido
podremos con la fecha de defunción calcular el tiempo de supervivencia. Si el paciente
está vivo a la fecha de la última observación se podrá calcular el tiempo incompleto o
censurado aportado por dicho paciente.
Los factores que modifican la supervivencia de un paciente pueden ser variables fijas en

el tiempo como el sexo, factores genéticos... o variables que se modifican en el tiempo

como la intensidad de exposición a una dieta, los cigarrillos/día, las intervenciones o
tratamientos, la recurrencia, etc.
Los requisitos necesarios para disponer de datos adecuados para un análisis de

supervivencia son:
a. Definir apropiadamente el origen o inicio del seguimiento.

b. Definir apropiadamente la escala del tiempo.
c. Definir apropiadamente el evento.
Limitaciones e imprecisiones de los datos
Los datos de nuestro estudio pueden estar sesgados por las censuras o los truncamientos.
● Génesis de censuras: Pérdidas de seguimiento o fin del estudio.

● Génesis de truncamientos: Entrada en el estudio después del hecho que define el
origen.
Censuras:
● No se observan los eventos en todos los individuos (abandonos, pérdidas).

● No se espera lo suficiente... a que aparezca el evento.
Truncamientos: No se observa la ocurrencia de origen en todos los individuos. Se

tendría que haber empezado con anterioridad ya que la enfermedad habría empezado
antes.
Tipos de observaciones:
La combinación de las observaciones previamente indicadas nos llevaría a poder tener en

nuestros datos observaciones de diferentes tipos:
a. No truncada, no censurada:
El proceso se inicia en I pero el evento ocurre en t
b. No truncada, censurada:
El proceso se inicia en I pero el evento no se presenta durante el

seguimiento realizado.

c. Truncada, no censurada:
Ya se tenía el proceso antes de entrar en el estudio (el diagnóstico o fecha

de inicio está atrasada) y el evento se produce en t.
d. Truncada, censurada:
Ya se tenía el proceso antes de entrar en el estudio, como en la situación

anterior pero el evento no se presenta durante el seguimiento realizado.
En el análisis de la supervivencia asumimos un supuesto básico: los mecanismos del

evento y censura son estadísticamente independientes, o el sujeto censurado en C es
representativo de los que sobreviven en C. Es decir, los no censurados representan bien a
los censurados.
Metodología estadística
El análisis de datos para estudios de supervivencia requiere métodos de análisis

específicos por dos razones fundamentales:
a. Los investigadores muy frecuentemente analizan los datos antes de que todos los
pacientes hayan muerto, ya que si no habría que esperar muchos años para realizar
dichos estudios. Los datos aportados por los pacientes vivos, como se señaló
previamente, son observaciones “censuradas” y deben considerarse como tales a la
hora de analizarlas.
b. La segunda razón por la que se necesitan métodos especiales de análisis es porque
típicamente los pacientes no inician el tratamiento o entran al estudio al mismo
tiempo.
En la metodología estadística básica se señalaba la existencia de pruebas paramétricas y

no paramétricas. En el análisis de supervivencia, el análisis de los datos puede ser
realizado utilizando técnicas paramétricas y no paramétricas.
● Paramétricas: (las más frecuentes)

❍ Distribución Exponencial.
❍ Distribución de Weibull.
❍ Distribución Lognormal.
● No paramétricas:
❍ Kaplan-Meier.
❍ Logrank.
❍ Regresión de Cox.

Los métodos estadísticos más utilizados son los no paramétricos. Así, las curvas de
supervivencia por lo general se producen usando uno de dos métodos: el análisis actuarial
5
o el método del límite de producto de Kaplan-Meier .
El método Kaplan-Meier calcula la supervivencia cada vez que un paciente muere. El

análisis actuarial divide el tiempo en intervalos y calcula la supervivencia en cada
intervalo. El procedimiento Kaplan-Meier da proporciones exactas de supervivencia
debido a que utiliza tiempos de supervivencia precisos; el análisis actuarial da
aproximaciones, debido a que agrupa los tiempos de supervivencia en intervalos. Antes
de que se extendiera el uso de ordenadores, el método actuarial era más fácil de usar para
un número muy grande de observaciones.
El método actuarial implica dos premisas en los datos: la primera es que todos los
abandonos durante un intervalo dado ocurren aleatoriamente durante dicho intervalo. Esta
premisa es de escasa importancia cuando se analizan intervalos de tiempo cortos, sin
embargo, puede haber un sesgo importante cuando los intervalos son grandes, si hay
numerosos abandonos o si los abandonos no ocurren a mitad del intervalo. El método
Kaplan-Meier supera estos problemas. La segunda premisa es que aunque la
supervivencia en un tiempo dado depende de la supervivencia en todos los períodos
previos, la probabilidad de la misma en un período de tiempo es independiente de la
probabilidad de supervivencia en los demás períodos.
El método de Kaplan-Meier se utiliza cuando la muestra es menor de 30 y también para

muestras mayores de 30 y se conocen los tiempos individuales de los censurados y no
censurados.
Método de Kaplan-Meier
Conocido también como del “limite del producto”. La característica distintiva del análisis
con este método es que la proporción acumulada que sobrevive se calcula para el tiempo
de supervivencia individual de cada paciente y no se agrupan los tiempos de
supervivencia en intervalos. Por esta razón es especialmente útil para estudios que
utilizan un número pequeño de pacientes. El método de Kaplan-Meier incorpora la idea
5
del tiempo al que ocurren los eventos .
La validez de este método descansa en dos suposiciones:
1. Las personas que se retiran del estudio tienen un destino parecido a las que quedan.
2. El período de tiempo durante el cual una persona entra en el estudio no tiene
efecto independiente en la respuesta.
Ejemplo 1
6
El ejemplo se basa en datos publicados por Pratt, et al . Se recogieron los intervalos
libres de enfermedad (tiempos de remisión) de 20 pacientes con osteosarcoma, a los que

se trataba con 3 meses de quimioterapia después de amputación.
● 11 pacientes recayeron a los 6, 8, 10, 11, 12, 13, 13, 22, 32, 34, 36 meses.
● 8 pacientes se retiraron vivos al final del estudio contribuyendo 3, 7, 7, 11, 14, 16,
20, 20 meses de observación, sin haber sufrido recaídas.
● Un paciente rehusó continuar la terapia a los 11 meses y se retiró del estudio libre
de enfermedad.
Con estos datos se construye la Tabla 1 para calcular la proporción acumulativa que
sobreviven hasta el tiempo t, o tasa de supervivencia acumulativa, de la siguiente forma:
Columna 1: Se hace una lista con todos los tiempos de supervivencia,

censurada o no censurada, en orden de menor a mayor.
Se coloca un signo positivo al lado de cada observación censurada. Para

observaciones censuradas y no censuradas que tienen el mismo tiempo de
supervivencia, se debe colocar la observación no censurada primero.
Columna 2: Una vez ordenados de menor a mayor los datos, en esta

columna se numeran las observaciones.
Columna 3: Colocar el número de orden (rango) de las observaciones no

censuradas (eventos, en este ejemplo recaídas).
Columna 4: Calcular la proporción de pacientes que sobrevive a cada

intervalo.
donde n es el tamaño de la muestra y r el rango no censurado.
Esta columna calcula la probabilidad de supervivencia para cada tiempo.
Columna 5: Calcular el estimador de la proporción acumulativa que

sobrevive. Se realiza multiplicando los valores de la columna anterior (0,95
· 0,94 = 0,89).
De este modo, la probabilidad de vivir un cierto período de tiempo (hasta el instante t)

desde el principio del estudio, es el producto de la probabilidad acumulada de sobrevivir
hasta el período del tiempo anterior a t, (t-1), multiplicado por la probabilidad de
sobrevivir durante el intervalo (t-1; t).
La probabilidad de supervivencia puede representarse gráficamente como se muestra en

la Figura 3.

Ejemplo 2
Supongamos ahora que disponemos de los datos de supervivencia de 10 pacientes que

han sido aleatoriamente asignados a los tratamientos A y B (datos hipotéticos).
Tratamiento:
A. 3, 5, 7, 9+, 18
B. 12, 19, 20, 20+, 33+
“9+” indica dato censurado y, por tanto, no ha presentado el evento (en este caso morir de
cáncer), como tampoco lo han presentado las observaciones 20+ y 33+. Con estos datos
se construye la Tabla 2 para calcular la proporción acumulativa que sobreviven hasta el
tiempo t, o tasa de supervivencia acumulativa, de la misma forma que se indicó en el
ejemplo previo.
Una vez calculada la probabilidad de supervivencia, ésta puede representarse

gráficamente (Figura 4). Si la última observación es censurada, el estimador no llega a
cero, como se ve en la Figura 4 en el caso del tratamiento B. Los peldaños de la escalera
que desciende se deben a los tiempos no censurados.
Método actuarial
Con el método actuarial, los tiempos de supervivencia se agrupan en intervalos. La

longitud del intervalo depende de la frecuencia con que ocurre el suceso de interés.
Los intervalos no necesitan ser de la misma longitud. El método de la tabla vital o análisis
7
actuarial se conoce en la bibliografía médica como el método de Cutler-Ederer .
Este método asume:
1. Las retiradas y las pérdidas se distribuyen homogéneamente en el intervalo. Por

tanto, el número de personas a riesgo en un intervalo es igual al número de
personas que entra menos la mitad del número que se pierde o retira del intervalo.
2. Las personas que se retiran del estudio tienen un destino parecido a las que se
quedan.
3. El período de tiempo durante el cual una persona entra en el estudio no tiene
efecto independiente en la respuesta.
Ejemplo 3
7
Se utilizan para este ejemplo los datos de la Tabla 3 . Para ello, los cálculos se realizan
como sigue:
Columna 1: Intervalos de tiempo desde el inicio del estudio. La amplitud

de los intervalos puede ser variable.
Columna 2: Número de individuos en cada intervalo. Es el número que

entra en cada intervalo. El número que entra en el primer intervalo es el
número total que entra en el estudio. El número que entra en otros
intervalos es el número que estaba presente al principio del intervalo previo
menos aquéllos que se perdieron, retiraron o murieron (recayeron) en el
intervalo anterior.
Columna 3: Número de muertos o eventos en cada intervalo.
Columna 4: Número de pacientes perdidos en el seguimiento o abandonos

vivos.
Columna 5: Proporción condicional de recaer durante el intervalo.
Este estimador de la probabilidad condicional de recaída durante cualquier

intervalo dada la exposición al riesgo de recaer se calcula como:
donde
● d = muertes o eventos durante el intervalo.

● n = vivos al inicio del intervalo.
● w = abandono vivo o pérdida de seguimiento.
Columna 6: Proporción condicional que sobrevive libre de enfermedad: la

proporción condicional que sobrevive durante el intervalo es igual a 1-
proporción condicional de recaer durante el intervalo (1-columna 5).
Columna 7: Proporción acumulativa que sobrevive libre de enfermedad.

Esta proporción es un estimador de la tasa de supervivencia acumulativa.
Es igual a la proporción condicional que sobrevive libre de enfermedad
durante los intervalos previos. El valor del primer intervalo es siempre de 1.
Comparación de dos curvas de supervivencia
Para comparar si las diferencias observadas en dos curvas de supervivencia pueden ser
explicadas o no por el azar, debemos realizar un test estadístico. Si no hubiese
observaciones censuradas la prueba no paramétrica de suma de rangos de Wilcoxon
podría ser apropiada para comparar dos muestras independientes. Como la mayoría de las
veces hay datos censurados debemos utilizar otras técnicas.
La prueba de la t de Student para datos independientes comparando la supervivencia en

uno y otro grupo tampoco es apropiada, pues los tiempos de supervivencia no presentan
una distribución normal.

Hay diversas pruebas para comparar distribuciones de supervivencia. Aquí señalaremos

la prueba de logaritmo del rango (“logrank”). Para realizar esta prueba, existen a su vez
diversos métodos.
Esta prueba compara en esencia el número de eventos (muertes, fracasos) en cada grupo
con el número de fracasos que podría esperarse de las pérdidas en los grupos combinados.
Se emplea la prueba del chi-cuadrado para analizar las pérdidas observadas y esperadas.
Para el cálculo se disponen los datos de tal forma que se objetive en cada grupo y en cada
mes (años, etc.) los pacientes en riesgo y los eventos presentados.
Si utilizamos los datos del Ejemplo 2 para la estimación de Kaplan-Meier previamente

señalado, podremos construir la Tabla 4.
El número esperado de pérdidas para un grupo se calcula multiplicando el número total

de pérdidas en un período dado por la proporción de pacientes en ese grupo. Así por
ejemplo, en el mes 7 hay una pérdida; de modo que es el número de pérdidas que
se espera ocurran en el grupo A y es el número de pérdidas que se espera para el

grupo B.
En la primera columna se ponen los meses en los que se objetivaron eventos (muertes).
Se trata por lo tanto de tiempos no censurados.
En la 2ª y 3ª columna debe colocarse el nº de pacientes en cada grupo que estuvieron a

riesgo hasta la presencia del evento.
En la columna 4ª se pone el número total de pacientes.
En las columnas 5 a 7 se ponen los pacientes que tuvieron el evento en ese tiempo y el
total.
Se calculan los totales para pérdidas observadas y esperadas y el test siguiente puede
utilizarse para probar la hipótesis nula de que las distribuciones de supervivencia son
iguales en los dos grupos.
donde:
●
es el número total pérdidas observadas en el grupo 1.
●
es el número total de pérdidas esperadas en el grupo 1.

●
es el número total de pérdidas observadas en el grupo 2.
●
es el número total de pérdidas observadas en el grupo 2.
El test sigue una distribución chi cuadrado con un grado de libertad.
Consultando las tablas de una distribución con un grado de libertad se concluye que
la diferencia es significativa. Por lo tanto, se concluye que hay diferencia entre ambas
curvas de supervivencia.
Los datos generados permiten a su vez realizar una estimación del riesgo (OR).
Así, los pacientes con el tratamiento B sobreviven 4,21 veces más que los del tratamiento
A.
Bibliografía
1. Dawson-Saunders B, Trapp RG. Bioestadística Médica. Mexico: Editorial El Manual

Moderno; 1993.
2. Breslow NE, Day NE. Statistical methods in cancer research. Vol. II. The design and
analysis of cohort studies. Lyon: IARC Scientific Publications; 1987.
3. Collet D. Modelling survival data in medical research. London: Chapman & Hall; 1994.
[Contenido]
4. Lee ET, Wang JW. Satistical Methods for suvirval data analysis. 3rd. ed. Belmont, CA:
Lifetime learning Publications; 2003. [Contenido]
5. Kaplan EL, Meier P. Nonparametric estimation from incomplete observations. J Am Stat
Assoc 1958; 53: 457-481.
6. Pratt C, Shanks E, Hustu O, Rivera G, Smith J, Kumar AP. Adjuvant multiple drug
chemotherapy for osteosarcoma of the extremity. Cancer 1977;39(1):51-57. [Medline]
7. Cutler SJ, Ederer F. Maximum utilization of the life table method in analyzing survival. J
Chronic Dis 1958; 8: 699-712.
Figura 1. Esquema general de un estudio de supervivencia.

Figura 2. Seguimiento de pacientes con distinta fecha de entrada.

Tabla 1. Método para calcular la curva de supervivencia de Kaplan-Meier.

Columna 1 Columna 2 Columna 3 Columna 4 Columna 5
Orden de las
Tiempo de
observaciones
supervivencia Nº de orden
no censuradas
en meses
(r)
3+ 1 -- -- --
6 2 2 18/19 = 0,95 0,95
7+ 3 -- -- --
7+ 4 -- -- --
8 5 5 15/16 = 0,94 0,89
10 6 6 14/15 = 0,93 0,83
11 7 7 13/14 = 0,93 0,77
11+ 8 -- -- --
11+ 9 -- -- --
12 10 10 10/11 = 0,91 0,70
13 11 11 9/10 = 0,90 0,63
13 12 12 8/9 = 0,89 0,56*
14+ 13 -- -- --

16+ 14 -- -- --
20+ 15 -- -- --
20+ 16 -- -- --
22 17 17 3 / 4 = 0,75 0,42
32 18 18 2/3 = 0,67 0,28
34 19 19 1 / 2 = 0,50 0,14
36 20 20 0 0,0
*Cuando hay un tiempo de supervivencia (13 meses) con valores de supervivencia diferentes se
utilizará como estimador el valor más bajo (0,56).
Figura 3. Curvas de Kaplan-Meier. Ejemplo 1.
Tabla 2. Método para calcular la curva de supervivencia de Kaplan-Meier. Ejemplo 2.

Columna 1 Columna 2 Columna 3 Columna 4 Columna 5
Orden de las
Tiempo de
observaciones
supervivencia Nº de orden
no censuradas
en meses
(r)
Tratamiento A

3 1 1 4/5=0,80 0,8
5 2 3 3/4=0,75 0,6
7 3 3 2/3=0,67 0,4
9+ 4 -- -- --
18 5 5 0 0,0
Tratamiento B
12 1 1 4/5=0,80 0,80
19 2 2 3/4=0,75 0,60
20 3 3 2/3=0,67 0,40
20+ 4 -- -- --
30+ 5 -- -- --
Figura 4. Curvas de Kaplan-Meier. Ejemplo 2.
Tabla 3. Método actuarial para calcular la función de supervivencia. Ejemplo 3.

Columna 1 Columna 2 Columna 3 Columna 4

Muertes o eventos Abandono vivo o

Intervalos de
Vivos al inicio del intervalo durante el intervalo pérdida de
tiempo
(d) seguimiento (w)
0-5 949 731 18
5-10 200 52 16
10-15 132 14 75
15-20 43 10 33
Columna 5 Columna 6 Columna 6
Probabilidad
Probabilidad de muerte o del Probabilidad de estar
acumulada de
evento libre del evento
supervivencia
q = d / (n-[w/2]) pi = 1 - q s = pi · p -1
i
0-5 731 / (949-[18/2]) = 0,77 0,23 0,23

5-10 52 / (200-[16/2]) = 0,27 0,73 0,17 = 0,23 · 0,73
10-15 14 / (132-[75/2]) ) = 0,15 0,85 0,14 = 0,17 · 0,85
15-20 10 / (43-[33/2]) = 0,38 0,62 0,09 = 0,14 · 0,62
Tabla 4. Test de log-rank para comparar la probabilidad de supervivencia entre grupos.

Ejemplo 2.
Pacientes en riesgo Pérdidas observadas Pérdidas esperadas
Mes del
Tratamiento Tratamiento Tratamiento
evento
A B Total A B Total A B Total
3 5 5 10 1 0 1 0,50 0,50 1
5 4 5 9 1 0 1 0,44 0,56 1
7 3 5 8 1 0 1 0,38 0,62 1
12 1 5 6 0 1 1 0,16 0,83 1
18 1 4 5 1 0 1 0,20 0,8 1
19 0 4 4 0 1 1 0,0 1,0 1
20 0 3 3 0 1 1 0,0 1,0 1
4 3 7 1,68 5,31 7

Medidas de concordancia: el índice Kappa
López de Ullibarri Galparsoro I, Pita Fernández, S. [ Correo de contacto ]

En cualquier estudio de investigación una cuestión clave es la fiabilidad de los procedimientos de Contenido
(1) El índice Kappa
medida empleados. Como señala Fleiss en el contexto de los estudios clínicos, ni el más elegante
Valoración del
de los diseños sería capaz de paliar el daño causado por un sistema de medida poco fiable.
índice Kappa
Contrastes de
Tradicionalmente se ha reconocido una fuente importante de error de medida en la variabilidad hipótesis e
12 intervalos de
entre observadores ( , ). Consecuentemente, un objetivo de los estudios de fiabilidad debe consistir
confianza
en estimar el grado de dicha variabilidad.
Bibliografía
Documento
En este sentido, dos aspectos distintos entran a formar parte típicamente del estudio de fiabilidad: en PDF
de una parte, el sesgo entre observadores –dicho con menos rigor, la tendencia de un observador a (86Kb)
dar consistentemente valores mayores que otro– y de otra, la concordancia entre observadores –es ¿Problemas
decir, hasta qué punto los observadores coinciden en su medición–. con PDF?
Cálculos online
Ciñéndonos a este segundo aspecto, la manera concreta de abordar el problema depende Calculadora del
Índice Kappa
estrechamente de la naturaleza de los datos: si éstos son de tipo continuo es habitual la utilización
de estimadores del coeficiente de correlación intraclase, mientras que cuando se trata de datos de tipo
categórico el estadístico más empleado es el índice kappa, al que dedicamos el resto de este artículo.
El índice kappa
Supongamos que dos observadores distintos clasifican independientemente una muestra de n ítems en un
mismo conjunto de C categorías nominales. El resultado de esta clasificación se puede resumir en una
tabla como la tabla 1, en la que cada valor xij representa el número de ítems que han sido clasificados por
el observador 1 en la categoría i y por el observador 2 en la categoría j.
Tabla 1. Formato de los datos en un estudio de concordancia

Observador 2
Observador 1 1 2 … C Total
1 X11 X12 … X1C X1
2 X21 X22 … X2C X2
· · · ·
· · · ·
· · · ·
C XC1 XC2 … XCC XC
Total X.1 X.2 … X n

.C
Por ejemplo, podemos pensar en dos radiólogos enfrentados a la tarea de categorizar una muestra de
radiografías mediante la escala: "anormal, "dudosa", "normal". La tabla 2 muestra un conjunto de datos
hipotéticos para este ejemplo, dispuesto de acuerdo con el esquema de la tabla 1.
http://www.fisterra.com/mbe/investiga/kappa/kappa.htm (1 of 6)22/04/2006 1:28:02 PM

Tabla 2. Datos hipotéticos de clasificación de una muestra de 100 radiografías por dos radiólogos.
Radiólogo 2
Radiólogo 1 Anormal Dudosa Normal Total
Anormal 18 4 3 25
Dudosa 1 10 5 16
Normal 2 4 53 59
Total 21 18 61 100
Desde un punto de vista típicamente estadístico es más adecuado liberarnos de la muestra concreta (los n
ítems que son clasificados por los dos observadores) y pensar en términos de la población de la que se
supone que ha sido extraída dicha muestra. La consecuencia práctica de este cambio de marco es que
debemos modificar el esquema de la tabla 1 para sustituir los valores xij de cada celda por las
probabilidades conjuntas, que denotaremos por π ij (tabla 3).
Tabla 3. Modificación del esquema de la Tabla 1 cuando se consideran las probabilidades de cada
resultado
Observador 2
Observador1 1 2 … C Marginal
1 π 11 π 12 … π1 π1
2 π 12 π 22 … π 2C π2
· · · ·
· · · ·
· · · ·
C π C1 π C2 … π CC πc
Marginal π .1 π .2 … π .C 1
Con el tipo de esquematización que hemos propuesto en las tablas 1 ó 3 es evidente que las respuestas
que indican concordancia son las que se sitúan sobre la diagonal principal. En efecto, si un dato se sitúa
sobre dicha diagonal, ello significa que ambos observadores han clasificado el ítem en la misma categoría
del sistema de clasificación. De esta observación surge naturalmente la más simple de las medidas de
concordancia que consideraremos: la suma de las probabilidades a lo largo de la diagonal principal. En
símbolos, si denotamos dicha medida por π 0, será
donde los índices del sumatorio van desde i = 1 hasta i = C.

Como es obvio, se cumple que
correspondiendo el valor 0 a la mínima concordancia posible y el 1 a la máxima.
3
Aunque este sencillo índice ha sido propuesto en alguna ocasión ( ) como medida de concordancia de
elección, su interpretación no está exenta de problemas. La tabla 4 ilustra el tipo de dificultades que
pueden surgir. En el caso A, π 0 = 0.2, luego la concordancia es mucho menor que en el caso B, donde π 0
= 0.8. Sin embargo, condicionando por las distribuciones marginales se observa que en el caso A la
concordancia es la máxima posible, mientras que en el B es la mínima.
Tabla 4. Ejemplos de concordancia.

A B
Observador 2 Observador 2
Observador 1 1 2 Marginal Observador 1 1 2 Marginal

1 0.1 0.8 0.9 1 0.8 0.1 0.9

2 0 0.1 0.1 2 0.1 0 0.1
Marginal 0.1 0.9 1 Marginal 0.9 0.1 1
Por lo tanto, parece claro que la búsqueda se debe orientar hacia nuevas medidas de concordancia que
tengan en cuenta las distribuciones marginales, con el fin de distinguir entre dos aspectos distintos de la
4
concordancia, a los que podríamos aludir informalmente como concordancia absoluta o relativa ( ). El
índice kappa representa una aportación en esta dirección, básicamente mediante la incorporación en su
fórmula de una corrección que excluye la concordancia debida exclusivamente al azar –corrección que,
como veremos, está relacionada con las distribuciones marginales–.
Con la notación ya empleada en la tabla 3, el índice kappa, κ , se define como
[1]
donde los índices del sumatorio van desde i = 1 hasta i = C.
Es instructivo analizar la expresión anterior. Observemos en primer lugar que si suponemos la

independencia de las variables aleatorias que representan la clasificación de un mismo ítem por los dos
observadores, entonces la probabilidad de que un ítem sea clasificado por los dos en la misma categoría i
es π i. .i . Por lo tanto, si extendemos el sumatorio a todas las categorías, Σ π i. .i es precisamente la
π π
probabilidad de que los dos observadores concuerden por razones exclusivamente atribuibles al azar. En
consecuencia, el valor de κ simplemente es la razón entre el exceso de concordancia observado más allá
5
del atribuible al azar (Σ π ii - Σ π i. ) y el máximo exceso posible (1 - Σ π i. ) ( ).
π .i π .i
La máxima concordancia posible corresponde a κ = 1. El valor κ = 0 se obtiene cuando la concordancia

observada es precisamente la que se espera a causa exclusivamente del azar. Si la concordancia es mayor
que la esperada simplemente a causa del azar, κ > 0, mientras que si es menor, κ < 0. El mínimo valor de
κ depende de las distribuciones marginales.
En el ejemplo de la tabla 4, κ vale 0.024 en el caso A y -0.0216 en el B, lo que sugiere una interpretación
de la concordancia opuesta a la que sugiere el índice π 0 (vide supra). Para comprender resultados
6
paradójicos como éstos ( ), conviene recordar los comentarios que hacíamos más arriba acerca de las
limitaciones del índice π 0.
7
A la hora de interpretar el valor de κ es útil disponer de una escala como la siguiente ( ), a pesar de su
arbitrariedad:
Valoración del Índice Kappa

Valor de k Fuerza de la concordancia
< 0.20 Pobre
0.21 – 0.40 Débil
0.41 – 0.60 Moderada
0.61 – 0.80 Buena
0.81 – 1.00 Muy buena
A partir de una muestra se puede obtener una estimación, k, del índice kappa simplemente reemplazando
en la expresión [1] las probabilidades por las proporciones muestrales correspondientes:

[2]
Con los datos de la tabla 2 se obtiene aplicando esta fórmula un valor de k = 0.66, que según nuestra
convención anterior calificaríamos como una buena concordancia.
Contrastes de hipótesis e intervalos de confianza.
La obtención de una simple estimación puntual del valor de κ no nos proporciona ninguna indicación de
la precisión de dicha estimación. Desde el punto de vista de la Estadística Inferencial es esencial conocer
la variabilidad de los estimadores y emplear ese conocimiento en la formulación de contrastes de
hipótesis y en la construcción de intervalos de confianza.
8
Fleiss, Cohen y Everitt ( ) dan la expresión de la varianza asintótica –es decir, para muestras
infinitamente grandes– del estimador k, cuando el verdadero valor de κ es cero:
[3]
Reemplazando las probabilidades teóricas, que desconocemos, por las proporciones muestrales,
obtenemos un estimador de σ 02(k) que denotaremos por s02(k):
[4]
Podemos emplear este resultado para contrastar la hipótesis nula de que κ es cero frente a la alternativa de
que no lo es, utilizando como estadístico del contraste el cociente
[5]
(|k| denota el valor absoluto de k) y comparando su valor con los cuantiles de la distribución normal
estándar. Con los datos de la tabla 2, k = 0.6600 y s02(k)= 0.0738, luego |k|/ s0(k)= 8.9441 y como z 0.975
= 1.96, concluimos que, al nivel de significación α = 0.05, el valor de k es significativo y nos lleva a
rechazar que κ sea cero.
Es discutible la utilidad del contraste de hipótesis anterior, ya que como en general es razonable esperar
cierto grado de concordancia más allá del azar, nos encontraremos trivialmente con un resultado
significativo. Para poder realizar contrastes de hipótesis más interesantes es necesario conocer la
expresión de la varianza asintótica cuando no se supone que κ es cero. La expresión es sensiblemente más
4
compleja que la [3] ( ):

[6]
donde: T1 = Σ π ii,
T2 = Σ π i. ,
π .i
T3 = Σ π ii(π i. + ),
π .i
T4 = Σ Σ π ij(π j. + )2.
π .i
Se puede demostrar que cuando κ es cero la expresión [6] se reduce a la [3]. Para contrastar la hipótesis
nula de que κ es igual a un valor dado κ 0 frente a una alternativa bilateral, procedemos como en el caso κ
= 0, sólo que empleando como estadístico del contraste:
[7]
donde s(k) ahora es la raíz cuadrada de s2(k), el estimador de σ 2(k) obtenido sustituyendo en [6]
probabilidades por proporciones muestrales. Es obvio que el caso κ = 0 que explicábamos con
anterioridad no es más que un caso particular de este contraste, con una mejor estimación del error
estándar.
Volviendo al ejemplo de la tabla 2, para contrastar la hipótesis de que el verdadero valor de κ es κ 0 = 0.7,
como k = 0.6600 y s(k) = 0.0677, calculamos |k - κ 0|/s(k) = 0.5908 < z 0.975 = 1.96. Por tanto, al nivel de
significación α = 0.05, no hay suficiente evidencia para rechazar la hipótesis nula.
Desde el punto de vista inferencial, un enfoque más versátil que el del contraste de hipótesis consiste en
dar intervalos de confianza para el verdadero valor de κ . Tomados simultáneamente, k y el intervalo de
confianza nos dan, además de la mejor estimación de κ , una medida del error que podemos cometer con
esa estimación. Un intervalo de confianza aproximado del (1-α )100%, construido por el método
estándar, es de la forma:
donde z 1- es el percentil de orden (1-α /2)100 de la distribución normal estándar. Con los datos de la
α /2
tabla 2, nuestro intervalo de confianza del 95% para κ sería [0.5273 , 0.7927]. Se observa como los
valores 0 y 0.7 que considerábamos en los contrastes anteriores, quedan respectivamente fuera y dentro
del intervalo, un hecho que ilustra la equivalencia entre los dos enfoques: contraste de hipótesis y
estimación por intervalos.
Aunque el lector más interesado en los aspectos prácticos, aquél que se limita exclusivamente a usar un
programa estadístico para analizar sus datos, quizás piense que todos estos detalles son algo prolijos,
consideramos que son importantes para interpretar y explotar óptimamente los resultados que le brinda el
programa. Por ejemplo, un programa ampliamente difundido como el SPSS, muestra solamente el valor
de k (expresión [2]), su error estándar calculado a partir del estimador de [6], y el valor del estadístico [5].
Las explicaciones de este epígrafe muestran cómo utilizar estos valores para obtener intervalos de
confianza y realizar otros contrastes de hipótesis.

Bibliografía
1. Fleiss JL. The design and analysis of clinical experiments. New York: Wiley; 1986.
2. Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics
1977; 33: 159-174. [Medline]
3. Holley WJ, Guilford JP. A note on the G index of agreement. Educ Psychol Meas 1964; 32: 281-
288.
4. Bishop YMM, Fienberg SE, Holland PW. Discrete multivariate analysis: theory and practice.
Cambridge, Massachussetts: MIT Press; 1977.
5. Fleiss JL. Statistical methods for rates and proportions, 2nd edition. New York: Wiley; 2000.
6. Feinstein AR, Cicchetti DV. High agreement but low kappa: I. The problems of two paradoxes.
J Clin Epidemiol 1990; 43: 543-549. [Medline]
7. Altman DG. Practical statistics for medical research. New York: Chapman and Hall; 1991.
8. Fleiss JL, Cohen J, Everitt BS. Large sample standard errors of kappa and weighted kappa.
Psychol Bull 1969; 72: 323-327.

Pruebas diagnósticas: sensibilidad, especificidad, valor predictivo...
Pruebas diagnósticas
Pita Fernández, S. [ Correo de contacto ], Pértegas Díaz, S. [ Correo de contacto ]

La medicina es una ciencia de probabilidades y un arte de Contenido

manejar la incertidumbre. Dicha incertidumbre se extiende La validez de una prueba diagnóstica:
no sólo a las actividades preventivas, terapéuticas y - Sensibilidad
pronósticas sino también a las diagnósticas. En las fases - Especificidad
del proceso diagnóstico intervienen la historia clínica, la - Ejemplo

La seguridad de una prueba diagnóstica:
exploración física y la realización de pruebas
- Valor predictivo positivo
1-2
complementarias . Cuando existen varias hipótesis - Valor predictivo negativo
diagnósticas, se realizará el diagnóstico diferencial y las La influencia de la prevalencia
pruebas complementarias tratarán de aclarar las dudas Razones de probabilidad:
existentes. Si solamente hay una sospecha diagnóstica, las - Razón de verosimilitudes positiva o
cociente de probabilidades positivo
pruebas complementarias tratarán de confirmarla. La
- Razón de verosimilitudes negativa o
realización simultánea de varias pruebas complementarias cociente de probabilidades negativo
se denomina pruebas complementarias en paralelo y la Bibliografía
realización de pruebas complementarias según los Tablas
resultados de otras previas, se denomina pruebas Tabla 1. Relación entre el resultado de una
complementarias en serie. Al realizar pruebas en paralelo prueba diagnóstica y la presencia o
aumenta la probabilidad de diagnosticar a un enfermo, ausencia de enfermedad
pero también aumenta la probabilidad de considerar como Tabla 2. Resultados de la exploración y
biopsia prostática de una muestra de
enfermo a un sano. El riesgo de la realización de pruebas
pacientes con sospecha de cáncer de
en serie es no diagnosticar a algunos enfermos. En cambio, próstata
pocos sanos serán considerados como enfermos. Tabla 3. Resultados de la aplicación del test
de VIH en una población de baja prevalencia
Es evidente que una buena prueba diagnóstica es la que Tabla 4. Resultados de la aplicación del test
ofrece resultados positivos en enfermos y negativos en de VIH en una población de alta prevalencia
sanos. Por lo tanto, las condiciones que deben ser exigidas Documento en PDF (62 Kb)
3 ¿Problemas con PDF?
a un test son :
Cálculos (Excel)
Estudio de la capacidad predictiva de
● Validez: Es el grado en que un test mide lo que se una prueba diagnóstica
supone que debe medir. ¿Con que frecuencia el
resultado del test es confirmado por procedimientos diagnósticos más complejos y
rigurosos? La sensibilidad y la especificidad de un test son medidas de su validez.
● Reproductividad: es la capacidad del test para ofrecer los mismos resultados
cuando se repite su aplicación en circunstancias similares. La variabilidad
biológica del hecho observado, la introducida por el propio observador y la
derivada del propio test, determinan su reproductividad.
http://www.fisterra.com/mbe/investiga/pruebas_diagnosticas/pruebas_diagnosticas.htm (1 of 9)22/04/2006 1:28:26 PM

● Seguridad: La seguridad viene determinada por el valor predictivo de un

resultado positivo o negativo. ¿Con que seguridad un test predecirá la presencia o
ausencia de enfermedad? Ante un resultado positivo de un test ¿qué probabilidad
existe de que este resultado indique presencia de la enfermedad? Veremos
posteriormente que esta probabilidad está muy influenciada por la prevalencia de
la patología.
A su vez, es conveniente que el test sea sencillo de aplicar, aceptado por los pacientes o la
población general, que tenga los mínimos efectos adversos y que económicamente sea
soportable.
En este trabajo se revisarán fundamentalmente los conceptos que determinan la validez

de un test (sensibilidad y especificidad) y su seguridad (valores predictivos positivos y
negativos).
La validez de una prueba diagnóstica. Sensibilidad y especificidad.
El caso más sencillo que se nos puede plantear es el de una prueba dicotómica, que
clasifica a cada paciente como sano o enfermo en función de que el resultado de la prueba
sea positivo o negativo. En casos como éste, generalmente un resultado positivo se
asocia con la presencia de enfermedad y un resultado negativo con la ausencia de la
misma. Cuando se estudia una muestra de pacientes, los datos obtenidos permiten
clasificar a los sujetos en cuatro grupos según una tabla 2x2 como la que se muestra en la
Tabla 1. En ella, se enfrenta el resultado de la prueba diagnóstica (en filas) con el estado
real de los pacientes (en columnas) o, en su defecto, el resultado de la prueba de
referencia o “gold standard” que vayamos a utilizar. El resultado de la prueba puede ser
correcto (verdadero positivo y verdadero negativo) o incorrecto (falso positivo y falso
negativo). El análisis de su validez puede obtenerse calculando los valores de sensibilidad
4
y especificidad :
Sensibilidad
Es la probabilidad de clasificar correctamente a un individuo enfermo, es decir, la

probabilidad de que para un sujeto enfermo se obtenga en la prueba un resultado positivo.
La sensibilidad es, por lo tanto, la capacidad del test para detectar la enfermedad.
Cuando los datos obtenidos a partir de una muestra de pacientes se clasifican en una tabla
como la que se muestra en la Tabla 1, es fácil estimar a partir de ella la sensibilidad como
la proporción de pacientes enfermos que obtuvieron un resultado positivo en la prueba
diagnóstica. Es decir:
De ahí que también la sensibilidad se conozca como “fracción de verdaderos positivos

(FVP)”.

Especificidad
Es la probabilidad de clasificar correctamente a un individuo sano, es decir, la

probabilidad de que para un sujeto sano se obtenga un resultado negativo. En otras
palabras, se puede definir la especificidad como la capacidad para detectar a los sanos. A
partir de una tabla como la Tabla 1, la especificidad se estimaría como:
De ahí que también sea denominada “fracción de verdaderos negativos (FVN)”.
Ejemplo:
Como ejemplo de lo visto hasta ahora, consideremos los datos de un estudio en el que se
incluyó a 2.641 pacientes con sospecha de cáncer prostático que acudieron a una consulta
de Urología durante un periodo de tiempo determinado. Durante su exploración, se
recogió el resultado del tacto rectal realizado a cada uno de estos pacientes, según fuese
éste normal o anormal, y se contrastó con el posterior diagnóstico obtenido de la biopsia
prostática. Los datos del estudio y los resultados obtenidos se muestran en la Tabla 2. Se
encontraron en total 1.121 casos de cáncer, lo cual representa un 42,45% del total de
sujetos estudiados. La sensibilidad del tacto rectal para detectar cáncer fue de 56,56%
(634/1121) y la especificidad de 82,3% (1251/1520). Así, el tacto fue anormal en un
56,56% de los casos de cáncer prostático y normal en un 82,3% de los casos que
presentaron finalmente otras patologías. Esto significa que un 100-56,56=43,44% de los
pacientes que efectivamente tenían cáncer presentaban tactos normales. Claramente ello
indica la necesidad de utilizar otros marcadores más sensibles, como el PSA o sus
derivados, para poder establecer el diagnóstico de forma más precisa.
Resulta obvio que lo ideal sería trabajar con pruebas diagnósticas de alta sensibilidad y
especificidad, pero esto no siempre es posible. En general, las pruebas de screening deben
ser de alta sensibilidad para poder captar a todos los enfermos. Una prueba muy sensible
será especialmente adecuada en aquellos casos en los que el no diagnosticar la
enfermedad puede resultar fatal para los enfermos, como ocurre con enfermedades
peligrosas pero tratables, como los linfomas o la tuberculosis, o en enfermedades en las
que un falso positivo no produzca serios trastornos psicológicos o económicos para el
paciente (por ejemplo, la realización de mamografía en el cáncer de mama).
Por otra parte, la especificidad se refiere, como se señaló previamente, a la probabilidad

de que un sujeto sano sea clasificado adecuadamente. En general, las pruebas
confirmatorias del diagnóstico deben ser de alta especificidad, para evitar falsos positivos.
Los tests de alta especificidad son necesarios en enfermedades graves pero sin
tratamiento disponible que las haga curables, cuando exista gran interés por conocer la
ausencia de enfermedad o cuando diagnosticar a un paciente de un mal que realmente no
padece pueda acarrear graves consecuencias, ya sean físicas, psicológicas o económicas
(por ejemplo, en el caso del SIDA).

La seguridad de una prueba diagnóstica. Valores predictivos.
Los conceptos de sensibilidad y especificidad permiten, por lo tanto, valorar la validez de

una prueba diagnóstica. Sin embargo, carecen de utilidad en la práctica clínica. Tanto la
sensibilidad como la especificidad proporcionan información acerca de la probabilidad de
obtener un resultado concreto (positivo o negativo) en función de la verdadera condición
del enfermo con respecto a la enfermedad. Sin embargo, cuando a un paciente se le
realiza alguna prueba, el médico carece de información a priori acerca de su verdadero
diagnóstico, y más bien la pregunta se plantea en sentido contrario: ante un resultado
positivo (negativo) en la prueba, ¿cuál es la probabilidad de que el paciente esté
realmente enfermo (sano)?. Así pues, resulta obvio que hasta el momento sólo hemos
abordado el problema en una dirección. Por medio de los valores predictivos
5
completaremos esta información :
Valor predictivo positivo:
Es la probabilidad de padecer la enfermedad si se obtiene un resultado positivo en el test.

El valor predictivo positivo puede estimarse, por tanto, a partir de la proporción de
pacientes con un resultado positivo en la prueba que finalmente resultaron estar enfermos:
Valor predictivo negativo:
Es la probabilidad de que un sujeto con un resultado negativo en la prueba esté realmente

sano. Se estima dividiendo el número de verdaderos negativos entre el total de pacientes
con un resultado negativo en la prueba:
Retomando el ejemplo anterior sobre cáncer prostático, el valor predictivo positivo es en

este caso del 70,21% (634/903) y el valor predictivo negativo del 71,98% (1251/1738).
Ello significa que en un 70,21% de los pacientes con un tacto anormal finalmente se
confirmó la presencia de cáncer, mientras que de los que no se detectaron anomalías en el
tacto un 71,98% estaban efectivamente sanos.
La influencia de la prevalencia.
Hemos visto cómo los valores de sensibilidad y especificidad, a pesar de definir

completamente la validez de la prueba diagnóstica, presentan la desventaja de que no
proporcionan información relevante a la hora de tomar una decisión clínica ante un
determinado resultado de la prueba. Sin embargo, tienen la ventaja adicional de que son
propiedades intrínsecas a la prueba diagnóstica, y definen su validez independientemente
de cuál sea la prevalencia de la enfermedad en la población a la cual se aplica.

Por el contrario, el concepto de valores predictivos, a pesar de ser de enorme utilidad a la

hora de tomar decisiones clínicas y transmitir a los pacientes información sobre su
diagnóstico, presenta la limitación de que dependen en gran medida de lo frecuente que
sea la enfermedad a diagnosticar en la población objeto de estudio. Cuando la prevalencia
de la enfermedad es baja, un resultado negativo permitirá descartar la enfermedad con
mayor seguridad, siendo así el valor predictivo negativo mayor. Por el contrario, un
resultado positivo no permitirá confirmar el diagnóstico, resultando en un bajo valor
predictivo positivo.
Ilustraremos lo anterior con un sencillo ejemplo. Para el diagnóstico del VIH se emplean
tests que han confirmado tener una alta validez, con valores aproximados de sensibilidad
y especificidad de un 99,5%. Supongamos que se aplicase esta prueba a la totalidad de la
población gallega, que se cifra en 2.800.000 habitantes. Si asumimos que en Galicia
existen 6.000 pacientes VIH positivos (lo cual implicaría una prevalencia de 6000/
2.800.000 =0,21%), el test resultaría positivo en un total de 19.940 sujetos, obteniéndose
un valor predictivo positivo del 29,9% (Tabla 3). Así pues, sólo un 29,9% de los sujetos
con un resultado positivo en el test resultarían estar realmente afectados, mientras que un
70,1% de los mismos no presentarían la enfermedad. Resulta obvio que en una
comunidad como la gallega la utilización de esta prueba no resultaría útil, debido a la alta
proporción de falsos positivos que conllevaría.
Veamos ahora que ocurriría si se aplicase la misma prueba a una población en la que el
número de enfermos VIH+ fuese de 800.000 (resultando en una prevalencia mucho
mayor de un 800.000/2.800.000=28,6%). En este caso, la predictividad de una prueba
positiva aumenta de un 29,9% a un 98,7%, disminuyendo la proporción de falsos
positivos a tan sólo un 1,3% (Tabla 4). Por lo tanto, si la prevalencia es alta, un resultado
positivo tiende a confirmar la presencia de la enfermedad, mientras que si la prevalencia
es baja, un resultado positivo no permitirá afirmar su existencia.
Razones de probabilidad
Queda claro pues cómo la prevalencia es un factor determinante en los valores predictivos
de un test. Por lo tanto, éstos , no pueden ser utilizados como índices a la hora de
comparar dos métodos diagnósticos diferentes, ni tampoco a la hora de extrapolar los
resultados de otros estudios a datos propios. Por ello, resulta necesario determinar otros
índices de valoración que sean a la vez clínicamente útiles y no dependan de la
prevalencia de la enfermedad en la población a estudiar. Así, además de los conceptos de
sensibilidad, especificidad y valores predicitivos, se suele hablar del concepto de razón de
6
verosimilitudes, razón de probabilidad, o cociente de probabilidades . Estos miden cuánto
más probable es un resultado concreto (positivo o negativo) según la presencia o ausencia
de enfermedad:
● Razón de verosimilitudes positiva o cociente de probabilidades positivo: se

calcula dividiendo la probabilidad de un resultado positivo en los pacientes
enfermos entre la probabilidad de un resultado positivo entre los sanos. Es, en
definitiva, el cociente entre la fracción de verdaderos positivos (sensibilidad) y la
fracción de falsos positivos (1-especificidad):

● Razón de verosimilitudes negativa o cociente de probabilidades negativo: se

calcula dividiendo la probabilidad de un resultado negativo en presencia de
enfermedad entre la probabilidad de un resultado negativo en ausencia de la
misma. Se calcula por lo tanto, como el cociente entre la fracción de falsos
negativos (1-sensibilidad) y la fracción de verdaderos negativos (especificidad):
Volvamos de nuevo al ejemplo planteado en la Tabla 2 sobre el diagnóstico de cáncer

prostático a partir del tacto rectal. En este caso, se obtiene un cociente de probabilidades
positivo de 3,20. Ello viene a indicarnos que un tacto anormal es, por lo tanto, 3 veces
más probable en un paciente con cáncer prostático que en otro sujeto sin cáncer.
La razón de probabilidades ofrece la ventaja de que relaciona la sensibilidad y la

especificidad de una prueba en un solo índice. Además, pueden obtenerse razones de
probabilidad según varios niveles de una nueva medida y no es necesario expresar la
información de forma dicotómica, como resultado de normal o anormal o bien positivo y
negativo. Por último, al igual que sucede con la sensibilidad y la especificidad, no varía
con la prevalencia. Esto permite utilizarlo como índice de comparación entre diferentes
pruebas para un mismo diagnóstico.
Hasta ahora hemos abordado el caso de una prueba con un resultado dicotómico (positivo
o negativo), pero en muchas situaciones la confirmación de un diagnóstico debe hacerse a
partir de un parámetro numérico, sobre todo cuando éste se realiza a partir de
determinaciones analíticas. La generalización a estas situaciones se consigue mediante la
elección de distintos valores de corte que permitan una clasificación dicotómica de los
valores de la prueba según sean superiores o inferiores al valor elegido. La diferencia
esencial con el caso más simple es que ahora contaremos no con un único par de valores
de sensibilidad y especificidad que definan la exactitud de la prueba, sino más bien con
un conjunto de pares correspondientes cada uno a un distinto nivel de decisión. La
estrategia de análisis adecuada consistiría en representar gráficamente los pares (1-
especificidad, sensibilidad) obtenidos al considerar todos los posibles valores de corte de
la prueba, obteniéndose así una curva llamada curva ROC. El área bajo dicha curva se
convierte así en el mejor indicador de la capacidad predictiva del test, independiente de la
prevalencia de la enfermedad en la población de referencia y en base al cual se podrán
7-10
establecer comparaciones entre diferentes pruebas diagnósticas .
En definitiva, es sumamente importante el saber valorar la validez y seguridad de las

diferentes pruebas diagnósticas con el fin de seleccionar la más adecuada en cada
momento. La sensibilidad, la especificidad y los valores predictivos son los criterios
11,12
tradicionalmente utilizados para valorar la capacidad predictiva de un test . Los

estudios de evaluación de tests diagnósticos son el instrumento adecuado para obtener

esta información. No obstante, no debemos olvidar que existen determinados aspectos en
el diseño de este tipo de investigaciones que pueden afectar a la precisión y a la validez
de las estimaciones realizadas. Una vez más, el cálculo de intervalos de confianza puede
ayudarnos a conocer la precisión de los índices calculados. La población de estudio, la
estrategia de muestreo, la selección del criterio de referencia y la forma de aplicación de
las pruebas diagnósticas serán algunos de los elementos a cuidar para evitar la presencia
11,13,14
de sesgos .
Bibliografía
1. Sackett DL, Haynes RB, Guyatt GH, Tugwell P. Epidemiología clínica. Ciencia básica para
la medicina clínica. 2ª ed. Madrid: Editorial médica panamericana; 1994.
2. Sandler G. The importance of the history in the medical clinic and the cost of unnecessary
test. Am Heart J 1980; 100: 928. [Medline]
3. Morrison AS. Screnning in Chronic disease. Second edition. New York: Oxford University
Press; 1992.
4. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 1: sensitivity and specificity.BMJ
1994; 308: 1552. [Medline]
5. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 2: predictive values. BMJ 1994;
309: 102. [Medline]
6. Dujardin B, Van der Ende J, Van Gompel A, Unger JP, Van der Stuyft P. Likelihood ratios:
a real improvement for clinical decisión making? Eur J Epidemiol 1994; 10: 29-36.
[Medline]
7. Burgueño MJ, García Bastos JL, González Buitrago JM. Las curvas ROC en la evaluación
de las pruebas diagnósticas. Med Clin (Barc) 1995; 104: 661-670. [Medline]
8. Zweig MH, Campbell G. Receiver-operating characteristics (ROC) plots: a fundamental
evaluation tool in clinical medicine. Clin Chem 1993; 39: 561-577. [Medline]
9. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 3: receiver operating
characteristic plots. BMJ 1994; 309: 188. [Medline]
10. Lopez de Ullibarri Galparsoro I, Pita Fernández S. Curvas ROC. Cad Aten Primaria 1998; 5
(4): 229-235.
11. Argimon Pallás JM, Jiménez Villa J. Métodos de investigación clínica y epidemiológica. 2ª
ed Barcelona: Harcourt; 2000.
12. Fletcher RH, Fletcher SW, Wagner EH. Clinical epidemiology: the essentials. 3ª ed.
Baltimore: Williams and Wilkins; 1996.
13. Cabello López JB, Pozo Rodríguez F. Estudios de evaluación de las pruebas diagnósticas en
cardiología. Rev Esp Cardiol 1997; 50: 507-519. [Medline]
14. Greenhalgh T. How to read a paper: papers that report diagnostic or screening tests. BMJ
1997; 315: 540-543. [Medline] [Texto completo]
Tabla 1. Relación entre el resultado de una prueba diagnóstica y la presencia o ausencia de

una enfermedad.
Verdadero diagnóstico
Resultado de la prueba

Enfermo Sano
Verdaderos Positivos Falsos Positivos
Positivo
(VP) (FP)
Falsos Negativos Verdaderos Negativos
Negativo
(FN) (VN)
Tabla 2. Resultados de la exploración y biopsia prostática de una muestra de pacientes con

sospecha de cáncer de próstata.
Resultado del tacto Resultado de la biopsia prostática

rectal Cáncer Patología benigna Total
Anormal 634 269 903
Normal 487 1251 1738
Total 1121 1520 2641
Tabla 3. Resultados de la aplicación del test de VIH en una población de baja prevalencia.
Resultado del test
VIH+ VIH- Total
Positivo 5.970 13.970 19.940
Negativo 30 2.780.030 2.780.060
Total 6.000 2.794.000 2.800.000
Tabla 4. Resultados de la aplicación del test de VIH en una población de alta prevalencia.
Resultado del test

VIH+ VIH- Total

Positivo 796.000 10.000 806.000
Negativo 4.000 1.990.000 1.994.000
Total 800.000 2.000.000 2.800.000

Curvas ROC
Curvas ROC
López de Ullibarri Galparsoro I, Píta Fernández, S. [ Correo de contacto ]

Coruña (España)
CAD ATEN PRIMARIA 1998; 5 (4): 229-235.
Evaluación de pruebas diagnósticas Contenido

Evaluación de
pruebas
La toma de decisiones clínicas es un proceso extremadamente complejo en el que diagnósticas
deberá finalmente ser valorada la utilidad para el manejo del paciente de cualquier - Sensibilidad y
prueba diagnóstica. En este contexto, es imprescindible conocer detalladamente la Especificidad
exactitud de las distintas pruebas diagnósticas, es decir, su capacidad para clasificar La Curva ROC
correctamente a los pacientes en categorías o estados en relación con la enfermedad Métodos de
cálculo de la
(típicamente dos: estar o no estar enfermo, respuesta positiva o negativa a la
curva ROC
terapia...).
Análisis
estadístico de
Sensibilidad y Especificidad las curvas ROC
Bibliografía
Generalmente, la exactitud diagnóstica se expresa como sensibilidad y especificidad Documento
diagnósticas. Cuando se utiliza una prueba dicotómica (una cuyos resultados se en PDF
puedan interpretar directamente como positivos o negativos), la sensibilidad es la (103 Kb)
¿Problemas
probabilidad de clasificar correctamente a un individuo cuyo estado real sea el
con PDF?
definido como positivo respecto a la condición que estudia la prueba, razón por la
Cálculos online
que también es denominada fracción de verdaderos positivos (FVP). La
GraphROC
especificidad es la probabilidad de clasificar correctamente a un individuo cuyo Specificity of a
estado real sea el definido como negativo. Es igual al resultado de restar a uno la Test
fracción de falsos positivos (FFP). Sensitivity of a
Test
Cuando los datos de una muestra de pacientes se clasifican en una tabla de
contingencia por el resultado de la prueba y su estado respecto a la enfermedad, es fácil
estimar a partir de ella la sensibilidad y la especificidad de la prueba (tabla 1). Conviene
insistir –ya que esta distinción aparecerá repetidamente en lo sucesivo– en que lo que
realmente obtenemos son estimaciones de los verdaderos valores de sensibilidad y
especificidad para una población teórica de la que suponemos que nuestro grupo de
pacientes constituye una muestra aleatoria. Por tanto, un tratamiento estadístico correcto
de cantidades como las calculadas por el método descrito por la tabla 1 exigiría incluir
medidas de su precisión como estimadores, y, mejor aún, utilizarlas para construir
intervalos de confianza para los verdaderos valores de sensibilidad y especificidad.
Tabla 1. Resultado de una prueba y su estado respecto a la enfermedad.

Verdadero Diagnóstico
Enfermo Sano
http://www.fisterra.com/mbe/investiga/curvas_roc/curvas_roc.htm (1 of 13)22/04/2006 1:29:00 PM

Curvas ROC
Resultado de la Prueba Positiva Verdadero Positivo (VP) Falso Positivo (FP)

Prueba Prueba Negativa Falso Negativo (FN) Verdadero Negativo (VN)
VP + FN VN + FP
Sensibilidad = VP/(VP + FN) = FVP (fracción de verdaderos positivos)

= VN/(VN + FP) = FVN (fracción de verdaderos negativos)
Especificidad
= 1 - FFP (fracción de falsos positivos)
LA CURVA ROC
La limitación principal del enfoque hasta ahora expuesto estribaría en nuestra exigencia de
que la respuesta proporcionada por la prueba diagnóstica sea de tipo dicotómico, por lo
que en principio quedaría excluida la amplia gama de pruebas diagnósticas cuyos
resultados se miden en una escala (nominalmente) continua o, al menos, discreta ordinal.
Piénsese, por ejemplo, respecto al primer tipo en la determinación de la glucosa sérica por
el laboratorio o, respecto al segundo, en una prueba realizada por el Servicio de
Radiología en que los resultados se expresen empleando las categorías "seguramente
normal", "probablemente normal", "dudoso", "probablemente anormal" y "seguramente
anormal".
La generalización a estas situaciones se consigue mediante la elección de distintos niveles

de decisión o valores de corte que permitan una clasificación dicotómica de los valores de
la prueba según sean superiores o inferiores al valor elegido. La diferencia esencial con el
caso más simple es que ahora contaremos no con un único par de valores de sensibilidad y
especificidad que definan la exactitud de la prueba, sino más bien con un conjunto de
pares correspondientes cada uno a un distinto nivel de decisión.
Este procedimiento constituye la esencia del análisis ROC, una metodología desarrollada
en el seno de la Teoría de la Decisión en los años 50 y cuya primera aplicación fue
motivada por problemas prácticos en la detección de señales por radar (aunque el detalle
pueda parecer anecdótico, la equivalencia entre el operador que interpreta los picos en la
pantalla del radar para decidir sobre la presencia de un misil y el médico que emplea el
resultado de una prueba diagnóstica para decidir sobre la condición clínica del paciente, es
1 2
completa ). La aparición del libro de Swets y Pickett marcó el comienzo de su difusión
en el área de la Biomedicina, inicialmente en Radiología, donde la interpretación subjetiva
de los resultados se recoge en una escala de clasificación, pero de modo creciente en
relación con cualquier método diagnóstico que genere resultados numéricos.
Para centrar ideas, supongamos que, tanto para la población sana como para la enferma, la
variable de decisión que representa el resultado de la prueba diagnóstica se distribuye
normalmente, con media y desviación típica conocidas. En la figura 1 se muestran las
funciones de densidad de probabilidad para ambas variables, que mostrarán un
determinado nivel de solapamiento. Si consideramos un valor arbitrario del resultado de la
prueba, x –al que, en adelante, aludiremos como valor de corte–, la FVP (sensibilidad) y la
FFP (1-especificidad) se corresponderán respectivamente con el área a la derecha de ese
punto bajo la función de densidad de probabilidad de la población enferma (áreas clara y
oscura) y de la población sana (área oscura). La curva ROC se obtiene representando, para

Curvas ROC
cada posible elección de valor de corte, la FVP en ordenadas y la FFP en abscisas (figura
2).
Mediante esta representación de los pares (1-especificidad, sensibilidad) obtenidos al

considerar todos los posibles valores de corte de la prueba, la curva ROC nos proporciona
una representación global de la exactitud diagnóstica. La curva ROC es necesariamente
creciente, propiedad que refleja el compromiso existente entre sensibilidad y
especificidad: si se modifica el valor de corte para obtener mayor sensibilidad, sólo puede
hacerse a expensas de disminuir al mismo tiempo la especificidad. Si la prueba no
permitiera discriminar entre grupos, la curva ROC sería la diagonal que une los vértices
inferior izquierdo y superior derecho. La exactitud de la prueba aumenta a medida que la
curva se desplaza desde la diagonal hacia el vértice superior izquierdo. Si la
discriminación fuera perfecta (100% de sensibilidad y 100% de especificidad) pasaría por
dicho punto.
El modelo anterior, aplicable en principio a datos continuos, puede generalizarse al caso

en que los datos se obtiene por algún sistema de clasificación en una escala discreta
ordinal. Para ello basta suponer la existencia de unas variables latentes con distribución
normal y de unos límites fijos que marcan los extremos de cada categoría. La figura 3
muestra esquemáticamente este modelo para un ejemplo con cinco categorías.
Obviamente, el escenario en que hemos presentado la curva ROC es completamente

teórico, por dos razones relacionadas entre sí:
● en la práctica no disponemos de las poblaciones (abstractas) de enfermos y sanos,

sino simplemente de una muestra de ellas,
● en general, no conocemos las distribuciones de los valores de la prueba diagnóstica
en dichas poblaciones.
Estas limitaciones nos obligan a considerar el problema práctico de la construcción de

curvas ROC, que a continuación tratamos, desde un punto de vista típicamente estadístico.
MÉTODOS DE CÁLCULO DE LA CURVA ROC
Un primer grupo de métodos para construir la curva ROC lo constituyen los llamados
métodos no paramétricos. Se caracterizan por no hacer ninguna suposición sobre la
distribución de los resultados de la prueba diagnóstica. El más simple de estos métodos es
el que suele conocerse como empírico, que consiste simplemente en representar todos los
pares (FFP, FVP) – es decir todos los pares
(1-especificidad, sensibilidad) – para todos los posibles valores de corte que se puedan
considerar con la muestra particular de que dispongamos. Desde un punto de vista técnico,
este método sustituye las funciones de distribución teóricas por una estimación no
paramétrica de ellas, a saber, la función de distribución empírica construida a partir de los
datos. Informalmente, es como si en la figura 1 sustituyéramos las funciones de densidad
por histogramas obtenidos a partir de la muestra de pacientes sanos y enfermos y
construyéramos la curva ROC a partir de ellos.

Curvas ROC
En la figura 4 se representa la curva ROC obtenida por el método empírico para un

conjunto de datos obtenidos en un grupo de pacientes investigados con el fin de establecer
un diagnóstico de anemia ferropénica mediante la determinación del volumen corpuscular
medio (ver apartado a) del apéndice). El verdadero diagnóstico se establece empleando
como gold standard el examen de la médula ósea.
La representación obtenida por este método tiene forma aproximadamente en escalera. En

efecto, para cada variación mínima del valor de corte que produzca cambios en
sensibilidad o especificidad, al menos un caso pasa a ser considerado bien como verdadero
positivo, lo que se corresponde con un trazo vertical, bien como falso positivo, lo que da
lugar a un trazo horizontal. Existe aún otra posibilidad, derivada de la posibilidad de que
se produzcan empates, es decir, dos o más casos con el mismo valor de la prueba: si el
empate ocurre entre un caso del grupo enfermo y otro del grupo sano aparecerá un trazo
diagonal en la representación.
Es evidente que este método es especialmente idóneo para datos de tipo continuo, sobre
todo si la discretización (el redondeo) inducida por la precisión del método analítico
utilizado no es muy importante, de modo que el número de empates sea
proporcionalmente escaso. En este caso, la apariencia dentada de la curva es menos
notoria a medida que crece el tamaño de la muestra e, idealmente, en el límite tendríamos
una curva suave, la propia curva ROC teórica (figura 1). No obstante, también puede
aplicarse a datos de tipo categórico. Claro está que ahora será inevitable la aparición de
empates (al menos si el tamaño de la muestra es mayor que el número de categorías), con
la consecuencia de que el gráfico consistirá, independientemente del tamaño de la muestra,
en un número fijo de líneas en general diagonales que unen los puntos correspondientes a
los pares (1-especificidad, sensibilidad) calculados para cada categoría. En la figura 5 se
presenta un ejemplo de la aplicación de este método a un conjunto de datos procedente de
la clasificación en cinco categorías de imágenes obtenidas por tomografía computerizada
(ver apartado b) del apéndice).
Una práctica frecuente que desaconsejamos es realizar la agrupación artificial de los

resultados de una prueba diagnóstica con valores continuos en un número limitado de
categorías, como paso previo a la construcción de la curva ROC. Si no se dispone de
medios de representación automáticos este recurso permite simplificar los cálculos
necesarios para construir la curva ROC, pero entre otras deficiencias, es evidente que así
se obtiene una estimación sesgada de la verdadera curva ROC, concretamente una
3,4
infravaloración de la verdadera exactitud diagnóstica .
5
Existen otros métodos no paramétricos aplicables a datos continuos que permiten obtener
curvas ROC suavizadas, en contraposición con la forma dentada de la curva obtenida por
el método empírico. La idea es básicamente obtener estimaciones no paramétricas
suavizadas de las funciones de densidad de las dos distribuciones de resultados de la
prueba empleando generalmente estimadores de tipo núcleo. A partir de dichas densidades
–en lugar de a partir de los histogramas, como en el método anterior– se obtiene
directamente la curva ROC que, como dijimos, será suave.
Los métodos paramétricos se basan en postular un determinado tipo de distribución para

Curvas ROC
2
la variable de decisión en las dos poblaciones que se trata de distinguir . El modelo más
frecuentemente utilizado es el binormal, que supone la normalidad de las variables tanto
en la población sana como en la enferma, pero existen muchos otros modelos posibles que
surgen al considerar distintas distribuciones, similares a la normal como la logística
(modelo bilogístico) o no, como la exponencial negativa. El problema ahora se reduce a
estimar los parámetros de cada distribución por un método estadísticamente adecuado, en
general el método de máxima verosimilitud. Se obtiene así una curva ROC suave, pero
puede ocurrir una sustancial falta de ajuste si los supuestos distribucionales resultan ser
34
erróneos , . Por ello, si se va a emplear este método debe previamente someterse la
hipótesis sobre la naturaleza de las distribuciones a un contraste de significación. También
es recomendable emplear una transformación de la variable inicial que logre que los datos
sean más compatibles con las distribuciones asumidas, aunque este juicio sólo pueda
basarse en un examen en gran medida visual y por lo tanto esté expuesto a interpretaciones
subjetivas. Estas limitaciones hacen que el método no sea en general recomendable para
datos continuos. Su utilidad es mayor con datos discretos: varios investigadores han
examinado el modelo binormal para datos de clasificación, sin encontrar situaciones en las
67
que el modelo fallara seriamente , . De hecho, esta última observación constituye la base
para un método aplicable tanto a datos continuos como de clasificación, debido a Metz et
8
al. (el software que lo implementa está libremente disponible en Internet en http://www-
radiology.uchicago.edu/krl/toppage11.htm). Según este método, primero se agrupan los
datos en categorías ordenadas y después se aplica un algoritmo paramétrico para crear una
59
curva ROC suave. Del método se dice que es semiparamétrico , , porque aunque supone
la existencia de una transformación que haga que las dos distribuciones sean
aproximadamente normales, ésta se deja sin especificar. La dependencia mucho menor de
la validez de las asunciones se debe principalmente a la invariancia de la curva ROC frente
8
a las transformaciones monótonas de la escala de la variable de decisión . Investigaciones
recientes parecen indicar que el método se comporta empíricamente bien en una amplia
10
variedad de situaciones . Permanece, no obstante, el problema de que el ajuste no es
reproducible a menos que el esquema de categorización empleado sea objetivo y esté
estandarizado. Las figuras 4 y 5 muestran las curvas ROC ajustadas por este método y
permiten compararlas a las obtenidas por el método empírico.
ANÁLISIS ESTADÍSTICO DE LAS CURVAS ROC
Área bajo la curva
Como observamos más arriba, la mayor exactitud diagnóstica de una prueba se traduce en
un desplazamiento "hacia arriba y a la izquierda" de la curva ROC. Esto sugiere que el
área bajo la curva ROC (ABC) se puede emplear como un índice conveniente de la
exactitud global de la prueba: la exactitud máxima correspondería a un valor de ABC de 1
y la mínima a uno de 0.5 (si fuera menor de 0.5 debería invertirse el criterio de positividad
de la prueba).
En términos probabilísticos, si XE y XS son las dos variables aleatorias que representan los
valores de la prueba en las poblaciones enferma y sana, respectivamente, puede probarse
que el ABC de la "verdadera" curva ROC (intuitivamente, aquella que obtendríamos si el

Curvas ROC
tamaño de la muestra fuera infinito y la escala de medida continua) es precisamente
, o, en palabras, la probabilidad de que, si se eligen al azar un

11
paciente enfermo y otro sano, sea mayor el valor de la prueba en aquél que en éste .
Cuando la curva ROC se genera por el método empírico, independientemente de que haya
empates o no, el área puede calcularse mediante la regla trapezoidal, es decir, como la
suma de las áreas de todos los rectángulos y trapecios (correspondientes a los empates)
que se pueden formar bajo la curva. Estadísticamente, la observación importante, puesto
que permite hacer contrastes de significación y dar intervalos de confianza para la
verdadera área bajo la curva, es que el área calculada por el método geométrico anterior
12
coincide con el valor del estadístico de suma de rangos de Wilcoxon, W . Esto no es
sorprendente, ya que, cuando XA y XB son dos variables aleatorias independientes
cualesquiera, dicho estadístico es conocido precisamente por su uso para contrastar la
hipótesis , que en nuestro contexto es la hipótesis nula de que ABC
sea ½, es decir, de que la prueba no sea capaz de discriminar entre los dos grupos. Hanley
11
y McNeil dan fórmulas tanto para el estadístico W como para su error estándar y
discuten el problema de la estimación de este último. En general, se suelen dar intervalos
de confianza del ABC construidos de la manera estándar, v. g. al nivel de confianza del
95% intervalos de extremos W ± 1.96*EE(W), siendo EE(W) una estimación del error
estándar de W. Con los datos del volumen corpuscular medio, el ABC calculado por este
método es 0.699 y un intervalo de confianza del 95% (IC 95%) es (0.585,0.813).
Cuando se ajusta un modelo como el binormal empleando técnicas estadísticas se

obtienen, además de estimaciones de los parámetros que definen la curva ROC,
estimaciones del ABC y de su error estándar, que pueden emplearse para construir
intervalos de confianza y efectuar contrastes de significación como en el caso no
paramétrico. Empleando el método semiparamétrico de Metz, el ABC estimado con los
datos de volumen corpuscular medio es 0.703 y (0.591,0.799) un IC 95%.
Cuando el número de empates es elevado, como ocurre cuando se emplean datos de

clasificación, el estadístico W –el área calculada por el método empírico– proporciona un
estimador sesgado de la verdadera área, lo que hace recomendable emplear un método
distinto, por ejemplo uno basado en un método paramétrico. Con los datos de la
tomografía computerizada el ABC estimado es 0.893 (IC 95% (0.830,0.956)) ó 0.911 (IC
95% (0.838,0.956)) según se emplee el estadístico de Wilcoxon o el método de Metz en su
cálculo, respectivamente, lo que sugiere que en este caso la magnitud del sesgo no es
importante.
Área parcial
Son imaginables situaciones en las que las propias características ventajosas del ABC se
conviertan en un inconveniente para su uso clínico. El ABC puede interpretarse como un
promedio de la sensibilidad (especificidad) sobre todos los valores posibles de
especificidad (sensibilidad). Puede que clínicamente sólo nos interesen los puntos de la
curva ROC que aseguren altos valores de sensibilidad o especificidad. Un caso típico es el
de las mamografías en programas de detección precoz del cáncer, donde debe asegurarse

Curvas ROC
13
una alta sensibilidad de la prueba . Se han propuesto índices de área parcial que pueden
ser empleados para evaluar la exactitud restringida a los puntos de operación de interés de
13,14
la curva ROC .
Comparación de dos pruebas
Cuando se dispone de dos (o más) pruebas para abordar el diagnóstico de un mismo

problema clínico, el cálculo del ABC brinda un método conveniente para comparar
globalmente su exactitud diagnóstica relativa. En principio, al comparar dos pruebas
preferiremos la que tenga mayor ABC, por ser la de mayor exactitud diagnóstica de las
dos. Desde un punto de vista estadístico el problema es valorar si la diferencia observada
entre las ABC calculadas para dos pruebas distintas es debida a la variabilidad inherente al
muestreo o es más bien atribuible a una diferencia real en la exactitud de ambas pruebas.
Podemos enunciar este problema como un contraste de la hipótesis nula de igualdad de las
dos ABC, que denotaremos por ABCA y ABCB, frente a una alternativa bilateral. En
general, se dispone de los valores para las dos pruebas en una única muestra de pacientes.
15
El contraste debido a Hanley y McNeil , que podemos considerar representativo de los
desarrollados en esta situación, utiliza como estadístico del contraste
siendo ABC el área observada, EE el error estándar del ABC y r la correlación entre
ABCA y ABCB. Al nivel de significación α se rechaza la hipótesis nula cuando |z| > zα /2,
siendo zα /2 el cuantil de orden 1-α /2 de una distribución normal estándar, v. g. si α=

0.05 es zα /2 = 1.96.
No obstante, hagamos notar que la comparación entre dos pruebas no debe reposar
exclusivamente en contrastes como el anterior. Pueden existir dos pruebas con sendas
curvas ROC muy distintas de forma, hecho que puede tener importantes implicaciones
prácticas, y que, sin embargo, sean prácticamente iguales respecto a su ABC (figura 6). El
empleo del área parcial puede permitir manejar correctamente estas situaciones. En
cualquier caso, es evidente que nunca debería prescindirse de un examen visual detenido
de un gráfico que muestre simultáneamente ambas curvas ROC.
Elección del valor de corte
El empleo en la práctica médica de una prueba diagnóstica exige la elección de un valor de

corte. Para ello es imprescindible un conocimiento detallado de los riesgos y beneficios de
3 16
las decisiones médicas derivadas del resultado de la prueba. Un enfoque sencillo , , que
utiliza la razón de costes de un resultado falso positivo frente a un falso negativo, requiere
calcular el coeficiente

Curvas ROC
donde P es la prevalencia de la enfermedad. El valor de corte óptimo se determina

hallando el punto de la curva ROC (que supondremos suave) con la siguiente propiedad: la
tangente a la curva en ese punto tiene pendiente m.
Incluso una formula sencilla como la anterior deja en evidencia que en la mayoría de los
casos nuestra pretensión de calcular un valor de corte óptimo será excesiva, salvo que uno
se contente con estimaciones imprecisas o puramente intuitivas. De hecho, es un problema
que se aborde más adecuadamente con otras herramientas más complejas disponibles en el
17,18
seno del Análisis de Decisiones Clínicas .
Apéndice
Apéndice 1.a. Volumen corpuscular medio eritrocitario en 100 pacientes con posible
diagnóstico de anemia ferrropénica. El verdadero diagnóstico se establece por biopsia
de la médula ósea.
Examen de la médula ósea Volumen corpuscular medio
52, 58, 62, 65, 67, 68, 70, 72, 72, 73, 73, 74, 75, 77,
Ausencia de hierro (nE = 33) 77, 77, 78, 78, 80, 80, 81, 81, 81, 81, 84, 84, 85, 85,
87, 88, 88, 92, 92
60, 66, 68, 69, 71, 71, 71, 73, 74, 74, 74, 76, 76, 77,
77, 77, 78, 79, 79, 79, 80, 80, 81, 81, 82, 82, 82, 83,
Presencia de hierro (nS = 67) 83, 83, 83, 83, 83, 83, 83, 84, 84, 84, 85, 85, 86, 86,
86, 86, 88, 88, 88, 89, 89, 89, 90, 90, 90, 91, 91, 93,
93, 93, 94, 94, 94, 94, 96, 97, 98, 100, 103
Modificado de Beck JR, Shultz EK. The use of relative operating characteristic (ROC) curves in
test performance evaluation. Arch Pathol Lab Med 1986; 110: 13-20.
Apéndice 1.b. Clasificación de 109 imágenes de tomografía computerizada.

Verdadera Seguramente Probablemente Probablemente Seguramente
Dudosa
condición normal normal anormal anormal
Normal 33 6 6 11 2
Anormal 3 2 2 11 33
Tomado de Hanley JA, McNeil BJ. The meaning and use of the area under a receiver operating
characteristic (ROC) curve. Radiology 1982; 143: 29-36.

Curvas ROC
Figura 1. Distribución de los resultados de una prueba en las poblaciones de pacientes

sanos y enfermos. Las distribuciones teóricas se suponen normales de media y
desviación típica diferentes. Las áreas a la derecha del valor de corte x corresponden a
la sensibilidad (áreas clara y oscura) y 1-especificidad (área oscura).
Figura 2. Curva ROC correspondiente a la distribución teórica de los resultados de una

prueba representada en la figura 1. Se muestra el punto correspondiente al valor de
corte x.

Curvas ROC
Figura 3. Representación esquemática de un modelo para datos de clasificación con

cinco categorías.

Curvas ROC
Figura 4. Curvas ROC calculadas por los métodos empírico y semiparamétrico para los
datos de volumen corpuscular medio.
Figura 5. Curvas ROC calculadas por los métodos empírico y semiparamétrico para los datos de
tomografía computerizada.

Curvas ROC
Figura 6. Curvas ROC empíricas de dos pruebas diagnósticas distintas.
Bibliografía
1. Robertson EA, Zweig MH. Use of receiver operating characteristic curves to

evaluate the clinical performance of analytical systems. Clin Chem 1981; 27: 1569-
1574. [Medline]
2. Swets JA, Pickett RM. Evaluation of diagnostic systems: methods from signal
detection theory. Nueva York: Academic Press; 1982.
3. Zweig MH, Campbell G. Receiver-operating characteristic (ROC) plots: a

fundamental evaluation tool in clinical medicine. Clin Chem 1993; 39: 561-577.
[Medline]
4. Burgueño MJ, García-Bastos JL, González-Buitrago JM. Las curvas ROC en la

evaluación de las pruebas diagnósticas. Med Clin (Barc) 1995; 104: 661-670.
[Medline]
5. Zou KH, Hall WJ, Shapiro DE. Smooth non-parametric receiver operating
characteristic (ROC) curves for continuous diagnostic tests. Statist Med 1997; 16:
2143-2156. [Medline]
6. Hanley JA. The robustness of the binormal model used to fit ROC curves. Med

Curvas ROC
Decision Making 1988; 8: 197-203. [Medline]
7. Swets JA. Form of empirical ROCs in discrimination and diagnostic tasks:

implications for theory and measurement of performance. Psych Bull 1986; 99:
181-198. [Medline]
8. Metz CE, Herman BA, Shen, J. Maximum likelihood estimation of receiver

operating characteristic (ROC) curves from continuously distributed data. Statist
Med 1998; 17: 1033-1053. [Medline]
9. Hsieh F, Turnbull BW. Nonparametric and semiparametric estimation of the

receiver operating characteristic curve. Ann Statist 1996; 24: 25-40.
10. Hanley JA. The use of the "binormal" model for parametric ROC analysis of
quantitative diagnostics tests. Statist Med 1996; 15: 1575-1585. [Medline]
11. Hanley JA, McNeil BJ. The meaning and use of the area under a receiver
operating characteristic (ROC) curve. Radiology 1982; 143: 29-36. [Medline]
12. Bamber D. The area above the ordinal dominance graph and the area below
the receiver operating graph. J Math Psych 1975; 12: 387-415.
13. Jiang Y, Metz CE, Nishikawa RM. A receiver operating characteristic partial
area index for highly sensitive diagnostics tests. Radiology 1996; 201: 745-750.
14. McClish DK. Analyzing a portion of the ROC curve. Med Decision Making
1989; 9: 190-195. [Medline]
15. Hanley JA, McNeil BJ. A method of comparing the areas under receiver
operating characteristic curves derived from the same cases. Radiology 1983; 148:
839-843. [Medline]
16. McNeil BJ, Keeler E, Adelstein SJ. Primer on certain elements of medical
decision making. N Engl J Med 1975; 293: 211-215. [Medline]
17. Weinstein MC, Fineberg HV. Clinical Decision Analysis. Philadelphia: WB

Saunders Co; 1980.
18. Beck JR, Shultz EK. The use of relative operating characteristic (ROC) curves
in test performance evaluation. Arch Pathol Lab Med 1986; 110: 13-20. [Medline]

Investigación cuantitativa y cualitativa
Pita Fernández, S. [ Correo de contacto ], Pértegas Díaz, S. [ Correo de contacto ]

Coruña (España)
El objetivo de cualquier ciencia es adquirir conocimientos y la elección del Contenido

1 Diferencias
método adecuado que nos permita conocer la realidad es por tanto fundamental . entre
El problema surge al aceptar como ciertos los conocimientos erróneos o investigación
viceversa. Los métodos inductivos y deductivos tienen objetivos diferentes y cualitativa y
cuantitativa
podrían ser resumidos como desarrollo de la teoría y análisis de la teoría
Ventajas e
respectivamente. Los métodos inductivos están generalmente asociados con la
inconvenientes
investigación cualitativa mientras que el método deductivo está asociado de los métodos
frecuentemente con la investigación cuantitativa. cualitativos vs
cuantitativos
Los científicos sociales en salud que utilizan abordajes cualitativos enfrentan en la Bibliografía
actualidad problemas epistemológicos y metodológicos que tienen que ver con el Documento
poder y la ética en la generación de datos así como con la validez externa de los en PDF (45
2 Kb)
mismos . ¿Problemas
con PDF?
La investigación cuantitativa es aquella en la que se recogen y analizan datos

cuantitativos sobre variables. La investigación cualitativa evita la cuantificación. Los
investigadores cualitativos hacen registros narrativos de los fenómenos que son
estudiados mediante técnicas como la observación participante y las entrevistas no
3
estructuradas . La diferencia fundamental entre ambas metodologías es que la
cuantitativa estudia la asociación o relación entre variables cuantificadas y la cualitativa
4
lo hace en contextos estructurales y situacionales . La investigación cualitativa trata de
identificar la naturaleza profunda de las realidades, su sistema de relaciones, su
estructura dinámica. La investigación cuantitativa trata de determinar la fuerza de
asociación o correlación entre variables, la generalización y objetivación de los
resultados a través de una muestra para hacer inferencia a una población de la cual toda
muestra procede. Tras el estudio de la asociación o correlación pretende, a su vez, hacer
inferencia causal que explique por qué las cosas suceden o no de una forma determinada.
5-6
Las diferencias más ostensibles entre ambas metodologías se muestran en la tabla 1 .
Los fundamentos de la metodología cuantitativa podemos encontrarlos en el
positivismo que surge en el primer tercio del siglo XIX como una reacción ante el
empirismo que se dedicaba a recoger datos sin introducir los conocimientos más allá del
campo de la observación. Alguno de los científicos de esta época dedicados a temas
http://www.fisterra.com/mbe/investiga/cuanti_cuali/cuanti_cuali.htm (1 of 5)22/04/2006 1:29:11 PM

relacionados con las ciencias de la salud son Pasteur y Claude Bernard, siendo este
1
último el que propuso la experimentación en medicina . A principios del siglo XX,
surge el neopositivismo o positivismo lógico siendo una de las aportaciones más
importantes la inducción probabilística. La clave del positivismo lógico consiste en
contrastar hipótesis probabilísticamente y en caso de ser aceptadas y demostradas en
circunstancias distintas, a partir de ellas elaborar teorías generales. La estadística
dispone de instrumentos cuantitativos para contrastar estas hipótesis y poder aceptarlas o
7
rechazarlas con una seguridad determinada . Por tanto el método científico, tras una
observación, genera una hipótesis que contrasta y emite posteriormente unas
conclusiones derivadas de dicho contraste de hipótesis. El contrastar una hipótesis
repetidamente verificada no da absoluta garantía de su generalización ya que, como
señala Karl Popper, no se dispone de ningún método capaz de garantizar que la
generalización de una hipótesis sea válida8. Con el ejemplo de los cisnes, K. Popper
rebatía las tesis neopositivistas sobre la generalización de las hipótesis9... "todos los
cisnes de Austria eran blancos... no se dispone de datos sobre el color de los cisnes fuera
de Austria..., todos los cisnes son blancos...". En el momento actual no hay ningún
método que garantice que la generalización de una hipótesis sea válida, pero sí se puede
rebatir una hipótesis con una sola evidencia en contra de ella. Es por ello que la ciencia,
10
como señala K. Popper "busca explicaciones cada vez mejores" .
Ventajas e inconvenientes de los métodos
Las ventajas e inconvenientes de los métodos cuantitativos vs los cualitativos se

11-13
muestran en la tabla 2 . En general los métodos cuantitativos son muy potentes en
términos de validez externa ya que con una muestra representativa de la población hacen
inferencia a dicha población a partir de una muestra (Figura 1) con una seguridad y
precisión definida. Por tanto una limitación de los métodos cualitativos es su dificultad
para generalizar. La investigación cuantitativa con los test de hipótesis no sólo permite
eliminar el papel del azar para descartar o rechazar una hipótesis, sino que permite
cuantificar la relevancia clínica de un fenómeno midiendo la reducción relativa del
riesgo, la reducción absoluta del riesgo y el número necesario de pacientes a tratar para
14
evitar un evento . La pregunta que evidentemente hacen los investigadores
cualitativos a los cuantitativos es ¿cuan particularizables son tus generalidades...?
Hoy en día hay un predominio claro de la investigación cuantitativa en relación a la

cualitativa y así podemos objetivar que en una búsqueda en Medline a fecha 20/4/2002
utilizando las palabras clave "quantitative research" vs "qualitative research"
encontramos 11.236 y 1.249 artículos respectivamente lo que genera un cociente de
11.236/1.249 =8.99. El seleccionar una u otra metodología puede depender de
diferentes planteamientos: ¿Se busca la magnitud o la naturaleza del fenómeno?, ¿Se
busca un promedio o una estructura dinámica?, ¿Se pretende descubrir leyes o
comprender fenómenos humanos?. Cuando en la búsqueda en Medline a las palabras
clave previamente mencionadas añadimos "nursing" para centrar la pregunta en trabajos
de enfermería objetivamos que el cociente de los artículos cuantitativos vs los

cualitativos (610 vs 535) claramente disminuye a 1.14 mostrando por tanto un

importante peso de lo cualitativo en la investigación en enfermería a pesar de existir un
predominio de lo cuantitativo que sigue incrementándose en los últimos años en este
colectivo.
El empleo de ambos procedimientos cuantitativos y cualitativos en una investigación

probablemente podría ayudar a corregir los sesgos propios de cada método, pero el
hecho de que la metodología cuantitativa se la más empleada no es producto del azar
sino de la evolución de método científico a lo largo de los años. Creemos en ese sentido
que la cuantificación incrementa y facilita la compresión del universo que nos rodea y
ya mucho antes de los positivistas lógicos o neopositivistas Galileo Galilei afirmaba en
este sentido "mide lo que sea medible y haz medible lo que no lo sea".
5-6
Tabla 1. Diferencias entre investigación cualitativa y cuantitativa .
Investigación cualitativa Investigación cuantitativa
Centrada en la fenomenología y comprensión Basada en la inducción probabilística del
positivismo lógico
Observación naturista sin control Medición penetrante y controlada
Subjetiva Objetiva
Inferencias de sus datos Inferencias más allá de los datos
Exploratoria, inductiva y descriptiva Confirmatoria, inferencial, deductiva
Orientada al proceso Orientada al resultado
Datos "ricos y profundos" Datos "sólidos y repetibles"
No generalizable Generalizable
Holista Particularista
Realidad dinámica Realidad estática
Tabla 2. Ventajas e inconvenientes de los métodos cualitativos vs cuantitativos.
Métodos cualitativos Métodos cuantitativos
Propensión a "comunicarse con" los sujetos del Propensión a "servirse de" los sujetos del
11 11
estudio estudio
11 11
Se limita a preguntar Se limita a responder
Comunicación más horizontal... entre el
investigador y los investigados... mayor
naturalidad y habilidad de estudiar los factores
12
sociales en un escenario natural
Son fuertes en términos de validez interna, Son débiles en términos de validez interna -
pero son débiles en validez externa, lo que casi nunca sabemos si miden lo que quieren
encuentran no es generalizable a la población medir-, pero son fuertes en validez externa, lo
que encuentran es generalizable a la
13
población
Preguntan a los cuantitativos: ¿Cuan Preguntan a los cualitativos: ¿Son
particularizables son los hallazgos? generalizables tus hallazgos?

Figura 1. Elementos de la inferencia estadística
Bibliografía
1. Álvarez Cáceres R. El método científico en las ciencias de la salud. Las bases de la

investigación biomédica. Madrid: Díaz de Santos, 1996.
2. Calero JL. Investigación cualitativa y cuantitativa. Problemas no resueltos en los debates

actuales. Rev. Cubana Endocrinol 2000; 11 (3): 192-8. [Texto completo - PDF]
3. Abdellah FG, Levine E. Preparing Nursing Research for the 21 st Century. Evolution.
Methodologies, Chalges. Springer: New York; 1994.
4. Strauss AL. Qualitative analysis for social scientifics. New York: Cambridge University
oress, 1987.
5. Cabrero García L, Richart Martínez M. El debate investigación cualitativa frente a

investigación cuantitativa Enfermería clínica, 1996; 6: 212-217. [Texto completo - PDF]
6. Reichart ChS, Cook TD. Hacia una superación del enfrentamiento entre los métodos

cualitativos y cuantitativos. En: Cook TD, Reichart ChR (ed). Métodos cualitativos y
cuantitativos en investigación evaluativa. Madrid: Morata,1986.
7. Pita Fernández S., Pértega Díaz S. Significancia estadística y relevancia clínica. Cad Aten
Primaria, 2000; 8: 191-195. [Texto completo]
8. Popper Karl R. La lógica de la investigación científica. Barcelona: Círculo de Lectores; 1995.
9. Popper Karl R. Realismo y el objetivo de la ciencia. Madrid: Editorial Tecnos, 1983.
10. Popper Karl R. La sociedad abierta y sus enemigos. Barcelona: Editorial Paidos, 1991.
11. Ibañes J. El regreso del sujeto. La investigación social de segundo orden. Madrid: Siglo
XXI; 1994. p.77-84.
12. Deegan MJ, Hill M. Women and symbolic interaction. Boston: Allen and Unwin; 1987. p.
84-85.
13. Campbell D, Stanley J. Diseños experimentales y cuasi experimentales en la investigación

social. Buenos Aires: Ammorrortu Editores; 1982. p. 76-8.
14. Pita Fernández S., López de Ullibarri Galparsoro I. Número necesario de pacientes a tratar
para reducir un evento. Cad Aten Primaria 1998; 96-98. [Texto completo]

La fiabilidad de las mediciones clínicas: el análisis de concordancia para variables numéricas
La fiabilidad de las mediciones clínicas:
el análisis de concordancia para variables numéricas
Pita Fernández, S. [ Correo de contacto ], Pértegas Díaz, S. [ Correo de contacto ],

Introducción
El Coeficiente
La medición es un proceso inherente tanto a la práctica como a la investigación
de Correlación
clínica. Mientras que algunas variables son relativamente sencillas de medir (como Intraclase
el peso o la tensión arterial) otras comportan cierto grado de subjetividad que hace Análisis de las
especialmente difícil su medición, como la intensidad de dolor o el concepto de diferencias
calidad de vida. En cualquier caso, el proceso de medición conlleva siempre algún individuales:
grado de error. Existen factores asociados a los individuos, al observador o al método de
Bland y Altman
1,2
instrumento de medida que pueden influir en la variación de las mediciones . En Otros métodos
la medida de la temperatura corporal, por ejemplo, pueden aparecer errores en el de análisis
registro debidos tanto al estado del paciente, como a defectos en el termómetro Bibliografía
utilizado o a la objetividad del observador. Tablas y Figuras

Tabla 1.
Ejemplo teórico
Cualquier estudio epidemiológico debe garantizar la calidad de sus mediciones, no Tabla 2. Tabla
sólo porque condicionará en gran medida la validez de sus conclusiones, sino por la ANOVA para
3 medidas
importancia de las decisiones clínicas que se apoyen en esa investigación . La repetidas
1,4 Tabla 3. TAS en
calidad de una medida depende tanto de su validez como de su fiabilidad . 30 pacientes
Mientras que la validez expresa el grado en el que realmente se mide el fenómeno Tabla 4. Tabla
de interés, la fiabilidad indica hasta qué punto se obtienen los mismos valores al ANOVA para las
efectuar la medición en más de una ocasión, bajo condiciones similares. El que una mediciones de
TA
medida sea muy precisa no implica, sin embargo, que sea necesariamente válida.
Tabla 5.
Así, si se realizan dos mediciones consecutivas de la presión arterial de un paciente
Valoración de la
con un esfigmomanómetro mal calibrado los valores obtenidos seguramente serán concordancia
parecidos, aunque totalmente inexactos. según los
valores del
Coeficiente de
En los estudios que tratan de evaluar la validez de una medida se comparan sus
Correlación
resultados con los obtenidos mediante una prueba de referencia (gold standard) que Intraclase
5 Tabla 6.
se sabe válida y fiable para la medición del fenómeno de interés . Cuando el
Distribución de
objetivo se centra en la fiabilidad de una medición, se repite el proceso de medida la diferencia
para evaluar la concordancia entre las distintas mediciones. En un estudio de la absoluta entre
1 las mediciones
fiabilidad pueden valorarse los siguientes aspectos : de la TA en 30
pacientes
a. Repetibilidad: indica hasta qué punto un instrumento proporciona Figura 1.
http://www.fisterra.com/mbe/investiga/conc_numerica/conc_numerica.htm (1 of 16)22/04/2006 1:29:27 PM

resultados similares cuando se aplica a una misma persona en más de una Figura 2.
ocasión, pero en idénticas condiciones. Figura 3.
b. Concordancia intraobservador: tiene por objetivo evaluar el grado de Figura 4.
consistencia al efectuar la medición de un observador consigo mismo. Figura 5.
c. Concordancia interobservador: se refiere a la consistencia entre dos Figura 6.

Figura 7.
observadores distintos cuando evalúan una misma medida en un mismo
individuo. Documento
d. Concordancia entre métodos de medición: cuando existen diferentes en PDF (85
Kb)
métodos de medida para un mismo fenómeno, es interesante estudiar hasta ¿Problemas
qué punto los resultados obtenidos con ambos instrumentos son equivalentes. con PDF?
6-9
La concordancia entre variables es de sumo interés en la práctica clínica habitual . La
concordancia entre mediciones puede alterarse no sólo por la variabilidad de los
observadores, sino por la variabilidad del instrumento de medida o por el propio proceso
a medir si se realiza en momentos diferentes. Las técnicas de análisis de la concordancia
dependen del tipo de variable a estudiar. El índice estadístico más utilizado, para el caso
10
de variables cualitativas, es el coeficiente kappa . Si las variables son cuantitativas, se
2,6,11
utiliza habitualmente el coeficiente de correlación intraclase . El concepto básico
subyacente del coeficiente de correlación intraclase fue introducido originalmente por
Fisher como una formulación especial de la r de Pearson, basándose en un modelo de
12
análisis de la varianza . Las dificultades para interpretar desde el punto de vista clínico
los valores de este coeficiente y otras desventajas metodológicas han hecho que algunos
autores propongan métodos alternativos para estudiar la concordancia de este tipo de
13
variables. Así, Bland y Altman (1995) proponen un método gráfico y muy sencillo,
basado en el análisis de las diferencias individuales, que permite determinar los límites de
concordancia y visualizar de forma gráfica las discrepancias observadas. Recientemente,
14-16
otros métodos de análisis de concordancia han sido propuestos . A continuación, se
procederá a una descripción detallada de algunas de estas técnicas de análisis.
El coeficiente de correlación intraclase
Para el caso de variables cuantitativas, es frecuente que el análisis de la concordancia se

aborde mediante técnicas estadísticas inapropiadas. Con frecuencia ha sido utilizado el
cálculo del coeficiente de correlación de lineal (r) de Pearson como índice de
concordancia. Sin embargo, ésta no resulta una medida adecuada del grado de acuerdo
entre dos mediciones, ya que si dos instrumentos miden sistemáticamente cantidades
diferentes uno del otro, la correlación puede ser perfecta (r=1), a pesar de que la
concordancia sea nula. Consideremos como ejemplo los datos de la Tabla 1, en la que se
comparan las mediciones de tensión arterial con dos instrumentos diferentes. El
instrumento B mide sistemáticamente 1mm Hg más que el instrumento A. Al representar
gráficamente la correlación entre ambas mediciones, se objetiva que la correlación es la
máxima posible (r=1), a pesar de que ninguna de las mediciones ha concordado (Figura
1). No se debe olvidar que el coeficiente de correlación de Pearson no proporciona
información sobre el acuerdo observado, y solamente mide la asociación lineal entre dos

17
variables . Así mismo, al calcularse a partir de los pares ordenados de mediciones, si
17
varía el orden también cambia el valor del coeficiente , mientras que un cambio en las
escalas de medida no afecta a la correlación pero sí afecta a la concordancia. A su vez,
debemos mencionar que la idea de que si el coeficiente de correlación entre dos medidas
es significativamente diferente de cero la fiabilidad es buena, es incorrecto. El coeficiente
de correlación lineal puede ser muy pequeño y resultar significativo si el tamaño muestral
es suficientemente grande. Por último, tampoco la comparación de medias mediante un
1
test t de Student con datos apareados es una técnica adecuada para este tipo de análisis .
Desde el punto de vista matemático, el índice más apropiado para cuantificar la

concordancia entre diferentes mediciones de una variable numérica es el llamado
2,6,11
coeficiente de correlación intraclase (CCI) . Dicho coeficiente estima el promedio de
las correlaciones entre todas las posibles ordenaciones de los pares de observaciones
disponibles y, por lo tanto, evita el problema de la dependencia del orden del coeficiente
de correlación. Así mismo, extiende su uso al caso en el que se disponga de más de dos
observaciones por sujeto.
Sin embargo, una de las principales limitaciones del CCI es la dificultad de su cálculo, ya
18
que debe ser estimado de distintas formas dependiendo del diseño del estudio . La
forma de cálculo más habitual se basa en un modelo de análisis de la varianza (ANOVA)
con medidas repetidas (Tabla 2). La idea es que la variabilidad total de las mediciones se
puede descomponer en dos componentes: la variabilidad debida a las diferencias entre los
distintos sujetos y la debida a las diferencias entre las medidas para cada sujeto. Esta
última, a su vez, depende de la variabilidad entre observaciones y una variabilidad
residual o aleatoria asociada al error que conlleva toda medición. El CCI se define
entonces como la proporción de la variabilidad total que se debe a la variabilidad de los
sujetos.
En la actualidad el valor del CCI puede obtenerse de modo directo con algunos
programas informáticos como el SPSS. Otra forma sencilla de obtener el valor del CCI es
a partir de una tabla ANOVA para medidas repetidas. Como ejemplo, en la Tabla 3 se
representan los datos de un estudio hipotético en el que se tomó la tensión arterial
sistólica en 30 pacientes utilizando dos métodos diferentes. Si se representan
gráficamente estos datos, indicando el coeficiente de correlación r=0,997 una asociación
prácticamente lineal (Figura 2). A partir de la tabla ANOVA correspondiente (Tabla 4), el
CCI se puede calcular como:
donde k es el número de observaciones que se toman en cada sujeto. En el ejemplo:

Como toda proporción, los valores del CCI pueden oscilar entre 0 y 1, de modo que la
máxima concordancia posible corresponde a un valor de CCI=1. En este caso, toda la
variabilidad observada se explicaría por las diferencias entre sujetos y no por las
diferencias entre los métodos de medición o los diferentes observadores. Por otro lado, el
valor CCI=0 se obtiene cuando la concordancia observada es igual a la que se esperaría
que ocurriera sólo por azar. A la hora de interpretar los valores del CCI, toda clasificación
es subjetiva, si bien resulta útil disponer de una clasificación como la que proponen otros
6
autores (Tabla 5).
Hasta ahora, se ha presentado la forma más habitual de cálculo del CCI. Para su cálculo
en otras situaciones, así como para la obtención de intervalos de confianza, puede
6,18,19
recurrirse a referencias más especializadas .
A pesar de ser la medida de concordancia más adecuada par el caso de variables

numéricas, el CCI presenta ciertas limitaciones. Junto a la dificultad inherente a su
cálculo, el hecho de que se trate de una prueba paramétrica limita su uso al caso en el que
se verifiquen las hipótesis necesarias. A saber: variables distribuidas según una normal,
igualdad de varianzas e independencia entre los errores de cada observador. Así mismo,
el valor del CCI depende en gran medida de la variabilidad de los valores observados:
cuanto más homogénea sea la muestra estudiada, más bajo tenderá a ser el valor del CCI.
Pero quizás lo que más ha limitado la difusión del uso del CCI en la literatura médica es
la carencia de interpretación clínica, que ha propiciado la aparición de otros métodos de
análisis, mucho más intuitivo y fácilmente interpretables, que se exponen a continuación.
Análisis de las diferencias individuales: método de Bland y Altman
Un sencillo procedimiento gráfico para evaluar la concordancia entre dos sistemas de

13
medida es el propuesto por Bland y Altman . Dicho procedimiento consiste en
representar gráficamente las diferencias entre dos mediciones frente a su media.
Utilizaremos para ilustrar dicha metodología las mediciones de tensión arterial sistólica
obtenidas por medio de un esfigmomanómetro de mercurio en el brazo y la obtenida por
medio de un monitor autoinflable electrónico en el dedo índice. Dichas mediciones fueron
realizadas a 159 alumnos de las escuelas universitarias de enfermería de A Coruña y
Ferrol.
La correlación existente entre ambas mediciones (r=0,202; p<0.05) se presenta en la

Figura 3, donde se objetiva una correlación positiva y estadísticamente diferente de cero.
Si se representan en un diagrama de dispersión en el eje de ordenadas las diferencias entre
ambos procedimientos, y en el eje de abscisas el promedio de ambas mediciones, se
obtiene la Figura 4. En dicha figura objetivamos que muy pocas mediciones han
concordado (diferencia igual a cero). Por el contrario, la mayoría de las veces el aparato

electrónico digital ha proporcionado valores superiores al esfigmomanómetro de

mercurio, de hecho la media de dichas diferencias (electrónico – mercurio) es positiva
(22,5). Además, dicha gráfica permite objetivar que la discordancia se incrementa a
medida que se obtienen valores más elevados de TAS. Por lo tanto, las diferencias no son
homogéneas a lo largo del eje horizontal. La distribución de las diferencias se puede a su
vez valorar realizando un histograma de las mismas (Figura 5), donde se objetiva
claramente el predominio de diferencias positivas mostrando por lo tanto cómo el aparato
electrónico claramente proporciona valores más elevados que el esfigmomanómetro de
mercurio. Es evidente por lo tanto que la falta de homogeneidad de las diferencias, así
como la magnitud de la misma, invalida la utilización del monitor digital del dedo índice
como método en este estudio para tomar la tensión arterial.
Un aspecto muy importante de la metodología de Bland y Altman es que proporciona

además unos límites de concordancia a partir del cálculo del intervalo de confianza para
la diferencia de dos mediciones. Como es bien sabido, el intervalo de dos desviaciones
estándar alrededor de la media de las diferencias incluye el 95% de las diferencias
observadas. Estos valores deben compararse con los límites de concordancia que se hayan
establecido previamente al inicio del estudio para concluir si las diferencias observadas
son o no clínicamente relevantes.
Otros métodos de análisis
Distintos autores han propuesto algunas técnicas alternativas para el análisis de la

concordancia para mediciones numéricas, principalmente desde un punto de vista gráfico,
14-16
que vienen a complementar el método de Bland y Altman . Una propuesta sencilla y
muy reciente se basa en construir una gráfica, similar a las de Kaplan-Meier que se
utilizan en el análisis de supervivencia, donde en el eje horizontal se representa la
diferencia absoluta entre dos mediciones para cada sujeto y en el eje vertical la
proporción de casos en los que las discrepancias igualan al menos cada una de las
16
diferencias observadas . La gráfica se construye así igual que en un análisis de
supervivencia, donde ningún caso es censurado, y el papel de la variable “tiempo” lo
juega aquí la diferencia absoluta entre las mediciones.
Si retomamos el ejemplo anterior (Tabla 3), en la Figura 6 se muestra el análisis de las

diferencias individuales según la metodología de Bland y Altman. Del gráfico se deduce
claramente que el método B proporciona con frecuencia valores más bajos de tensión
arterial, con una diferencia media de -3,23. De modo complementario, en la Tabla 6 se
muestra la magnitud, en términos absolutos, de las dos mediciones de tensión arterial en

cada paciente, así como el porcentaje acumulado de casos en los que se supera cada una
de estas diferencias. A partir de estos datos puede construirse fácilmente la Figura 7, en la
que se muestra el desacuerdo existente entre ambos métodos. Dicho gráfico permite
evaluar si la diferencia tiene o no alguna relevancia desde un punto de vista clínico. Así,
por ejemplo, si establecemos como aceptable un margen de error entre las mediciones de
2 mmHg se obtiene un porcentaje de acuerdo de un 20%, mientras que la concordancia
alcanza el 90% si se admiten diferencias de hasta 8 mmHg, lo cual resulta aceptable
desde un punto de vista clínico.
Al igual que el método propuesto por Bland y Altman, el principal atractivo de esta
alternativa es que permite expresar sus resultados gráficamente, relacionándolos con unos
límites de concordancia preestablecidos según criterios clínicos antes del estudio, lo que
los hace especialmente atractivos para los profesionales sanitarios. Así mismo, permite
contrastar si el grado de acuerdo depende de alguna otra covariable, construyendo
gráficos independientes, uno para cada nivel de la variable. Incluso es posible utilizar el
test del log-rank para testar la existencia de diferencias significativas entre esas curvas.
No obstante, al trabajar con las diferencias absolutas, este método, al contrario que el de
Bland y Altman, no permite observar si existe una diferencia sistemática a favor de
alguna de las dos técnicas u observadores, y tampoco comprobar si la magnitud de dicha
diferencia se modifica en relación a la magnitud de la medida.
En definitiva, el problema del análisis de la concordancia en el caso de variables

numéricas puede abordarse según diferentes metodologías. Lejos de recomendar el uso
estándar de alguna de estas técnicas, más bien deben considerarse como métodos de
análisis que ofrecen información complementaria. En cualquier caso, es conveniente
insistir una vez más en la conveniencia de garantizar la validez y fiabilidad de los
instrumentos de medida utilizados habitualmente en la práctica e investigación clínica.
No debemos olvidar que un estudio bien diseñado, ejecutado y analizado fracasará si la
1
información que se obtiene es inexacta o poco fiable .
Bibliografía
1. Argimon Pallán JM, Jiménez Vill J. Métodos de investigación clínica y epidemiológica. 2ª

ed. Madrid: Harcorurt; 2000.
2. Hernández Aguado I, Porta Serra M, Miralles M, García Benavides F, Bolúmar F. La
cuantificación de la variabilidad en las observaciones clínicas. Med Clin (Barc) 1990; 95:
424-429. [Medline]
3. Sackett DL. A primer on the precision and accuracy of the clinical examination. JAMA
1992; 267: 2638-2644. [Medline]

4. Latour J, Abraira V, Cabello JB, López Sánchez J. Métodos de investigación en cardiología

clínica (IV). Las mediciones en clínicas en cardiología: validez y errores de medición. Rev
Esp Cardiol 1997; 50(2): 117-128. [Medline] [Texto completo]
5. Pita Fernández S, Pértega Díaz S. Pruebas diagnósticas. Cad Aten Primaria 2003; 10: 120-
6. Fleiss JL. The design and analysis of clinical experiments. New York: Wiley; 1986-
7. Landis JR, Koch GG. The measurement of observer agreement for categorical data.
Biometrics 1977; 33: 159-174. [Medline]
8. Ripolles Orti M, Martín Rioboo E, Díaz Moreno A, Aranguren Baena B, Murcia Simón M,
Toledano Medina A, Fonseca Del Pozo FJ. Concordancia en la medición de presión arterial
entre diferentes profesionales sanitarios. ¿Son fiables los esfigmomanómetros de mercurio?
Aten Primaria 2001; 27(4): 234-43. [Medline] [Texto completo]
9. Divison JA, Carbayo J, Sanchis C, Artigao LM. Concordancia entre las automedidas
domiciliarias y la monitorización ambulatoria de la presión arterial. Med Clin (Barc). 2001;
116(19): 759. [Medline]
10. López de Ullibarri Galparsoro I, Pita Fernández S. Medidas de concordancia: el índice
Kappa. Cad Aten Primaria 1999; 6: 169-171.
11. Prieto L, Lamarca R, Casado A. La evaluación de la fiabilidad en las observaciones clínicas:
el coeficiente de correlación intraclase. Med Clin 1998: 110(4): 142-145. [Medline]
12. Bravo G, Potvin L. Estimating the reliability of continuous measures with Cronbach's alpha
or the intraclass correlation coefficient: toward the integration of two traditions. J Clin
Epidemiol. 1991; 44(4-5): 381-90. [Medline]
13. Bland JM, Altman DG. Statistical methods for assessing agreement between two methods of
clinical measurement. Lancet 1986; 1: 307-310. [Medline]
14. Monti KL. Folded empirical distribution function curves – mountain plots. Am Stat 1995;
49: 342-345. [ISI]
15. Krouwer JS, Monti KL. A simple, graphical method to evaluate laboratory assays. Eur J Clin
Chem Clin Biochem 1995; 33: 525-527. [Medline]
16. Luiz RR, Costa JL, Kale PL, Werneck GL. Assessment of agreement of a quantitative
variable: a new graphical approach. J Clin Epidemiol 2003; 56(10): 963-967. [Medline]
17. Bland JM, Altman DG. Measurement error and correlation coefficients. BMJ 1996; 313: 41-
42. [Medline] [Texto completo]
18. Bartko JJ. The intraclass correlation coefficient as a measure of reliability. Psychol Rep
1966; 19: 3-11. [Medline]
19. McGraw KO, Wong SP. Forming inferences about some intraclass correlation coefficients.
Psychol Methods 1996; 1: 30-46.
Tabla 1. Ejemplo teórico sobre mediciones de Tensión

Arterial Sistólica con dos instrumentos diferentes.

Instrumento A Instrumento B
110 111
120 121
130 131
140 141
150 151
160 161
170 171
180 181
190 191
200 201
Tabla 2. Tabla ANOVA para medidas repetidas.

Grados de Media
Fuente de variación Suma de cuadrados
libertad cuadrática
Entre sujetos n-1 SCENTRE=
Observador k-1 SSOBS=

Intra
sujetos
Residual (n-1)(k-1) SSRES=
Total nk-1 SCTOTAL=
n: número de sujetos.
k: número de observaciones por sujeto.
Tabla 3. Resultados de la medición de la presión arterial

sistólica (TAS) en 30 pacientes, utilizando dos métodos
diferentes.
TAS Método A TAS Método B Diferencia
80 83 -3
85 83 2
90 94 -4
95 93 2
100 100 0
105 103 2
110 112 -2
115 114 1
120 121 -1
125 127 -2
110 111 -1

120 123 -3
130 128 2
140 148 -8
110 113 -3
130 132 -2
135 139 -4
140 144 -4
145 152 -7
150 157 -7
155 156 -1
160 171 -11
165 164 1
170 179 -9
175 181 -6
180 184 -4
185 190 -5
190 196 -6
195 203 -8
200 206 -6
Tabla 4. Tabla ANOVA para las mediciones de tensión arterial.

Fuente de variación Grados de libertad Suma de cuadrados Media cuadrática
Entre sujetos 29 73597,683 2537,851
Observador 1 156,817 156,817
Intra sujetos
Residual 29 185,683 6,403
Total 59 73940,183
Tabla 5. Valoración de la concordancia según los valores

del Coeficiente de Correlación Intraclase (CCI).
Valor del CCI Fuerza de la concordancia
>0,90 Muy buena
0,71-0,90 Buena
0,51-0,70 Moderada
0,31-0,50 Mediocre
<0,30 Mala o nula
Tabla 6. Distribución de la diferencia absoluta entre las

mediciones de tensión arterial en 30 pacientes.
Diferencia Porcentaje
Frecuencia
absoluta acumulado
0 1 3,3%
1 5 20,0%
2 7 43,3%

3 3 53,3%
4 4 66,7%
5 1 70,0%
6 3 80,0%
7 2 86,7%
8 2 93,3%
9 1 96,7%
11 1 100,0%
Figura 1. Correlación entre los instrumentos A y B para la medición de la Tensión

Arterial Sistólica.
Figura 2. Mediciones de tensión arterial sistólica en 30 pacientes según dos métodos de

medición.

Figura 3. Correlación entre los valores de Tensión Arterial Sistólica medida con
esfigmomanómetro de mercurio en brazo dominante y monitor digital en dedo
índice.

Figura 4. Diferencias en los valores de Tensión Arterial Sistólica medidos con

esfigmomanómetro de mercurio en brazo dominante y monitor digital en dedo
índice. Método de Bland y Altman.

Figura 5. Histograma de las diferencias entre el monitor electrónico y el

esfigmomanómetro de mercurio para la medición de Tensión Arterial Sistólica.

Figura 6. Diferencias en los valores de tensión arterial sistólica (TAS) según dos
métodos de medida A y C en relación con su promedio.

Figura 7. Porcentaje de discordancia entre dos métodos de medición de la

tensión arterial sistólica (A y B)


Revisiones sistemáticas y metaanálisis

la Investigación
Metodología de la
Investigación
Revisiones sistemáticas y Metaanálisis
Autores:
(1) (2)
Sonia Pértega Díaz , Salvador Pita Fernández
(A Coruña).
CAD ATEN PRIMARIA 2005; 12(2): 109-112.
Introducción Imprimir documento [ Kb] ¿Problemas con PDF?
Limitaciones del metaanálisis y las -----------------------

revisiones sistemáticas
Etapas en una revisión sistemática
Bibliografía
Introducción
El extraordinario y progresivo incremento en el número de publicaciones

científicas ha planteado desde hace ya algún tiempo la necesidad de realizar
revisiones de la literatura médica en un intento de sintetizar los resultados
alcanzados en relación a un tema determinado. A esto se añade el hecho de
que los estudios individuales dependen de sus características particulares, y
pocas veces dan respuestas definitivas a cuestiones clínicas, obteniéndose en
ocasiones resultados contradictorios. Pese a todo ello, los conceptos de
revisión sistemática y metaanálisis son todavía relativamente recientes, y
1
vienen a formalizar, a mediados de los años 70 , el concepto de revisión
narrativa, según el cual hasta entonces para revisar la evidencia en torno a un
tema de interés se seleccionaba un número determinado de artículos,
limitándose habitualmente a contar el número de estudios con resultados
positivos y negativos (por ejemplo, aquellos con resultados a favor o en contra
de la efectividad de un determinado tratamiento), y con una valoración a lo
sumo subjetiva de las características metodológicas o la calidad científica
atribuible a cada uno de los trabajos incluidos. En contraposición a la revisión
http://www.fisterra.com/mbe/investiga/metaanalisis/RSyMetaanalisis.asp (1 of 8)22/04/2006 1:29:37 PM

narrativa clásica, la revisión sistemática viene a dotar de un mayor rigor tanto

al proceso de selección de los trabajos como a la posterior integración y
2
análisis de los resultados .
Puesto que no todas las revisiones sistemáticas de la bibliografía han de incluir

necesariamente un metaanálisis, en la actualidad se recomienda utilizar ambos
términos para acuñar distintas realidades. Así, se suele hablar de revisión
sistemática para referirse al proceso de identificar sistemáticamente y evaluar
varios estudios del mismo tipo y con un objetivo común, mientras que por
metaanálisis nos referiremos habitualmente al conjunto de técnicas
estadísticas mediante las cuales se combinan los resultados de estos estudios
para obtener parámetros de medida globales.
En atención primaria, al igual que en otras especialidades, las técnicas del

metaanálisis pueden contribuir a buscar siempre la mejor evidencia disponible
y tomar decisiones sobre el cuidado de los pacientes. Como ejemplo, podemos
3
tomar una investigación reciente , en la cual se realizó una revisión sistemática
de 15 ensayos clínicos sobre la comparación de la terapia clásica
antihipertensiva (diuréticos o Beta-bloqueantes) y los nuevos fármacos
(IECAS, ARA II, Calcioantagonistas o alfa-bloqueantes) para la reducción de la
morbimortalidad cardiovascular. La búsqueda bibliográfica para la selección de
los trabajos se extendió a publicaciones electrónicas y consultas de audiciones
públicas, cumpliendo las investigaciones seleccionadas criterios de inclusión/
exclusión claramente especificados por los autores de la revisión
(aleatorización, seguimiento mínimo de 2 años, tamaño muestral>100, etc). El
beneficio de un grupo tratamiento frente a otro se analizó mediante odds ratios
(OR), que fueron calculados para cada uno de los estudios originales, y
posteriormente combinados mediante metaanálisis para producir un valor OR
global, concluyéndose una similar protección cardiovascular de ambas terapias.
En lo que sigue, nos centraremos fundamentalmente en la exposición de las

fases de las que consta el proceso de la revisión sistemática, así como de sus
posibles limitaciones para, en posteriores trabajos, centrarse en las técnicas
estadísticas habitualmente utilizadas en la integración de resultados durante la
etapa del metaanálisis.
Limitaciones del Metaanálisis y las Revisiones Sistemáticas.
Antes de exponer las distintas fases que ha de incluir toda revisión sistemática,
es importante destacar las limitaciones metodológicas inherentes a este tipo de
4-7
estudios , a fin de valorar convenientemente la importancia de cada una de
las etapas que se señalarán a continuación. Uno de los principales sesgos que
7
afectan a este tipo de revisiones es el conocido como sesgo de publicación .
Viene derivado del hecho de que muchos trabajos científicos, en su mayoría
con resultados “negativos” (aquellos que no hallan diferencias significativas o

con resultados en contra de la hipótesis de estudio o de lo habitualmente

establecido) nunca llegan a publicarse, tardan más en hacerlo o son menos
citados en otras publicaciones. Todo ello condiciona los resultados de una
búsqueda bibliográfica y puede dar lugar a resultados sesgados en un
metaanálisis. Otros hechos que contribuyen a este tipo de sesgos es la
publicación duplicada de estudios o el ignorar los trabajos publicados en un
idioma distinto al inglés.
Junto con el sesgo de publicación, el sesgo de selección es una de las

7
principales críticas del metaanálisis . Es importante definir con claridad los
criterios de inclusión y exclusión de los estudios en la revisión, y que estos
sean lo más objetivos posible. El propio autor del metaanálisis puede sesgar
los resultados, ya que su criterio para incluir o excluir un estudio del análisis
puede venir influenciado por los resultados del mismo.
Otros aspectos que pueden comprometer la validez de los resultados de un

metaanálisis son la calidad de los estudios originales incluidos, la variabilidad
entre estudios o los errores en la fase de análisis. Las conclusiones del
metaanálisis dependerán en gran medida de la calidad de los estudios
originales, de modo que al combinar resultados de investigaciones sesgadas o
metodológicamente deficientes también se incurrirá en un sesgo a la hora de
obtener un estimador global del efecto. A su vez, la heterogeneidad entre los
diferentes estudios que se combinan puede afectar de una manera muy
importante los resultados del metaanálisis. Suelen ser investigaciones
realizadas en distintos contextos, con pacientes de características no
necesariamente similares o incluso con resultados muy diferentes, lo que
implica que no siempre será aconsejable realizar un metaanálisis. Deberán
investigarse las posibles fuentes de heterogeneidad, su influencia en los
resultados y la posibilidad de realizar un análisis por subgrupos.
Finalmente, los resultados pueden verse comprometidos por el empleo de

técnicas de análisis erróneas o una definición incorrecta de las medidas que se
desean combinar. Los valores de significación, que no informan del sentido ni
de la magnitud de la asociación, o los estadísticos de contraste, que tienen en
cuenta el sentido del efecto pero no su magnitud, no deberían considerarse
como medidas de entrada al metaanálisis.
Etapas en una revisión sistemática.
La revisión sistemática se ha convertido así en un diseño de investigación en sí

misma en el que las unidades de estudio, en lugar de pacientes o unidades
8
administrativas, son los trabajos originales que se revisan . Como en cualquier
estudio de investigación, su realización requiere seguir un protocolo que debe
4,5,9-13
incluir los siguientes pasos :
1. Establecimiento de la pregunta que se desea responder y razones

para ello: Como en cualquier proceso de investigación, debe

establecerse de forma lo más clara y concisa posible la pregunta de
investigación que se intenta responder.
2. Cuantificación de los efectos: Los investigadores deberán concretar
qué medidas se van a utilizar para medir el efecto de interés, en función
del tipo de respuesta a estudiar y el diseño de los estudios revisados. Así,
por ejemplo, si la respuesta es binaria (enfermedad/no enfermedad,
muerte/supervivencia,…) las medidas de efecto utilizadas suelen ser la
diferencia de proporciones, el riesgo relativo o la odds ratio. Por el
contrario, si la respuesta es un parámetro numérico (por ejemplo, la
determinación de un parámetro analítico) el efecto suele medirse
mediante la diferencia estandarizada de medias en los grupos de interés.
Debe tenerse en cuenta que en los estudios experimentales, con grupos
aleatorizados, el propio diseño controla la confusión y los efectos pueden
medirse con resultados “crudos” como los descritos. Por el contrario, en
metaanálisis realizados a partir de evidencia observacional, el control del
sesgo en el análisis deberá hacerse mediante técnicas de regresión
multivariante, siendo los resultados de estos modelos los que deben
combinarse en la etapa del metaanálisis para obtener una medida global
de interés.
Finalmente, es también aconsejable que en el momento de planificación
de la investigación se fije la diferencia mínima en la variable respuesta
que será considerada de relevancia clínica.
3. Localización de los estudios de investigación: Se debe realizar una
búsqueda exhaustiva, objetiva y reproducible de los trabajos originales
sobre el tema, que además de bases de datos electrónicas incluya
búsquedas detalladas en las revistas relacionadas y búsquedas manuales
de la llamada “literatura gris” (referencias bibliográficas, tesis doctorales,
comunicaciones a congresos, informes de instituciones públicas o
privadas, trabajos no publicados o publicados en revistas no indexadas,
etc). La exhaustividad y el rigor de la búsqueda bibliográfica determinará
en gran medida la calidad y validez final del metaanálisis.
4. Criterios de inclusión/exclusión de los estudios: Los investigadores
deben establecer cuáles de los trabajos recuperados serán incluidos
finalmente en el metaanálisis, elaborando una lista de criterios de
inclusión y exclusión que deberá ser lo más objetiva posible. Para evitar
el denominado sesgo de selección, es importante aplicar dichos criterios
rigurosamente a cada estudio, siendo recomendable que esta evaluación
sea realizada de forma ciega e independiente por varios evaluadores.
Entre los criterios de selección utilizados con mayor frecuencia en el
metaanálisis están: el tipo de diseño de los trabajos, el tamaño muestral
estudiado, la exhaustividad de la información que presentan o la
comparabilidad en la definición de los factores de exposición, de las
intervenciones y de las respuestas estudiadas. Aunque algunos autores
sugieren utilizar la calidad metodológica de los trabajos como un criterio
de inclusión, es más aconsejable considerarlo como una variable más a
tener en cuenta en la interpretación de los resultados del metaanálisis

mediante un análisis de sensibilidad.

5. Búsqueda de información y datos relevantes de cada estudio: En
cada uno de los artículos originales que se revisan, se debe buscar
información de interés referente a las características de los estudios
(diseño, criterios de inclusión/exclusión o de selección de casos y
controles, periodo de selección, periodo de seguimiento, aleatorización,
tipo de intervención, etc.), a las características de la población de
estudio, a su calidad metodológica (incluyendo los métodos de análisis
estadístico utilizados) y a sus resultados, con especial énfasis a la
descripción de las variables del efecto de interés. Como en cualquier otro
proyecto de investigación, es aconsejable elaborar un formulario con los
datos que deben consignarse para cada trabajo y que la recogida de
datos sea realizada por más de un investigador, a fin de evaluar la
consistencia de los resultados y consensuar posibles discrepancias.
6. Evaluación de la calidad de los estudios incluidos: Junto con la
estrategia de búsqueda de información, la calidad metodológica de los
artículos revisados es otro elemento clave a la hora de determinar la
validez del metaanálisis.
Existen publicadas diversas escalas de valoración de la calidad de los
estudios, que si bien valoran generalmente los mismos aspectos (diseño
del estudio, control de sesgos, tamaño muestral, seguimiento,
aleatorización, enmascaramiento, etc.), pueden llegar a resultados
discrepantes. En cualquier caso, una vez valorada la calidad metodológica
de cada trabajo, algunos autores proponen utilizar las puntuaciones
asignadas como pesos en el metaanálisis, mientras que otros defienden
la utilización en su lugar de un análisis de sensibilidad.
7. Análisis de la heterogeneidad de los estudios: La evaluación del
grado de heterogeneidad de los estudios puede llevarse a cabo mediante
distintas pruebas estadísticas, entre las que destaca la prueba Q
14
propuesta por Der Simonian y Laird . No obstante, estos tests presentan
una potencia muy baja, dado que además en la mayoría de los casos los
metaanálisis incluyen un número relativamente pequeño de estudios,
aumentando así la posibilidad de cometer un error de Tipo II. Por todo
ello, el análisis de la heterogeneidad suele llevarse a cabo mediante
15 16
métodos gráficos como el gráfico de L’Abbé o el gráfico de Galbraith
que permiten inspeccionar visualmente la falta de homogeneidad entre
los estudios recopilados.
En caso de que exista heterogeneidad entre los estudios incluidos en la
revisión, los investigadores pueden optar simplemente por no realizar el
metaanálisis, por obtener una medida agregada del efecto de interés
indicando una medida de la variabilidad entre estudios o bien por realizar
un análisis por subgrupos homogéneos de ser posible identificar la causa
de la heterogeneidad.
8. Combinación de resultados: Como ya adelantábamos antes, el método
elegido para combinar los resultados de los diferentes estudios en una
medida global del efecto vendrá determinado fundamentalmente por el
tipo de respuesta a estudiar (binaria o continua) y, también, por los

resultados derivados del análisis de heterogeneidad.

En la mayoría de los casos, el estimador del efecto combinado se calcula
como una media ponderada de los estimadores de cada estudio, donde
los pesos se asignan en base a la precisión de cada trabajo,
generalmente el inverso de la varianza de la estimación correspondiente.
De esta forma, los estudios con mayor variabilidad (por ejemplo, aquellos
con un tamaño muestral más reducido), tienen una contribución menor
en el estimador global.
La heterogeneidad entre estudios puede ser tenida en cuenta en estos
cálculos utilizando el llamado modelo de efectos aleatorios, o no ser
17
incluida mediante el uso del modelo de efectos fijos . La principal
diferencia es que con este último se considera que no existe
heterogeneidad entre estudios, mientras que con el modelo de efectos
aleatorios se consideran dos posibles fuentes de variabilidad, la
variabilidad intra-estudio y la variabilidad entre-estudios, que se
incorporan al estimador combinado a través de los pesos
correspondientes. No obstante, debe tenerse en cuenta que cuando
existe una gran heterogeneidad entre estudios el metaanálisis, aún bajo
la suposición de efectos aleatorios, no es apropiado y lo que procede es
identificar las fuentes de variabilidad y realizar un análisis por subgrupos.
Finalmente, los resultados obtenidos suelen representarse típicamente en
una gráfica que muestra las estimaciones del efecto individuales de cada
estudio, además del valor global obtenido al combinar todos los
resultados y su correspondiente intervalo de confianza.
9. Identificación del sesgo de publicación: Como en cualquier otro
estudio, en un metaanálisis deberá valorarse la existencia de posibles
sesgos entre los que el sesgo de publicación es uno de los más
importantes. Entre los métodos disponibles para valorar el sesgo de
18
publicación el gráfico en embudo o funnel plot es quizá el más utilizado,
en el que se representa el tamaño muestral de cada trabajo frente al
tamaño del efecto detectado. Este tipo de gráficos, puesto que pueden
dar lugar a interpretaciones poco objetivas, suelen complementarse con
19 18
técnicas estadísticas como la prueba de Begg o de Egger .
10. Análisis de sensibilidad: El análisis de sensibilidad permite estudiar la
influencia individual de cada estudio al resultado del metaanálisis y, por
lo tanto, determinar si los resultados pueden verse sesgados por estudios
con escasa calidad metodológica, trabajos no publicados o que no
cumplan estrictamente los criterios de selección, etc. Consistiría en
replicar el metaanálisis quitando en cada paso uno de los estudios
incluidos, para ver si se obtienen o no resultados similares de forma
global.
El proceso de realización de una revisión sistemática no es pues un proceso

fácil pero, en este sentido, no difiere del proceso de elaboración de cualquier
6
otro tipo de investigación científica . Una buena revisión sistemática constituye
una herramienta excelente para encontrar la mejor evidencia disponible sobre

un tema de interés, si bien una lectura crítica y objetiva de estos trabajos es

indispensable para poder valorar en su medida su calidad metodológica y
realizar una correcta interpretación de sus conclusiones.
Bibliografía
1. Glass GV. Primary, secondary, and meta-analysis of research.

Educational Researcher 1976; 5: 3-8.
2. Teagarden JR. Meta-analysis: whither narrative review? Pharmacotherapy
1989; 9: 274-284. [Medline]
3. Staessen JA, Wang JG, Thies L. Cardiovascular prevention and blood
pressure reduction: a quantitative overview updated until 1 March 2003.
J Hypertens 2003; 21: 1055-1076. [Medline]
4. Guallar E, Banegas JR, Martín-Moreno JM, Del Río A. Metaanálisis: su
importancia en la toma de decisiones clínicas en cardiología. Rev Esp
Cardiol 1994; 47: 509-517. [Medline]
5. Molinero Casares LM. Metaanálisis: claves para interpretar una
herramienta de investigación controvertida. Hipertensión 2001; 18(5):
232-240.
6. Ruano-Raviña A, Figueiras A, Barros-Dios JM. El metaanálisis a debate.
Med Clin (Barc) 2002; 119(11): 435-439. [Medline]
7. Egger M, Smith GD. Meta-analysis bias in location and selection of
studies. BMJ 1998; 316: 61-66. [Medline] [Texto completo]
8. Guallar E, Banegas JR, Martín-Moreno JM, Del Río A. Metaanálisis: su
importancia en la toma de decisiones clínicas en cardiología. Rev Esp
Cardiol 1994; 47: 509-517. [Medline]
9. Altman DG. Statistics in medical journals: some recent trends. Stat Med
2000; 19. 3275-89. [Medline]
10. Petitti D. Meta-analysis, decision analysis, and cost-effectiveness
analysis. Methods for quantitative synthesis in medicine. Nueva York:
11. Greenland S. Quantitative methods in the review of epidemiologic
literature. Epidemiol Rev 1987; 9: 1-30.
12. Friedenreich CM. Methods for pooled analysis of epidemiologic studies.
Epidemiology 1993; 4: 295-302. [Medline]
13. Abraira V. Revisiones sistemáticas y metaanálisis. Semergen 2003; 29
(4): 183-185.
14. DerSimonian R, Laird N. Meta-analysis in clinical trials. Control Clin Trials
1986; 7: 177-188. [Medline]
15. L’Abbé K, Detsky A, O’Rourke K. Meta-analysis in clinical research. Ann
Intern Med 1987; 107: 224-233. [Medline]
16. Galbraith R. A note on graphical presentation of estimated odds ratios
from several clinical trials. Stat Med 1988; 7: 889-894. [Medline]
17. Egger M, Smith GD, Phillips AN. Meta-analysis: Principles and procedures.
BMJ 1997; 315: 1533-1537. [Medline] [Texto completo]

18. Egger M, Smith GD, Schneider M, Minder C. Bias in meta-analysis detect

by a simple, graphical test. BMJ 1997; 315: 629-634. [Medline] [Texto
completo]
19. Begg CB, Mazumsdar M. Operating characteristics of a rank correlation
test for publication bias. Biometrics 1994; 50: 1088-1101. [Medline]
Arriba

de privacidad

Revisiones sistemáticas y metaanálisis (II)

la Investigación
Metodología de la
Investigación
Revisiones sistemáticas y Metaanálisis (II)
Autores:
(1) (2)
Sonia Pértega Díaz , Salvador Pita Fernández
(A Coruña).
CAD ATEN PRIMARIA 2005; 12(3): 166-171.
Imprimir documento [ Kb] ¿Problemas con PDF?

Introducción -----------------------
Tablas
El análisis de la
Tabla 1. Metaanálisis de diez ensayos clínicos
heterogeneidad
que analizan la eficacia de un nuevo fármaco en
Métodos estadísticos para la el tratamiento de una nueva enfermedad
combinación de resultados Tabla 2. Resultados del metaanálisis para los
Presentación de los datos de ejemplo de la Tabla 1
resultados
Figuras
· Modelo de efectos fijos Figura 1. Gráfico de Galbraith para los datos
· Modelo de efectos del ejemplo
aleatorios Figura 2. Gráfico de L’Abblé para los datos del
Análisis de sensibilidad y ejemplo
del sesgo de selección Figura 3. Resultados del metaanálisis para los
Bibliografía datos del ejemplo
Figura 4. Análisis de sensibilidad para el
metaanálisis de los datos del ejemplo
Figura 5. Funnel plot para los resultados del
metaanálisis con los datos del ejemplo
Introducción.
http://www.fisterra.com/mbe/investiga/metaanalisis/RSyMetaanalisis2.asp (1 of 13)22/04/2006 1:29:54 PM

En un trabajo anterior se han presentado los conceptos de revisión sistemática

y metaanálisis en el proceso de síntesis de los resultados alcanzados por
1
diversos estudios en relación a un tema determinado . Dicha publicación se
centró fundamentalmente en la exposición de las limitaciones y las etapas de
una revisión sistemática, con una breve descripción de las técnicas estadísticas
habitualmente utilizadas durante la etapa del metaanálisis. En el presente
trabajo, se tratará de describir con mayor extensión los métodos estadísticos
disponibles para la combinación de resultados en este tipo de estudios.
El análisis de la heterogeneidad.
Antes de optar por alguno de los distintos métodos estadísticos que permiten
combinar los resultados individuales de cada estudio para obtener un
estimador combinado del efecto, habrá que determinar:
a. El tipo de respuesta a estudiar: si la respuesta es binaria o dicotómica

la medida de efecto utilizada será la diferencia de proporciones, el riesgo
relativo o el valor del odds ratio. Si la respuesta es una variable
numérica, el efecto se medirá mediante la diferencia de medias en los
grupos de interés. Puesto que esta diferencia será probablemente mayor
cuando las medias sean mayores, en lugar de usar las diferencias
absolutas se suelen utilizar las diferencias estandarizadas. En estudios no
aleatorizados, en los que no se tenga control sobre los posibles factores
de confusión, será aconsejable utilizar como medidas del efecto los
correspondientes coeficientes de regresión.
En este punto, no debe olvidarse además que los valores de significación
(valores de la p), que no informan del sentido ni de la magnitud de la
asociación, o los estadísticos de contraste, que tienen en cuenta el
sentido del efecto pero no su magnitud, no son medidas apropiadas para
utilizar en la fase del metaanálisis.
b. La heterogeneidad entre estudios: Se trata de analizar hasta qué
punto los resultados de los diferentes estudios pueden combinarse en
una única medida. Diferencias en el diseño del estudio, las características
de la población, etc. pueden llevar a resultados muy diferentes y
comprometer los resultados del metaanálisis.
La evaluación del grado de heterogeneidad puede llevarse a cabo mediante

pruebas estadísticas, siendo la más utilizada la prueba Q de Der Simonian y
2
Laird . Dicha prueba se basa en calcular una suma ponderada de las
diferencias entre el efecto determinado en cada uno de los estudios (odds

ratio, riesgo relativo, diferencia de medias, etc.) y el promedio global:

con .
De esta forma, si los estudios son homogéneos, el estadístico sigue

aproximadamente una distribución con grados de libertad. El valor
obtenido para dicho estadístico en cada caso concreto se confronta con la
distribución teórica correspondiente, obteniéndose así un valor de significación
que permite rechazar (p<0,05) o aceptar (p>0,05) la hipótesis de
homogeneidad. No obstante, se trata de una prueba con escasa potencia
estadística, por lo que un resultado no significativo suele ser insuficiente para
concluir que no existe heterogeneidad ente los estudios, y conviene explorar
esta posibilidad con otros métodos, fundamentalmente de tipo gráfico, como
3,4
son el gráfico de Galbraith o el gráfico de L’Abbé .
3
Por un lado, en el gráfico de Galbraith se representa la precisión de cada
estudio (el inverso del error estándar de la estimación del efecto) frente al
efecto estandarizado (i.e., la estimación del efecto dividida entre su error
estándar). Se representa también la línea de regresión ajustada a estos puntos
y una banda de confianza, de modo que todos los puntos deberían situarse
dentro de dicha banda. Los puntos fuera de esos márgenes de confianza son
los que mayor variabilidad aportan al análisis. Además, aquellos estudios con
un mayor peso en el metaanálisis serán los de mayor precisión y podrán
identificarse, por lo tanto, a la derecha del gráfico.
4
El gráfico de L’Abbé es otra herramienta útil en el caso de trabajar con una
respuesta binaria (por ejemplo, respuesta a un nuevo tratamiento frente a otro
estándar). En él se representa la proporción de eventos en el grupo control
frente a la proporción de eventos en el grupo de tratamiento. Cada uno de los
puntos en el gráfico representa así el riesgo relativo correspondiente a los
diferentes estudios, de modo que la diagonal que divide el gráfico en dos
secciones dejará a uno de los lados los estudios favorables al grupo de
tratamiento y al otro los favorables al grupo control. La presencia de puntos
dispersos, que no se sitúen de forma paralela a dicha diagonal, indicará posible
heterogeneidad.
Para ilustrar lo anterior, consideraremos un hipotético ejemplo en el que se

desea realizar un metaanálisis de 10 ensayos clínicos que tratan de evaluar la
eficacia de un nuevo fármaco para el tratamiento de una determinada
enfermedad. En todos los estudios los pacientes son aleatorizados para recibir
el fármaco experimental (Grupo de tratamiento) o bien el tratamiento habitual
(Grupo control), contabilizándose en cada grupo el número de pacientes que se
han recuperado de la enfermedad. La variable respuesta es por lo tanto la
curación, y la medida de efecto el riesgo relativo ( ). Los datos utilizados

para este ejemplo se muestran en la Tabla 1.
La prueba de Der Simonian y Laird no revela, con un nivel de confianza del

95%, evidencia estadística de heterogeneidad (Q=14,401; p=0,109). Sin
embargo, los gráficos de Galbraith y de L’Abbé sugieren cierto grado de
heterogeneidad, con uno de los estudios fuera de las bandas de confianza en el
primero (aquel que proporciona una menor estimación del efecto) y con puntos
que no se alinean en torno a una línea recta en el gráfico de L’Abbé (Figuras 1
y 2).
Métodos estadísticos para la combinación de resultados.
A pesar de las diferencias entre los distintos métodos disponibles para el

metaanálisis, todos ellos siguen un esquema similar. En la mayoría de los
casos, el estimador del efecto combinado se calcula como una media
ponderada de los estimadores de cada estudio, donde los pesos se asignan en
base a la precisión de cada trabajo. De esta forma, los estudios con mayor
variabilidad en la respuesta o con un tamaño muestral más reducido tendrán
una contribución menor en el estimador global.
Fundamentalmente, los métodos estadísticos más utilizados en la práctica

pueden clasificarse en dos grupos, según se tenga en cuenta o no la
5
heterogeneidad entre estudios en el análisis : los modelos de efectos
aleatorios y los modelos de efectos fijos.
a) Modelos de efectos fijos.
En el modelo de efectos fijos se asume que no existe heterogeneidad entre los

estudios incluidos en la revisión, de modo que todos ellos estiman el mismo
efecto y las diferencias observadas se deben únicamente al azar.
Denotando una vez más por la medida de efecto (odds ratio,

diferencia de medias, etc.) obtenida a partir de los datos del i-ésimo estudio,
en el modelo de efectos fijos se asume que existe un efecto global fijo :
siendo el error cometido al aproximar .
El efecto global puede estimarse como un promedio ponderado de los efectos

individuales de cada estudio:

donde los pesos vienen dados como el inverso de la varianza de la
estimación correspondiente:
La medida global del efecto así obtenida tendrá una varianza que viene dada
por:
de modo que si se asume que sigue una distribución normal podrá calcularse
el intervalo de confianza correspondiente como .
b) Modelos de efectos aleatorios.
Por el contrario, con un modelo de efectos aleatorios se asume que los

estudios incluidos en la revisión constituyen una muestra aleatoria de todos los
estudios existentes. Ahora el efecto de cada estudio se considera que tiene

tres componentes:
donde es el efecto común que intersesa estimar, es el efecto a estimar en

el i-esimo estudio (en función de las características particulares del mismo) y
el error cometido en la estimación.
Del mismo modo que en el modelo de efectos fijos, el efecto global se estima

aquí como una media ponderada de los estimadores individuales, donde los
pesos se calculan ahora como el inverso de la suma de la varianza del estudio
individual más la varianza entre estudios:
La medida global del efecto así obtenida tendrá una varianza que viene dada
por:
pudiendo calcularse el intervalo de confianza correspondiente como
Es frecuente encontrar trabajos en los que se presentan conjuntamente los

resultados del metaanálisis tanto con el modelo de efectos fijos como con el
modelo de efectos aleatorios. Mientras que algunos autores defienden la
utilización del modelo de efectos aleatorios en todos los casos, otros hacen
hincapié en sus posibles deficiencias, como el hecho de que es menos preciso,
proporcionando intervalos de confianza más amplios que el modelo de efectos
fijos. En general, debe tenerse en cuenta que el principal objetivo de un
metaanálisis no será siempre el de obtener un estimador combinado del efecto.
Cuando los resultados de los estudios revisados sean claramente heterogéneos
el análisis e identificación de las causas de dicha heterogeneidad debe
convertirse en nuestro principal objetivo. Si las discrepancias no son muy
grandes el modelo de efectos aleatorios se convierte en la alternativa al
modelo más sencillo con efectos fijos para combinar los resultados. En caso de
una mayor variabilidad en los resultados la mejor opción será no realizar el
metaanálisis, averiguar las causas de la heterogeneidad y realizar un análisis
por subgrupos.
Presentación de los resultados.
Una vez realizados los cálculos anteriores, los resultados de un metaanálisis

suelen representarse en una gráfica (“forest plot”) en la que se muestra el
efecto estimado en cada estudio junto con el valor obtenido combinando los
resultados de todas las investigaciones, acompañados por sus respectivos
intervalos de confianza. Además, suele representarse en la gráfica la línea

vertical del valor correspondiente a la ausencia de efectos (RR=1 o Diferencia

de medias=0). Podría resultar útil fijar también los límites de relevancia clínica
para determinar si las diferencias, además de alcanzar significación estadística,
son de una magnitud relevante.
Recurriendo una vez más al ejemplo anterior, en la Tabla 2 y en la Figura 3 se

muestran los resultados del metaanálisis utilizando tanto el modelo de efectos
fijos como el modelo de efectos aleatorios. Todos salvo uno de los estudios
muestran resultados homogéneos, con un efecto favorable del tratamiento
experimental, y RR comprendidos entre 1,04 y 1,57. En los casos en los que
los intervalos de confianza cruzan la línea de no efecto (RR=1) la diferencia en
las tasas de respuesta no ha resultado estadísticamente significativa. Con
cualquiera de los dos métodos de análisis, los resultados permiten concluir que
el nuevo tratamiento es significativamente mejor que el tratamiento estándar
para conseguir la curación de los pacientes, obteniéndose medidas globales del
efecto muy similares, de RR=1,21 con el modelo de efectos fijos y de RR=1,29
con el modelo de efectos aleatorios.
Análisis de sensibilidad y del sesgo de selección.
Después de realizar un metaanálisis, es recomendable estudiar la influencia de

cada uno de los estudios en los resultados obtenidos. El análisis de sensibilidad
consiste en replicar los resultados del metaanálisis excluyendo en cada paso
uno de los estudios incluidos en la revisión. Si los resultados así obtenidos son
similares, tanto en dirección como en magnitud del efecto y significación
estadística indica que el análisis es robusto. Este mismo proceso podría
repetirse eliminando a un mismo tiempo varios estudios (por ejemplo, aquellos
de peor calidad metodológica, los no publicados, etc.) para determinar su
posible influencia en los resultados.
Junto con el análisis de sensibilidad, una vez obtenidos los resultados del
metaanálisis se debe analizar la existencia de un posible sesgo de selección
que pudiese poner en entredicho los resultados alcanzados. Entre los métodos
más utilizados para evaluar la existencia de este tipo de sesgos el más popular
6
es el gráfico de embudo (“funnel plot”), el cual se basa en representar el
tamaño muestral de cada trabajo frente al tamaño del efecto detectado. Lo
normal sería que todos los estudios detectasen un efecto de magnitud similar,
en torno a una línea horizontal, con mayor dispersión cuanto menor fuese el
tamaño muestral. De esta forma, los puntos tenderían a distribuirse en forma
de un embudo invertido. Si, por el contrario, existiese un sesgo de publicación,
de los estudios de menor tamaño muestral solo se publicarían aquellos que
encontrasen diferencias significativas entre los grupos, de forma que la nube
de puntos aparecería deformada en uno de sus extremos. Existen otras
6 7
técnicas estadísticas como la prueba de Begg o de Egger , implementadas en
la mayoría de los programas para la realización de metaanálisis, que permiten
evaluar de una manera más objetiva la existencia de un posible sesgo de

publicación.
Para los datos del ejemplo previo, los resultados del análisis de sensibilidad y
el gráfico “funnel plot” se muestran en las Figuras 4 y 5, respectivamente. Tal
y como se puede apreciar, ninguno de los trabajos parece modificar
sustancialmente los resultados si es eliminado del metaanálisis. Así mismo, la
Figura 5 no evidencia la existencia de sesgo de publicación, lo cual es
refrendado por los resultados de las pruebas de Begg (p=0,720) y Egger
(p=0,316).
En definitiva, las técnicas de metaanálisis constituyen así una herramienta sin

excesiva complejidad estadística que permiten sintetizar los resultados de
diferentes estudios en relación con un tema determinado. Su aplicación se ha
visto facilitada en los últimos años gracias a la proliferación de programas
informáticos que implementan este tipo de metodología, como es el caso del
8
software EPIDAT . Sin embargo, su accesibilidad no debe potenciar su uso
indiscriminado, obviando el hecho de que en ocasiones los diseños de los
estudios que se incluyen en una revisión, su calidad metodológica o los
resultados que estos alcanzan presentan un alto grado de heterogeneidad que
desaconseja la realización del metaanálisis.
Tabla 1. Metaanálisis de diez ensayos clínicos que analizan la

eficacia de un nuevo fármaco en el tratamiento de una nueva
enfermedad.
Grupo de
Grupo de control
tratamiento
95%
Estudio Enfermos Sanos Enfermos Sanos RR
IC
0,63-
1 80 20 82 18 1,11
1,97
1,04-
2 40 40 60 30 1,50
2,16
1,03-
3 67 40 80 25 1.57
2,39
0,79-
4 20 34 22 32 1,06
1,44
0,77-
5 387 107 350 100 0,97
1,24
1,22-
6 765 222 830 150 1,47
1,77
0,76-
7 75 30 80 25 1,20
1,89
1,20-
8 703 345 765 240 1,38
1,59

1,19-
9 255 120 290 77 1,53
1,95
0,73-
10 111 45 109 42 1,04
1,48
Figura 1. Gráfico de Galbraith para los datos del ejemplo

en la Tabla 1.
Figura 2. Gráfico de L’Abblé para los datos del ejemplo en

la Tabla 1.

Tabla 2. Resultados del metaanálisis para los datos de ejemplo de la

Tabla 1.
Pesos
Tamaño Modelo
Estudio RR IC 95% (RR) Modelo de
muestral de
efectos
efectos
aleatorios
fijos
4 108 1,0625 0,7861 1,4360 7,2094 9,5287

2 170 1,5000 1,0411 2,1612 4,9052 7,2288
1 200 1,1111 0,6263 1,9712 1,9908 3,4331
7 210 1,2000 0,7601 1,8945 3,1375 5,0711
3 212 1,5701 1,0306 2,3919 3,6921 5,7917
10 307 1,0371 0,7264 1,4806 5,1614 7,5103
9 742 1,5252 1,1910 1,9532 10,6925 12,2262
5 944 0,9747 0,7661 1,2401 11,2800 12,6111
6 1967 1,4695 1,2184 1,7723 18,6395 16,2978
8 2053 1,3785 1,1982 1,5860 33,2917 20,3012
Efectos
6913 1,3119 1,2100 1,4224
fijos

Efectos
6913 1,2880 1,1504 1,4421
aleatorios
Figura 3. Resultados del metaanálisis para los datos del ejemplo de la

Tabla 1.
Figura 4. Análisis de sensibilidad para el metaanálisis de los datos del

ejemplo en la Tabla 1.

Figura 5. Funnel plot para los resultados del metaanálisis

con los datos del ejemplo de la Tabla 1.

Bibliografía
1. Pértega Díaz S, Pita Fernández S. Revisiones sistemáticas y metaanálisis.

Cad Aten Primaria 2005; 12(2): 109-112. [Texto completo]
2. DerSimonian R, Laird N. Meta-analysis in clinical trials. Control Clin Trials
1986; 7: 177-188. [Medline]
3. Galbraith R. A note on graphical presentation of estimated odds ratios
from several clinical trials. Stat Med 1988; 7: 889-894. [Medline]
4. L’Abbé, K, Detsky A, O0Rourke K. Meta-analysis in clinical research. Ann
Intern Med 1987; 107: 224-233. [Medline]
5. Molinero LM. Meta-análisis. [Internet[. Asociación de la Sociedad
Española de Hipertensión; 2003 [acceso, 23 de noviembre de 2005].
Disponible en: http://www.seh-lelha.org/pdf/metaanalisis.pdf.
6. Begg CB, Mazumbar M. Operating characteristics of a rank correlation
test for publication bias. Biometrics 1994; 50: 1088-1101. [Medline]
7. Egger M, Smith GD, Schneider M, Zinder Ch. Bias in meta-analysis
detected by a simple, graphical test. BMJ 1997; 315: 629-634. [Medline]
[Texto completo]
8. Epidat 3.0: Análise epidemiolóxico de datos tabulados.[Internet]. Xunta
de Galicia, Consellería de Sanidade [acceso 23 Nov 2005]. Disponible en:
http://dxsp.sergas.es/default.asp.
Arriba

de privacidad

Metodologia de La Investigacion Fisterra

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Metodologia de La Investigacion Fisterra

Uploaded by

Copyright:

Available Formats

Fisterra: Metodología de la investigación

Guías Clínicas Ayuda en consulta Medicamentos Formación Biblioteca virtual Tienda

Elementos básicos en el Actualizada el 26/03/2006.

Determinación del tamaño Redes Centinelas Sanitarias en A.P.

http://www.fisterra.com/mbe/investiga/index.asp (1 of 3)22/04/2006 1:18:08 PM

http://www.fisterra.com/mbe/investiga/index.asp (2 of 3)22/04/2006 1:18:08 PM

Salvador Pita Fernández

Mis Datos | Contacto-Sugerencias | FAQ's | Condiciones de uso | Política de

http://www.fisterra.com/mbe/investiga/index.asp (3 of 3)22/04/2006 1:18:08 PM

Elementos básicos en el diseño de un estudio

Pita Fernández, S. [ Correo de contacto ]

La investigación se debe entender como el proceso dedicado a responder a una Contenido

define como un proceso sistemático, organizado y objetivo destinado a responder a Elementos de la

La epidemiología y la estadística son instrumentos indispensables para la realización de

http://www.fisterra.com/mbe/investiga/1diseno/1diseno.htm (1 of 4)22/04/2006 1:18:26 PM

Tabla 2. ELEMENTOS DE LA INFERENCIA ESTADÍSTICA

El problema a investigar debe entenderse como la incertidumbre sobre algún hecho o

Tabla 3. UTILIDAD DE LA REVISIÓN BIBLIOGRÁFICA

Fuente: Argimón Pallas J.M., Jiménez Villa J. (5)

La pregunta a investigar debe reunir en definitiva una serie de características que se

http://www.fisterra.com/mbe/investiga/1diseno/1diseno.htm (2 of 4)22/04/2006 1:18:26 PM

novedosa, ética y relevante (2).

Tabla 4. CRITERIOS DE UNA BUENA PREGUNTA A INVESTIGAR

Fuente: Stephen B. Hulley, Steven R. Cummings (2)

http://www.fisterra.com/mbe/investiga/1diseno/1diseno.htm (3 of 4)22/04/2006 1:18:26 PM

que hacen atractivo la realización de cualquier trabajo de investigación.

1. Contandriopoulos AP. Champagne F. Potvin L, Denis JL, Boyle P. Preparar un

Arriba | Página Principal | Material para la Consulta | Metodología de la Investigación

http://www.fisterra.com/mbe/investiga/1diseno/1diseno.htm (4 of 4)22/04/2006 1:18:26 PM

Dificultades de los médicos para la realización

Pita Fernández, S. [ Correo de contacto ]

La práctica médica diaria requiere la toma de decisiones sobre actividades Contenido

TABLA 1. Esquema general del planteamiento de un estudio.

http://www.fisterra.com/mbe/investiga/2dificultades/2dificultades.htm (1 of 6)22/04/2006 1:18:47 PM

TABLA 2. Dificultades en relación a la viabilidad y pertinencia de un estudio.

http://www.fisterra.com/mbe/investiga/2dificultades/2dificultades.htm (2 of 6)22/04/2006 1:18:47 PM

❍ Disposición de grupos de apoyo metodológico, estadístico, informático

❍ La pregunta planteada no ha sido contestada, lo ha sido de forma contradictoria

http://www.fisterra.com/mbe/investiga/2dificultades/2dificultades.htm (3 of 6)22/04/2006 1:18:47 PM

Consideraciones prácticas 5.6 %

Tabla 4. Problemas estadísticos de los ensayos clínicos

Una parte importante de la investigación que se realiza en el ámbito de la atención

En las fases de una investigación clinico-epidemiológoica la colaboración del

http://www.fisterra.com/mbe/investiga/2dificultades/2dificultades.htm (4 of 6)22/04/2006 1:18:47 PM

para la ejecución de estudios clínico-epidemiológicos son múltiples y como hemos

TABLA 5. Causas de denegación de comunicaciones. XIII Congreso Nacional de Medicina

1. Greenwood M. The statistician and medical research. BMJ 1948; 2:467-8.

http://www.fisterra.com/mbe/investiga/2dificultades/2dificultades.htm (5 of 6)22/04/2006 1:18:47 PM

enfoque epidemiológico. Barcelon. Doyma; 1993.

Arriba | Página Principal | Material para la Consulta | Metodología de la Investigación

http://www.fisterra.com/mbe/investiga/2dificultades/2dificultades.htm (6 of 6)22/04/2006 1:18:47 PM

Guías Clínicas Ayuda en consulta Medicamentos Formación Biblioteca virtual Tienda

Tablas Imprimir documento [145 Kb] ¿Problemas con

investigación en Atención Primaria -----------------------

La medicina es una ciencia de probabilidades y un arte de manejar la

http://www.fisterra.com/mbe/investiga/difInvestAP/difInvesAP.asp (1 of 8)22/04/2006 1:18:55 PM

proviene de la firma de centros hospitalarios. Los documentos citables

Es evidente que existen dificultades importantes para la realización de

Tabla 1. Dificultades para la investigación en Atención

● Importante presión asistencial.

Tabla 2. Principales dificultades para la investigación en

http://www.fisterra.com/mbe/investiga/difInvestAP/difInvesAP.asp (2 of 8)22/04/2006 1:18:55 PM

Principales dificultades (10)

Estudios con técnicas multivariadas (11) identifican y