You are on page 1of 52

1

P. Universidad Catlica de Chile


Facultad de medicina
Departamento de Salud Pblica


Bioestadstica
Apunte 4. Test de Hiptesis y Asociacin de Variables

L.Villarroel


1. Introduccin a los Test de Hiptesis

Un test de hiptesis, tambin llamado dcima de hiptesis, es un procedimiento
estadstico que permite determinar la veracidad de una hiptesis planteada
respecto a parmetros poblacionales, usando para esto los resultados de una
muestra obtenida de la o las poblaciones en estudio.

Al igual que en estimacin puntual e intervalos de confianza, los test de hiptesis
son una manera de hacer inferencias a una poblacin a partir de una muestra
aleatoria. A diferencia de aquellos, en test de hiptesis las preguntas no se
refieren al valor de un parmetro, sino si ste es mayor o menor que un
determinado valor, o si un parmetro medido en dos poblaciones toma o no el
mismo valor.

Los pasos que se deben seguir para llevar a cabo una dcima de hiptesis los
provee el mtodo cientfico:

Comienza con la elaboracin de una hiptesis estadstica que refleje la creencia del
investigador acerca del parmetro poblacional de inters.

Se toma una muestra aleatoria de la poblacin en estudio y se obtienen las medidas
resumen apropiadas para el parmetro de inters.

Se contrastan los resultados muestrales con lo planteado en la hiptesis.

De acuerdo a la distancia entre los resultados muestrales y lo planteado en la
hiptesis, se calcula la probabilidad de que la hiptesis sea correcta o incorrecta.

Termina con la aceptacin o rechazo de la hiptesis planteada, de acuerdo a la
probabilidad obtenida.


El contraste de los resultados muestrales con la hiptesis de inters se hace
mediante clculo de probabilidades, como se ver ms adelante.
2
1.1 Hiptesis Estadsticas

El problema se formula a travs de dos hiptesis estadsticas: una hiptesis nula
(H
0
) y una hiptesis alternativa (H
1
).

La Hiptesis nula H
0
es la hiptesis que generalmente se quiere rechazar y refleja el
conocimiento actual del problema. Es decir, generalmente plantea que no hay cambios
en el estado de las cosas.

La Hiptesis alternativa H
1
muestra un enunciado en desacuerdo H
0
, al plantear un
cambio en el actual conocimiento sobre el problema. Esta hiptesis suele reflejar lo
que el investigador sospecha es verdadero.

Las hiptesis H
0
y H
1
deben ser exhaustivas (deben cubrir todos los posibles
resultados) y excluyentes (no deben compartir ningn resultado).



Ejemplo. Un investigador sostiene que las mujeres que fuman durante el embarazo
tienen guaguas con menor peso promedio que la media nacional = 3,400 y desviacin
estndar = 550. Los pasos a seguir para determinar si el investigador est en lo correcto
o est equivocado se muestran en el esquema siguiente.



3
Las hiptesis estadsticas pueden ser bilaterales o unilaterales. Algunos ejemplos
de hiptesis estadsticas son:




Las hiptesis bilaterales deben su nombre a que se rechaza la hiptesis nula para
valores muy grandes o muy pequeos de x ) ( p o . En las hiptesis unilaterales,
en cambio, slo se rechaza H
0
para valores de x ) ( p o en un sentido.


Ejemplo. En la hiptesis H
0
:P=0.5 versus H
1
:P0.5, se rechaza H
0
si se observa un
estimador p mucho menor o mucho mayor que 0.5. En cambio, en la hiptesis H
0
:100
versus H
1
:<100, se rechaza H
0
slo si el estimador x es mucho menor que 100.


Ntese que se pueden plantear hiptesis en las cuales se compara un parmetro
con un valor constante, el cual es obtenido generalmente de la literatura. En otros
casos, interesa comparar el mismo parmetro entre dos o ms poblaciones.

Por su estructura, los test de hiptesis se usan para buscar diferencias entre dos
parmetros (determinar si hay evidencia en los datos para rechazar H
0
). Cuando
se quiere probar si dos parmetros son iguales, se utilizan los llamados test de
hiptesis de equivalencia, los cuales no son vistos en este curso.
4
1.2 Posibles situaciones al contrastar los datos con la realidad

Supongamos que las nicas decisiones posibles de tomar, en base a los datos
muestrales, son aceptar que H
0
es verdadera o que H
1
es verdadera. Pero podra
ocurrir que los datos indiquen, por ejemplo, que H
0
es verdadera, cuando en
realidad es falsa, o viceversa.

Por supuesto que nosotros desconocemos esa realidad (si la supiramos, no
tendramos que hacer test de hiptesis), pero al menos debemos tener en cuenta
que podemos equivocarnos al tomar una decisin.

Luego, al tomar una decisin en base a una muestra se tendr una de las
siguientes situaciones:




Las cuatro situaciones en la tabla se miden como una probabilidad.

La probabilidad de cometer un error tipo I (de rechazar H
0
cuando es verdadera) se
denomina nivel de significacin y se denota .

La probabilidad de cometer un error de tipo II (de aceptar H
0
cuando la hiptesis
alternativa es verdadera) se denota .

La potencia es la probabilidad de rechazar H
0
cuando la hiptesis alternativa es
verdadera. Es decir, es la probabilidad de encontrar diferencias cuando efectivamente
existen. La potencia se denota 1- .

La confianza es la probabilidad de aceptar H
0
cuando sta es verdadera. Es decir, es
la probabilidad de no encontrar diferencias cuando no las hay. Se denota 1- .


La confianza y el error tipo I son probabilidades de sucesos complementarios, por
lo que suman 1. Lo mismo ocurre con la potencia y el error tipo II.
5
Ejemplo: Al comparar P
A
y P
B
, el porcentaje de pacientes que mejora con tratamientos A
y B, se plantean las hiptesis H
0
:P
A
=P
B
versus H
1
:P
A
P
B
, entonces:

El error equivale a la probabilidad de concluir que P
A
P
B
(los tratamientos difieren)
cuando en realidad los dos tratamientos tienen el mismo efecto.
El error equivale a la probabilidad de concluir que P
A
=P
B
(los tratamientos son
iguales) cuando en realidad uno de ellos es mejor que otro.
La confianza 1- equivale a la probabilidad de no encontrar diferencias entre
tratamientos A y B cuando no las hay.
La potencia 1- equivale a la probabilidad de encontrar diferencias reales entre los
tratamientos A y B.


Ntese que todas las probabilidades anteriores son condicionales. Estas pueden
escribirse como:



= =
= =
) | ( 1 ) | (
) | ( 1 ) | (
0 0 0 0
0 0 0 0
F es H H aceptar P F es H H rechazar P
V es H H rechazar P V es H H aceptar P


El objetivo del Test de Hiptesis es maximizar las probabilidades 1- y 1-, lo que
a su vez minimiza las probabilidades de error.

Tradicionalmente se considera ms grave cometer un error que un error .
Luego, se fija el mximo error que se est dispuesto a cometer. Luego, se
quiere:
) | (
0 0
V es H H rechazar P

Generalmente se fija la significancia en 5%. Cuando se cuenta con tamaos
muestrales reducidos se suele usar =10% y cuando se tienen tamaos
muestrales grandes se puede usar =1%.


Ejemplo. En el ejemplo en pgina 2, para averiguar si 3400 el argumento comienza
asumiendo que H
0
es verdadera (o sea, =3400). As, lo que se hace es construir la
condicin H
0
es V en la probabilidad condicional.

Luego, usando , x el estimador muestral de , se calcula la probabilidad de rechazar H
0

(errneamente, ya que se asumi que H
0
es V). Si esta probabilidad calculada es menor
que , significa que la probabilidad de que estemos rechazando errneamente H
0
es muy
baja, por lo que podemos rechazar H
0
. Pero si la probabilidad calculada es mayor que ,
significa que la probabilidad de error es muy alta, por lo que no rechazamos H
0
. Esta
probabilidad calculada se llama valor p.


La significancia se fija antes de hacer la dcima de hiptesis (a priori). El valor p
se calcula despus de tomar una muestra de la poblacin en estudio (a posteriori).
6
1.3 Concepto de Valor p

El valor p es la probabilidad de observar un valor igual o ms extremo que el
obtenido en nuestro experimento, asumiendo que la hiptesis nula es verdadera.


Ejemplo. Consideremos nuevamente el ejemplo de las madres fumadoras. Para
averiguar si el peso promedio de nacimiento de nios de madres fumadoras es menor que
3400 gramos, se plantean las siguientes hiptesis unilaterales:

H
0
: 3400
H
1
: < 3400

Asumamos un nivel de significancia =0.05 (5%); es decir, queremos que la probabilidad
de rechazar errneamente H
0
sea a lo ms 0.05.

Supongamos que en una muestra aleatoria de n=100 recin nacidos de madres
fumadoras se obtiene 550 2950 = x . La pregunta es si este resultado es compatible con
lo planteado en H
0
.

Para hacer la dcima es necesario asumir que H
0
es verdadera. Para esto, basta con
asumir que =3400, ya que ste o cualquier valor superior pertenece a H
0
. Luego, como el
tamao muestral es grande, bajo H
0
se cumple que:

)
100
, 3400 ( ~
2

N x

El valor p se define como la probabilidad de encontrar un igual o ms extremo que el
obtenido en nuestro experimento, asumiendo que H
0
es verdadera. Es decir:

) | 2950 (
0
V es H x P p valor < =

Ntese que la condicin H
0
es Verdadera est implcita en la distribucin asumida para
x , ya que su media es =3400. Al calcular el valor p, se tiene:

0005 . 0 ) 18 . 8 ( )
100 550
3400 2950
( )
2950
( ) | 2950 (
) 99 ( ) 99 ( 0
< < =

< =

<

= < t P t P
n s n s
x
P V es H x P



La estandarizacin es t y no z, ya que
2
es desconocida. Luego, el valor p < 0.0005.
Como este valor es bastante menor que =0.05, se rechaza H0 a favor de la alternativa.
Se concluye que el investigador tiene razn: las madres fumadoras tienen nios con peso
promedio inferior a la media nacional 3400 gramos (p<0.0005).

Ntese que si la hiptesis fuera bilateral (H
0
:=3400 versus H
1
:3400), el valor p se
calculara como P(t
(99)
<-8.18 t
(99)
>8.18) = P(t
(99)
<-8.18) + P(t
(99)
>8.18), ya que se
rechaza H
0
para valores muy grandes o muy pequeos de x . En este caso, se obtiene
valor p < 0.001, el cual sigue siendo muy significativo.
7
Esquemticamente, la relacin entre la significancia y el valor p es la siguiente:




El diagrama incorpora un elemento adicional no descrito en el ejemplo en pgina
previa: el valor de x que acumula una probabilidad 0.05 ( x =3261). Luego, basta
con comparar el x muestral con este lmite. Si x es menor que 3261, entonces
acumula una probabilidad menor que 0.05 y por lo tanto es significativo (permite
rechazar H
0
). Si x es mayor que 3261, entonces acumular una probabilidad
mayor que 0.05 y no permitir rechazar H
0
.

An cuando siempre es posible determinar el p o x lmite entre H
0
y H
1
, siempre
es preferible calcular directamente el valor p, ya que el lmite slo nos permite
saber si valor p < , pero el clculo del valor p nos permite saber la probabilidad
real de rechazo de H
0
.



Ejercicio. En una localidad se determin el porcentaje de alcoholismo crnico,
encontrndose 98 alcohlicos en 1500 encuestados (6.5% de los casos). Interesa
determinar si esta prevalencia es distinta al 5% reportado en poblacin general.

8
2. Test de Hiptesis para una Proporcin (test z)

Cuando se estudia una sola poblacin, en ocasiones interesa determinar si la
proporcin P de personas con una determinada caracterstica es distinta, mayor o
menor que un valor conocido p
0
. Este valor conocido puede ser el valor que toma
P en poblacin general, un valor reportado en la bibliografa, etc.

En este caso, las hiptesis posibles de plantear son:

(a) H
0
:P=p
0
vs H
1
:Pp
0
(Cuando interesa determinar si P p
0
)
(b) H
0
:Pp
0
vs H
1
:P<p
0
(Cuando interesa determinar si P < p
0
)
(c) H
0
:Pp
0
vs H
1
:P>p
0
(Cuando interesa determinar si P > p
0
)

Donde p
0
es el valor de referencia y se asume que es conocido.

Asumiendo que H
0
es verdadera y si el tamao muestral es grande, la proporcin
estimada en la muestra cumple (por TCL):

Ntese que la distribucin de p est centrada en p
0
, que es el valor que toma P
asumiendo que H
0
es verdadera.

De acuerdo a la definicin en pgina 6, el valor p es la probabilidad de encontrar
un valor tan extremo o ms que el observado en la muestra, asumiendo H
0

verdadera.

Por ejemplo, si la hiptesis planteada es bilateral (hiptesis (a)), entonces se
rechaza H
0
para valores muy grandes o muy pequeos de p . Equivalentemente,
si estandarizamos p , se rechaza H
0
si z
0
toma valores muy grandes o muy
pequeos.

Luego, para cada hiptesis planteada el valor p corresponde a:

Para las hiptesis: el valor-p es:
(a) H
0
:P=p
0
vs H
1
:Pp
0
(a) p = P(z <-z
0
o z> z
0
) = 2*P(z |z
0
|)
(b) H
0
:Pp
0
vs H
1
:P<p
0
(b) p = P(z<z
0
)
(c) H
0
:Pp
0
vs H
1
:P>p
0
(c) p = P(z>z
0
)

Finalmente, se rechaza H
0
si el valor-p calculado es menor que la significancia
fijada a priori.

)
) 1 (
, ( ~
0 0
0
^
n
p p
p N P

) 1 , 0 ( ~
) 1 (
0 0
0
^
0
N
n
p p
p p
z

=
9
Ejemplo. En una localidad se determin el porcentaje de alcoholismo crnico,
encontrndose 98 alcohlicos en 1500 encuestados (6.5% de los casos). Interesa
determinar si esta prevalencia es similar al 5% reportado en poblacin general.

Hiptesis. La hiptesis es bilateral. p
0
es igual a 0.05. Luego,

H
0
: P=0.05
H
1
: P0.05.

Muestra Aleatoria. En la muestra de n=1500 personas se encontraron 98 alcohlicos
(6.5%). Luego, 065 . 0 = p . Asumiendo H
0
verdadera y por TCL:


Luego, estandarizando se tiene


Valor-p. Dado que la hiptesis es bilateral, rechazamos H
0
para valores muy grandes o
muy pequeos de z
0
. Luego,

Valor p = P(z < - z
0
o z > z
0
) = 2P(z >|z
0
|) = 2P(z>2.67) = 2*0.00379 = 0.00758

Conclusin. Con p=0.0076 se rechaza H
0
. Por lo tanto, la prevalencia de alcoholismo en
la localidad estudiada es distinta de la prevalencia observada a nivel nacional.




Ejercicio. A continuacin se muestran los pesos de nacimiento de 30 nios cuyas madres
aumentaron ms de 12 kilos de peso durante su embarazo. Los datos se muestran
ordenados de menor a mayor:

2100 2230 2420 2820 3000 3050 3080 3140 3180 3220
3280 3310 3330 3370 3410 3410 3460 3480 3500 3520
3610 3730 3840 3920 3970 3990 4100 4120 4200 4220

Interesa determinar si la proporcin de nios con peso superior a 4000 es distinto del 10%
reportado en la literatura.
)
1500
) 95 . 0 ( 05 . 0
, 05 . 0 ( )
) 1 (
, ( ~
0 0
0
N
n
p p
p N p =

67 . 2
0056 . 0
015 . 0
1500
) 05 . 0 1 ( 05 . 0
05 . 0 065 . 0
) 1 (

0 0
0
0
= =

=
n
p p
p p
z
10
3. Test de Hiptesis para un Promedio (test t)

En forma anloga al caso de una proporcin, podra ser de inters determinar si el
promedio poblacional de una variable aleatoria X es distinto, mayor o menor que
un valor conocido
0
, donde el valor de referencia
0
es conocido.

En este caso, las hiptesis posibles de plantear son:

(a) H
0
:=
0
vs H
1
:
0
(Cuando interesa determinar si
0
)
(b) H
0
:
0
vs H
1
:<
0
(Cuando interesa determinar si <
0
)
(c) H
0
:
0
vs H
1
:>
0
(Cuando interesa determinar si >
0
)

Donde
0
es el valor de referencia y se asume conocido.

Cualquiera sea la hiptesis de inters, es necesario tomar una muestra aleatoria
tamao n de la poblacin en estudio y calcular x (el estimador muestral de ).
Asumiendo que H
0
es verdadera y que la media muestral tiene distribucin
Normal, (ya sea porque la distribucin de la variable X es Normal o por TCL), se
tiene:

Lo cual significa que t
0
, la estandarizacin t, tiene distribucin t de Student con n-
1 grados de libertad. Ntese que se asume que ) , ( ~
2
0
n N x . Es decir, la
distribucin de x est centrada en
0
, ya que se asume que H
0
es verdadera.

Luego, siguiendo la misma lgica que en test de hiptesis para una proporcin
(pgina 8), para cada hiptesis planteada el valor p es:


Para las hiptesis: el valor-p es:
(a) H
0
:=
0
vs H
1
:
0
(a) p = P(t
(n-1)
<-t
0
o t
(n-1)
> t
0
) = 2*P(t
(n-1)
|t
0
|)
(b) H
0
:
0
vs H
1
:<
0
(b) p = P(t<t
0
)
(c) H
0
:p
0
vs H
1
:>
0
(c) p = P(t>t
0
)

Finalmente, se rechaza H
0
si el valor-p calculado es menor que la significancia
fijada a priori.
) 1 ( ~
0
0

n t
n
s
X
t

11
Ejemplo. Resolvamos el problema planteado varias veces antes: determinar si el peso de
nacimiento de nios de mujeres fumadoras es menor que la media nacional de 3400
gramos.

Hiptesis. La hiptesis es unilateral. La media de referencia
0
es igual a 3400. Luego,

H
0
: 3400
H
1
: < 3400

Muestra Aleatoria. En una muestra aleatoria de 100 nios recin nacidos de madres
fumadoras se obtuvo: . 550 . 2950 grs s y grs x = = Asumiendo que H
0
es verdadera
(=3400 gramos) y que x tiene distribucin Normal (TCL), se tiene:

Valor-p. Dado que la hiptesis es unilateral, rechazamos H
0
para valores muy pequeos
de t
0
. Luego,

Valor-p = P(t
(99)
<t
0
) = P(t
(99)
<-8.18) <0.0005

Conclusin. Con p<0.0005 se rechaza H
0
. Se concluye que el peso promedio de
nacimiento de nios de madres fumadoras es menor que la media nacional de 3400
gramos.




Ejercicio. Considere nuevamente los pesos de nacimiento de 30 nios cuyas madres
aumentaron ms de 12 kilos de peso durante su embarazo (ejercicio propuesto en pgina
9). Los datos se muestran ordenados de menor a mayor:

2100 2230 2420 2820 3000 3050 3080 3140 3180 3220
3280 3310 3330 3370 3410 3410 3460 3480 3500 3520
3610 3730 3840 3920 3970 3990 4100 4120 4200 4220

Interesa determinar si en la poblacin de mujeres que aumentan ms de 12 kilos durante
el embarazo, el peso promedio de nacimiento es mayor de 3200 gramos.

(Nota: para los 30 casos descritos, el peso de nacimiento promedio muestral fue
. 3400 grs x = con una desviacin estndar . 540 grs s = )

) 99 ( 0
2
~ 18 . 8
100
550
3400 2950
)
100
, 3400 ( ~ t t N X =

12
4. Introduccin a la Asociacin de Variables

Se dice que entre dos variables aleatorias existe asociacin si stas no son
independientes. La determinacin de si existe o no asociacin se realiza
mediante test de hiptesis.


Ejemplo. Se piensa que un nuevo medicamento para controlar la presin arterial en
pacientes hipertensos (medicamento A) es mejor que uno de uso estndar (medicamento
B). Para probarlo, 150 pacientes fueron asignados al azar a cada medicamento. Al final
del estudio se determin que el 42% de los pacientes con A y el 41.3% de los pacientes
con B logr controlar la presin arterial (63 y 62 pacientes, respectivamente).

Desde el punto de vista de la asociacin de variables. Se observa que hay dos
variables involucradas en el estudio: medicamento (que toma valores A y B) y control de
presin arterial (con valores si y no).

El resultado del estudio muestra que el porcentaje de control de presin arterial es
prcticamente el mismo usando medicamento A o B. Es decir, la mejora es independiente
del medicamento administrado. Se concluye que no hay asociacin entre el medicamento
y el control de presin arterial. En consecuencia, la hiptesis del investigador era falsa.

Desde el punto de vista probabilstico. Si definimos los sucesos A=El paciente toma el
medicamento A, B= El paciente toma el medicamento B y C= El paciente controla su
presin arterial, se observa que:






Es decir, la probabilidad de que el paciente controle su presin arterial dado que tom el
medicamento A, que es P(C |A), es 0.42, es igual a la probabilidad de que el paciente
controle su presin arterial P(C). Lo mismo ocurre con P(C | B) = P(B). Luego, el control
de la presin arterial es independiente del medicamento administrado.

Desde el punto de vista de los test de hiptesis. Si llamamos P
A
y P
B
al porcentaje de
pacientes que controla su presin con medicamento A y B, respectivamente, entonces las
hiptesis estadsticas podran ser:

H
0
: P
A
= P
B

H
1
: P
A
P
B


La dcima requiere fijar un nivel de significancia (por ejemplo, =5%) y hacer el test
usando los resultados muestrales 413 . 0 , 150 42 . 0 , 150 = = = =
B B A A
p n y p n . El
resultado de esta dcima ser que no hay diferencias significativas entre P
A
y P
B
.
) ( 413 . 0 ) | ( ) ( 42 . 0 ) | (
417 . 0
300
62 63
) (
C P B C P y C P A C P
C P
= =
=
+
=
13
4.1 Variable Explicada y Explicatoria

El objetivo de un estudio suele ser el buscar una explicacin a un determinado
fenmeno, medido a travs de una variable, la cual es llamada variable explicada,
dependiente o respuesta. Generalmente se usa la letra Y para denotar la
variable aleatoria que identifica el fenmeno en estudio.

Por otra parte, la bsqueda de una explicacin para el fenmeno se hace a travs
de un conjunto de variables que podran estar asociadas al problema. Estas son
llamadas variables explicatorias, independientes o factores. Se usa la letra X
para identificar una variable explicatoria, o las letras X
1
, X
2
, , X
k
para identificar
un conjunto de k posibles variables explicatorias del fenmeno en estudio.



Ejemplo. Interesa determinar variables asociadas a la presencia de litiasis vesicular. La
planilla siguiente muestra las variables en estudio para algunos individuos.



La planilla tiene el formato necesario para ser utilizada como base de datos: cada
columna representa una variable aleatoria en estudio y cada fila representa un individuo.

Dado que el fenmeno en estudio es la litiasis vesicular, la variable respuesta
corresponde a la ltima columna de la planilla. Todas las otras variables son posibles
explicatorias del fenmeno, con excepcin del nmero de identificacin (variable ID).


Ntese que la variable respuesta en el ejemplo anterior es categrica y entre las
explicatorias hay variables categricas y numricas. El tipo al que pertenecen las
variables X e Y define el camino metodolgico para determinar si existe asociacin
entre las variables.
14
4.2 Camino metodolgico segn el tipo de variable

Hay cuatro situaciones posibles de encontrar al determinar la asociacin, las
cuales se identifican segn el tipo al que pertenece cada variable. Los siguientes
planteamientos de problemas de investigacin ejemplifican estas situaciones.


Problema X Y
Interesa determinar si la pertenencia a un grupo tnico se
asocia con la presencia de clculos vesiculares.
Grupo tnico
(categrica)
Clculos
(categrica)
Se quiere saber si la presencia o ausencia de hipertensin
arterial influye sobre la ganancia de peso durante el embarazo
(en kilos).
HTA
(categrica)
Ganancia peso
(numrica)
Se quiere saber si el valor de un score de gravedad (que vara
entre 0 y 100 puntos, con un mayor puntaje indicando mayor
gravedad) es predictor de mortalidad cardiaca.
Score gravedad
(numrica)
Mortalidad
(categrica)
Se quiere determinar si el peso del recin nacido (en gramos)
est asociado con la edad de la madre (en aos).
Edad materna
(numrica)
Peso RN
(numrica)


De esta forma, la variable explicada y cada una de las explicatorias pueden ser
clasificadas como categrica o numrica. En la asociacin de ambas se tiene slo
una de las siguientes alternativas:


Situacin Explicatoria (X) Explicada (Y)
1 categrica categrica
2 categrica numrica
3 numrica categrica
4 numrica numrica


En la prctica las situaciones 2 y 3 se resuelven usando los mismos mtodos
estadsticos, por lo que pueden ser vistas como una sola situacin. Luego, el
camino metodolgico a seguir depende de si (i) X e Y son categricas; (ii) X e Y
son numricas; o (iii) X es categrica e Y es numrica o viceversa.


Ejercicio. Un grupo de 200 personas obesas se dividi aleatoriamente en 3 grupos: un
grupo de 80 personas recibi una dieta baja en caloras; a un grupo de 70 personas se le
prescribi ejercicio fsico y a otro grupo de 50 personas se les prescribi un medicamento.
Todas las personas fueron pesadas al principio del estudio y despus de 6 meses de
tratamiento, registrndose la diferencia (en kilos) entre el peso inicial y final.

Cuntas variables identifica usted en este estudio?
Cul es la variable explicada y la(s) explicatoria(s)?
A cul situacin metodolgica corresponde, segn la tabla previa?
15
5. Asociacin Categrica Categrica


Ejemplo. Interesa determinar si existe asociacin entre el sexo del paciente
(masculino/femenino) y la presencia de clculos vesiculares (codificado como 0=No y
1=Si), para un total de 965 personas.


Cuando las variables X e Y son ambas categricas, con 2 o ms niveles cada una,
se puede construir una tabla de contingencia para resumir el resultado conjunto
de las variables.

Una tabla de 2x2 como la siguiente es la ms reducida posible de construir. La
presentacin estndar de la tabla consiste en poner la variable X como fila y la
variable Y como columna. Adems, la presencia del factor (X presente)
corresponde a la primera fila y la ausencia a la segunda; mientras que la presencia
de la enfermedad corresponde a la primera columna y la ausencia a la segunda.










La tabla anterior muestra en cada celda el nmero de casos en cada combinacin
de X e Y. En la tabla es necesario calcular porcentajes por fila o por columna
(dependiendo del tipo de estudio: prospectivo, retrospectivo o de prevalencia
1
).

1
Para una descripcin de los tipos de estudio mencionados, vea el anexo Estudios Transversales,
Prospectivos y Retrospectivos al final de este apunte.
16
Las figuras siguientes muestran los porcentajes que interesa calcular (y comparar)
en estudios de cohorte y caso control.










Ejemplo (caso control). En un estudio de factores de riesgo de enuresis infantil, se
eligieron al azar 400 nios que haban mojado sus camas por lo menos una vez durante
los 3 meses precedentes y 420 nios que no las haban mojado. Se determin que los
nios con enuresis eran ms pequeos, ms nios que nias y con niveles ms elevados
de sufrimiento psicolgico que los que no mojaban sus camas.



Ejemplo (cohorte). Un estudio de cohorte muy conocido es el estudio de Framingham de
enfermedad cardiovascular. Este estudio se inici en 1948 para investigar factores
relacionados con el desarrollo de enfermedad cardiovascular (Gordon y Panel, 1970).
5127 hombres y mujeres con edades entre 30 y 62 aos de Framingham, Massachussets,
estuvieron de acuerdo en participar inicialmente en este estudio que incluy entrevistas y
exmenes fsicos de seguimiento cada 2 aos. Actualmente ya se estudia la tercera
generacin de esta cohorte inicial.
17
5.1 Dcima de Hiptesis: Test Chi-cuadrado y Exacto de Fisher

Cualquiera sea el tipo de estudio (prospectivo o retrospectivo), las hiptesis
estadsticas de inters son:

H
0
: P
1
= P
2

H
1
: P
1
P
2


Si el estudio es de prevalencia (estudio transversal), las hiptesis estadsticas se
plantean como:

H
0
: No hay asociacin entre X e Y
H
1
: Hay asociacin entre X e Y

Ntese que H
0
:P
1
=P
2
es equivalente a H
0
:No hay asociacin entre X e Y. Por
ejemplo, si el estudio es de cohorte, P
1
= P
2
significa que el porcentaje de
personas que enferma con y sin el factor de riesgo es el mismo. Es decir, el
porcentaje de enfermos no se modifica al estar X presente. Luego, no hay
asociacin entre la aparicin de la enfermedad y la presencia del factor.

Para docimar la hiptesis se toma una muestra de expuestos y no expuestos o de
casos y controles, segn si el estudio es de cohorte o caso control, y se calculan
los porcentajes muestrales
2 1
p y p .

En tablas de 2x2, se comparan los porcentajes con test Chi-cuadrado (si el
tamao muestral es suficientemente grande) o Test exacto de Fisher (cuando n
es pequeo). Si la tabla tiene ms de 2 filas o columnas, slo se puede calcular
test Chi-cuadrado.

En tablas de 2x2, el valor de Chi-cuadrado se puede obtener con la frmula:


Dado que la tabla es de 2x2, el estadstico
2
0
tiene distribucin chi-cuadrado con
1 grado de libertad (ver propiedades de la distribucin en pgina siguiente).


En general, si una tabla tiene I filas y J columnas, entonces
2
0
tiene distribucin
Chi-cuadrado con (I-1)x(J-1) grados de libertad.

2
) 1 (
2
2
0
~
) )( )( )( (
) (

d c b a d b c a
bc ad n
+ + + +

=
18
Distribucin Chi-cuadrado

La frmula para calcular
2
0
en tablas de 2x2 es una simplificacin de la siguiente
frmula, que se usa para calcular
2
0
para tablas de cualquier dimensin:

2
) 1 ( ) 1 (
2
2
0
~
) (


=
J I
celdas
i
i i
E
E O



Donde O
i
es el valor observado y E
i
es el valor esperado en cada celda de la tabla
asumiendo que H
0
es verdadera (o sea, asumiendo independencia entre X e Y).

El valor esperado en cada celda se calcula como el producto de los 2 mrgenes
de la tabla dividido por el total de casos tabulados. Por ejemplo, si la tabla es de
2x2, para la celda (1,1) se tienen O
1
=a casos observados y n c a b a E ) ( ) (
1
+ + = .

La distribucin Chi-cuadrado es asimtrica, sesgada hacia la derecha y siempre
toma valores positivos (noten que al calcular
2
0
no hay sumandos negativos). La
forma de la distribucin depende de sus grados de libertad (como la t de Student).










El estadstico
2
0
tiene distribucin Chi-cuadrado si n es suficientemente grande.
En la prctica, se requiere que no ms del 20% de las celdas tengan valor
esperado menor que 5. Si esto no se cumple, se debe usar Test Exacto de Fisher
(si la tabla es de 2x2) o juntar categoras (si la tabla es de dimensin mayor a 2x2)


Ntese que la frmula de
2
0
se basa en la diferencia entre lo observado y lo
esperado asumiendo que H
0
es verdadera (independencia). Luego, si los O
i
son
muy distintos de los E
i
, ser evidencia de que lo observado no es similar a lo
esperado bajo H
0
. En consecuencia, se rechaza H
0
para valores grandes de
2
0
.

Luego, cualquiera sea la dimensin de la tabla, el valor p se calcula como:

) (
2
0
2
) 1 ( ) 1 (
> =
J I
P p valor
19




Ejemplo de uso de la tabla. Supongamos que en una tabla de contingencia de
dimensin 3x4 (una tabla con 3 filas y 4 columnas), al calcular el valor del test chi-
cuadrado se obtiene
2
0
= 15.3.

Como la tabla tiene I=3 filas y J=4 columnas, los grados de libertad son (I-1)x(J-1)=2x3=6.

Como la hiptesis nula H
0
:No hay asociacin, se rechaza para valores grandes de
2
0
, el
valor p es: p = P(
2
(I-1)x(J-1)
>
2
0
) = P(
2
(6)
> 15.3).

Dado que la tabla Chi-cuadrado entrega probabilidades acumuladas (como la tabla t de
Student), se observa en la fila de 6 grados de libertad que la probabilidad acumulada
hasta 14.4 es: P(
2
(6)
<14.4) = 0.975. Luego, P(
2
(6)
>14.4) = 0.025.

Como el valor 15.3 est ms a la derecha que 14.4, se deduce que P(
2
(6)
> 15.3) < 0.025.
Como el valor p es menor que 0.025, se rechaza la hiptesis H
0
.


20
Ejemplo: Interesa determinar si hay diferencias en el porcentaje de personas con
depresin entre dos poblaciones A y B. Para esto, se tom una muestra de 150 personas
de la poblacin A y 200 de la poblacin B, encontrndose 48 y 50 personas con
depresin, respectivamente. La tabla siguiente resume los resultados:







Luego, de la tabla se tiene:

El test es:




Valor-p: Se rechaza H
0
para valores grandes de
2
0
. Luego, el valor p est dado por:

p = P(
2
(1)
>
2
0
) = P(
2
(1)
> 2.08) > 0.1.

Dado que el valor p es mayor que =5%, se concluye que no hay suficiente evidencia en
los datos para rechazar H
0
.


Ejemplo. Usando los datos en la tabla previa, calculemos
2
0
mediante la frmula general.
Para esto, tenemos que usar los valores observados y esperados en cada celda.

Siguiendo el orden a, b, c y d de las celdas de la tabla, los valores observados son:



Los valores esperados en las celdas a, b, c y d, respectivamente, son:




Luego, el valor
2
0
est dado por:





El valor calculado
2
0
es el mismo usando esta frmula y la frmula reducida (dada en
pgina 17). La diferencia es que en tablas de 2x2 es ms fcil usar la frmula reducida,
pero si la tabla es de dimensin mayor a 2x2, slo se puede calcular
2
0
a travs de la
diferencia entre valores observados y esperados.
Si No Total
A a=48 b=102 a+b=150
B c=50 d=150 c+d=200
Total a+c=98 b+d=252 n=350
Depresin
Poblacin
%) 25 ( 25 . 0
200
50
%) 32 ( 32 . 0
150
48
= = = =
B A
p y p
08 . 2
200 150 252 98
) 102 50 150 48 ( 350
) )( )( )( (
) (
2 2
2
0
=


=
+ + + +

=
d c b a d b c a
bc ad n

150 50 102 48
4 3 2 1
= = = = O O O O
144
350
252 200
56
350
98 200
108
350
252 150
42
350
98 150
4 3 2 1
=

= =

= =

= =

= E E E E
08 . 2
144
) 144 150 (
56
) 56 50 (
108
) 108 102 (
42
) 42 48 ( ) (
2 2 2 2 2
2
0
=

=

celdas i
i i
E
E O

21
5.2 Caso especial en tablas de 2x2: Riesgo Relativo (RR) y Razn de
Chances (Odds ratio, OR)

Una limitacin de los test Chi-cuadrado y Fisher es que estos slo indican si existe
asociacin entre X e Y (o diferencia entre dos proporciones p
1
y p
2
), pero no
permiten cuantificar el grado de asociacin.

Indirectamente, el valor p nos indica qu tan importante es la asociacin existente
(a menor valor p, mayor es la asociacin), pero no es til como indicador del grado
de asociacin.

En esta seccin estudiaremos 2 indicadores de riesgo: el odds ratio (OR) el cual
se usa en estudios retrospectivos y el riesgo relativo (RR) que se usa en estudios
prospectivos.

Consideremos la relacin entre una variable que indica la exposicin a un factor
(variable de exposicin, con niveles presente/ausente) y una enfermedad (tambin
con niveles presente/ausente). La relacin se puede tabular como:



Enfermedad
Total
Si No
Exposicin
Si a b a+b = n
1

No c d c+d = n
2

Total a+c = m
1
b+d = m
2
n




Riesgo Relativo (RR)

Si la tabla previa es el resultado de un estudio prospectivo (de cohorte), entonces
interesa determinar p
1
y p
2
, el porcentaje de personas que enferma en grupos
expuesto y no expuesto, respectivamente.

El riesgo relativo se define como RR = p
1
/p
2
. Un estimador puntual de RR est
dado por
2 1
/

p p R R = , e indica cuntas veces ms riesgo hay de enfermar en


presencia del factor de exposicin comparado con la ausencia del factor.

El RR siempre es positivo, y se puede interpretar de la siguiente forma:

Si RR<1, entonces el factor de exposicin es un factor protector de la enfermedad.
Si RR=1, significa que la proporcin de enfermos es igual en expuestos y no
expuestos, por lo que el factor de exposicin no se asocia con la enfermedad.
Si RR>1, entonces el factor de exposicin es factor de riesgo de la enfermedad.
22
Generalmente el estimador del riesgo se presenta junto a un intervalo de
confianza. Se puede demostrar que un intervalo de confianza 1- para RR est
dado por la siguiente expresin:






Donde e es la base de los logaritmos naturales (e2.718).

Ntese que si no hay asociacin entre X e Y, entonces p
1
= p
2
y por tanto RR=1.
Luego, RR=1 indica de ausencia de asociacin entre X e Y. En consecuencia,
para determinar si un estimador de RR es significativo (distinto de 1) con
significancia , basta con observar si el intervalo de confianza (1-) incluye el valor
1 o no. Si el intervalo no incluye el valor RR=1, entonces el RR es significativo.



Ejemplo. Mediante un estudio prospectivo, se quiere determinar el riesgo de morir a 30
das en una muestra de 441 pacientes que entran al hospital por una neumona, segn
compromiso de conciencia al ingreso.










De la tabla se tiene:




Luego, el riesgo de morir es 4.46 veces ms alto entre los pacientes que presentan
compromiso de conciencia al ingreso.

Un intervalo de confianza de 95% para RR es (2.6, 7.8). Es decir, con confianza 95% el
riesgo de morir cuando hay compromiso de conciencia vara entre 2.6 y 7.8 veces ms
que cuando no hay compromiso de conciencia.


(
(

+ + +

2 1
2 / 1
2 1
2 / 1
)

ln( )

ln(
,
cn
d
an
b
z R R
cn
d
an
b
z R R
e e

Compromiso de conciencia al examen fisico * Estado a 30 dias
Crosstabulation
Count
27 84 111
18 312 330
45 396 441
Si
No
Compromiso de
conciencia al
examen fisico
Total
Muerto Vivo
Estado a 30 das
Total
46 . 4
330 / 18
111 / 27
= = RR
23
Odds Ratio (Razn de Chances)

Si el estudio es retrospectivo (caso control), entonces no podemos calcular la
proporcin de personas que enferma en expuestos y no expuestos, como en un
estudio prospectivo.

En este caso, recurriremos a la definicin de chance de enfermar: si p es la
probabilidad de ocurrencia de un evento de inters, entonces la chance a favor del
evento se define como p/(1-p). Luego, Si p
1
y p
2
son las probabilidades de
ocurrencia del evento en dos grupos, entonces la chance a favor del evento en
cada grupo son Odd
1
=p
1
/(1-p
1
) y Odds
2
=p
2
/(1-p
2
).

Luego, la razn de las chances Odds
1
y Odds
2
es lo que denominamos Odds
Ratio,




El OR provee una medida para relacionar dos proporciones, como el RR. Ntese
que si p
1
y p
2
son pequeas, entonces 1-p
1
y 1-p
2
sern cercanas a 1 y el OR
tomar un valor cercano a RR. Luego, el OR es usado como una aproximacin del
riesgo relativo para enfermedades raras.

Dado que el estudio es retrospectivo, el OR se estima mediante:




Una observacin importante es que si el OR se calculara en forma prospectiva, se
tendra:





Es decir, el OR calculado en forma retrospectiva es el mismo que al calcularlo en
forma prospectiva. Esta relacin es muy til en estudios caso control, ya que nos
provee de una estimacin del riesgo relativo en estudios retrospectivos.

Al igual que en el caso del RR, el Odds Ratio se presenta habitualmente con un
intervalo de confianza (1-). Se puede demostrar que este intervalo es de la forma:




[ ] [ ]
[ ] [ ] bc
ad
d b d d b b
c a c c a a
R O =
+ +
+ +
=
) /( / ) /(
) /( / ) /(

|
|

\
| + + + + + + +

d c b a
z R O n
d c b a
z R O
e e
1 1 1 1
) (
1 1 1 1
) ln(
2 / 1 2 / 1
,

) 1 (
) 1 (
2
2
1
1
2
1
p
p
p
p
Odds
Odds
OR

= =
[ ] [ ]
[ ] [ ] bc
ad
b a b d c c
d c d b a a
p
p
p
p
R O =
+ +
+ +
=

=
) /( ) /(
) /( ) /(
) 1 (

) 1 (

2
2
1
1
24
La interpretacin de un OR es similar a la interpretacin de un RR:

Si OR<1, entonces el factor de exposicin es un factor protector de la enfermedad.
Si OR=1, significa que la proporcin de exposicin es igual en casos y controles, por
lo que el factor de exposicin no se asocia con la enfermedad.
Si OR>1, entonces el factor de exposicin es factor de riesgo de la enfermedad.

Aunque en estricto rigor el OR estima cuntas veces ms chance hay de tener el
factor de exposicin en los casos respecto a los controles, ste se interpreta
generalmente como cuntas veces ms chance hay de enfermar en el grupo
expuesto respecto al grupo no expuesto. Esto es posible gracias a que el clculo
del OR no cambia al hacerlo en forma prospectiva o retrospectiva.



Ejemplo. Interesa determinar si el consumo de leche durante la infancia y la adolescencia
disminuye el riesgo de fractura de cadera en adultos mayores. Para esto, se tom una
muestra aleatoria de 180 adultos mayores de 65 aos con fractura de cadera y se
compar con 180 adultos sin fractura. El resultado del estudio fue el siguiente:

Fractura(+) Fractura(-) Total
Consuma leche 78 106 184
No consuma leche 102 74 176
Total 180 180 360


El OR estimado es igual a (78x74)/(102x106)=0.53. Es decir, hay un 47% menos de
riesgo de fractura al consumir leche durante la infancia y la adolescencia.

Un intervalo de 95% de confianza para OR est dado por:

) 81 . 0 , 35 . 0 ( ) , (
74
1
102
1
106
1
78
1
96 . 1 ) 53 . 0 ln(
74
1
102
1
106
1
78
1
96 . 1 ) 53 . 0 ln(
=
+ + + + + + +
e e

Se observa que el consumo de leche es un factor protector significativo de fractura de
cadera, ya que el intervalo no incluye el 1.

Ntese que es importante el orden en que se ponga el consumo y no consumo de leche
en la tabla. Por ejemplo, si se tabula como:

Fractura(+) Fractura(-) Total
No consuma leche 102 74 176
Consuma leche 78 106 184
Total 180 180 360


En este caso, el OR es 1.87, con un intervalo de confianza de 95% igual a (1.23, 2.85),
que muestran que el no consumo de leche es factor de riesgo de fractura de cadera.

25
5.3 Caso especial en tablas de 2x2: Concordancia y Discordancia

La metodologa descrita hasta ahora nos permite saber si existe asociacin entre
dos variables dicotmicas (chi-cuadrado, test exacto de Fisher) y determinar el
grado de asociacin (OR, RR).

Sin embargo, hay muchas situaciones en que las variables estn correlacionadas
por construccin. Es decir, se espera que exista asociacin entre ellas porque
fueron diseadas para ello.


Ejemplo. Un cuestionario sobre consumo de alimentos fue administrado por correo a 537
enfermeras en Estados Unidos en dos ocasiones separadas por varios meses. El
cuestionario consultaba por el consumo de ms de 100 alimentos diferentes. La tabla
siguiente muestra la cantidad de carne de vacuno consumida en los dos tiempos.


Encuesta-2



Total

1 vez/sem >1 vez/sem
Encuesta-1
1 vez/sem. 136 92 228
>1 vez/sem. 69 240 309
Total 205 332 537

Usando chi-cuadrado, se concluye que existe asociacin entre ambos cuestionarios
(
2
=77.4, p<0.005 segn tabla chi-cuadrado). Sin embargo, el resultado ms importante
es determinar si existe concordancia entre las dos encuestas.



Ejemplo. Interesa determinar si dos observadores clasifican de la misma forma (como
positivo o negativo) a un conjunto de 50 observaciones.








En este caso tampoco interesa determinar si existe asociacin entre los observadores,
sino si son concordantes o discordantes.

Un ejemplo clsico de esta tabla es el anlisis de resultados de telemedicina. Por
ejemplo, determinar si un radilogo clasifica de la misma forma un conjunto de
radiografas (como patologa presente o ausente) al observarlas en directo o a travs de
la pantalla de un computador. Si hay concordancia entre la observacin in situ y la
observacin a distancia, entonces se valida el procedimiento a distancia.
26
Para determinar la concordancia o discordancia entre los resultados de ambas
encuestas, se puede utilizar el Test Kappa (que se centra en la concordancia de
las dos variables) y Test de McNemar (que se centra en las discordancias).



El Test Kappa.

Para determinar el grado de concordancia se calcula el estadgrafo Kappa () que
vara entre -1 y +1. Mientras ms cercano a 1, mayor es la concordancia. Si es
cercano a -1, mayor es la discordancia. El valor =0 indica que ni siquiera existe
asociacin entre X e Y. Si hay concordancia entre las variables se dice
generalmente que hay reproducibilidad.

se calcula en tablas cuadradas de cualquier dimensin (deben tener el mismo
nmero de filas y columnas) y siempre que los 2 observadores tengan las mismas
categoras de respuestas (por ejemplo, si un observador tiene respuestas bien,
regular y mal, el otro observador debe presentar esos mismos niveles).

Aunque se pueden docimar las hiptesis H
0
: =0 versus H
1
: 0, ntese que H
0

se rechazara cuando sea muy negativo o muy positivo. Si se rechaza H
0
y es
negativo, basta con cambiar el criterio de clasificacin de uno de los
observadores para tener un valor positivo. Luego, es habitual que este cambio
se haga antes de hacer el test, de modo que las hiptesis de inters sean:

H
0
: 0
H
1
: >0

El valor de est dado por

Donde p
0
es la proporcin de concordancias observadas y p
e
es la proporcin de
concordancias esperadas asumiendo que las respuestas de los dos observadores
son independientes. El clculo de p
e
sigue el mismo camino que el clculo de E
i
en
el test Chi-cuadrado.

Adems, se puede probar que el error estndar de est dado por





Luego, para docimar H
0
:=0 versus H
1
:>0 se usa el test
) (
0

se
z = .
Se rechaza H
0
para valores grandes de z
0
. Es decir, valor p = P(z > z
0
).

e
e
p
p p

=
1
0

)
`

+ +

=

=
c
i
i i i i e e
e
b a b a p p
p n
se
1
2
2
) (
) 1 (
1
) (
27
Independiente de su significancia estadstica, el valor de Kappa en ocasiones es
evaluado de la siguiente forma:

Un valor >0.75 denota una excelente reproducibilidad.
Un valor 0.40.75 denota una buena reproducibilidad.
Un valor <0.4 denota una reproducibilidad marginal.
(Referencia: Le C. Introductory Biostatistics. Wiley 2003)



Ejemplo. Calculemos el valor de para los datos sobre consumo de alimentos (pgina
25). Las concordancias entre ambas encuestas son 136 y 240 (en la diagonal principal de
la tabla). Luego, la concordancia observada es:




Por otra parte, para calcular la concordancia esperada se requiere calcular primero el
nmero esperado de concordancias (como el producto de los 2 mrgenes de la tabla
dividido por el total de casos tabulados). Los valores esperados para las 2 celdas de la
diagonal principal son:




Luego, teniendo el nmero esperado de concordancias, podemos calcular la proporcin
esperada de concordancias como:



Luego,






Se puede verificar que el error estndar de es se()=0.043.

Luego, el valor de z
0
est dado por 8 . 8
043 . 0
378 . 0
) (
0
= = =

se
z .

El valor p es P(z>8.8) < 0.001. Se rechaza H
0
y se concluye que hay concordancia entre
las dos encuestas. Sin embargo, an cuando es significativamente distinto de cero, el
grado de concordancia es ms bien bajo ( <0.4).


7 . 0
537
240 136
0
=
+
= p
191
537
332 309
87
537
205 228
2 1
=

= =

= e y e
518 . 0
537
191 87
=
+
=
e
p
378 . 0
482 . 0
182 . 0
518 . 0 1
518 . 0 70 . 0
= =

=
28
El Test de McNemar

El Test de McNemar se usa slo en tablas de 2x2 y se basa en las discordancias
de la tabla.

El inters del test se centra en determinar si el nmero de discordancias se
distribuye uniformemente entre las 2 celdas discordantes. Ntese que si la
distribucin es uniforme (la mitad de las discordancias estn en una de las celdas
y la otra mitad en la otra), entonces no hay un patrn de error sistemtico.

Luego, las hiptesis de inters son

H
0
: Las discordancias se distribuyen uniformemente
H
1
: Las discordancias no se distribuyen uniformemente

Ntese que si llamamos n
A
al nmero de casos discordantes en una de las celdas
de la diagonal secundaria (por ejemplo la celda b) y n
B
al nmero de
discordantes en la otra celda (la celda c), entonces lo que se espera (bajo H
0
) es
que la proporcin de discordantes en cada una de las 2 celdas sea p = .

Luego, las hiptesis previas las podemos escribir como: H
0
:p= versus H
1
:p.

El test estadstico usado para docimar la hiptesis es el test chi-cuadrado de
McNemar (
2
MN
) dado por





El estadstico
2
MN
~
2
(1)
.

Ntese que si H
0
es verdadera, entonces p= y por lo tanto debiera cumplirse que
n
A
n
B
(las discordancias se distribuyen uniformemente). Luego, en el numerador
de
2
MN
debiera ocurrir que |n
A
- n
B
| 0. En consecuencia, se rechaza H
0
:p=
para valores grandes de
2
MN
.



Ejemplo. Usando los datos sobre consumo de alimentos (pgina 25), las discordancias
son: n
A
=92 y n
B
=69. Luego, el test de McNemar es

( )
2
) 1 (
2
2
~ 01 . 3
69 92
1 69 92
=
+

=
MN


Luego, de tabla chi-cuadrado se tiene valor p = P(
2
(1)
>
2
MN
) = P(
2
(1)
>3.01) >0.05. Se
concluye que las discordancias se distribuyen uniformemente.
( )
( )
B A
B A
MN
n n
n n
+

=
2
2
1

29
5.4 Caso especial en tablas de 2x2: Sensibilidad y Especificidad

Cuando se mide la concordancia y discordancia entre dos test diagnstico, el
resultado no aporta informacin sobre la efectividad de estos test. Por ejemplo,
dos test alternativos para diagnosticar fiebre tifoidea podras ser totalmente
concordantes, pero al ser confrontados con el verdadero estado de los pacientes
que clasificaron, podran arrojar psimos resultados.

Cuando se conoce el verdadero estado de un paciente (generalmente sano o
enfermo), es de inters determinar si uno o ms test diagnsticos clasifican en
forma correcta a estos sujetos. Estas pruebas diagnsticas pueden ser
dicotmicas (clasifican a cada sujeto como positivo o negativo) o numricas.


Ejemplo. En un estudio del Centro de Control de Enfermedades de Estados Unidos
(CDC, 1985), se desea valorar la precisin de 13 laboratorios en el anlisis de orina para
diversos medicamentos. Cada laboratorio recibi 100 muestras de orina; en 30 a 40% de
stas se agreg una concentracin conocida de un medicamento. La tabla siguiente
muestra el nmero de muestras positivas (con medicamento) y el nmero de muestras
negativas (sin medicamento) que fueron correctamente identificadas por los laboratorios.




Medicamento
Muestras positivas Muestras negativas

Total
Correctamente
identificadas

Total
Correctamente
identificadas
Barbitricos 455 187 689 689
Anfetaminas 572 177 637 618
Metadona 533 469 663 583
Cocana 416 150 793 785
Codena 481 216 715 708
Morfina 468 178 728 713


Se observa que los laboratorios identificaron mejor la ausencia de un medicamento que la
presencia de ste. La identificacin correcta de una muestra positiva se denomina
sensibilidad y la identificacin correcta de una muestra negativa se denomina
especificidad.



Ejemplo. El detector de mentiras es un aparato que registra los cambios fisiolgicos
sufridos por un individuo como respuesta a una lista de preguntas en la que, con algunos
temas neutros e inofensivos, se intercalan cuestiones relacionadas con un delito.

Segn sus detractores, aunque el detector es capaz de identificar correctamente a un alto
nmero de sujetos culpables (tiene una alta sensibilidad), su principal problema es que
podra clasificar como culpable tambin a un alto nmero de personas inocentes (tiene
una baja especificidad).
30
En general, la sensibilidad y especificidad se obtienen de una tabla de 2x2 en la
que se clasifica el verdadero estado del paciente (como columnas) y el test
diagnstico (como filas). La tabla resultante tendr la siguiente forma:


Enfermedad

Presente

Ausente
Prueba o
Test
Diagnstico

Positiva
a
Verdaderos Positivos
(VP)
b
Falsos Positivos
(FP)

Negativa
c
Falsos Negativos
(FN)
d
Verdaderos Negativos
(VN)


La sensibilidad (S) es la proporcin o porcentaje de casos positivos clasificados
como positivos por el test.



La especificidad (E) es la proporcin o porcentaje de casos negativos clasificados
como negativos por el test.



Tambin se define la tasa de falsos negativos (TFN) y de falsos positivos (TFP)
como 1-S y 1-E, respectivamente.




Ejemplo. La tabla siguiente resume el resultado de la capacidad de los laboratorios para
detectar la presencia de cocana en las muestras.


Cocana en la Muestra


Total
Presente Ausente
Prueba de
Laboratorio
Cocana (+) 150 8 158
Cocana (-) 266 785 1051
Total 416 793 1209

De la tabla se tienen los siguientes resultados:

Sensibilidad = 150/416=36% Especificidad = 785/793=99%
Tasa Falsos(-) = 266/416=64% Tasa Falsos(+) = 8/793=1%


FP VN
VN
d b
d
E
+
=
+
=
FN VP
VP
c a
a
S
+
=
+
=
31
La eleccin de un test diagnstico depende de la gravedad de la enfermedad. Si la
enfermedad es grave, se prefiere un test que tenga alta sensibilidad (o sea, una alta
probabilidad de detectar un enfermo). En cambio, si la enfermedad no es grave, se
prefiere un test que sea ms especfico (o sea, una alta probabilidad de detectar un sano).


En la prctica, lo que se quiere es tener un test diagnstico que permita identificar
precozmente una persona enferma y descartar una sana. Para determinar si un
test diagnstico tiene estas cualidades, se planifica un estudio prospectivo, en el
que se seleccionan a+b individuos con test diagnstico positivo y c+d individuos
con test diagnstico negativo.

Luego, la capacidad predictiva del test se determina mediante su valor predictivo
positivo y su valor predictivo negativo.

El valor predictivo positivo (VPP o VP(+)) es la fraccin de verdaderos positivos
respecto al total de casos clasificados como positivos por el test.




El valor predictivo negativo (VPN o VP(-)) es la fraccin de verdaderos
negativos respecto al total de casos clasificados como negativos por el test.




El resultado de los valores predictivos est relacionado directamente con la
prevalencia de la enfermedad.


Ntese que durante el proceso de construccin de una prueba diagnstica, el
investigador fija el nmero de enfermos y sanos a considerar en el estudio (o sea,
a+c y b+d). Este diseo permite estimar la sensibilidad y especificidad del test y no
los valores predictivos.


FP VP
VP
b a
a
VP
+
=
+
= +
FN VN
VN
d c
d
VP
+
=
+
=
32
Ejemplo. Los valores predictivos positivo y negativo en la deteccin de cocana por parte
de los laboratorios son:

VP+ = 150/158 = 94.9% VP- = 785/1051 = 74.7%

Pero, qu habra ocurrido si el CDC hubiese enviado un nmero 10 veces mayor de
muestras sin cocana a los laboratorios? En ese caso, y suponiendo que la sensibilidad y
especificidad se mantienen, la tabla habra sido la siguiente:


Cocana en la Muestra


Total
Presente Ausente
Prueba de
Laboratorio
Cocana (+) 150 80 230
Cocana (-) 266 7850 8116
Total 416 7930 8346

Se observa que S y E no cambian (36% y 99%), pero ahora VP+=150/230=65.2% y VP-
=96.7%.

Este ejemplo muestra que cuando se quiere validar el test construido, se clasifica primero
a los pacientes segn el test diagnstico (como positivo o negativo) y se determina
posteriormente el verdadero estado de los pacientes. Este procedimiento prospectivo es
el que permite estimar los valores predictivos positivo y negativo.




Ejemplo (VP+ y VP- por Mtodo de la Abuelita). Un nuevo test diagnstico para cierta
enfermedad tiene sensibilidad 80% y especificidad 50%. Si la prevalencia de la
enfermedad es 5%, Cul es el valor predictivo positivo y negativo del nuevo test?

R. La prevalencia 5% indica que de cada 1000 personas, 50 tienen la enfermedad. Luego,
al tabular 1000 personas (ficticias) de acuerdo a la informacin disponible de sensibilidad,
especificidad y prevalencia, se tendr:


Enfermedad


Total
Presente Ausente
Test
(+) 40 475 515
(-) 10 475 485
Total 50 950 1000


De la tabla se obtiene VP+ = 40/515=7.8% y VP- =475/485= 97.9%. Esto muestra que,
cuando el test resulta negativo, virtualmente descarta la enfermedad. Sin embargo,
cuando resulta positivo, slo en el 7.8% de los casos la enfermedad est presente.

En general, los procedimientos con sensibilidad elevada son tiles para descartar una
enfermedad en pacientes cuya probabilidad a proiri de tenerla sea baja (o sea, cuando la
prevalencia es baja).
33
Anlisis de Pruebas Diagnsticas Numricas.

Cuando los valores de la prueba diagnstica se miden en una escala numrica, la
sensibilidad y especificidad dependen del punto de corte establecido en la variable
para clasificar los positivos y negativos del test.

En este punto surgen 2 preguntas respecto al test numrico: Qu tan buen
predictor es este test diagnstico para la enfermedad? Cul es el punto de corte
en la variable que arroja la mayor sensibilidad y especificidad?

La respuesta a ambas preguntas se puede obtener mediante las curvas ROC
(Receiver Operating Characteristic curve), que consiste en un grfico de la
sensibilidad versus 1-especificidad calculada usando como punto de corte todos
los valores observados de la variable numrica.

Para ilustrar la forma de obtener una curva ROC e interpretarla, consideremos el
siguiente ejemplo.



Ejemplo. Se quiere construir un modelo predictivo de infeccin en una Unidad de
Cuidados Intensivos (UCI). Para esto, se tiene la informacin de 39 pacientes, 21 con
infeccin y 18 sin infeccin. Las variables que se cree estn asociadas con la presencia
de infeccin son Sexo, Edad, PCR (resultado de un test precoz de infeccin), y Recuento
de glbulos blancos (RCTOGB). Usando estas 4 variables se construy un score de
riesgo de infeccin, con el siguiente resultado para los 49 pacientes:

Sin infeccin: 735.3, 658.92, 566.6, 844.49, 467.29, 1056.32, 416.55, 738.7, 954.02, 7.49, 564.82,
634.88, 688.12, 874.44, 483.9, 33.95, 684.81, 594.97

Con infeccin: 1696.21, 1115.21, 1093.48, 922.06, 917.09, 908.84, 700.59, 895.31, 787.9,
1799.1, 959.8, 584.2, 1013.03, 876.68, 340.33, 732.31, 897.43, 1020.87, 1442.85, 1095.81, 1217.8

Si se elige un punto de corte arbitrario en el score, se puede obtener la sensibilidad y
especificidad de ese punto de corte especfico. Por ejemplo, usando corte 800 versus
>800 puntos, y asumiendo que un puntaje alto en el test es indicador de infeccin, se
obtiene:


Infeccin


Total
Presente Ausente
Test
>800 16 4 20
800 5 14 19
Total 21 18 39

Se observa que la sensibilidad es 16/21=76.2% y la especificidad es 14/18=77.8%.

34
Si se repite el proceso de clculo de la sensibilidad y especificidad para todos los valores
del score, se tiene la tabla siguiente. Al graficar la sensibilidad versus 1-especificidad (en
escala de 0 a 1) se obtiene la curva ROC.






Ntese que el rea mxima que puede cubrir una curva ROC es 1. Este valor slo se
puede obtener si existiera un punto de corte perfecto en el test diagnstico (un valor que
arrojara sensibilidad y especificidad iguales a 1).

La lnea diagonal (en verde) acumula un rea bajo la curva igual a 0.5. Si una variable
tiene rea 0.5, significa que no es mejor que el azar para hacer la clasificacin de los
pacientes (por ejemplo, no es mejor que clasificarlos lanzando una moneda al aire).
Luego, la hiptesis de inters es:

H
0
: El rea bajo la curva ROC = 0.5
H
1
: El rea bajo la curva ROC 0.5

Usando un programa estadstico se puede obtener el rea bajo la curva ROC y el error
estndar del rea. En el ejemplo, el rea es 0.847 con un error estndar igual a 0.064.
Luego, con p<0.001 se rechaza la hiptesis nula y se concluye que usar el score es mejor
que el azar para determinar infeccin.

Ntese que si el rea bajo la curva ROC es menor que 0.5, basta con cambiar el criterio
de clasificacin para tener un rea mayor que 0.5.

Finalmente, de la tabla con todos los puntos de corte se observa que el valor 874.44 del
score es el que arroja la mayor sensibilidad y especificidad (S = 76.2% y E = 88.9%). Sin
embargo, se debe tener en cuenta que elegir el punto de corte de modo que el test tenga
la ms alta sensibilidad y especificidad, implica que se le da la misma importancia a los
falsos positivos (clasificar un sano como enfermo) y falsos negativos (clasificar un
enfermo como sano).
35
6. Asociacin Categrica Numrica

Ejemplo. Interesa determinar si existe asociacin entre la edad del paciente (en aos) y la
presencia de clculos vesiculares (codificado como 0=No y 1=Si), para un total de 965
personas.














Cuando la variable X es numrica e Y categrica, o viceversa, se requiere obtener
medidas resumen (generalmente nmero de casos, promedio y desviacin
estndar) de la variable numrica para cada nivel de la variable categrica.



Ejemplo. Para determinar la
asociacin entre la edad del paciente
y la presencia de clculos vesiculares,
en base a una muestra de 965
personas, se obtuvieron los siguientes
resultados (la planilla muestra los
primeros 14 datos):




Ejemplo. Para evaluar la eficacia de
un frmaco contra la hipertensin
arterial, se seleccionaron 45
hipertensos y se asignaron a un grupo
sin tratamiento, otro con una dieta sin
sal y un tercero con el frmaco (15
casos al azar en cada grupo). Interesa
comparar los resultados de presin
arterial sistlica al final del tratamiento
(la planilla muestra los primeros 15
datos).

36
Para determinar si existe asociacin entre X e Y se comparan los promedios de
la variable numrica entre los niveles de la variable categrica. Como se muestra
en los ejemplos en pgina previa, el nmero de promedios a comparar depende
del nmero de niveles de la variable categrica.

o Si la variable categrica tiene 2 niveles, se comparan los promedios de la
numrica con test t de Student para muestras independientes. Las hiptesis
posibles de plantear en este caso son:

(a) H
0
:
A
=
B
vs H
1
:
A

B
(Cuando interesa determinar si
A

B
)
(b) H
0
:
A

B
vs H
1
:
A
<
B
(Cuando interesa determinar si
A
<
B
)
(c) H
0
:
A

B
vs H
1
:
A
>
B
(Cuando interesa determinar si
A
>
B
)


o Si la variable categrica tiene ms de 2 niveles, se comparan los promedios
con Anlisis de la Varianza en una va (one way ANOVA). En este caso, las
hiptesis son:

H
0
:
1
=
2
=... =
k
H
1
: Algn
i

j


Si la ANOVA arroja diferencias entre los promedios, la conclusin es que al
menos uno de los promedios es distinto al resto. Para detectar cul o cules
son los promedios distintos se usa un test de comparaciones mltiples. El test
ms utilizado en la literatura biomdica es el test de Bonferroni.



Ejemplo (Correccin de Bonferroni). En la evaluacin del frmaco contra la
hipertensin arterial comparado con grupos sin tratamiento y sin sal (pgina 35), el test
adecuado es ANOVA, ya que se comparan 3 promedios. Es vlido comparar todos los
pares de promedios usando test t de Student para muestras independientes?

R. Si en cada comparacin se rechaza H
0
:
1
=
2
con confianza 1-, entonces en k
comparaciones la confianza es: (1-)
K
. Luego, la probabilidad de que al menos una de las
k comparaciones sea significativa es 1-(1-)
K
.

En el ejemplo, con =5%, la probabilidad de rechazar errneamente al menos una de las
3 comparaciones es 1-(1-0.05)
3
= 0.1426. Es decir, la probabilidad de encontrar una
diferencia significativa por error es 0.14 en vez de 0.05.

Para solucionar este problema se usa la Correccin de Bonferroni.

Si se quieren hacer k comparaciones con significancia global , entonces cada
comparacin individual debe ser significativa al nivel
|
|

\
|
=
2
*
k

.
Por ejemplo, como se quieren k = 3 comparaciones, cada hiptesis debe ser significativa
al nivel *=0.017, de modo que la probabilidad de error global es 1-(1-0.017)
3
=0.05.
37
6.1 Supuestos del test t de Student para muestras independientes y ANOVA

Para utilizar test t de Student para muestras independientes o ANOVA es
necesario que se cumplan los siguientes supuestos:

o Se requiere que los valores de la variable numrica sean independientes al
interior y entre los niveles de la variable categrica.

Una variable numrica medida en distintos individuos es casi siempre
independiente (es decir, el valor que toma la variable en un individuo no
depende del valor que toma en otro). Algunas excepciones ocurren cuando se
hacen mediciones genticas en individuos de una misma etnia o familia, efecto
de mediciones ambientales en individuos de una misma comunidad, etc.

Ms comn es la falta de independencia entre los niveles de la variable
categrica.


Ejemplo. Se quiere evaluar el efecto de un frmaco para tratar la hipertensin arterial.
Para esto, se midi la presin arterial a un grupo de n personas hipertensas antes de
comenzar el tratamiento, despus de 1 mes de iniciado el tratamiento y despus de 6
meses de tratamiento.

Ntese que, aunque las presiones arteriales son independientes al interior de cada
tiempo, no son independientes entre tiempos, ya que se trata de las mismas personas
medidas en 3 tiempos.


o El promedio de la variable numrica debe tener distribucin normal al interior
de cada nivel de la variable categrica.

Este supuesto se cumple cuando el nmero de observaciones en cada grupo
es grande (ya que los promedios muestrales tienen distribucin Normal por
TCL) o cuando los datos tienen distribucin Normal (ya que los datos
distribuidos normalmente generan promedios con distribucin Normal.


Ejemplo. En el ejemplo de asociacin de asociacin edad litiasis en pgina 35, los
promedios muestrales de edad tienen distribucin Normal por TCL, por lo que se
puede usar t de Student para muestras independientes.

En el ejemplo de asociacin tratamiento presin arterial en pgina 35, es necesario
asumir que la presin arterial tiene distribucin Normal, ya que hay slo 15 casos en
cada grupo de tratamiento. Este supuesto es aceptable, ya que habitualmente se
considera que la presin arterial tiene distribucin Normal o, al menos, que su
distribucin es simtrica.

38
Ejemplo (uso de t de Student para muestras independientes). En el ejemplo de
asociacin Litiasis Edad (pgina 35), no hay inconveniente en usar test t de Student
para muestras independientes, ya que los promedios muestrales tienen distribucin
Normal por TCL.

Usando MINITAB, se obtiene el siguiente resultado para la comparacin de medias:




La ltima lnea de la salida de MINITAB muestra el valor p (P-Value = 0.000). Luego, con
p<0.001 se rechaza la hiptesis de igualdad de medias. Se concluye que la edad
promedio de los litisicos (45.813.9) es significativamente mayor que la edad promedio
de los no litisicos (36.113.0). Equivalentemente, existe asociacin entre edad y litiasis.



Ejemplo (uso de ANOVA). En la evaluacin del frmaco contra la hipertensin arterial
comparado con grupos sin tratamiento y sin sal (pgina 35) se requiere comparar los
promedio con ANOVA.







Usando MINITAB, para la hiptesis H
0
:
1
=
2
=3 se obtiene p<0.001. Luego, se rechaza la
hiptesis de igualdad de medias. Usando test de Bonferroni, se concluye que existen
diferencias significativas entre todos los pares de promedios (p<0.05 para cada
comparacin).

Ntese que, aunque se concluye que los promedios son distintos, con esta comparacin
no se puede concluir que el grupo con tratamiento sea mejor para disminuir la presin
arterial que los otros grupos, ya que no sabemos cul que la presin arterial inicial de
estos pacientes.

Un diseo adecuado debiera comparar los promedios de las diferencias de presin arterial
inicial final entre los 3 grupos. Ntese que mientras ms positivo sea el delta promedio,
indica una mayor disminucin de la presin arterial. Luego, un delta promedio
significativamente mayor en el grupo tratado en comparacin con el resto sera indicador
de un mayor efecto del tratamiento.
39
6.2. Test de Hiptesis para dos promedios

Cuando se quieren comparar dos promedios
A
y
B
que cumplen con los
supuestos planteados en 6.1, las hiptesis posibles de plantear son:

(a) H
0
:
A
=
B
vs H
1
:
A

B
(Cuando interesa determinar si
A

B
)
(b) H
0
:
A

B
vs H
1
:
A
<
B
(Cuando interesa determinar si
A
<
B
)
(c) H
0
:
A

B
vs H
1
:
A
>
B
(Cuando interesa determinar si
A
>
B
)


Cualquiera sea la hiptesis de inters, se toman muestras aleatorias tamao n
A
y
n
B
de las poblaciones A y B, respectivamente, y se calcula el promedio y
desviacin estndar de la variable numrica para cada muestra.

Asumiendo que el supuesto de independencia se cumple, el supuesto de
normalidad implica que ) , ( ~
2
A A A A
n N x y ) , ( ~
2
B B B B
n N x . Se puede
demostrar que ) , ( ~
2 2
B B A A B A B A
n n N x x + . Luego, si se asume que H
0
es
verdadera (
A
=
B
), entonces bajo H
0
se tiene que ) , 0 ( ~
2 2
B B A A B A
n n N x x + .
Al estandarizar y reemplazar las varianzas poblacionales (que son desconocidas)
por las varianzas muestrales, se tiene:







Lo cual significa que t
0
tiene distribucin t de Student con n
A
+ n
B
-2 grados de
libertad.

Siguiendo la misma lgica del test para una proporcin (pgina 8) o para un
promedio (pgina 10), para cada hiptesis planteada el valor p es:


Para las hiptesis: el valor-p es:
(a) H
0
:
A
=
B
vs H
1
:
A

B
(a) p=P(t
(nA+nB-2)
<-t
0
o t
(nA+nB-2)
> t
0
) =2*P(t
(nA+nB-2)
|t
0
|)
(b) H
0
:
A

B
vs H
1
:
A
<
B
(b) p = P(t
(nA+nB-2)
<t
0
)
(c) H
0
:
A

B
vs H
1
:
A
>
B
(c) p = P(t
(nA+nB-2)
>t
0
)


Finalmente, se rechaza H
0
si el valor-p calculado es menor que la significancia
fijada a priori.
) 2 ( ~
) (
2 2
0
+
+

=
B A
B
B
A
A
B A
n n t
n
s
n
s
x x
t
40
Ejemplo: Se calcul la disminucin de peso (en kilos) de 18 pacientes sometidos a dos
tratamientos para la obesidad: 10 pacientes con tratamiento A y 8 con tratamiento B. Los
datos estn expresados como

Delta = Peso al inicio de tratamiento - Peso al final del tratamiento












Interesa determinar si el tratamiento A es ms efectivo que el tratamiento B.

R. Si se quiere usar test t de Student para muestras independientes es necesario asumir
que los datos de delta de peso poblacionales tienen distribucin Normal.

Si
A
y
B
son los delta de peso promedio en poblaciones A y B, respectivamente,
entonces la hiptesis que plantea que A es ms efectivo que B es H
0
:
A

B
vs H
1
:
A
>
B
.

De las muestras de A y B se obtiene: 26 . 4 33 . 3 , 10 = =
A A
x n y 89 . 3 61 . 0 , 8 = =
B B
x n .
Luego, el test estadstico es







Dado que se rechaza para valores grandes de t
0
(que es consistente con H
1
:
A
>
B
), el
valor p es P(t
(16)
> 1.41)=1- P(t
(16)
< 1.41) > 0.05. No hay evidencia suficiente en los datos
para rechazar H
0
. Por lo tanto, el tratamiento A no es ms efectivo que el B.

Ntese que 33 . 3 =
A
x es bastante mayor que 61 . 0 =
B
x y sin embargo no hay diferencias
significativas entre los promedios. Esto se debe a que las varianzas son muy grandes
(
2 2
26 . 4 =
A
s y
2 2
89 . 3 =
B
s ) y los tamaos muestrales son muy pequeos ( 10 =
A
n y
8 =
B
n ), lo que hace que los errores estndar sean muy grandes.
) 16 ( ) 2 ( ~ 41 . 1
706 . 3
72 . 2
8
89 . 3
10
26 . 4
61 . 0 33 . 3 ) (
2 2 2 2
0
t n n t
n
s
n
s
x x
t
B A
B
B
A
A
B A
= + = =
+

=
+

=
41
6.3 Anlisis de datos pareados (o medidas repetidas).

Como se mencion en los supuestos del test t de Student para muestras
independientes y ANOVA (pgina 37), generalmente el valor que toma una
variable numrica en un individuo no depende del valor que toma en los dems.
Es decir, habitualmente existe independencia entre individuos.

Sin embargo, si la variable numrica es medida en los mismos individuos en dos o
ms tiempos o condiciones experimentales (que corresponde a los niveles de la
variable categrica), entonces las observaciones son independientes al interior de
cada tiempo, pero no entre tiempos, ya que son los mismos pacientes. Es decir,
no hay independencia intra individuos.



Ejemplo. La tabla siguiente muestra el conteo de clulas T-CD4 (x mm
3
) en una muestra
aleatoria de 20 pacientes con diagnstico primario de VIH. El valor basal corresponde al
conteo de clulas T antes de iniciar un tratamiento con terapia antiretroviral (TAR) y los
controles 1 al 4 corresponde al conteo en 4 controles sucesivos, separados
aproximadamente por 6 meses entre s.

















El grfico muestra cmo evoluciona el conteo de clulas T CD4 entre los controles en esta
muestra. Interesa determinar si existe un aumento significativo en el conteo de clulas T
CD4 en el tiempo.

Ntese que se trata de la asociacin de una variable numrica (CD4) y una categrica
(tiempo, con 5 niveles). Aunque el valor de CD4 de un paciente es independiente del valor
que toma en los otros pacientes, no hay independencia entre tiempos, ya que se trata de
los mismos pacientes.
42
Como en el caso de datos independientes (pgina 36), el test a utilizar depende
del nmero de condiciones experimentales o tiempos en que se mide la variable
numrica.

o Si la variable numrica se mide en dos tiempos o condiciones, se comparan los
promedios con test t de Student para muestras pareadas.

Dado que cada individuo tiene dos valores, las hiptesis se pueden plantear en
trminos del promedio de diferencias entre los tiempos. Es decir, si y
1i
e y
2i
son
los valores en tiempo 1 y 2 del individuo i-simo, entonces para cada sujeto se
puede calcular d
i
=y
1i
- y
2i
. Ntese que si no hay diferencias entre los tiempos,
entonces se espera que el promedio de las diferencias sea igual a cero.

En general, si llamamos al promedio de las diferencias en la poblacin,
entonces las hiptesis posibles de plantear son:

(a) H
0
:=0 vs H
1
:0 (Cuando interesa determinar si 0)
(b) H
0
:0 vs H
1
:<0 (Cuando interesa determinar si < 0)
(c) H
0
:0 vs H
1
:>0 (Cuando interesa determinar si > 0)

Ntese que estas hiptesis son un caso particular de las planteadas en Test de
Hiptesis para un Promedio, con
0
=0 (ver pginas 10 y 11).


o Si la variable numrica se mide en ms de dos tiempos o condiciones, se
comparan los promedios con Anlisis de la Varianza para medidas
repetidas. En este caso, las hiptesis son:

j tiempo i tiempo
k tiempo tiempo tiempo
Algn H
H

= = =

:
:
1
2 1 0
K


Si la ANOVA para medidas repetidas arroja diferencias entre los promedios, se
recurre nuevamente a los test de comparaciones mltiples (por ejemplo,
Bonferroni) para determinar cul o cules son los promedios distintos.



Supuestos del anlisis
Al igual que en el caso de muestras independientes, se requiere que el promedio
de la variable numrica tenga distribucin Normal al interior de cada tiempo o
condicin experimental. Tambin se requiere que la variable numrica sea
independiente al interior de cada condicin.


43
Ejemplo. Interesa comparar el peso promedio entre dos tiempos: al inicio y al final de un
tratamiento para la obesidad. Los datos disponibles son los siguientes:






Para cada paciente se calcula la diferencia entre el peso inicial y el peso final. En este
caso los deltas son: 6, 4, 6, 11, 0, 1, -1, 5, 11, -2. En este esquema, plantear que no hay
diferencias entre los valores PRE y POST equivale a plantear que el delta promedio es
igual a cero. Si llamamos al delta promedio poblacional, entonces las hiptesis son:

0 :
0 :
1
0

H
H


De los datos se obtiene: 63 . 4 1 . 4 10 = = d n . Como la hiptesis es un caso particular
del test para un promedio descrito en pgina 10 (con
0
=0), el test es:

Dado que la hiptesis es bilateral, se rechaza para valores muy grandes o muy pequeos
de t
0
. Luego, el valor p es P(t
(n-1)
<-t
0
o t
(n-1)
> t
0
) = 2*P(t
(n-1)
|t
0
|) = 2*P(t
(9)
2.8) < 0.01. Se
concluye que existen diferencias significativas entre el peso PRE y POST. Luego, como la
diferencia promedio es positiva, se concluye que el tratamiento es efectivo.




Ejemplo. Para los datos de conteo de clulas T-CD4 (x mm
3
) en pacientes con
diagnstico primario de VIH, se utiliza ANOVA para medidas repetidas, ya que esta
variable se mide en 5 tiempos. La hiptesis de inters es:

j tiempo i tiempo
control control basal
Algn H
H

= = =

:
:
1
4 1 0
K


Usando MINITAB, se obtiene p<0.001 para la hiptesis. Se concluye que al menos un
tiempo tiene un promedio distinto al resto. Usando test de Bonferroni, se observa que el
tiempo basal tiene un promedio significativamente menor que el resto (p<0.001 en cada
par de comparaciones) y el promedio en control 4 es significativamente mayor que en
control 1 (p=0.003).


) 9 ( ) 1 ( ~ 8 . 2
10
63 . 4
0 1 . 4
0
0
t n t
n
s
X
t =

44
6.4 Transformaciones y Test no paramtricos

Los test t de Student y ANOVA, en sus versiones independientes y pareadas,
requieren que los promedios muestrales tengan distribucin Normal al interior de
cada nivel de la variable categrica.

Si los datos no son normales y el tamao muestral es insuficiente para asumir
normalidad por TCL, hay dos alternativas para hacer un anlisis de los datos
mediante test de hiptesis: usar transformaciones de los datos o usar test no
paramtricos.


Transformaciones
Si X es una variable aleatoria numrica no normal, una transformacin de X podra
lograr el efecto de simetrizar los datos, de modo que podramos utilizar los test
paramtricos estudiados sobre los datos transformados. Las conclusiones que
obtengamos para los test de hiptesis planteadas con los datos transformados
sern vlidas para los datos originales.

Aunque tericamente cualquier funcin f que sea montona (creciente o
decreciente) y uno-a-uno puede usarse para transformar los datos, en la prctica
se utilizan slo algunas funciones.

La transformacin ms utilizada es el logaritmo natural. Si el logaritmo de una
variable numrica tiene distribucin normal, se dice que la variable original tiene
distribucin log-normal. Ntese que el logaritmo slo se puede usar cuando X>0.
Si X puede tomar el valor 0, en ocasiones se usa la transformacin log(X+1).












Cuando la variable es un conteo (por ejemplo, nmero de personas, nmero de
hijos, etc.) una transformacin usada con frecuencia es la raz cuadrada. Cuando
la variable numrica es una proporcin, generalmente se usa arcoseno(p).
45
Test no paramtricos
Cuando se asume normalidad, en el fondo se est asumiendo que se conoce la
forma de la distribucin de los datos, la cual esta basada en parmetros (como la
media y la varianza
2
de la distribucin Normal). Por este motivo, estas
distribuciones se llaman paramtricas, y los test basados en estas distribuciones
se denominan test paramtricos.

Una alternativa al anlisis de datos asumiendo normalidad (u otra distribucin,
como Poisson, Binomial, etc.) son los test no paramtricos, los cuales hacen
pocos supuestos acerca de la forma de la distribucin.

Dado que en este curso el nfasis est puesto en los test paramtricos, slo se
mencionan a continuacin cules son los test no paramtricos equivalentes a los
test paramtricos estudiados.


Si el test paramtrico adecuado para la
hiptesis es
El test no paramtrico equivalente
es
t de Student para muestras independientes Test de rangos de Wilcoxon
ANOVA en una va Test de Kruskal-Wallis
Test de Bonferroni Test de Dunn

t de Student para muestras pareadas Test de rangos signados de Wilcoxon
ANOVA para medidas repetidas Test de Friedman


46
7. Asociacin Numrica Numrica

Ejemplo. Interesa determinar si existe asociacin el peso (en kilos) y el nivel de colesterol
total en una muestra de 965 personas, constituida por individuos litisicos y no litisicos.














Cuando las variables X e y son ambas numricas, se determina si existe
asociacin lineal entre las variables mediante al correlacin muestral de
Pearson (si ambas variables tienen origen intervalar) o la correlacin por rangos
de Spearman (si al menos una de ellas es de origen ordinal). La correlacin
muestral se denota generalmente con la letra r, mientras que la correlacin
poblacional (que es la que queremos estimar) se denota con la letra (rho).

En forma complementaria al clculo de la correlacin se debiera hacer un grfico
de dispersin de X versus Y, el cual puede arrojar (entre otras) alguna de las
siguientes tendencias:








47
Los grficos superiores (grficos 1 y 2) muestran asociaciones lineales directa e
inversa, respectivamente. Estas tendencias debieran ser detectadas por el
coeficiente de correlacin.

Los grficos inferiores (grficos 3 y 4) en cambio, no muestran asociacin lineal,
pero con resultados muy distintos: el grfico 3 no muestra ningn tipo de
tendencia, mientras el grfico 4 muestra una clara tendencia de tipo exponencial.

Las caractersticas de la correlacin muestral (y poblacional) son las siguientes:

La correlacin vara entre -1 y +1.
Si r es cercano a 1, significa que existe asociacin lineal directa entre X e Y.
Si r es cercano a -1, significa que existe asociacin lineal inversa entre X e Y.
Si r es cercano a 0, indica que no hay asociacin lineal entre X e Y.

Estas caractersticas las comparten la correlacin de Pearson y de Spearman.

Ntese que si la correlacin es cercana a cero, slo podemos concluir que no
existe asociacin lineal. Sin embargo, observando slo el valor de r no podemos
diferenciar entre una falta total de asociacin de una asociacin no lineal (como en
los grficos 3 y 4). Para esto es necesario hacer el grfico de dispersin.

Las hiptesis de inters en este caso son:

0 :
0 :
1
0

H
H


En una muestra de tamao n los datos observados de X e Y forman pares
ordenados del tipo (x
1
,y
1
), ..., (x
n
,y
n
). La correlacin de Pearson se calcula como:

Se puede demostrar que la siguiente transformacin de r tiene distribucin Normal:

Y el valor p para docimar la hiptesis H
0
:=0 se calcula como p=2*P(z |z
0
|). Se
rechaza H
0
si el valor-p es menor que la significancia fijada a priori.



2
_
2
_
_ _
) ( ) (
) )( (



=
y y x x
y y x x
r
i i
i i
) 1 , 0 ( ~
) 3 (
1
)
1
1
ln(
2
1
0
N
n
r
r
z

+
=
48
Ejemplo: Interesa determinar si hay asociacin
lineal entre el porcentaje de personas que lee
(literacy) y mortalidad infantil (por cada 1000
nacidos vivos) para una muestra de 25 pases
(datos 1995).

Al aplicar la frmula para calcular r, se obtiene
una correlacin muestral de Pearson r = -0.931

El estadgrafo z
0
es:


El valor-p es 2*P(z |z
0
|)=2*P(z 7.81) < 0.001. Se
concluye que existe una asociacin lineal inversa
significativa entre alfabetizacin y la mortalidad
infantil.



Una desventaja de la correlacin muestral es que tiende a ser ms significativa a
medida que aumenta el tamao muestral. Luego, un r significativo no permite
determinar si la variable X es un buen predictor de Y (slo permite decir que existe
una asociacin lineal significativa). Para saber si X es un buen o mal predictor de
Y generalmente se usa el siguiente criterio, el cual se usa en forma independiente
del valor p.

Si la correlacin vara entre Entonces





X es un mal predictor de Y





X es un pobre predictor de Y





X es un buen predictor de Y





X es un excelente predictor de Y
) 1 , 0 ( ~ 81 . 7
) 3 25 (
1
)
931 . 0 1
931 . 0 1
ln(
2
1
0
N z =

=
49
ANEXO
Estudios Transversales, Prospectivos y Retrospectivos


Estudio Transversal

Estos estudios, denominados tambin estudios de prevalencia, estudian
simultneamente la exposicin y la enfermedad en una poblacin bien definida, en
un momento determinado.

Esta medicin simultnea no permite conocer la secuencia temporal de los
acontecimientos y no es por tanto posible determinar si la exposicin precedi a la
enfermedad o viceversa.

La realizacin de estos estudios requiere definir claramente:
La poblacin de referencia sobre la que se desea extrapolar los resultados.
La seleccin y definicin de las variables por las que se va a caracterizar el
proceso.
Las escalas de medida a utilizar.
La definicin de caso.

Los estudios transversales se utilizan fundamentalmente en dos situaciones:

1. Para conocer la prevalencia de una enfermedad o de un factor de riesgo. Es
decir, el porcentaje total de casos que tiene una enfermedad determinada.
2. Para conocer la incidencia de una enfermedad. Es decir, el porcentaje de
nuevos casos portadores de una enfermedad determinada.



Ejemplo. Estudio de Prevalencia de Factores de Riesgo en una cohorte de 412 mujeres
mayores de 15 aos en la Regin Metropolitana (Ximena Berros et.al. 1992). El estudio
arroj los siguientes resultados:

En este caso se podra hacer una tabla de contingencia para determinar, por ejemplo, la
asociacin de sedentarismo y obesidad. Sin embargo, no nos permitira concluir que el
sedentarismo produce la obesidad, ya que no se sabe cul de los dos factores ocurri
primero (podra ser que debido a la obesidad una persona se puso sedentaria?).
Factor de Riesgo 1992 (%)
Tabaquismo 44.6
Consumo de Alcohol 29.8
Sedentarismo 80.1
Hipertensin 17.6
Obesidad 39.9
Colesterol > 200 mg 46.1
50
Caractersticas de un Estudio Retrospectivo (Caso Control)

Este tipo de estudio identifica un grupo de personas que es portador de la
enfermedad en estudio (o de otra caracterstica de inters) y lo compara con un
grupo apropiado de personas que no tenga la enfermedad.

El grupo portador de la enfermedad se denomina generalmente como casos, y el
grupo sin la enfermedad se llama grupo control. Por este motivo a estos estudios
se les denomina estudio caso control. Por otra parte, el hecho de que la
enfermedad ya haya ocurrido le da al estudio su carcter retrospectivo.

Generalmente es de inters determinar la relacin de la enfermedad con uno o
ms factores (de riesgo o protectores de la enfermedad), comparando la
frecuencia de exposicin al factor entre casos y controles.


Casos Controles Total
Expuestos a b a+b
No expuestos c d c+d
Total a+c b+d n


El margen fijo en la tabla previa corresponde a las columnas a+c y b+d. Por lo
tanto, los porcentajes de inters se calculan usando estos denominadores.

La funcin del grupo control es estimar la proporcin de exposicin esperada en
un grupo que no tiene la enfermedad. Este grupo debe ser representativo de la
poblacin de donde provienen los casos. Es decir, los casos y controles no deben
entenderse como dos grupos representativos de poblaciones distintas, sino como
dos grupos que provienen de la misma poblacin.


Ejemplo. Se condujo un estudio para determinar la asociacin del uso de anticonceptivos
orales (ACO) y enfermedad cardiaca en mujeres de 40 a 44 aos de edad. Para esto, se
tom una muestra de 180 mujeres que fueron atendidas en un hospital por infarto al
miocardio (IAM) y un grupo de 250 mujeres sanas. Al revisar sus antecedentes de uso de
ACO, se encontraron los siguientes resultados:

Infarto al Miocardio
Si No Total
Uso de
ACO
Si 105 120 225
No 75 130 205
Total 180 250 430


Los porcentajes de inters en este caso son el porcentaje de uso de ACO en los casos (el
grupo con infarto) y en los controles (el grupo sin infarto).
51
Caractersticas de un Estudio Prospectivo

En este tipo de estudio los individuos son identificados en funcin de la presencia
o ausencia de exposicin a un determinado factor. En el momento de la seleccin,
todos los sujetos estn libres de la enfermedad de inters y son seguidos durante
un perodo de tiempo para observar la frecuencia de aparicin del fenmeno que
nos interesa.

Estos estudios se denominan tambin estudios de cohorte (la cohorte es el
grupo de sujetos que es observado en distintos instantes de tiempo) o estudios
de seguimiento.


Enfermos Sanos Total
Expuestos a b a+b
No expuestos c d c+d
Total a+c b+d n


El margen fijo en esta tabla son las filas a+b y c+d. Por lo tanto, los porcentajes de
inters se calculan usando estos denominadores.

Se debe tener certeza de que la enfermedad est ausente al inicio del estudio. Por
otra parte, es necesario considerar posibles prdidas de seguimiento (sujetos que
no vuelven a control, cambian su condicin de expuesto o no expuesto, mueren,
etc.). Los no expuestos deben ser representativos de la poblacin de donde
provienen los expuestos. Como en estudios Caso Control, estos grupos deben
entenderse como representativos de la misma poblacin.


Ejemplo. Se condujo un estudio para determinar el efecto del uso de anticonceptivos
orales (ACO) sobre enfermedad cardiaca en mujeres de 40 a 44 aos. Se encontr que
entre 5000 usuarias actuales de ACO, 13 tuvieron un infarto al miocardio (IAM) en un
perodo de 3 aos, y entre 10000 no usuarias de ACO, 7 tuvieron un IAM en 3 aos.


IAM No IAM Total
Grupo con ACO 13 4987 5000
Grupo sin ACO 7 9993 10000
Total 20 14980 15000


Los porcentajes de inters en este caso son el porcentaje de IAM en los expuestos (el
grupo con ACO) y en los no expuestos (el grupo sin ACO).

Ntese que al inicio del estudio es necesario verificar que ninguna de las 15000 personas
seleccionadas haya tenido un infarto al miocardio.
52
Ventajas de los Estudios Caso Control y Cohorte

Estudio Caso Control Estudio de Cohorte
Menos costosos que los estudios de
seguimiento
Aceptados como el tipo de estudio que
aporta ms evidencia de asociacin entre
un factor y una enfermedad
Habitualmente son estudios de corta
duracin
La secuencia temporal entre exposicin y
enfermedad se puede establecer ms
claramente
tiles para el estudio de enfermedades
raras
Permiten estimar incidencias
Permite el anlisis de varios factores de
riesgo para una determinada enfermedad
Permite el examen de mltiples efectos
ante una exposicin determinada



Desventajas de los Estudios Caso Control y Cohorte

Estudio Caso Control Estudio de Cohorte
Son considerados estudios exploratorios
(no confirmatorios)
Elevado costo y dificultad en la ejecucin
La secuencia temporal entre exposicin y
enfermedad no es fcil de establecer
No son tiles para el estudio de
enfermedades raras
No permiten estimar incidencias Requieren generalmente tamaos
muestrales elevados
Hay facilidad de introducir sesgos de
seleccin y/o informacin
Posibilidad de prdida de seguimiento

You might also like