You are on page 1of 13

$QiOLVLVHSLGHPLROyJLFRGHGDWRV

3URI/XLV)9DOHUR

______________________________________________________________________

$62&,$&,1(175(9$5,$%/(6&8$/,7$7,9$6
&203$5$&,1'(352325&,21(6


,,1752'8&&,1

Cuando se quiere establecer la relacin entre variables cualitativas vamos a comparar la


frecuencia de presentacin de un efecto en dos o ms muestras, o grupos de estudio. En
estas situaciones debemos utilizar pruebas de contraste de hiptesis para la comparacin
de proporciones.
Ejemplos:
- La frecuencia de aparicin de cncer de cuello uterino est asociada al nivel de
estudios de las pacientes, de forma que la incidencia del proceso disminuye al
aumentar el nivel de estudios de las mujeres.
- La frecuencia de cncer pancretico en varones est asociada a la edad del
paciente (medida como variable categrica, por intervalos de edad), de forma
que la incidencia del proceso aumenta al aumentar la edad de los pacientes.
Para la comparacin de proporciones, entre dos o ms muestras, los tests de contraste
de hiptesis ms utilizados habitualmente en Ciencias de la salud son:
-

Test de ji-cuadrado de Pearson.


Test exacto de Fisher.
Test de ji-cuadrado de Mc Nemar
Test de ji-cuadrado de tendencia lineal.

En temas anteriores, en el anlisis epidemiolgico de datos, hemos utilizado la prueba


de ji-cuadrado y sus variantes (Mantell-Haenszael) para establecer si la relacin causal
entre dos variables no era explicada exclusivamente por el azar, eran estadsticamente
significativas.
En este captulo nos vamos a centrar en la prueba de Ji-cuadrado de Pearson, aplicable a
cualquier situacin y tipo de estudio epidemiolgico, en el que se comparen dos o ms
proporciones; tanto para tablas de 2x2 como para tablas de NxM.

,,)81'$0(172'(/$358(%$

En la Universidad de Salamanca, vamos a considerar que la proporcin de hombres y


mujeres entre los estudiantes, es la misma, es decir el 50% son hombres y el 50% son
mujeres.

$QiOLVLVHSLGHPLROyJLFRGHGDWRV

3URI/XLV)9DOHUR

______________________________________________________________________
En un estudio descriptivo, realizado en una muestra (A) de 30 alumnos de segundo de
medicina, REVHUYDPRV que el 66,7% eran mujeres (20 mujeres) y el 33,3% varones (10
varones).
Los clculos realizados para llegar a estos resultados han sido:
1) Proporcin REVHUYDGD de mujeres = 20/30=0,667 (66,7%)
2) Proporcin REVHUYDGD de hombres= 10/30=0,333 (33,3%)

La frecuencia observada en los estudiantes de segundo de medicina, NO se corresponde


con la distribucin terica de la universidad de Salamanca: la proporcin de mujeres es
mayor que la de hombres. Esta diferencia REVHUYDGD puede ser debida al azar (error
aleatorio debido al muestreo) y no a la existencia de una diferencia real entre el nmero
de hombres y mujeres en los estudiantes de segundo de medicina.
En los estudiantes de segundo de medicina,

&XiQWRV KRPEUHV \ FXDQWDV PXMHUHV VH

HVSHUDUtDHQFRQWUDUVLWXYLHUDQXQDGLVWULEXFLyQGHHVWXGLDQWHVSRUVH[RVLPLODUDOUHVWR
GH OD XQLYHUVLGDG  ": Si esta distribucin fuera cierta, en nuestra muestra de 30
alumnos, el nmero HVSHUDGR de hombres sera de 15 y el de mujeres, tambin, de 15.

Los clculos realizados para llegar a esta conclusin han sido:


1) Nmero HVSHUDGR de mujeres = 0,50*30= 15
2) Nmero HVSHUDGR de hombres = 0,50*30= 15

La GLIHUHQFLD entre los casos observados y los esperados han sido de 5 (20-15) para las
mujeres y de -5 (10-15) para los varones.
Los clculos realizados para llegar a esta conclusin han sido:
1) Diferencia casos REVHUYDGRV HVSHUDGRV en mujeres = 20-15=5
2) Diferencia casos REVHUYDGRV HVSHUDGRV en hombres = 10-15=-5

Entre los estudiantes de segundo de medicina, seleccionamos otras dos muestras


representativas de tamao igual a 30 y encontramos un porcentaje de mujeres del 53,3%
en la muestra B y del 96,7% en la muestra C. Las diferencias entre los casos observados
y esperados en cada una de ellas, se encuentran recogidos en la tabla siguiente:

'LIHUHQFLDV
0XHVWUD%

Hombres
-1

Mujeres
1

-5

-13

13

(53,3% mujeres)
0XHVWUD$

(66,7% mujeres)
0XHVWUD&

(96,7% mujeres)

$QiOLVLVHSLGHPLROyJLFRGHGDWRV

3URI/XLV)9DOHUR

______________________________________________________________________
Analicemos los resultados y contestemos a las siguientes preguntas:
- (Q

FXDO GH ODV WUHV PXHVWUDV HVWXGLDGDV OD GLVWULEXFLyQ REVHUYDGD HV

FRPSDWLEOH FRQ OD VLWXDFLyQ WHyULFD TXH LQGLFD TXH HQ OD 8QLYHUVLGDG GH
6DODPDQFDODSURSRUFLyQGHKRPEUHV\PXMHUHVHVLGpQWLFD GHO

?.

Respuesta: la muestra B, ya que la proporcin de mujeres (53,3%) es similar a la


terica y la diferencia entre lo Observado y lo Esperado es pequea (|1|).
- (Q

FXDO GH ODV WUHV PXHVWUDV HVWXGLDGDV OD GLVWULEXFLyQ REVHUYDGD HV

LQFRPSDWLEOH FRQ OD VLWXDFLyQ WHyULFD TXH LQGLFD TXH HQ OD 8QLYHUVLGDG GH
6DODPDQFDODSURSRUFLyQGHKRPEUHV\PXMHUHVHVLGpQWLFD GHO

?.

Respuesta: la muestra C, ya que la proporcin de mujeres (96,7%) es muy superior


a la terica y la diferencia entre lo Observado y lo Esperado es grande (|13|).
&RQFOXVLRQHV

- Al analizar las diferencias (2bservado-(sperado) de las tres muestras


aleatorias de alumnos de segundo de medicina, encontramos que las muestras
en las que la diferencia HVPiVHOHYDGD se alejan ms de la hiptesis terica de
igual distribucin de los alumnos por sexo en la Universidad de Salamanca.
Las diferencias no pueden ser explicadas exclusivamente por el azar (la
variabilidad del muestreo), hay otra causa que explica esa mayor variabilidad,
en este caso el sexo de los alumnos de segundo de medicina que es diferente:
hay ms mujeres que hombres.
- Al analizar las diferencias (2bservado-(sperado) de las tres muestras
aleatorias de alumnos de segundo de medicina, encontramos que las muestras,
en las que la GLIHUHQFLD HV PHQRU, se aproximan ms a la hiptesis terica de
igual distribucin de los alumnos por sexo en la Universidad de Salamanca.
Las diferencias pueden ser explicadas slo por el azar (la variabilidad del
muestreo), no hay ninguna otra causa que explica esa variabilidad, en este caso
el sexo de los alumnos de segundo de medicina no es diferente: hay igual
proporcin de mujeres que de hombres.

: La prueba de ji-cuadrado cuantifica esta diferencia y determina si es lo


suficientemente grande (o pequea) como para ser explicada exclusivamente por el azar
(variabilidad propia del muestreo) o por la existencia de otro factor que determine la
existencia de una diferencia real.
)XQGDPHQWR

(VWDGtJUDIR

: El clculo del ji-cuadrado se realiza con la frmula:

$QiOLVLVHSLGHPLROyJLFRGHGDWRV

3URI/XLV)9DOHUR

______________________________________________________________________
Dnde:
- Obs: es la frecuencia absoluta observada en cada una de las casillas.
- Esp: es la frecuencia absoluta esperada en cada una de las casillas.

,,,&/&8/2'(/-,&8$'5$'2(17$%/$6'([

Para explicar los pasos a seguir en el anlisis vamos a tener en cuenta los datos
obtenidos en un estudio epidemiolgico diseado con el fin de determinar si la
incidencia de tuberculosis era mayor en pacientes VIH+ que en los VIH-. En el estudio
se analizaron los datos obtenidos en una muestra representativa de 40 usuarios a drogas
por va parenteral (UDVP) que formaban parte de un programa de mantenimiento con
metadona.
Los resultados 2EVervados se encuentran en la tabla siguiente:
OBSERVADOS Tuberculosis
S
No
VIH Positivo
15
6
VIH Negativo
6
13
Total
21
19

Total
21
19
40

En la muestra de estudio se registraron 21 casos de tuberculosis, es decir el 52,5%


(21/40) de los UDVP presentaban tuberculosis. Observaron que la tuberculosis era ms
frecuente en pacientes VIH+ (71.4%) que en los VIH- (31.6%).
Los clculos han sido:
- La frecuencia de tuberculosis en los pacientes VIH(+) fue del 71.4% (15/21).
- La frecuencia de tuberculosis en los pacientes VIH(-) fue del 31.6% (6/19).

Los investigadores pretendan establecer si las diferencias eran debidas al azar o si


realmente los pacientes VIH+ tenan mayor frecuencia de tuberculosis que los VIH-.
Para contestar a la pregunta, realizaron una prueba de contraste de hiptesis para
variables cualitativas, la prueba del chi-cuadrado, siguiendo los pasos expuestos a
continuacin:
1. Clculo de las frecuencias (VSeradas, para cada una de las casillas de la tabla de
contingencia, en el caso de que no hubiera diferencias, es decir que la frecuencia de
tuberculosis, en los dos grupos de pacientes, fuera similar a la de la poblacin (52,5%),
tal y como recoge la tabla siguiente:

$QiOLVLVHSLGHPLROyJLFRGHGDWRV

3URI/XLV)9DOHUR

______________________________________________________________________

ESPERADOS Tuberculosis
S
No
VIH Positivo (a)
(b)




Total
21

[(21/40)*21] [(19/40)*21]
VIH Negativo (c)
(d)


Total



19

[(21/40)*19] [(19/40)*19]
21
19
40

Por ejemplo, en la casilla (a): En pacientes VIH (+), el nmero de casos de tuberculosis
(VSerado, suponiendo que tienen la misma frecuencia de la enfermedad (0,525) que la
poblacin, sera de 10.5 (=0,525*21).
En el resto de las casillas los efectivos Esperados se han calculado de la siguiente
forma:
Esperados (a) = 0.525*21= 11
Esperados (b) = 0.475*21= 10
Esperados (c) = 0.525*19= 10
Esperados (d) = 0.475*19= 9

En la mayora de los libros de texto puede encontrar la siguiente frmula para el clculo
de los efectivos esperados de cada una de las casillas:

2. Clculo de las diferencias entre 2EVervados y (VSerados, para cada una de las
casillas de la tabla de contingencia. En el ejemplo fueron:

ESPERADOS Tuberculosis
S
No Total
VIH Positivo
4
-4
VIH Negativo -4
4
Total

$QiOLVLVHSLGHPLROyJLFRGHGDWRV

3URI/XLV)9DOHUR

______________________________________________________________________

3. Clculo del ji-cuadrado experimental a partir de los datos de nuestro estudio,


siguiendo la frmula de clculo:

4 ,QWHUSUHWDFLyQ:
El valor experimental calculado se compara con el valor terico tabulado para 1 grado
de libertad y un nivel de significacin del 5% o del 1%. Si el valor experimental es
mayor que el terico, decimos que las diferencias observadas no son debidas al azar,las
diferencias son significativas, existe otro factor que explica esa diferencia.
El valor del 2 tabulado para un nivel =0.05 es de 3.8 y para un nivel de =0.01 es de
6.6 (ver anexo sobre el manejo de las tablas de la distribucin de chi-cuadrado).
En el ejemplo, 6.3520 es mayor que 3.8, por lo que podemos decir que el azar no
explica por s solo la diferencia de casos de tuberculosis detectado en los grupos de
estudio, la frecuencia de tuberculosis es mayor en los pacientes VIH+ que en los VIH-,
con una probabilidad de error (p) menor de 0,01. Si lo obtenemos a partir de las tablas
podemos obtener el valor de p ms preciso. Los programas de ordenador proporcionan
directamente el p-valor exacto (p=0,0117).
,9&/&8/2(17$%/$6'([

El fundamento y los clculos realizados son similares. La diferencia es que ahora


tenemos un factor de exposicin con tres categoras. Para comprender los clculos
vamos a tener en cuenta el siguiente estudio epidemiolgico diseado con el fin de
determinar si la tuberculosis es ms frecuente en usuarios a drogas por va parenteral
segn su nivel de estudios. En la investigacin se analizaron los datos recogidos en una
muestra representativa de 242 usuarios a drogas por va parenteral (UDVP) que
formaban parte de un programa de mantenimiento con metadona.

$QiOLVLVHSLGHPLROyJLFRGHGDWRV

3URI/XLV)9DOHUR

______________________________________________________________________

Los resultados 2EVervados se encuentran en la tabla siguiente:


OBSERVADOS

Tuberculosis
S
No
Sin estudios
23
29
Estudios primarios 54
99
Estudios superiores 11
26
Total
88
154

Total
52
153
37
242

En la muestra de estudio se registraron 88 casos de tuberculosis, es decir el 36.36%


(88/242) de los UDVP presentaban tuberculosis [el 63.64% no presentaron tuberculosis;
154/242]. Observaron que la tuberculosis era menor a medida que aumentaba el nivel de
estudios:
- La frecuencia de tuberculosis en los pacientes sin estudios fue del
44.23% (23/52).
- La frecuencia de tuberculosis en los pacientes con estudios
primarios fue del 35.29% (54/153).
- La frecuencia de tuberculosis en los pacientes con estudios
superiores fue del 29.73% (11/37).

Los investigadores pretendan establecer si las diferencias eran debidas al azar o si


realmente los pacientes con menor nivel de estudios tenan mayor frecuencia de
tuberculosis. Para contestar a la pregunta, realizaron una prueba de contraste de
hiptesis para variables cualitativas, la prueba del chi-cuadrado, siguiendo los
siguientes pasos:
1. Clculo de las frecuencias (VSeradas, para cada una de las casillas de la tabla de
contingencia, en el caso de que no hubiera diferencias, es decir que la frecuencia de
tuberculosis, en los tres grupos de pacientes, fuera similar a la de la poblacin (36,36%),
tal y como recoge la tabla siguiente:
ESPERADOS
Sin estudios

Tuberculosis
S
(a)


Estudios primarios

[(88/242)*52]
(c)


No

Total

(b)


52

[(154/242)*52]
(d)


153

[(88/242)*153] [(154/242)*153]
Estudios superiores (e)
(f)


[(88/242)*37]
7



[(154/242)*37]

37

$QiOLVLVHSLGHPLROyJLFRGHGDWRV

3URI/XLV)9DOHUR

______________________________________________________________________
Total

88

154

242

Los efectivos Esperados para cada una de las casillas se han calculado de la siguiente
forma:
Esperados (a) = 0.3636*52= 18.9
Esperados (c) = 0.3636*153= 55.6
Esperados (e) = 0.3636*37= 13.5
Esperados (b) = 0.6364*52= 33.1
Esperados (d) = 0.6364*153= 97.4
Esperados (f) = 0.6364*37= 23.5
2. Clculo de las diferencias entre
casillas de la tabla de contingencia.

2EV

ervados y

(VS

erados, para cada una de las

3. Clculo del ji-cuadrado experimental a partir de los datos de nuestro estudio,


siguiendo la frmula de clculo:

4 ,QWHUSUHWDFLyQ:
Comparamos los valores experimentales y terico para unos grados de libertad y un
determinado nivel de significacin (5% o 1%). Si el valor experimental es mayor que el
terico decimos que las diferencias observadas no son debidas al azar.
Hay que tener en cuenta que, en las tablas de 2x3, los grados de libertad son  y el valor
del ji-cuadrado es de 5,99, para un nivel de significacin del 5%, y de 9,21, para un
nivel de significacin del 1%.
En el ejemplo, el valor experimental es inferior que el valor terico para un nivel de
significacin del 5%, por lo tanto las diferencias en la frecuencia de presentacin de
tuberculosis segn el nivel de estudios de UDVP son debidos al azar (pueden ser
explicados exclusivamente por el azar).

$QiOLVLVHSLGHPLROyJLFRGHGDWRV

3URI/XLV)9DOHUR

______________________________________________________________________

9&21',&,21(6'($3/,&$&,1'(/$358(%$

La prueba de hiptesis de comparacin de dos o ms proporciones obtenidas en


muestras independientes requiere:
- Las variables analizadas sean variables cualitativas: MxN
/RVHIHFWLYRVHVSHUDGRVHQODVFDVLOODVVHDQ.

Es necesario comprobar que se cumplen las condiciones de aplicacin de la prueba. En


este sentido los programas de ordenador proporcionan, debajo de las tablas de
significacin, el porcentaje de celdas que cumplen estas condiciones. En este sentido es
necesario tener en cuenta los siguientes aspectos:
1. En las tablas de 2x2, ninguna de las casillas de la tabla debe tener efectivos menores
de 5.
Si no se cumple este requisito, tendremos que determinar la significacin estadstica
mediante el Test Exacto de Fisher que realiza el clculo exacto de la significacin.
2. En las tablas de NxM, puede permitirse, como mximo, un 20% de casillas en las que
no se cumpla este requisito (los efectivos esperados sean menores de 5).
3. Hay que tener en cuenta que el nmero esperado depende del tamao de la muestra
(del nmero de efectivos observado en cada uno de ellos). Cuando no se cumpla el
requisito, para poder aplicar la prueba tendremos que aumentar el nmero de casos de
las casilla; cmo?: agrupando categoras.
Veamos un ejemplo, supongamos que en el caso anterior, los datos observados fueran
los recogidos en la tabla siguiente:
OBSERVADOS

Tuberculosis
S
No
Sin estudios
23
29
Estudios primarios 54
99
Estudios superiores 2
4

Observe que hay dos casillas con valores menores de 5. Es de suponer que los valores
esperados para estas casillas sern tambin menores de 5. No se cumpliran las
condiciones de aplicacin de la prueba, para solucionarlo agrupamos las categoras
primarios y superiores en una nica categora de con estudios:
OBSERVADOS Tuberculosis
S
No
Sin estudios
23
29
CON estudios
56
103

$QiOLVLVHSLGHPLROyJLFRGHGDWRV

3URI/XLV)9DOHUR

______________________________________________________________________

9,&/&8/2'(/&+,&8$'5$'2'(3($5621&21352*5$0$6
,1)2507,&26
 3URJUDPD 6366

. En las unidades correspondientes al anlisis de datos en los


diferentes diseos de estudios epidemiolgicos hemos visto como obtener e interpretar
las pruebas de significacin estadstica chi-cuadrado con el programa SPSS. Estos pasos
estn resumidos en la figura expuesta a continuacin:




2. Programa (3,'$7 permite calcular el chi-cuadrado de Pearson a partir de los datos


recogidos en una tabla NxM.
Adems de las posibilidades de clculo vistas en unidades anteriores (Anlisis de tablas
de 2x2 y 2xN simples), el programa permite calcular el chi-cuadrado para todo tipo de
situaciones en las que se comparan dos variables cualitativas con K categoras cada una
de ellas (tablas de 3x3, 3x5, 5x4, etc), independientemente del diseo de estudio
realizado (descriptivo, analtico o experimental). Los pasos a seguir en el anlisis son
los siguientes:

10

$QiOLVLVHSLGHPLROyJLFRGHGDWRV

3URI/XLV)9DOHUR

______________________________________________________________________

3DVR Una vez abierto el programa, seleccionar el mtodo de anlisis de Tablas de


contingencia MxN.


3DVR

En la ventana que aparece es necesario, antes de introducir los datos de la tabla


de contingencia, establecer las condiciones del anlisis. Es importante indicar: el
tamao de la tabla (nmero de filas y de columnas), la escala de medida de la variables
(nominal y ordinal) y la forma de presentacin de los resultados (en nmeros absolutos
o porcentajes calculados segn las filas o las columnas).

3DVR

Solicitar la realizacin y visualizacin de los clculos clicando en los iconos de


calculadora y de folio en blanco.

3DVR  Analizar los resultados. El programa proporciona un amplio listado de


informacin. En este momento lo que nos interesa es determinar si las diferencias
observadas en la frecuencia de presentacin de las diferentes categoras de las variables

11

$QiOLVLVHSLGHPLROyJLFRGHGDWRV

3URI/XLV)9DOHUR

______________________________________________________________________
analizadas son estadsticamente significativas. Para ello nos fijamos en dos
informaciones:
1. Si se cumplen o no las condiciones de aplicacin. El programa proporciona el
porcentaje de celdas con frecuencias esperadas menores de 5: [% de celdas con
frecuencia esperada <5: 0,0%].
Recuerde que, en las tablas de 2x2, la frecuencia esperada, en todas las casillas, debe ser
igual o superior a 5 y que, en las tablas de NxM, la frecuencia esperada debe ser igual o
superior a 5 en, al menos, el 80% de las casillas.
2. El valor del chi-cuadrado calculado y la significacin exacta (valor de p) para un
nmero determinado de grados de libertad.

Prueba Ji-cuadrado de Pearson


Ji-cuadrado
----------2,1701

gl
Valor p
-------- -------2
0,3379

Para practicar, abra el programa y siga los pasos expuestos, utilice los datos de la figura
del paso 2 y compruebe los resultados proporcionados.
9,,(-(5&,&,26'(5(3$62
 6XSXHVWR HSLGHPLROyJLFR 

Se disea un estudio epidemiolgico para establecer la


asociacin entre la aparicin de crisis asmticas y el consumo de tabaco. Los resultados
del estudio fueron:
Crisis asmticas
S
No
Fumador
(a) 26 (b) 74
No fumador (c) 16 (d) 84
Total
42
158

Total
100
100
200

Determine si la frecuencia de crisis asmticas es significativamente mayor en fumadores


que en no fumadores. Se recomienda que realice los clculos manualmente y,
posteriormente los compruebe con el programa Epidat.
 6XSXHVWR HSLGHPLROyJLFR 

Compruebe con Epidat los resultados de los estudios


utilizados en esta unidad como ejemplo para explicar el procedimiento de clculo del
chi-cuadrado para tablas de 2x2 y 2x3.

12

$QiOLVLVHSLGHPLROyJLFRGHGDWRV

3URI/XLV)9DOHUR

______________________________________________________________________
9,,,$1(;2,0DQHMRGHODVWDEODVGHFKLFXDGUDGR

&iOFXORGHORVJUDGRVGHOLEHUWDGSDUDXQDSUXHEDGHFKLFXDGUDGR

Los grados de libertad de una tabla de contingencia se obtienen teniendo en cuenta el


nmero de categoras de las variables comparadas. La forma general de establecerlos es
teniendo en cuenta el diseo de la tabla de contingencia:
Grados de libertad (g.l.) = (nmero de filas - 1)*(nmero de columnas 1)

(MHPSORV

En una tabla de 2x2, hay 1 grado de libertad [(2-1)*(2-1) = 1]


En una tabla de 2x3, hay 2 grados de libertad [(3-1)*(2-1) = 2]
Nota: El contraste siempre es bilateral.

13

You might also like