Professional Documents
Culture Documents
3.1. Introduccin
Hasta ahora hemos analizado la existencia de asociacin en los datos de una muestra dada, sin intentar
extender las conclusiones a una poblacin ms amplia. En este tema estudiaremos la realizacin de una
inferencia, donde se desea estudiar si la asociacin encontrada entre dos variables en una muestra tomada al
azar de una poblacin mayor podra extenderse a la poblacin de donde se tomaron los datos. Para ello,
realizaremos un contraste de hiptesis.
Hay dos tipos de hiptesis que interesa contrastar, a partir de los datos de contingencia, el contraste de
homogeneidad y el contraste de independencia. Los dos tipos de contrastes utilizan los datos de una tabla de
contingencia y se basan en el estadstico Chi-cuadrado que estudiamos a continuacin.
3.2. El estadstico Chi-cuadrado
Una medida muy extendida para medir la dependencia e independencia, es el estadstico Chi-cuadrado, que
da una medida de la diferencia entre las frecuencias observadas en la tabla y las frecuencias esperadas en
caso de independencia. Recordamos el clculo de dichas frecuencias esperadas eij:
fi . f . j
eij
Con el estadstico Chi-cuadrado se obtiene una medida de diferencia entre las frecuencias esperadas y las
frecuencias observadas. El estadstico se calcula en la forma siguiente:
2
exp
i
( f ij eij ) 2
eij
Esto ocurre slo cuando las dos variables de la tabla son independientes; Por tanto, si hay independencia
2
entre las dos variables de la tabla, exp 0
Cuanto mayor sea la diferencia entre las frecuencias observadas y esperadas en la tabla, el valor de Chi
cuadrado ser mayor. Es decir, a mayor intensidad de la asociacin entre las variables, Chi-cuadrado
ser mayor.
El valor de Chi-cuadrado siempre es positivo o cero (pues es suma de nmeros positivos, ya que los
denominadores de la suma son todos positivos al ser suma de nmeros elevados al cuadrado.
Los grados de libertad de un estadstico calculado sobre un conjunto datos se refieren al nmero de
cantidades independientes que se necesitan en su clculo, menos el nmero de restricciones que ligan a las
observaciones y el estadstico. El nmero de grados de libertad del estadstico Chi-cuadrado se calcula de la
siguiente forma:
A esta cantidad se debe restar el nmero de restricciones impuestas a las frecuencias observadas.
Observamos que podemos cambiar todas las frecuencias de la tabla sin cambiar los totales por filas y
columnas, excepto los datos en la ltima fila y la ltima columna de la tabla, pues una vez que fijemos
todos los valores excepto estos, quedan automticamente fijados. Por tanto, si la tabla tiene m filas y n
columnas, el nmero de grados de libertad es (m-1) x (n-1). Expresamos esta dependencia en la siguiente
forma:
2
exp
i
( f ij eij ) 2
eij
(2n 1)( m 1)
Calculemos en el ejemplo las frecuencias esperadas en caso de independencia. Observamos que, una vez
calculados los datos de la primera columna, los de la segunda se deducen automticamente (es decir no son
libres). Lo mismo ocurre con la ltima fila, una vez calculadas las dos primeras, queda automticamente
fijada. Por tanto los grados de libertad son (3-1)x(2-1)=2=k (denotamos como k. los grados de libertad)
e1,1
110,6
n
1313
En la tabla 3.2 mostramos las frecuencias esperadas en caso de independencia. Observamos que los grados
de libertad son slo 2, pues una vez calculadas una frecuencia esperada en la primera fila y otra en la
segunda, las dems se deducen automticamente, si no queremos variar los totales de filas y columnas.
Tabla 3.2. Frecuencias esperadas en el Titanic segn supervivencia y clase social
Sobrevive
Primera clase
Segunda clase
Tercera clase
Total
110,6
96,2
244,2
451
No
sobrevive
211,4
183,8
466,8
862
Total
322
280
711
1313
Observamos, al comparar las tablas 3.1 y 3.2 que en primer clase hay mayor frecuencia observada que la
esperada de supervivencia si no hubiese relacin entre supervivencia y clase social. Mientras en segunda
clase hay unos pocos ms de lo esperado y en tercera casi la mitad de lo esperado. El salvamento no fue
entonces equitativo! A continuacin llevamos a cabo los clculos del estadstico Chi- cuadrado:
Tabla 3.3. Clculo de Chi cuadrado
Sobrevive
No sobrevive
Primera clase
(194 110,6)
110,6
Segunda clase
(119 96,2) 2
(181 183,8) 2
5,4
2,8
96,2
183,8
Tercera clase
(138 244,2) 2
(573 466,8) 2
46,2
24,2
244,2
466,8
2
exp
i
( f ij eij ) 2
eij
(128 211,4) 2
62,9
32,9
211,4
= 62,9+32,9+5,4+2,8+46,2+24,2 = 174,4
Grados libertad
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
18,55
19,81
21,06
22,31
23,54
24,77
25,99
27,20
28,41
29,62
30,81
32,01
33,20
34,38
35,56
36,74
37,92
39,09
40,26
21,03
22,36
23,68
25,00
26,30
27,59
28,87
30,14
31,41
32,67
33,92
35,17
36,42
37,65
38,89
40,11
41,34
42,56
43,77
23,34
24,74
26,12
27,49
28,85
30,19
31,53
32,85
34,17
35,48
36,78
38,08
39,36
40,65
41,92
43,19
44,46
45,72
46,98
26,22
27,69
29,14
30,58
32,00
33,41
34,81
36,19
37,57
38,93
40,29
41,64
42,98
44,31
45,64
46,96
48,28
49,59
50,89
28,30
29,82
31,32
32,80
34,27
35,72
37,16
38,58
40,00
41,40
42,80
44,18
45,56
46,93
48,29
49,65
50,99
52,34
53,67
un valor del Chi cuadrado ser pequeo y si, por el contrario es falsa, ser grande. Formaremos una regla
decisin, dividiendo los posibles valores de Chi- cuadrado en dos regiones:
2
Si el valor calculado exp tiene una probabilidad menor que (nivel de significacin)
rechazamos la hiptesis nula H0 (hay independencia entre filas y columnas), pues el valor obtenido
es improbable para una tabla con filas y columnas independientes. En este caso, suponemos que las
variables estn asociadas.
2
Si el valor calculado exp tiene una probabilidad igual o mayor que (nivel de significacin) no
podemos rechazar la hiptesis nula H0. En este caso no tomamos ninguna decisin.
Nota: Observamos que el rechazo de la hiptesis nula tiene ms fuerza que su aceptacin, pues nos basamos
en una situacin muy poco probable: De ser cierta la independencia de las variables es muy poco probable
obtener un alto valor de Chi- cuadrado. Por tanto, si obtenemos un alto valor de Chi-cuadrado, rechazamos
que la hiptesis sea cierta.
Pero un valor pequeo de Chi cuadrado puede ser debido a varias causas: Puede ser que las variables sean
independientes; puede ser que estn asociadas, pero la asociacin sea muy pequea; o puede ser que el
tamao de la muestra de datos sea pequeo y no permita ver la asociacin. En este caso (cuando no podemos
rechazar la hiptesis nula) tendramos que estudiar mejor los datos para ver por qu se obtiene este valor
pequeo de Chi- cuadrado.
Ejemplo 3.2. Deporte y bienestar
Un investigador quiere estudiar si hay asociacin entre la prctica deportiva y la sensacin de bienestar.
Extrae una muestra aleatoria de 100 sujetos. Los datos aparecen a continuacin.
Sensacin de
Bienestar
S
No
Total
Prctica deportiva
S
no
20
25
10
45
30
70
Total
45
55
100
( f ij eij ) 2
eij
Los grados de libertad son: (n-1) x (m-1) = 1 x 1 = 1; Mirando en la tabla Chi-cuadrado obtenemos que la
probabilidad de obtener un valor 8,13 o mayor con 1 grado de libertad es p = 0,004. Por tanto el valor es
estadsticamente significativo, pues es menor que 0,01.
La decisin que se debe tomar es rechazar la hiptesis de independencia entre bienestar y prctica deportiva.
3.4. Contraste de homogeneidad
Otro caso en que usamos una tabla de contingencia es aqul en que se dispone de una poblacin X clasificada
en r subpoblaciones x1, x2,...,xr. En cada una de estas poblaciones se toma una muestra, y los individuos de la
5
misma se clasifican segn una variable Y que puede tomar m valores posibles y1, y2.....ym. Sea pij la
proporcin de individuos que, en la poblacin xi tiene como valor de Y=yj.
Un contraste de homogeneidad es cuando se desean contrastar las dos hiptesis siguientes:
H0:p1j = p2j = ...... = pmj para todo j; dicho de otro modo, todas las subpoblaciones tienen idntica
distribucin para la variable Y.
H1: algunas de estas proporciones son diferentes. Dicho de otro modo, la distribucin de la variable
Y en alguna de estas subpoblaciones es diferente
El principal objetivo de realizar este contraste es comprobar que las distribuciones de todas las
subpoblaciones son iguales o si hay alguna que difiere. Esto nos resulta prctico para poder combinar los
resultados de todas las subpoblaciones, pues es necesario asegurarse de que los datos de las distintas
muestras que se pretende agrupar son homogneos.
Ejemplo 3.3. Grupo sanguneo.
Se desea saber si la distribucin de los grupos sanguneos es similar en los individuos de dos poblaciones.
Para ello se elige una muestra aleatoria de cada una de ellas, obtenindose los siguientes datos Qu
decisin se debe tomar?
Muestra 1
Muestra 2
Total
A
90
200
290
B
80
180
260
AB
110
240
350
0
20
30
50
Total
300
650
950
Posteriormente calculamos:
2
exp
i
( f ij eij ) 2
eij
= 1,76
La probabilidad de obtener un valor del estadstico igual o mayor al dado, cuando la hiptesis nula es cierta.
Un valor cercano a p=0, indicara un valor muy improbable de Chi-cuadrado si la hiptesis nula es cierta; por
tanto llevara a rechazar la hiptesis de independencia
Un valor cercano a p=1, indicara un valor muy probable de Chi-cuadrado si la hiptesis nula es cierta; por
tanto no rechazaramos la hiptesis de independencia
Cuarto: cuando lo sites, el valor de p ser el que se indica en la parte superior de esa columna.
Por ejemplo, en el caso de grados de libertad = 1 y el valor del test sea 7,88, p=0,005.
Nota: Cuanto ms alto es el valor de Chi cuadrado, ms bajo es p-valor
3.6. Condiciones de aplicacin de Chi- cuadrado
Observa que al estudiar el valor de Chi-cuadrado en la tabla de la distribucin, obtenemos siempre un valor
positivo. Es decir, siempre hacemos un contraste unilateral.
2
Si las frecuencias esperadas en las celdas son muy pequeas, puesto que en la frmula exp
( f ij eij ) 2
eij
aparecen dividiendo, se obtendra un valor alto de Chi-cuadrado, aunque las diferencias entre frecuencias
observadas y esperadas fuese grande. Por eso, se recomienda que se use una muestra de suficiente tamao. Estas
son dos recomendaciones importantes
- Como mximo el 20% de las frecuencias esperadas pueden ser menores que el valor 5.
- No debe usarse si hay frecuencias esperadas inferiores a 1.
Grado de integracin
Bajo
Alto
40
90
90
10
130
100
fi . f . j
n
Total
130
100
230
( f ij e ij ) 2
eij
= 80,69
Los grados de libertad son: (n-1) x (m-1) = 1 x 1 = 1. Al buscar en la tabla de Chi-cuadrado obtenemos un
valor p = 0,000. Por tanto el Chi-cuadrado es estadsticamente significativo y rechazamos la hiptesis de
independencia de las variables.