You are on page 1of 18

232

8. ANALISIS DE VARIANZA

Para comparar las medias de dos poblaciones normales independientes y con


varianza comn, el mtodo ms apropiado para la prueba de hiptesis est basado en la
distribucin t-student. Pero cuando se tienen tres o ms poblaciones normales
independientes con varianza comn, se requiere de otro mtodo que permita verificar la
hiptesis de no diferencia entre las medias poblacionales.

Considerar las variables aleatorias independientes Y1 , Y 2 , , Y k , tales que

2 2 2
Y1 ~ N ( 1, ) , Y2 ~ N ( 2, ), , Yk ~ N ( k, ).

Se desea verificar la hiptesis nula

H0 : 1 2 k v/s H A : Alguna diferencia existe.

Sea

y11 , y12 , , y1n1 m.a.s. de Y1


y 21 , y 22 , , y 2 n2 m.a.s. de Y2

y k1 , y k 2 , , yknk m.a.s. de Yk

2
Ahora bien, bajo la hiptesis nula se tendr que un estimador de basado en la muestra
conjunta est dado por

k ni
( y ij Y )2
i 1 j 1
2
n 1
donde
k ni
y ij
k
i 1 j 1
n ni y Y .
i 1
n

El numerador de esta varianza muestral, se denomina suma de cuadrados total y se


denota por SCT;

k ni
SCT = ( yij Y )2 .
i 1 j 1

Si se calculan los promedios muestrales en cada muestra, se tendr


233

ni
yij
j 1
Yi , i 1,2,..., k
ni

de modo que la suma de cuadrados total se puede descomponer como

k ni k ni
SCT ( yij Y )2 ( yij Yi Yi Y )2
i 1 j 1 i 1 j 1

k k ni
2
ni (Yi Y) ( yij Yi ) 2
i 1 i 1 j 1

donde

k
SCE ni (Yi Y ) 2 se denomina suma de cuadrados entre grupos,
i 1
y

k ni
SCD ( yij Yi ) 2 se denomina suma de cuadrados dentro de grupos o
i 1 j 1
suma de cuadrados residual o suma de cuadrados del error

es decir
SCT = SCE+SCD

Adems se tiene que

ni
k
2 Y..2 k ni
SCT y ij con Y.. yij
i 1 j 1 n i 1 j 1

ni
k
Yi.2 Y..2
SCE con Yi. yij
i 1 ni n j 1

ni
k
2
k
Yi .2
SCD y ij
i 1 j 1 i 1 ni

El estadstico de prueba de H 0 : 1 2 k est dado por

SCE
(k 1)
F0 ~ F( k 1, n k )
SCD
(n k )

Se rechazar H0 al nivel de significacin si


234

F0 F( k 1,n k , )

donde F( k 1, n k , ) es el percentil (1 ) 100 de la distribucin F( k 1, n k )

Los clculos para probar la hiptesis nula se resumen en la siguiente tabla de anlisis de
varianza (ANDEVA)

ANDEVA

Fuente de Grados de Sumas de Cuadrados F


variacin libertad cuadrados medios observada
Total n-1 SCT
SCE
(k 1)
Entre grupos k-1 SCE SCE/(k 1)
SCD
(n k)
Residual n-k SCD SCD/(n k)

Comparaciones Mltiples

Si se rechaza la hiptesis nula H 0 : 1 2 k , es necesario encontrar cules


medias poblacionales difieren, para lo cual se deben probar las hiptesis nulas

H0 : i j , i j

Existen diversos mtodos de comparaciones mltiples para probar estas hiptesis, de entre
los que se pueden destacar los siguientes mtodos: Tukey, Scheff, Duncan, Newman-
Keuls, la menor diferencia significativa, mtodo t-student, etc.

En esta seccin se utilizar un mtodo basado en la distribucin t-student, que consiste en


utilizar el estadstico

Yi Yj
t0 ~ t(n k)
SCD 1 1
(n k ) ni nj

por lo tanto, si se prueba

H0 : i j v/s HA : i j

Se rechazar la hiptesis nula H 0 : i j al nivel de significacin si


235

Yi Yj
t0 t(n k ,1 2)
SCD 1 1
( n k ) ni nj

donde t(n k ,1 2) es el percentil (1 2) 100 de la distribucin t-student con (n k)


grados de libertad. En el caso balanceado (el mismo nmero de muestras para cada grupo)
el mtodo es el de la menor diferencia significativa.

Ejemplo 5.15

Se recolectaron muestras de agua en cuatro lugares distintos de un ro para determinar si la


cantidad de oxgeno disuelto, esto es, una medida de la contaminacin del agua, vara de un
lugar a otro. Los lugares 1 y 2 se escogieron antes de pasar por una planta industrial, uno
cerca de la orilla y el otro a mitad del ro, el lugar 3 se tom adyacente a la descarga de agua
industrial de la planta y el lugar 4 se tom ro abajo a mitad del ro. Se seleccionaron cinco
muestras de agua en cada lugar, pero se perdi una muestra del lugar 4 en el laboratorio.
Los datos se presentan en la siguiente tabla (a mayor contaminacin menor es la lectura de
oxgeno disuelto).

Lugar Contenido de oxgeno disuelto


1 5.9 6.1 6.3 6.1 6.0
2 6.3 6.6 6.4 6.4 6.5
3 4.8 4.3 5.0 4.7 5.1
4 6.0 6.2 6.1 5.8

Proporcionan los datos, al 5% de significacin, evidencia suficiente para indicar una


diferencia entre las cantidades medias de oxgeno disuelto para los cuatro lugares?

Sea

i : la cantidad media de oxgeno disuelto en el lugar i del ro (i = 1, 2, 3,4).


y ij : cantidad de oxgeno disuelto en la j - sima muestra del lugar i. i = 1, 2, 3,4
j = 1,.,ni.
Se desea probar la hiptesis nula

H0 : 1 2 3 4
v/s
H A : Alguna diferencia existe

los clculos;
Y.. 110 .6, Y 5.82

Y1. 30.4, Y2 . 32.2, Y3. 23.9, Y4. 24.1

Y1 6.08, Y2 6.44, Y3 4.78, Y4 6.025


236

4 ni
Y..2 110.6 2
SCT yij2 652.26 8.45158
i 1 j 1 19 19

4
Yi.2 Y..2 30.4 2 32.2 2 23.9 2 24.12 110.6 2
SCE 7.83608
i 1 ni 19 5 5 5 4 19

SCD SCT SCE 8.45158 7.83608 0.6155

ANDEVA

Fuente de Grados de Sumas de Cuadrados F


variacin libertad cuadrados medios observada
Total 18 8.45158

Entre grupos 3 7.83608 2.61203 63.66

Residual 15 0.6155 0.04103

Al comparar F0 63.66 con el percentil 95% de la distribucin F(3,15 ) dado por


F( 3,15, 0.05 ) 3.2874 , se tiene que

F0 63.66 3.2874 F(3,15 , 0.05 ) .

Por lo tanto se rechaza H 0 : 1 2 3 4 y se concluye con un 95% de confianza


que alguna diferencia existe entre los contenidos medios de oxgeno disuelto entre los
cuatro lugares del ro.

Comparaciones mltiples

H0 : 1 2 v/s H A : 1 2

Y1 Y2 6.08 6.44
t0 2.81
1 1 0.1281
0.04103
5 5

El percentil 97.5% de la distribucin t-student corresponde a t (15, 0.975) 2.1314 . Luego


como 2.81>2.1314 se rechaza H 0 : 1 2 , es decir, con un 95% de confianza existe una
diferencia significativa entre el contenido medio de oxgeno disuelto en el lugar 1 y en el
lugar 2 del ro. El lugar 2 (centro del ro antes de la planta industrial) presenta menos
contaminacin que el lugar 1.
237

H0 : 1 3 v/s H A : 1 3

Y1 Y3 6.08 4.78
t0 10.15 ,
1 1 0.1281
0.04103
5 5

como 10.15>2.1314, se rechaza H 0 : 1 3 y con un 95% de confianza existe una


diferencia significativa entre los contenidos medios de oxgeno disuelto en los lugares 1 y 3.

H0 : 1 4 v/s H A : 1 4

Y1 Y4 6.08 6.025
t0 0.405 ,
1 1 0.1359
0.04103
5 4

en este caso 0.405<2.1314, por lo tanto no existe diferencia significativa entre los
contenidos medios de oxgeno disuelto de los lugares 1 y 4.

H0 : 2 3 v/s H A : 2 3

Y2 Y3 6.44 4.78
t0 12.96 ,
1 1 0.1281
0.04103
5 5

existe diferencia significativa entre los contenidos medios de oxgeno disuelto de los lugares
2 y 3.
H0 : 2 4 v/s HA : 2 4

Y2 Y4 6.44 6.025
t0 3.05 ,
1 1 0.1359
0.04103
5 4

tambin existe diferencia significativa en los contenidos medios de oxgeno disuelto entre
los lugares 2 y 4.
H0 : 3 4 v/s HA : 3 4

Y3 Y4 4.78 6.025
t0 9.16 ,
1 1 0.1359
0.04103
5 4

los lugares 3 y 4 presentan diferencia significativa en los contenidos medios de oxgeno


disuelto.
238

Por lo tanto se concluye que el lugar ms contaminado es el lugar 3 de la descarga de agua


industrial, el lugar 4; ro abajo despus de la ubicacin de la planta presenta el mismo nivel
de contaminacin que el lugar 1 a orillas del ro antes de la planta, aunque en menor grado
que el lugar 3. El lugar menos contaminado es el 2 al centro del ro antes de la ubicacin de
la planta industrial.

9. PRUEBAS CHI-CUADRADO

En muchos procesos del mundo real, las caractersticas de inters no se pueden


medir en una escala continua y por lo tanto producen datos de conteo o de clasificacin.
Por ejemplo, los pacientes que ingresan a un centro asistencial de salud pueden ser
hipotensos, normales o hipertensos. Asimismo un estudio de demanda de atencin de
urgencia podra requerir un conteo y la clasificacin de personas que utilizan un centro de
salud determinado.

Casos como los ejemplos anteriores tienen las siguientes caractersticas que definen
un experimento multinomial:

1. El experimento consta de n pruebas idnticas.


2. El resultado de cada prueba cae en una de k clases o celdas.
3. La probabilidad de que el resultado de una prueba caiga en la clase i-sima, es p i
( i 1,2, , k ) y permanece constante de prueba a prueba. Se debe notar que

k
pi 1.
i 1
4. Las pruebas son independientes.
5. Se est interesado en los valores n1 , n2 , , n k en donde ni es igual al nmero de
pruebas cuyo resultado pertenece a la clase i-sima,

k
ni n.
i 1

Por lo tanto el objetivo es hacer inferencias sobre las probabilidades p1 , p 2 , , pk


de las respectivas clases.

Ahora bien, en 1900 Karl Pearson propuso el siguiente estadstico de prueba, que es
una funcin de los cuadrados de las desviaciones de los nmeros observados
(frecuencias observadas) con respecto a los nmeros esperados (frecuencias esperadas),
ponderados por el recproco de sus nmeros esperados:

k 2
ni npi
J
i 1 npi

Se puede probar que J tiene aproximadamente una distribucin de probabilidad chi-


cuadrado. Es importante tener en cuenta que para lograr una buena aproximacin a la
distribucin chi-cuadrado las frecuencias esperadas deben ser mayores o iguales a 5.
239

A continuacin se desarrollarn diversas aplicaciones del estadstico propuesto por


Pearson.

Pruebas de bondad de ajuste

Se considerarn dos casos:

a. Pruebas de hiptesis sobre distribuciones conocidas


b. Pruebas de hiptesis sobre distribuciones pertenecientes a una familia de
distribuciones dependiente de r parmetros.

a. Dada una muestra aleatoria simple x1, x2 , , xn de una poblacin con distribucin
F se desea probar la hiptesis nula

H0 : F F0

donde F0 es una distribucin de probabilidades conocida.

Se particiona el recorrido de la variable en k clases A1 , A2 , , Ak y se cuenta el


nmero de datos o i que pertenece a cada clase Ai ( o i frecuencia observada de la clase
Ai ).
Se calculan las probabilidades de cada clase Ai bajo la hiptesis nula pi P0 ( Ai ) donde
P0 es la medida de probabilidad asociada a la distribucin F0 y se determinan bajo la
hiptesis nula las frecuencias esperadas ei de cada clase Ai

ei npi

El estadstico de prueba de H 0 : F F0 est dado por

k
(oi ei ) 2 2
J0 ~ (k 1)
i 1 ei

2 2
Se rechazar la hiptesis nula al nivel de significacin si J 0 ( k 1,1 ) , donde (k 1,1 )

es el percentil (1 ) 100 de la distribucin chi-cuadrado con (k 1) grados de libertad.

Ejemplo 5.16

Se observa el nacimiento de un nio, el cual puede presentar dos caractersticas


genticas, A y B. Se puede clasificar cada nio que nace en una de cuatro clases
AB, AB , A B, A B en donde A denota la ausencia de la caracterstica gentica A y B
denota la ausencia de la caracterstica gentica B . Se observaron las siguientes frecuencias
para 100 nacimientos.
240

AB : 48 AB : 18 A B : 21 A B : 13

Probar la hiptesis de que las cuatro categoras, en el orden antes indicado ocurren en la
proporcin 5:2:2:1 (es decir con probabilidades 0.5, 0.2, 0.2, 0.1 respectivamente).
Si se define p1 P( AB) , p2 P( AB ) , p3 P ( A B ) y p4 P( A B ) se desea
probar la hiptesis
p1 0.5
p 0.2
H0 : 2
p3 0.2
p4 0.1

las frecuencias observadas estn dadas por

o1 48, o2 18, o3 21 y o4 13

y las frecuencias esperadas para cada una de estas clases estn dadas por

e1 100 p1 50, e2 100 p2 20, e3 100 p3 y e4 100 p4 10

luego el estadstico de prueba de H 0 corresponde a

4
(oi ei ) 2 (48 50) 2 (18 20) 2 (21 20) 2 (13 10) 2
J0 1.23
i 1 ei 50 20 20 10

el percentil 95% de la distribucin chi-cuadrado con tres grados de libertad est dado por
2
( 3, 0.95 ) 7.8147 . Por lo tanto no se rechaza H 0 al nivel 0.05 y las clases ocurren en la
proporcin planteada.

b. Dada una muestra aleatoria simple x1, x2 , , xn de una poblacin con distribucin
F se desea probar la hiptesis nula

H0 : F

donde es una familia de distribuciones de probabilidad dependiente de r


parmetros.

Tal como en el caso anterior, se particiona el recorrido de la variable en k clases


A1 , A2 , , Ak y se obtienen las frecuencias observadas o i de cada clase Ai .

En este caso, bajo la hiptesis nula no se conoce la distribucin de probabilidades pero


dicha hiptesis establece una estructura terica de esta distribucin. En virtud de esta
estructura se estiman el o los parmetros; por ejemplo por estimacin puntual, para
calcular las probabilidades estimadas de cada clase Ai , bajo H 0 , p i P ( Ai ) donde P
241

es la medida de probabilidad estimada asociada a la distribucin estimada F y se


determinan bajo la hiptesis nula las frecuencias esperadas ei de cada clase Ai

ei np i

El estadstico de prueba de H 0 : F est dado por

k
(o i ei ) 2 2
J0 ~ ( k r 1) ,
i 1 ei

en donde r es el nmero de parmetros estimados de la distribucin de probabilidades.

2
Se rechazar la hiptesis nula al nivel de significacin si J 0 ( k r 1,1 ) , donde
2
( k r 1,1 es el percentil (1
) ) 100 de la distribucin chi-cuadrado con (k - r - 1)
grados de libertad.

Ejemplo 5.17

La siguiente tabla representa la distribucin de 150 ratas segn las horas de


sobrevivencia despus de inyectarles un virus mortal;

Horas de Marca Nmero


sobrevivencia de clase de ratas
370 395 382.5 2
395 420 407.5 7
420 445 432.5 15
445 470 457.5 16
470 495 482.5 28
495 520 507.5 39
520 545 532.5 17
545 570 557.5 17
570 595 582.5 7
595 620 607.5 2
150

Verificar la hiptesis de que la distribucin del tiempo de sobrevivencia en horas de las


ratas es normal.

Se define X: Sobrevivencia en horas de una rata

Se desea probar la hiptesis


2
H0 : X ~ N( , )

2
en este caso r 2 , los estimadores de y estn dados por;
242

10 10
ni C i ni (C i X )2
X i 1
497 y 2 S X2 i 1
2275.8
150 149

por lo tanto la distribucin estimada de la variable aleatoria X es la distribucin normal con


media 497 horas y desviacin estndar de 47.7 horas.

A continuacin se determinan las probabilidades estimadas para cada una de las 12 clases o
intervalos;

370 497
p 1 P ( ,370 ) P ( X 370) P ( Z ) ( 2.6625) 0.0038781
47.7

p 2 P ( 370,395 ) P ( ,395 ) P ( ,370 ) P ( X 395) P ( X 370 )


395 497 370 497
P ( Z ) P ( Z )
47.7 47.7
( 2.1384 ) ( 2.6625)
0.016242 0.0038781 0.0123639

Anlogamente;

p 3 P ( 395,420 ) 0.03699
p 4 P ( 420,445 0.08459
p 5 P ( 445,470 ) 0.14786
p 6 P ( 470,495 ) 0.19759
p 7 P ( 495,520 ) 0.20189
p 8 P ( 520,545 ) 0.1577
p 9 P ( 545,570 ) 0.09418
p 10 P ( 570,595 ) 0.0423
p 11 P ( 595,620 ) 0.015
p 12 P ( 620 , ) 0.005658

Una vez calculadas las probabilidades estimadas se deben determinar las frecuencias
esperadas ei np i , listadas en la siguiente tabla
243

Horas de
sobrevivencia
- 370 0 0.5817
370 395 2 1.8546
395 420 7 5.5485
420 445 15 12.6885
445 470 16 22.179
470 495 28 29.6385
495 520 39 30.2835
520 545 17 23.655
545 570 17 14.127
570 595 7 6.345
595 620 2 2.25
620 - 0 0.8487
150 150

Se debe notar que se tienen clases con frecuencias esperadas menores que 5. Por lo tanto se
deben agrupar las clases de tal forma de lograr frecuencias esperadas mayores que 5. En la
siguiente tabla se reagrupan las clases y se detallan las desviaciones de las frecuencias
observadas respecto de las esperadas y las desviaciones cuadrticas ponderadas por los
recprocos de las frecuencias esperadas.

i -e (o -e i
9 7,98 1,02 0,129
15 12,69 2,31 0,421
16 22,18 -6,18 1,721
28 29,64 -1,64 0,091
39 30,28 8,72 2,509
17 23,66 -6,66 1,872
17 14,13 2,87 0,584
9 9,44 -0,44 0,021
150 150 0,00 7,35

2
Por lo tanto el estadstico de prueba de H 0 : X ~ N ( , ) toma el valor

8
(o i ei ) 2
J0 7.35
i 1 ei

el valor del estadstico de prueba se compara con el valor tabular de la distribucin chi-
cuadrado con (8 2 1) grados de libertad (ocho clases y dos parmetros estimados). El
percentil 95% de la distribucin chi-cuadrado con 5 grados de libertad est dado por
244

2
11.071, como 7.35 <11.071 no se rechaza H 0 : X ~ N ( , 2 ) y se concluye con
( 5 , 0.95 )
un 95% de confianza, de que la distribucin de los tiempos de sobrevivencia; en horas; de
las ratas tiene una distribucin normal.

Pruebas de Independencia entre dos Atributos

Un problema comn en el anlisis de datos cualitativos o categricos implica la


independencia de dos atributos o factores o categoras en un problema de clasificacin en
una muestra aleatoria simple.

Si se tiene una muestra de tamao n; x1 , x 2 , , xn , se clasifican estos datos segn


dos caracteres A y B con niveles A1 , A2 , , Ak y B1 , B2 , , Bm respectivamente,
resultando dicha clasificacin en la siguiente tabla de doble entrada denominada tabla de
contingencia:

A / B B1 B2 Bj Bm Total
A1 n11 n12 n1j n1m n1
A2 n21 n22 n2j n2m n2

Ai ni1 ni2 nij nim ni

Ak nk1 nk2 nkj nkm nk


Total n1 n2 nj nm n

Se desea probar la hiptesis nula de que A y B son independientes, contra la


hiptesis alternativa de que alguna asociacin existe. Esto es equivalente a probar la
hiptesis

H 0 : P ( Ai B j ) P ( Ai ) P ( B j ); (i,j)
v/s
H 0 : P ( Ai B j ) P ( Ai ) P ( B j ); algn par(i,j)

Donde

k m
P( Ai B j ) 1
i 1j 1

k m
P( Ai ) 1 y P( B j ) 1
i 1 j 1

Ahora bien, bajo la hiptesis nula el estimador de P ( Ai B j ) est dado por

ni n j
P ( Ai Bj) P ( Ai ) P ( B j )
n n
245

por lo tanto la frecuencia esperada para Ai B j estar dada por

ni n j n i n j
eij nP ( Ai Bj) n
n n n
en consecuencia el estadstico de prueba de la hiptesis nula

H 0 : P ( Ai B j ) P ( Ai ) P ( B j ); (i,j)

estar dado por


k m (nij eij ) 2 2
J0 ~ (( k 1)( m 1)) ,
i 1j 1 eij

para la determinacin de los grados de libertad de la distribucin chi-cuadrado, debe


tenerse en cuenta que el nmero de celdas es km, es decir se est ante una distribucin
multinomial con km clases, pero como se tienen que estimar (k 1) probabilidades P ( Ai )
y (m 1) probabilidades P ( B j ) , los grados de libertad de la apropiada distribucin chi-
cuadrado sern; km 1 (k 1) (m 1) = (k 1)(m 1).

Por lo tanto se rechazar la hiptesis nula con un nivel de significacin de nivel


si;

2
J0 (( k 1)( m 1),1 )

2 2
donde (( k 1)( m 1),1 ) es el percentil (1 ) 100 de la distribucin (( k 1)( m 1)) .

Ejemplo 5.18

Como parte de un estudio sobre el hbito de fumar, se entrevist a personas de


diferentes edades y se les clasific segn grupo etreo y hbito de fumar. Se entrevist a
232 personas fumadoras y se obtuvo los siguientes datos:

Hbito de fumar
Grupo etreo Total
Menos de 2 entre 2 y 10 ms de 10
Joven 21 26 25 72
Adulto Joven 39 15 20 74
Adulto 13 5 11 29
Adulto Mayor 6 11 6 23
Tercera Edad 10 11 13 34
Total 89 68 75 232

Se est interesado en averiguar si el hbito de fumar depende del grupo etreo del fumador,
utilizar 5% de significacin.

Se definen los atributos A: Grupo Etreo


B: Hbito de fumar
246

Es conveniente notar que se obtuvo una muestra aleatoria de 232 personas fumadoras y
que la clasificacin se realiz segn los atributos A y B. Por lo tanto se desea probar la
hiptesis nula

H 0 : El hbito de fumar es independiente del grupo etreo


v/s
H A : Alguna asociacin existe

El estadstico de prueba de H 0 est dado por

5 3 (nij eij ) 2 2
J0 ~ ( 8)
i 1 j 1 eij

En la siguiente tabla se detallan las frecuencias observadas y las esperadas para cada
una de las celdas en la clasificacin anterior, todas las frecuencias esperadas son mayores
que 5:

Tamao de la ciudad
Grupo Etreo Total
Menos de 2 Entre 2 y 5 Ms de 5
Joven 21 26 25 72
27.62 21.10 23.28
Adulto Joven 39 15 20 74
28.39 21.69 23.92
Adulto 13 5 11 29
11.13 8.5 9.38
Adulto Mayor 6 11 6 23
8.82 6.74 7.44
Tercera Edad 10 11 13 34
13.04 9.97 10.99
Total 89 68 75 232

El estadstico de prueba de H 0 ser

5 3 (nij eij ) 2
J0 1.587 + 1.136 + 0.128 + 3.967 + 2.063 + 0.643 + 0.316 +
i 1j 1 eij
1.441 + 0.282 + 0.903 + 2.690 + 0.277 + 0.710 + 0.107 +

0.367 = 16.618.

2
Comparando 16.618 con el valor tabular (8,0.95) 15.507 se rechaza la hiptesis nula y se
concluye con un 95% de confianza que existe alguna asociacin entre el Hbito de Fumar y
el Grupo Etreo del fumador. Observando la descomposicin de J 0 se tiene que las celdas
Adulto Joven, menos de 2, Adulto Joven, Entre 2 y 5 y Adulto Mayor, Entre 2 y 5
son las celdas que ms contribuyen al valor de J 0 .
247

Nota: Si se encuentra una asociacin entre dos atributos mediante el estadstico de


Pearson, un grado de asociacin entre estos atributos est dado por el siguiente coeficiente
de contingencia:
J0
CC .
J0 n

En el caso del ejemplo anterior se tiene que CC 0.2585 .

Pruebas de Homogeneidad de Multinomiales

Otra aplicacin del estadstico de Pearson se encuentra en la comparacin de


distribuciones multinomiales. Considerar m poblaciones independientes, cada una
particionada en las clases C1 , C 2 , , C k .

Para cada clase Ci se definen las probabilidades

pij P (Ci / Poblacin j ) j 1,2, , m; i 1,2, ,k ,

k
en cada poblacin j , se cumple que pij 1.
i 1

Se quiere verificar si cada clase Ci tiene la misma probabilidad en todas las poblaciones. Es
decir se desea probar la hiptesis
p11 p1 j p1m
p21 p2 j p2 m
H0 :
pi1 pij pim

pk 1 pkj p km

v/s

H A : Alguna diferencia existe.

Para probar la hiptesis nula, se toma una muestra de cada poblacin y los
elementos de estas muestras se clasifican segn las clases Ci . Si n j es el tamao de la
muestra en la poblacin j , se obtiene la siguiente tabla de doble entrada:

Poblacin
Total
Clase 1 2 j m
C1 n11 n12 n1j n1m n1
C2 n21 n22 n2j n2m n2

Ci ni1 ni2 nij nim ni

Ck nk1 nk2 nkj nkm nk


Total n1 n2 nj nm n
248

Observar que los totales por columnas son fijos.

Ahora bien, la hiptesis nula establece que las m distribuciones multinomiales


( p1 j , p 2 j , , pkj ; n j ) son equivalentes. Los estimadores mximo verosmiles de las
probabilidades pij , bajo la hiptesis nula estn dados por;

ni
p ij
n

las frecuencias esperadas para cada celda correspondern a

ni
e ij nj ,
n

el estadstico de prueba de H 0 ser

k m (nij eij ) 2 2
J0 ~ (( k 1)( m 1))
i 1j 1 eij

2
Se rechazar la hiptesis nula al nivel de significacin si J 0 (( k 1)( m 1),1 ) .

Ejemplo 5.19

Un Epidemilogo quera determinar si la fraccin de personas infectadas con un


cierto virus en tres ciudades variaba de una ciudad a otra. Se seleccionaron muestras de 400
personas de cada una de las tres ciudades y se obtuvo el nmero de el nmero de personas
infectadas en cada muestra. Los resultados se presentan en la siguiente tabla

N de
Ciudad
Infectados
1 16
2 24
3 9

En este caso se tienen tres poblaciones; las personas infectadas en cada ciudad. Por
lo tanto se tienen tres muestras cada una de tamao 400 resultando la clasificacin en la
siguiente tabla:

Ciudad Infectados No Infectados Total


1 16 384 400
2 24 376 400
3 9 391 400
Total 49 1151 1200

Sea p1 j P ( Infectados / Ciudad j ) y p2 j P ( No Infectados / Ciudad j ) ;


j 1,2,3
249

Se desea probar la hiptesis

p11 p 21 p31
H0 :
p12 p 22 p 32

v/s

H A : Alguna diferencia existe

las frecuencias esperadas de personas infectadas son

49
e11 400 16.3 , e21 16.3 , e31 16.3
1200

y las de personas no infectadas sern

e12 383.7 , e22 383.7 , e32 383.7

por lo tanto el estadstico de prueba ser

2 3 ( nij eij ) 2
J0 7.192
i 1j 1 eij

El valor tabular de la distribucin chi-cuadrado con 2 grados de libertad al nivel 0.05 est
dado por (22,0.95) 5.9915 . Como 7.192>5.9915 se rechaza la hiptesis nula al nivel 0.05 y
se concluye con un 95% de confianza que las tres ciudades no tienen la misma proporcin
de personas infectadas con el virus.

You might also like