You are on page 1of 29

- Testes Qui-quadrado Aderncia e Independncia

1. Testes de Aderncia
Objetivo: Testar a adequabilidade de um modelo probabilstico a um conjunto de dados observados Exemplo 1: Gentica Equilbrio Hardy-Weinberg 1
Aa Aa

AA

Aa

aa

Probabilidades:
(Modelo terico)

3 categorias: AA, Aa, aa


2

Em uma certa populao, 100 descendentes foram estudados, fornecendo a tabela a seguir:
Gentipo AA Aa aa Total Freqncia observada 26 45 29 100

Objetivo: Verificar se o modelo gentico proposto adequado para essa populao


3

Se o modelo Hardy-Weinberg for adequado, a freqncia esperada de descendentes para o gentipo AA, dentre os 100 indivduos, pode ser calculada por:

100 P (AA) = 100 14 = 25


Da mesma forma, temos para o gentipo Aa,

100 P (Aa) = 100 12 = 50


E para o gentipo aa,

100 P (aa) = 100 14 = 25


4

Podemos expandir a tabela de freqncias dada anteriormente:


Gentipo AA Aa aa Total Freqncia observada 26 45 29 100 Freqncia esperada 25 50 25 100

Pergunta: Podemos afirmar que os valores observados esto suficientemente prximos dos valores esperados, de tal forma que o modelo Hardy-Weinberg adequado a esta populao?
5

1. Testes de Aderncia Metodologia


Considere uma tabela de freqncias, com k 2 categorias de resultados:
Categorias 1 2 3 Freqncia Observada O1 O2 O3

M
k Total

M
Ok n

em que Oi o total de indivduos observados na categoria i, i = 1,...,k.


6

Seja pi a probabilidade associada categoria i , i=1,...,k. O objetivo do teste de aderncia testar as hipteses H : p1 = po1 , .... , pk = pok A : existe pelo menos uma diferena sendo poi a probabilidade especificada para a categoria i, i=1,...,k, fixada atravs do modelo probabilstico de interesse. Se Ei o total de indivduos esperados na categoria i, quando a hiptese H verdadeira, ento:

Ei = n poi, i = 1,...,k
7

Expandindo a tabela de freqncias original, temos


Categorias Freqncia observada Freqncia esperada sob H

1 2 3 M k Total

O1 O2 O3 M Ok n

E1 E2 E3 M Ek n

Quantificao da distncia entre as colunas de freqncias:

(Oi E i )2 2 = Ei i =1
k

(Oi Ei )2 2 = Ei i =1
k

Estatstica do teste de aderncia

Supondo H verdadeira,

(Oi Ei )2 2 2 = ~ q , aproximadamente, Ei i =1
k

sendo que q = k - 1 representa o nmero de graus de liberdade. Em outras palavras, se H verdadeira, a v.a. 2 tem distribuio aproximada qui-quadrado com q graus de liberdade.
Obs.: Este resultado vlido para n grande e para Obs Ei 5, i = 1, ..., k.
9

Regra de deciso: Pode ser baseada no nvel descritivo P, neste caso


2 2 P = P( q obs ),
2 obs o valor calculado, a partir dos dados, em que 2 . usando a expresso apresentada para

Graficamente: P

2 obs

Se, para fixado, obtemos P , rejeitamos a hiptese H.


10

Exemplo (continuao): Gentica Equilbrio Hardy-Weinberg: Hipteses: H : O modelo proposto adequado a esta situao A : O modelo no adequado a esta situao De forma equivalente, podemos escrever: H: P(AA) = , P(Aa) = e P(aa) = A: ao menos uma das igualdades no se verifica

A tabela seguinte apresenta os valores observados e esperados (calculados anteriormente).

11

Gentipo AA Aa aa Total

Oi 26 45 29 100

Ei 25 50 25 100

Clculo do valor da estatstica do teste ( k = 3):

2 obs

(Oi E i )2 (26 25) 2 (45 50)2 (29 25)2 = = = + + Ei 25 50 25 1


3

= 0,04 + 0,50 + 0,64 = 1,18


Usando a distribuio de qui-quadrado com q = k-1 = 2 graus de liberdade, o nvel descritivo calculado por 2 . P = P ( 2 1,1 8 ) = 0,5 54 3 Concluso: Para = 0,05, como P = 0,5543 > 0,05, no rejeitamos a hiptese H, isto , essa populao segue o equilbrio Hardy-Weinberg. 12

O clculo do nvel descritivo P pode ser feito no MINITAB, atravs dos comandos: MTB > SUBC> MTB > MTB > cdf 1.18 k1; chisquare 2. let k2 = 1 - k1 print k2

Data Display K2 0.554327 MTB >

Nvel descritivo
13

Exemplo 2: Deseja-se verificar se o nmero de acidentes em 2 uma estrada muda conforme o dia da semana. O nmero de acidentes observado para cada dia de uma semana escolhida aleatoriamente foram: Dia da semana Seg Ter Qua Qui Sex Sab Dom No. de acidentes 20 10 10 15 30 20 35

O que pode ser dito?

14

Hipteses a serem testadas: H: O nmero de acidentes no muda conforme o dia da semana; A: Pelo menos um dos dias tem nmero diferente dos demais.

Se pi representa a probabilidade de ocorrncia de acidentes no i-simo dia da semana, H: pi = 1/7 para todo i = 1,, 7 A: pi 1/7 para pelo menos um valor de i. Total de acidentes na semana: n =140. Logo, se H for verdadeira, Ei = 140 x 1/7 = 20, i = 1,,7, ou seja, esperamos 20 acidentes por dia.
15

Dia da semana Seg Ter Qua Qui Sex Sab Dom

No. de acidentes observados (Oi ) 20 10 10 15 30 20 35

No. esperado de acidentes (Ei ) 20 20 20 20 20 20 20

Clculo da estatstica de qui-quadrado:

2 obs

(Oi E i )2 (20 20) 2 (10 20) 2 (10 20) 2 (15 20) 2 = = + + + + Ei 20 20 20 20 1


7

(30 20) 2 (20 20) 2 (35 20) 2 + + = 27,50 20 20 20


16

2 2 ~ 6 , aproximadamente. Neste caso, temos

O nvel descritivo dado por 2 P = P ( 6 27,50) e pode ser obtido no MINITAB por: MTB > SUBC> MTB > MTB > cdf 27.50 k1; chisquare 6. let k2 = 1 - k1 print k2

Data Display K2 0.000116680 Logo, para = 0,05, segue que P = 0,0001 < e, assim, rejeitamos H, e conclumos que o nmero de acidentes no o mesmo em todos os dias da semana.
17

2. Testes de Independncia
Objetivo: Verificar se existe independncia entre duas variveis medidas nas mesmas unidades experimentais.
Exemplo 3: Deseja-se verificar se existe dependncia entre a 3 renda e o nmero de filhos em famlias de uma cidade.
250 famlias escolhidas ao acaso forneceram a tabela a seguir:

Renda (R$)
menos de 2000 2000 a 5000 5000 ou mais

0
15 25 8 48

Nmero de filhos 1 2 + de 2
27 30 13 70 50 12 9 71 43 8 10 61

Total
135 75 40 250
18

Total

Em geral, os dados referem-se a mensuraes de duas caractersticas (A e B) feitas em n unidades experimentais, que so apresentadas conforme a seguinte tabela:

Hipteses a serem testadas Teste de independncia: independncia H: A e B so variveis independentes A: As variveis A e B no so independentes
19

Quantas observaes devemos ter em cada casela, se A e B forem independentes?


Se A e B forem independentes, temos que, para todos os possveis pares (Ai e Bj): P(Ai Bj ) = pij = P(Ai ) P(Bj ), para i = 1, 2,, r e j = 1, 2,,s. Logo, o nmero esperado de observaes com as caractersticas (Ai e Bj), entre as n observaes sob a hiptese de independncia, dado por n n.j

E ij = n pij = n pi. p.j = n

i.

sendo pij a proporo de observaes com as caractersticas (Ai e Bj). Assim,

E ij =

ni. n.j n
20

O processo deve ser repetido para todas as caselas (i, j).

Distncia entre os valores observados e os valores esperados sob a suposio de independncia:

( Oij Eij )2 = Eij i =1 j =1

Estatstica do teste de independncia

em que Oij = nij representa o total de observaes na casela (i, j).

Supondo H verdadeira,

2 =
i =1 j =1

(Oij Eij )2 Eij

2 ~ q

sendo q = ( r 1) ( s 1 ) graus de liberdade.


21

Regra de deciso: Pode ser baseada no nvel descritivo P, neste caso

P = P(
2

2 q

2 obs

),

em que obs o valor calculado, a partir2dos dados, usando a expresso apresentada para . Graficamente: P

2 obs

Se, para fixado, obtemos P , rejeitamos a hiptese H de independncia. 22

Exemplo (continuao): Estudo da dependncia entre renda e o nmero de filhos 250 famlias foram escolhidas ao acaso Hipteses H: O nmero de filhos e a renda so independentes A: Existe dependncia entre o nmero de filhos e a renda
Renda (R$)
menos de 2000 2000 a 5000 5000 ou mais 0 15 25 8 48

Total

Nmero de filhos 1 2 + de 2 27 50 43 30 12 8 13 9 10 70 71 61

Total 135 75 40 250

Exemplo do clculo dos valores esperados sob H (independncia):


Nmero esperado de famlias sem filhos e renda menor que R$ 2000:
E11 = 48 135 = 25,92 . 250
23

Tabela de valores observados e esperados (entre parnteses)


Renda (R$)
menos de 2000 2000 a 5000 5000 ou mais

Nmero de filhos 0 1 2 + de 2
8(18,30) 10(9,76)

Total 135 75

15(25,92) 27(37,80) 50(38,34) 43(32,94) 15 27 50( 43 25(14,40) 30(21,00) 12(21,30) 25( 30 12 8(7,68) 13(11,20) 13 9(11,36)

40
250

Total

48

70

71

61

1 filho e renda de R$ 2000 a R$ 5000:


70 75 E22 = = 21,00 250

2 ou + filhos e renda de R$ 5000 ou mais:


E 34 = 61 40 = 9,76 250

Lembre-se:

Eij =

ni n j n
24

Clculo da estatstica de qui-quadrado:


Renda (R$) Nmero de filhos 0 1 2 + de 2
8(18,30) 10(9,76)

Total 135 75 40 250


2

menos de 2000 15(25,92) 27(37,80) 50(38,34) 43(32,94) 2000 a 5000 5000 ou mais Total
2 obs

25(14,40) 30(21,00) 12(21,30) 8(7,68) 13(11,20) 9(11,36)

48
2

70
2

71

61
2

(15 25,92 ) =
25,92

( 25 14,40 ) +
14,40

( 8 7,68 ) +
7,68

( 27 37,80 ) +
37,80
2

+
2

( 30 21,00 ) + (13 11,20 ) + ( 50 38,34 ) + (12 21,30 ) + + 21,00 11,20 38,34 21,30 (12 21,30 ) + (9 11,36 ) + ( 43 32,94 ) + ( 8 18,30 ) + + 21,30 11,36 32,94 18,30 (10 9,76 ) +
9,76
2 2 2 2 2

= 36,62 .

25

Determinao do nmero de graus de liberdade:


Categorias de renda: r = 3 Categorias de n de filhos: s = 4

q = (r 1)(s 1) = 2 3 = 6

Logo,

2 2 2 ~ 6 e, supondo = 0,05, P = P ( 6 36,62) = 0,000

Como P = 0,000 < = 0,05, rejeitamos a independncia entre nmero de filhos e renda familiar. Os clculos podem ser feitos diretamente no MINITAB: Stat Tables Chi-Square test
26

Sada do MINITAB:
Chi-Square Test Expected counts are printed below observed counts C1 15 25,92 25 14,40 8 7,68 48 C2 27 37,80 30 21,00 13 11,20 70 + 3,086 + + 3,857 + + 0,289 + = 0,000 C3 50 38,34 12 21,30 9 11,36 71 3,546 + 4,061 + 0,490 + C4 43 32,94 8 18,30 10 9,76 61 Total 135

75

40

Total Chi-Sq =

250

4,601 7,803 0,013 DF = 6, P-Value

3,072 + 5,797 + 0,006 = 36,621


27

Exemplo 4: 1237 indivduos adultos classificados segundo a 4 presso sangnea (mm Hg) e o nvel de colesterol (mg/100cm3). Verificar se existe independncia entre essas variveis. Presso 127 a 166 168 418 145 731

Colesterol <200 200 a 260 >260 Total

< 127 117 204 67 388

>166 22 63 33 118

Total 307 685 245 1237

H: Presso sangnea e nvel de colesterol so independentes; A: Nvel de colesterol e presso sangnea so variveis dependentes.
28

Sada do MINITAB:
Chi-Square Test Expected counts are printed below observed counts C1 C2 C3 Total 1 117 168 22 307 96,29 181,42 29,29 2 204 214,86 67 76,85 388 418 404,80 145 144,78 731 + 0,993 + + 0,431 + + 0,000 + = 0,009 63 65,34 33 23,37 118 685

3 Total Chi-Sq =

245 1237

4,452 0,549 1,262 DF = 4, P-Value

1,812 + 0,084 + 3,967 = 13,550

Rejeitamos a independncia entre presso sangnea e nvel de colesterol ( = 0,05).


29

You might also like