You are on page 1of 11

Estatstica e distribuio amostral

A estatstica se interessa por concluses e predies originadas de


resultados eventuais que ocorrem em experimentos ou investigaes
cuidadosamente planejados.
Esses resultados eventuais constituem um subconjunto ou amostra de
medidas ou observaes de um conjunto maior de valores, chamado populao.
No entanto, nem todas as amostras prestam para validar generalizaes a respeito
de populaes, das quais foram obtidas. Muitos dos mtodos de inferncia so
baseados em amostras aleatrias simples com reposio.

1. Amostra aleatria simples com reposio

Definio 1. Uma amostra aleatria simples com reposio de tamanho


n de uma varivel aleatria X com uma dada distribuio o conjunto de n
variveis aleatrias independentes X1, X2, ..., Xn, cada uma com a mesma
distribuio de X. Assim, por exemplo, se X tem distribuio b (n, p), cada X i ter
distribuio b (n, p).

2. Estatsticas e parmetros

Definio 2. Estatstica ou estimador qualquer funo de uma amostra


aleatria (frmula ou expresso), construda com o propsito de servir como
instrumento para descrever alguma caracterstica da amostra e para fazer inferncia
a respeito da caracterstica na populao. A(o)s mais comuns so:
1 n
X Xi : mdia da amostra
n i1

1 n 1 n 2
s2 (Xi X)2 ( Xi X2 ) : varincia da amostra
n 1 i1 n 1 i1

X (nmero de elementos da amostra que apresentam a caracterstica)


p
n ( tamanho da amostra )

: proporo da amostra

Definio 3. Parmetro uma medida usada para descrever uma


caracterstica da populao.
Parmetros so funes de valores populacionais, enquanto que estatsticas
so funes de valores amostrais. Os smbolos mais comuns so:

Estatstica
Populao
Mdia X E(X) =
Varincia s2
2
N de elementos n N
Proporo
p p
_____________________________________

3. Distribuio amostral

Toda estatstica, sendo uma funo de uma amostra aleatria X 1, X2, ..., Xn,
tambm uma varivel aleatria e tem uma distribuio. Embora, em uma dada
situao estaremos limitados apenas a uma amostra e um valor nico
correspondente estatstica; em relao a vrias amostras, a estatstica muda de
valor de acordo com a distribuio determinada a partir daquela que controla a
amostra aleatria. O ponto importante que o comportamento da estatstica pode
ser descrito por alguma distribuio de probabilidade. Assim, cada estatstica
uma varivel aleatria e sua distribuio de probabilidade chamada distribuio
amostral da estatstica. Esquematicamente, teramos o procedimento apresentado
na Figura 1, onde o parmetro de interesse na populao e t o valor da
estatstica T para cada amostra.

Figura 1: (a) amostras retiradas da populao, de acordo com certo procedimento, e


(b) distribuio amostral da estatstica T
O exemplo abaixo ilustra como a distribuio da mdia amostral pode ser
determinada por uma situao simples, quando o tamanho da amostra 2 (n = 2) e
a distribuio da populao discreta.

Exemplo1. Seja a varivel aleatria X que denota o nmero de dias de internao


de um co em um hospital veterinrio depois de uma particular cirurgia.
Considerando a populao de todos os ces submetidos cirurgia, suponha que X
tem a distribuio de probabilidade apresentada na Tabela 1. Uma amostra
aleatria simples com reposio (X1, X2) de 2 ces (n = 2) tomada nesta
populao. Qual a distribuio do nmero mdio amostral de dias de internao, ou
seja
X1 X 2
X ?
2

Tabela 1. Distribuio de probabilidade de X

x 0 1 2 3
p(x) 0,2 0,4 0,3 0,1

De acordo com a definio de amostra aleatria simples com reposio, X 1


e X2 so variveis aleatrias independentes, cada uma tendo a distribuio dada na
Tabela 1. Deste modo, a distribuio conjunta de duas variveis aleatrias
independentes (Tabela 2) obtida multiplicando-se as probabilidades marginais.
Por exemplo

P[X1 = 0, X2 = 1] = P[X1 = 0].P[X2 = 1] = 0,2.0,4 = 0,08

A distribuio de X obtida por meio da Tabela 2, listando os possveis


valores de X . Em seguida, para cada valor de X , identificamos as clulas na
referida tabela, cujos valores (X1, X2) produzem um especfico valor de X . Ento,
somamos as correspondentes probabilidades celulares. Por exemplo, X =1,5
quando (X1, X2) = (0,3), (1,2), (2,1) ou (3,0), tal que P[ X =1,5] = 0,02 + 0,12 +
+ 0,12 + 0,02 = 0,28. Procedendo de modo anlogo, obtemos a distribuio
amostral da estatstica X (Tabela 3).

Tabela 2. Distribuio conjunta de X1 e X2:


x2
x1 0 1 x1 2 3 linha
0 1 2 3
0 0,04 0,08 0,06 0,02 0,20

1 0,08 0,16 0,12 0,04 0,40

2 0,06 0,12 0,09 0,03 0,30

3 0,02 0,04 0,03 0,01 0,10

coluna 0,20 0,40 0,30 0,10 1,0


coluna 0,2 0,4 0,3 0,1 1,0

X1 X 2
Tabela 3. Distribuio amostral de X :
2

Valor de X 0 0,5 1 1,5 2 2,5 3 Total


Probabilidade 0,04 0,16 0,28 0,28 0,17 0,06 0,01 1,0

3.1. Distribuio amostral da mdia e o teorema limite central

Resultados importantes :

1. Se X1, X2, ..., Xn constitui uma amostra aleatria simples com reposio
de uma populao que tem mdia e varincia 2 , ento:

2
E (X) = e Var ( X )
n

Verifiquemos essas relaes, considerando a varivel aleatria discreta


exemplificada (Exemplo 1):

Distribuio de X:

x 0 1 2 3 Total
p(x) 0,2 0,4 0,3 0,1 1,0

x .p(x) 0 0,4 0,6 0,3 1,3

x2 .p(x) 0 0,4 1,2 0,9 2,5

= E (X) = x . p( x ) = 1,3

2 = E (X2) [ E (X) ]2 = x 2 .p( x ) [ x . p( x )] 2

= 2,5 - (1,3) 2 = 0,81

X1 X 2
Distribuio de X :
2

x
0 0,5 1 1,5 2 2,5 3 Total
p( x )
0,04 0,16 0,28 0,28 0,17 0,06 0,01 1,0
x . p (x)
0 0,08 0,28 0,42 0,34 0,15 0,03 1,3
x 2 .p ( x )
0 0,04 0,28 0,63 0,68 0,375 0,09 2,095

E ( X ) x . p( x ) 1,3 E ( X )

Var ( X ) E ( X ) 2 [E( X )] 2 x 2 . p x [E ( X )] 2

2 0,81
Var ( X ) 2,095 (1,3) 2 0,405
n 2

Assim, a distribuio da mdia amostral, baseada em uma amostra aleatria


simples com reposio de tamanho n, tem:
E ( X ) ( = mdia da populao )
2
Var ( X ) (= varincia da populao / n)
n

dp ( X ) (= desvio padro da populao / n) = erro padro da mdia
n
O erro padro da mdia" e o "desvio padro da mdia [dp( X )] " so termos
equivalentes. "O erro padro da mdia" geralmente usado para evitar confuso
com o desvio padro () das observaes.
Esses resultados mostram que a distribuio da mdia amostral ( X )
centrada na mdia populacional e que o clculo de X produz uma estatstica que
menos varivel do que uma observao individual (X). Com o aumento do
tamanho da amostra (n), o desvio padro (dp) da distribuio de X diminui. Isto
significa que quando n torna-se grande, podem-se esperar valores de X mais
prximos de , a quantidade que se pretende estimar.
Normalmente no se tem vrias amostras para se obter estimativas
mltiplas da mdia. No entanto, possvel estimar o erro padro da mdia usando
o tamanho da amostra (n) e desvio padro (s) de uma nica amostra de
observaes. O erro padro da mdia , ento, estimado pelo desvio padro das
observaes dividido pela raiz quadrada do tamanho da amostra.
medida que o tamanho da amostra aumenta, o desvio padro da amostra
(s) ir flutuar, mas no vai aumentar ou diminuir de forma consistente. Torna-se
uma estimativa mais precisa do desvio padro paramtrico () da populao. Em
contraste, o erro padro da mdia torna-se menor quando o tamanho da amostra
aumenta. Com tamanhos amostrais maiores, a mdia da amostra torna-se uma
estimativa mais precisa da mdia paramtrica (), pois o erro padro da mdia
torna-se menor.
Os resultados precedentes so principalmente de interesse terico. De valor
prtico maior so dois outros resultados, que sero mencionados a seguir, sem
demonstr-los:

2. Se X a mdia de uma amostra aleatria simples com reposio, de


tamanho n, de uma populao normal, com mdia e varincia 2 , sua
2
distribuio normal, com mdia e varincia .
n
O outro o teorema limite central (ou teorema central do limite):

3. Em uma amostra aleatria simples com reposio de uma populao


arbitrria, com mdia e varincia 2 , a distribuio de X , quando n grande,
2
aproximadamente normal, com mdia e varincia . Em outras palavras,
n

Z= X aproximadamente N (0,1)
/ n
Uma ilustrao grfica do teorema limite central aparece na Figura 2, onde
a distribuio da populao representada pela curva contnua uma distribuio
contnua assimtrica, com = 2 e = 1,41. As distribuies da mdia amostral X
para tamanhos amostrais n = 3 e n = 10 so representadas no grfico pelas curvas
pontilhadas, indicando que, com um aumento de n, as distribuies amostrais
tornam-se mais concentradas ao redor de , assemelhando-se a uma distribuio
normal.

Figura 2. Distribuies de X para n = 3 e n = 10 amostradas em uma


populao com distribuio assimtrica (curva contnua).

Na prtica, a aproximao usada quando n 30, indiferente da forma da


populao amostrada.

Aplicao do teorema limite central

O teorema limite central tem muitos aspectos prticos teis: se X a


mdia amostral, podemos calcular:
a b
P (a X b) = P ( Z )
/ n / n
aproximadamente, usando tabelas da distribuio N (0,1), qualquer que seja a
distribuio de X.

As distribuies de outras estatsticas, por exemplo, da proporo amostral

p (veja item 3.2), tambm podem ser aproximadas pela distribuio normal,
assumindo n grande.

Exemplo 2. Seja uma mquina de empacotamento de um determinado sal


mineral, cujos pesos (em kg) seguem uma distribuio N (50, 2). Assim, se a
mquina estiver regulada, qual a probabilidade, colhendo-se uma amostra de 100
pacotes, da mdia dessa amostra ( x ) diferir de 50 kg em menos de 0,2828 kg?

Soluo:
49,7172 50
P ( 49,7172 < X < 50,2828 ) = P ( < X 50,2828 50
2 / 10 )
/ n 2 / 10

= P ( -2,0 < Z < 2,0 )

= 2 . P ( 0 < Z < 2,0 ) = 2 . 0,47725

= 0,9545

Ou seja, dificilmente 100 pacotes tero uma mdia fora do intervalo ]49,7172;
50,2828[. Caso apresentem uma mdia fora desse intervalo, pode-se considerar
como sendo um evento raro, e ser razovel desconfiar que a maquina esteja
desregulada.

Amostras sem reposio de populaes finitas

Supondo uma populao com N elementos, se a amostragem for feita sem


reposio, E( X ) = continua a valer, mas
2 N n
Var ( X )
n N 1

Assim, a varincia da mdia amostral com este tipo de amostragem menor, desde
que ela N n N 1 vezes a varincia da mdia amostral, quando a amostragem
for feita com reposio. No entanto, se a populao for grande quando comparada
com o tamanho da amostra (n), o fator de correo N n N 1 ser prximo de um,
2
e Var ( X ) n . Esta aproximao pode ser usada, se n 5% N.

Note que quando n se aproxima de N, o fator de correo se aproxima de


zero, de modo que a Var ( X ) tambm se aproxima de zero.

3.2. Distribuio amostral da proporo

Designemos uma varivel X para cada ensaio de Bernoulli, onde h


somente dois resultados possveis: Sucesso (S) e Fracasso, com P(S) = p. Neste
contexto, considerando n ensaios independentes, X1, X2, ... , Xn constitui uma
amostra aleatria simples com reposio. Como os resultados individuais so 0
n
(fracasso) ou 1 (sucesso), Xi o nmero de resultados em n ensaios, que
i 1
correspondem aos sucessos (ou ao nmero de elementos amostrados que possuem
uma especfica caracterstica), porque aos resultados que correspondem aos
fracassos, esto associados o valor zero. Ento,
n
T = X1 + X2 + ... + Xn = X i = nmero de sucessos em n ensaios.
i 1
n

Portanto, a proporo amostral de sucessos T


Xi ou seja,
p igual
i 1
p X
n n
mdia da varivel aleatria Xi (i = 1, 2, ..., n).

T tem distribuio binomial b(n, p), com mdia np e varincia npq.


Consequentemente,
T 1 1
E (p) E ( ) E (T ) n p p
n n n

T 1 1 pq
Var (p) Var ( ) 2 Var (T ) 2 n p q
n n n n

Assim, pelo Teorema Limite Central, quando n grande, a proporo amostral


de sucessos em n ensaios de Bernoulli tem distribuio aproximadamente
p
p q
normal com mdia p e varincia n
;e
p p
Z aproximadamente N (0, 1)
p q/n

Multiplicando-se o numerador e o denominador de Z por n e notando-se


que T,
np pode-se tambm escrever
T np
Z ~ N (0, 1),
np q
que foi o estabelecido na aproximao normal binomial.

Exemplo 3. Um lote 625 vacas foram inseminadas com smen que possui
ndice de fertilidade (p) de 70%. Qual a probabilidade de se encontrar mais de
72% (450) de vacas prenhes?

Soluo:
n = 625 p = 0,70

0,72 0,70
P(p 0,72) P( Z ) P( Z 1,09) 0,50 0,36214 0,1379
0,70.0,30
625

450 437,5
Ou P(T 450) P( Z ) P( Z 1,09) 0,1379
0,7.0,30.625

3.3. Estimao de uma proporo binomial

Consideremos os tipos de problemas, onde o parmetro a proporo p de


uma populao, tendo uma especfica caracterstica. Quando n elementos so
aleatoriamente amostrados da populao, os dados consistiro da contagem X do
nmero de elementos amostrados possuindo a caracterstica. O senso comum
sugere a proporo amostral:
p X
n
como um estimador de p. Quando n uma pequena frao do tamanho da
populao, como geralmente o caso, observaes respeito de n elementos
podem ser consideradas como sendo de n ensaios independentes de Bernoulli, com
probabilidade de sucesso igual a p.
Quanto s propriedades desse estimador, primeiro nota-se que a contagem
amostral X tem distribuio binomial b(n, p), com mdia np e varincia npq, onde
q = 1 p. Consequentemente,
np
E p E ( X
n
) n1 E (X) p
n
npq pq
Var (p) Var ( X
n
) 12 Var ( X) 2
n n n
O primeiro resultado mostra que p um estimador no viciado de p. O
segundo, que
p tem uma varincia que menor do que a varincia de qualquer
outro estimador no viciado. O erro padro desse estimador dado por:
pq
dp p
n
o qual pode ser obtido substituindo p e q pelas suas respectivas estimativas
pq
amostrais, ou seja e q
p , na frmula, ou dp p
n
Assim, como foi observado no item anterior, quando n grande,
p
pq
aproximadamente distribudo como normal, com mdia p e desvio padro ;e
n
p p
Z aproximadamente N (0, 1).
p q/n

You might also like