Professional Documents
Culture Documents
2011
SUMÁRIO
1 Introdução 4
1.1 Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1 Amostragem Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.2 Amostragem Sistemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.3 Amostragem Estratificada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Método Estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Estatística Descritiva 9
2.1 Tipo de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Variáveis Qualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Variáveis Quantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 Medidas de Posição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.1 Média Aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.1.1 Propriedades da média . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.2 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.3 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4.4 Comparação entre Média, Mediana e Moda . . . . . . . . . . . . . . . . . . . 20
2.4.5 Simetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4.6 Separatrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4.6.1 Quartis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4.6.2 Percentis ou Centis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.7 Dados agrupados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.7.1 Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.7.2 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.7.3 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.7.4 Quartil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.7.5 Percentil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4.7.6 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.5 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.6 Medidas de dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.6.1 Amplitude Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.6.2 Variância e Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.6.2.1 Propriedades da Variância . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6.2.2 Propriedades do Desvio Padrão . . . . . . . . . . . . . . . . . . . . . 32
2.6.3 Coeficiente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.6.4 Erro Padrão da Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.7 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.7.1 Dados Agrupados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3 Noções de Probabilidade 35
3.1 Espaço Amostral e Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.1 Operação com eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2 Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.1 Probabilidade Condicional e Independência de Eventos . . . . . . . . . . . . 38
3.2.2 Árvores de probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3 Variável Aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3.1 Função de Probabilidade Discreta . . . . . . . . . . . . . . . . . . . . . . . . 41
3.3.1.1 Esperança Matemática e Variância de uma VAD . . . . . . . . . . . . 42
3.3.2 Função de probabilidade contínua ou função de densidade de probabilidade
(fdp). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3.2.1 Esperança Matemática e Variância de uma fdp . . . . . . . . . . . . . 45
3.4 Distribuições Discretas de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.1 Distribuição Uniforme Discreta . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.1.1 Parâmetros Característicos da Distribuição Uniforme . . . . . . . . . 46
3.4.2 Distribuição Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.4.2.1 Parâmetros Característicos da Distribuição Uniforme . . . . . . . . . 47
3.4.3 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.4.3.1 Parâmetros Característicos da Distribuição Binomial . . . . . . . . . 49
3.4.4 Distribuição Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.4.4.1 Parâmetros Característicos da Distribuição Hipergeométrica . . . . . 51
3.4.5 Distribuição Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4.5.1 Parâmetros Característicos da Distribuição Geométrica . . . . . . . . 52
3.4.6 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.4.6.1 Parâmetros Característicos da Distribuição de Poisson . . . . . . . . . 53
3.5 Distribuições Contínuas de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . 54
3.5.1 Distribuição Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.5.1.1 Parâmetros Característicos da Distribuição Uniforme . . . . . . . . . 56
3.5.2 Distribuição Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.5.2.1 Parâmetros Característicos da Distribuição Exponencial . . . . . . . . 57
3.5.3 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.5.3.1 Aproximação Normal das Distribuições Binomial e de Poisson . . . . 60
3.6 Distribuições Amostrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.6.1 Distribuição Amostral da Média (X) . . . . . . . . . . . . . . . . . . . . . . 63
3.6.1.1 Teorema do Limite Central (TLC) . . . . . . . . . . . . . . . . . . . . 63
3.6.1.2 Distribuição t de student . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.6.2 Distribuição amostral para proporção . . . . . . . . . . . . . . . . . . . . . . 66
3.6.3 Distribuição Amostral da Variância . . . . . . . . . . . . . . . . . . . . . . . 67
3.6.3.1 Distribuição Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . 67
3.6.3.2 Distribuição F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4 Inferência Estatística 74
4.1 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.1.1 Estimação Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.1.2 Estimação Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.1.2.1 Intervalo de Confiança para proporção p . . . . . . . . . . . . . . . . 75
4.1.2.2 Intervalo de Confiança para média µ com variância σ 2 conhecida . . . 76
4.1.2.3 Intervalo de Confiança para média µ com variância σ 2 desconhecida . 78
4.1.2.4 Intervalo de Confiança para variância σ 2 e para o desvio padrão σ . 79
4.2 Teoria da Decisão Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.2.1 Teste de Hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.2.2 Teste para médias, variância conhecida . . . . . . . . . . . . . . . . . . . . . 80
4.2.3 Teste para médias, variância desconhecida . . . . . . . . . . . . . . . . . . . 82
4.2.4 Teste de hipóteses para proporção . . . . . . . . . . . . . . . . . . . . . . . . 84
4.2.5 Resumo das etapas aplicadas a qualquer teste de hipóteses . . . . . . . . . 84
4.3 Regressão e Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
1
INTRODUÇÃO
• Estatística descritiva - é a parte que tem por objetivo organizar, apresentar e sintetizar
dados observados de determinada população, sem pretenções de tirar conclusões de caráter
extensivo.
• Amostra (n) - um subconjunto da população e deverá ser considerada finita, a amostra deve
ser selecionada seguindo certas regras e deve ser representativa, de modo que ela represente
todas as características da população como se fosse uma fotografia desta.
• Dados estatísticos: é qualquer característica que possa ser observada ou medida de alguma
maneira. As matérias-primas da estatística são os dados observáveis.
• Variável: É aquilo que se deseja observar para se tirar algum tipo de conclusão, geralmente
as variáveis para estudo são selecionadas por processos de amostragem. Os símbolos uti-
lizados para representar as variáveis são as letras maiúsculas do alfabeto, tais como X, Y,
Z, ... que pode assumir qualquer valor de um conjunto de dados. As variáveis podem ser
classificadas dos seguintes modos:
1.1 AMOSTRAGEM
• É muito dispendioso entrevistar cada pessoa de toda uma população; recorremos, então,
as amostras;
• O melhor método de escolha de uma amostra é a escolha aleatória, isto é, que toda amostra
possível tenha a mesma chance de ser escolhida.
Objetivo: Obter uma amostra representativa quando os elementos da população são todos
homogêneos. Neste processo de amostragem todos os elementos da população têm a mesma
probabilidade de serem amostrados. A característica principal é que todos os elementos da
população têm igual probabilidade de pertencer á amostra.
Procedimento: Na prática a amostragem aleatória simples pode ser realizada numerando-se
a população de 1 a N e sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer, k
números dessa seqüência, os quais corresponderão aos elementos pertencentes á amostra.
Exemplo: Vamos obter uma amostra representativa, de 10% dos valores, para obtermos a
estatura média de noventa alunos de uma escola:
• Numeramos os alunos de 01 a 90
• Sorteamos um número entre 1 e F S. Esse número é simbolizado por m, que será o primeiro
elemento da amostra.
Exemplo: Uma rua contém 1000 prédios, dos quais desejamos obter uma amostra sistemática
formada por 100 deles.
F S = 1000/100 = 10
• 100o elemento da amostra = (100 − 1)10 + 7 = 997 »> 997o elemento da população.
• Coleta da dados - Consiste na obtenção dos dados referentes ao trabalho que desejamos
fazer.;
– A coleta pode ser: Direta - diretamente da fonte ou Indireta - feita através de outras
fontes.
– Os dados podem ser obtidos pela própria pessoa (primários) ou se baseia no registro
de terceiros (secundários).
• Apuração dos dados - Consiste em resumir os dados, através de uma contagem e agrupa-
mento. É um trabalho de coordenação e de tabulação.
• Apresentação dos dados -É a fase em que vamos mostrar os resultados obtidos na coleta e
na organização. Esta apresentação pode ser:
• Análise e interpretação dos dados - É a fase mais importante e também a mais delicada.
Tira conclusões que auxiliam o pesquisador a resolver seu problema.
2
ESTATÍSTICA DESCRITIVA
A estatística descritiva é parte da estatística que lida com a organização, resumo e apresentação
• Gráficos;
• Variáveis Quantitativas - são as características que podem ser medidas em uma escala
quantitativa, ou seja, apresentam valores numéricos
– Variáveis discretas: são aquelas variáveis que pode assumir somente valores inteiros
num conjunto de valores. É gerada pelo processo de contagem
Exemplos: número de filhos, número de empregados, número de processos.
– Variáveis contínuas: são aquelas variáveis que podem assumir um valor dentro de um
intervalo de valores. É gerada pelo processo de medição
Exemplos: pressão arterial, idade, salário, atraso de transmissão de bytes por uma
rede de internet.
Para resumir dados qualitativos, utiliza-se contagens, proporções, porcentagens, taxas por
1000, taxas por 1.000.000, etc, dependendo da escala apropriada. Por exemplo, se encontrar-
Estatística Descritiva 10
mos que 7 empresas com faturamento mensal acima de R$20.000,00 em uma amostra de 500
propriedades, poderíamos expressar isto como uma proporção (0,014) ou percentual (1,4%).
Freqüentemente o primeiro passo da descrição de dados é criar uma tabela de freqüências.
Antes de montar a tabela de distribuição de freqüências temos algumas definições:
• Freqüência - medida que quantifica a ocorrência dos valores de uma variável a um dado
conjunto de dados. As freqüências podem ser:
fa
fr =
n
f p = 100 × f r
Exemplo: Para adequar os produtos às preferências dos clientes, um provedor fez uma pes-
quisa sobre os provedores a qualidade dos serviços prestados utilizando uma amostra de 20
clientes, obtendo as seguintes variáveis:
Para resumir separadamente cada variável podemos utilizar a tabelas simples, que são na
maioria das vezes suficientes para descrever dados qualitativos especialmente quando existem
poucas categorias.
Para a variável sexo, podemos utilizar as freqüências apresentadas na tabela 2.2:
Para a variável qualidade no atendimento, além das freqüências utilizadas para a variável
sexo, podemos utilizar mais duas freqüências:
• Freqüência Percentual Acumulada (FP) - obtida pela soma das freqüências percentuais.
Dados qualitativos são usualmente bem ilustrados num simples gráfico de barras onde a altura
da barra é igual à freqüência. O gráfico na Figura 2.1 apresenta as freqüências percentuais da
Tabela 2.2.
Em alguns casos podemos estar interessados em resumir duas variáveis qualitativas ao mesmo
tempo, neste caso vamos estudar a relação entre duas variáveis qualitativas que pode ser repre-
sentada em uma tabulação cruzada. Nesta tabela conta-se quantos valores correspondem a cada
par de possíveis resultados, para as duas variáveis. O resultado pode ser apresentado como
freqüência absoluta ou relativa, em relação as colunas ou as linhas (nunca ambas).
O gráfico de barras, com barras justapostas de acordo com categorias diferentes, pode ser
usado para apresentar a relação entre duas variáveis qualitativas.
Da mesma forma que as variáveis qualitativas, podemos resumir dados quantitativos por
meio de tabelas de freqüências, entretanto a distinção entre as variáveis quantitativas discretas
e contínuas na forma de preparação destas tabelas.
A tabela de distribuição de freqüências de uma variável discreta é, em geral bastante seme-
lhante à das variáveis qualitativas ordinais, pois os valores inteiros que a variável assume podem
ser considerados como "categorias", ou "classes naturais".
Exemplo: Sejam dados referentes a um levantamento onde observou-se o numero de peças
defeituosas em 25 maquinas de uma empresas.
• Amplitude (A) - corresponde a diferença enter o maior valor e o menor valor de um conjunto
de dados;
• Amplitude da classe (c) - consiste na diferença entre o limite superior e o limite inferior de
uma classe em uma distribuição de freqüência.
• Decidir sobre o numero de classes k, entre 5 e 20. Para que a decisão não seja totalmente
arbitrária pode-se usar a raiz quadrada do total de valores como o número de classes, ou
√
seja, k ∼
= n
A
c=
k−1
c
LI1 = M in −
2
LS1 = LI1 + c
sendo que o limite inferior da segunda classe LI2 é igual ao LS1 , e assim
LS2 = LI2 + c
• Após a construção das classes, são contados quantos dados estão contidos em cada classe
e se obtem as freqüências.
Tabela 2.7: Dados ordenados, relativos ao tempo em segundos para carga de um aplicativo num
sistema compartilhado (30 observações).
6,94 7,27 7,46 7,97 8,03 8,37
8,56 8,66 8,88 8,95 9,30 9,33
9,55 9,76 9,80 9,82 9,98 9,99
10,14 10,19 10,42 10,44 10,66 10,88
10,88 11,16 11,80 11,88 12,25 12,34
√
k = 30 = 5, 47 ≈ 5
A = M ax − M in = 12, 34 − 6, 94 = 5, 40
A 5, 40
c = = = 1, 35
k−1 4
c 1, 35
LI1 = M in − = 6, 94 − = 6, 94 − 0, 67 = 6, 27
2 2
fr
df a =
c
Figura 2.4: Histograma e Polígono de freqüências do relativa ao tempo em segundos para carga
de um aplicativo num sistema compartilhado
O primeiro ponto da ogiva é formado pelo limite inferior da primeira classe e o valor zero,
indicando que abaixo do limite inferior da primeira classe não existem observações. Daí por
diante, são usados os limites superiores das classes e suas respectivas freqüências acumuladas,
até a última classe, que acumula todas as observações. Assim, uma ogiva deve começar no valor
zero e, se for construída com as freqüências relativas acumuladas, terminar com o valor 100.
Figura 2.5: Ogiva para o tempo em segundos para carga de um aplicativo num sistema compar-
tilhado
Estatística Descritiva 17
N
X
xi
i=1
µ=
N
A média calculada dos dados originais e dados agrupados podem ser diferentes, devido ao
erro de agrupamento. O erro de agrupamento é obtido fazendo a diferença entre o valor obtido
pelos dados originais e o valor obtido pelos dados agrupados.
Exemplo: O tempo de vida útil (em horas) de uma amostra de 6 lâmpadas incadescentes é:
612, 983, 623, 883, 666 , 970. A média amostral do tempo de vida é dado por:
n
X
xi
i=1 612 + 983 + 623 + 883 + 666 + 970 4737
X= = = = 789, 5
n 6 6
1. Adição ou Subtração por uma constanteSeja (X1 , X2 , X3 , ..., Xn ) uma amostra aleatória de
tamanho n, k uma constante e X a média da amostra. Se somarmos ou subtrairmos todos
os valores de uma variável X pela constante k, o valor de X MÉDIA fica multiplicada ou
Estatística Descritiva 18
Utilizando a propriedade,
∗
X = X + k = 789, 5 + 2 = 791, 5
Utilizando a propriedade,
∗
X = kX = 2 × 789, 5 = 1579
Amostra X Desvio
612 789,5 -177,5
983 789,5 193,5
623 789,5 -166,5
883 789,5 93,5
666 789,5 -123,5
970 789,5 180,5
soma dos desvios 0
2.4.2 Mediana
Num conjunto de dados ordenados, a mediana (Md ) é o valor que deixa metade da freqüência
abaixo dele. A mediana, como a média, possui a mesma unidade de cada observação.
A mediana pode ser obtida por meio da expressão:
X n+1 se n for ímpar
2
Md =
X n2 +X n+2
2
2
se n for par
Logo a Mediana é igual ao elemento que está na quarta posição do conjunto de dados, assim
Md = 9
3+4
Md = = 3, 5
2
2.4.3 Moda
• Média
• Mediana
• Moda
Estatística Descritiva 21
2.4.5 Simetria
A determinação das medidas de posição permite discutir sobre a simetria da distribuição dos
dados.
• Distribuição simétrica - X = Md = Mo
2.4.6 Separatrizes
Além das medidas de posição que estudamos, há outras que, consideradas individualmente,
não são medidas de tendência central, mas estão ligadas à mediana relativamente à sua carac-
terística de separar a série em duas partes que apresentam o mesmo número de valores. Essas
medidas - os quartis, os decis e os percentis - são, juntamente com a mediana, conhecidas pelo
nome genérico de separatrizes.
2.4.6.1 Quartis
Denominamos quartis os valores de uma série que a dividem em quatro partes iguais.
• n = número de observações;
2+5
Q1 = = 4, 5
2
2o quartil
2×7
EQ2 = = 3, 5
4
Logo o quartil 2 está entre o 3o e o 4o elemento (3o antecede 3,5o e 4o é posterior a ele.). Assim,
o 2o quartil será dado pela média entre os 3o e o 4o elemento.
6+9
Q2 = = 10, 5
2
3o quartil
3×7
EQ3 = = 5, 25
4
Logo o quartil 3 está entre o 5o e o 6o elemento (5o antecede 5,25o e 6o é posterior a ele.). Assim,
o 3o quartil será dado pela média entre os 5o e o 6o elemento.
10 + 13
Q2 = = 16, 5
2
O elemento que definirá a ordem do percentil será encontrado pelo emprego da expressão:
in
EP i =
100
em que:
• P25 = Q1
• P50 = Q2 = M d
• P75 = Q3
7+9
P90 = =8
2
2.4.7.1 Média
em que
• f ai é o freqüência absoluta de xi
A média calculada dos dados originais e dados agrupados podem ser diferentes, devido ao
erro de agrupamento. O erro de agrupamento é obtido fazendo a diferença entre o valor obtido
pelos dados originais e o valor obtido pelos dados agrupados.
2.4.7.2 Mediana
n1
Md = LIi + c
n2
em que:
2.4.7.3 Moda
∆1
Mo = LIi + c
∆1 + ∆2
2.4.7.4 Quartil
in
EQi =
4
n1
Qi = LIi + c
n2
em que:
2.4.7.5 Percentil
in
EPi =
100
n1
Pi = LIi + c
n2
em que:
• LIi é o limite inferior da classe percentílica
2.4.7.6 Exemplo
Tabela 2.9: Dados ordenados, relativos ao tempo em segundos para carga de um aplicativo num
sistema compartilhado (30 observações).
6,94 7,27 7,46 7,97 8,03 8,37
8,56 8,66 8,88 8,95 9,30 9,33
9,55 9,76 9,80 9,82 9,98 9,99
10,14 10,19 10,42 10,44 10,66 10,88
10,88 11,16 11,80 11,88 12,25 12,34
Assim,
n
X
f ai xi
290, 55
X= i=1
n = = 9, 685 ∼
= 9, 68
X 30
f ai
i=1
n 30
= = 15
2 2
Estatística Descritiva 26
Assim a classe mediana é a que contém a freqüência acumulada 15, ou seja é a classe 8, 97 ` 10, 32.
Então temos:
• LIi = 8, 97
• c=1,35
• n1 = 15 − 10 = 5
• n2 = 10
n1 5
Md = LIi + c = 8, 97 + 1, 35 = 8, 97 + 0, 67 = 9, 64
n2 10
∆1
Mo = LIi + c
∆1 + ∆2
• LIi = 8, 97;
• c = 1, 35;
• ∆1 = 10 − 7 = 3;
• ∆2 = 10 − 6 = 4
∆1 3
Mo = LIi + c = 8, 97 + 1, 35 = 8, 97 + 0, 58 = 9, 55
∆1 + ∆ 2 3+4
2.5 BOXPLOT
O gráfico Boxplot (ou desenho esquemático) é uma análise gráfica que oferece a ideia da
posição, dispersão, assimetria, caudas e dados discrepantes. Para construí-lo, desenhamos uma
"caixa"com o nível superior dado pelo terceiro quartil (Q3 ) e o nível inferior pelo primeiro quartil
Estatística Descritiva 27
(Q1 ). A mediana (Q2 ) é representada por um traço no interior da caixa e segmentos de reta são
colocados da caixa até dos limites inferior (LI) e superior (LS), dados por
LI = Q1 − 1.5dq
LS = Q3 + 1.5dq
• Contruir um retângulo de tal maneira que suas bases têm alturas correspondentes aos
primeiro e terceiro quartis da distribuição.
• Traçar um segmento paralelo ao eixo, partindo do ponto médio da base superior do retân-
gulo até o maior valor observado que NÃO supere LS;
• Traçar um segmento paralelo ao eixo, partindo do ponto médio da base inferior do retân-
gulo, até o menor valor que NÃO é menor LI;
• Case tenha valores que superior a LS ou inferior a LI, marcar os pontos, este valores são
considerados observações discrepantes.
M d = 9, 81
Q1 = 8, 71
Q3 = 10, 61
dq = 10, 61 − 8, 71 = 1, 9
LI = 8, 71 − 1, 5 × 1, 9 = 5, 86
LS = 10, 61 + 1, 5 × 1, 9 = 13, 46
Estatística Descritiva 28
Figura 2.6: Boxplot para o tempo em segundos para carga de um aplicativo num sistema com-
partilhado
Estatística Descritiva 29
As medidas de posição são importantes para caracterizar um conjunto de dados, mas não
são suficientes para caracterizar completamente a distribuição dos dados. Para isso é necessário
obter as medidas de dispersão, que medem a variabilidade dos dados.
Por exemplo: Considere as amostras referentes a altura, em cm, de dois grupos de pessoas.
Grupo A: 185 185 185
Grupo B: 187 183 185
A média para os dois grupos é a mesma X A = 185 e X B = 185.
Os 2 conjuntos não diferem entre si e consideramos somente a média, pois se basearmos
somente por essa medida os dois grupos são considerados como de mesma altura. Entretanto o
grupo A tem todas as observações iguais a média. Já no grupo B ocorre uma certa dispersão nos
dados.
As medidas de variabilidade ou dispersão possibilitam que façamos distinção entre os con-
juntos quanto à sua homogeneidade, isto é, o grau de concentração em torno de uma medida de
tendência central.
Amplitude Total (A) é a diferença entre o maior e o menor valor da amostra. Essa medida é
bastante simples, e obtida pela expressão:
A = M ax − M in
Para dados agrupados a amplitude total é a diferença entre o ponto médio da última e da
primeira classe.
Para expressar variabilidade a amplitude total não é muito usada, pois baseia-se em apenas
dois dados.
A variância é baseada pela quadrado dos desvios dos dados em relação à média. Esta medida
é expressa na unidade dos dados ao quadrado.
N
X
(xi − µ)2
i=1
σ2 =
N
k
X
(xi − µ)2 f ai
i=1
σ2 = k
X
f ai
i=1
O desvio padrão é a raíz quadrada positiva da variância. Esta medida é expressa na mesma
unidade dos dados.
Nota:
• É importante notar que, se os dados representarem uma amostra e não toda a população,
a expressão matemática da variância deve ter (n − 1) no denominador em substituição ao
fator n, esta mudança é chamada de fator de correção de Bessel ou conforme os estatísticos,
número de graus de liberdade. Dessa forma temos a variância da amostra.
Estatística Descritiva 31
A variância apresenta um conjunto vasto de propriedades, todas elas, sem dúvida, de grande
utilidade no cálculo do seu valor.
Xi∗ = Xi + k
∗
X = X +k
n
∗ 2
X
Xi∗ − X
∗ i=1
S2 =
n−1
n
X 2
Xi + k − (X + k)
i=1
=
n−1
n
X 2
Xi + k − X − k
i=1
=
n−1
n
X 2
Xi − X
i=1
=
n−1
= S2
Estatística Descritiva 32
3. Multiplicando-se todos os dados por uma constante k, a variância fica multiplicada por k 2 .
Xi∗ = kXi
∗
X = kX
n
∗ 2
X
Xi∗ − X
∗ i=1
S2 =
n−1
n
X 2
kXi − kX
i=1
=
n−1
n
X 2
k Xi − X
i=1
=
n−1
n
X 2
k 2 Xi − X
i=1
=
n−1
2 2
= k S
Xi∗ = Xi + k
∗
S2 = S2
√
S = S2
2. Multiplicando-se todos os dados por uma constante k, a variância fica multiplicada por k 2 .
Xi∗ = kXi
∗
S2 = k2 S 2
√
S = k 2 S 2 = kS
O coeficiente de variação (CV ) é uma medida de dispersão que expressa o desvio padrão em
termos da média de forma percentual
S
CV = 100
X
Se as amostras tiverem unidade diferentes ou médias diferentes o CV pode ser utilizado para
comparar a variabilidade entre duas amostras.
Estatística Descritiva 33
O erro padrão da média é uma medida de dispersão que dá a precisão com que a média
populacional está sendo estimada. É obtido pela fórmula
S
S(X) = √
n
em que:
• n é o tamanho da amostra.
2.7 EXEMPLOS
A amplitude total
A = M ax − M in = 8 − 1 = 7
O desvio padrão
√
3, 04 = 1, 7435595 ∼
p
S= S2 = =2
O coeficiente de variação
S 2
CV = 100 = 100 = 50%
X 4
O erro padrão da médio
S 2
S(X) = √ = √ = 0, 4
n 25
A = M ax − M in = 12, 34 − 6, 94 = 5, 40
Estatística Descritiva 34
Tabela 2.12: Resumo da distribuição de freqüências, relativa ao tempo em segundos para carga
de um aplicativo num sistema compartilhado (30 observações)
Classes x Frequencia x − X (x − X)f a
Absoluta
(fa)
6,27 ` 7,62 6,94 3 7,5076 22,5228
7,62 ` 8,97 8,29 7 1,9321 13,5247
8,97 ` 10,32 9,64 10 0,0016 0,016
10,32 ` 11,67 10,99 6 1,7161 10,2966
11,67 ` 13,02 12,34 4 7,0756 28,3024
Total 30 74,6625
O desvio padrão
√
2, 5746 = 1, 604556 ∼
p
S= S2 = = 1, 60
O coeficiente de variação
S 1, 60
CV = 100 = 100 = 16, 53%
X 9, 68
NOÇÕES DE PROBABILIDADE
Já vimos que para se obter informações sobre alguma característica da população, podemos
utilizar uma amostra. Estudaremos agora a probabilidade, que é uma ferramenta usada e neces-
sária para se fazer ligações entre a amostra e a população, de modo que a partir de informações
da amostra se possa fazer afirmações sobre características da população.
As probabilidades são utilizadas para exprimir a chance de ocorrência de determinado evento.
O estudo das probabilidades é importante pois elas são a base para o estudo estatístico
A teoria de probabilidades tem por objetivo o estudo de fenômenos aleatórios. Um fenômeno
é chamado de aleatório se ele tem a seguinte propriedade: quando observado repetidamente sob
as mesmas condições ele produz resultados diferentes. Mesmo que a chance da ocorrência seja
alta, os resultados não são conhecidos antes de ocorrer, mas de certa forma, mantém uma certa
regularidade, o que permite determinar a chance de ocorrência; a Probabilidade.
Exemplos:
Ω = {1, 2, 3, 4, 5, 6}
Dois eventos A e B são mutuamente exclusivos ou disjuntos se eles não podem ocorrer simul-
taneamente A ∩ B = ∅.
3.2 PROBABILIDADE
n 3 1
P (A) = = = = 0, 5 = 50%
N 6 2
P (Ω) = 1; P (∅) = 0
• Domínio da Probabilidade
0 ≤ P (A) ≤ 1
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
5
P (A ∪ B) = = 0, 83 = 83%
6
3 4 2 5
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = + − = = 0, 83 = 83%
6 6 6 6
em que A ∩ B = {4, 6}
• Probabilidade complementar
P (Ac ) = 1 − P (A)
No exemplo do lançamento de um dado seja o evento A = {3, 4, 5, 6}, então Ac = {1, 2},
logo
4 2
P (A) = e P (Ac ) =
6 6
utilizando a regra da probabilidade complementar teriamos:
4 6−4 2
P (Ac ) = 1 − P (A) = 1 − = =
6 6 6
Noções de Probabilidade 38
P (A ∩ B)
P (A|B) = , P (B) 6= 0.
P (B)
Isso significa que a probabilidade de A ocorrer, dado que B ocorreu, é igual à probabilidade
de ocorrência simultânea de A e B dividida pela probabilidade de ocorrência de B.
Exemplo: Na tabela a seguir temos dados referentes a alunos matriculados em três cursos de
uma universidade em dado ano.
40
P (H ∩ Adm) = = 0, 2285
175
P (P si ∩ M )
P (P si|M ) =
P (M )
10
175 10 175 10
= 100 = = = 0, 10
175
175 100 100
Das expressões acima resulta a regra do produto, que se refere ao cálculo da probabilidade
do evento interseção,
P (A ∩ B) = P (A|B).P (B)
A ordem do condicionamento pode ser invertida. Para três eventos, por exemplo, pode-se
escrever:
A contrução de uma árvore de probabilidade fornece uma ferramenta muito útil para a
solução de problemas envolvendo duas ou mais etapas. A árvore consiste em uma representação
gráfica na qual diversas possibilidades são representadas, juntamente com as respectivas proba-
bilidades condicionadas a cada situação. Isso permite, pela utilização direta da regra do produto
das probabilidades, associar a cada nó terminal da árvore a respectiva probabilidade.
O uso das árvores de probabilidade ajudam e simplificam o entendimento da aplicação de
dois teoremas que serão apresentados a seguir, conforme será visto no exemplo.
Exemplo: Em certo colégio, 5% dos homens e 2% das mulheres têm mais de 1,80m de altura.
Por outro lado, 40% dos estudantes são homens. Sorteando-se um estudante aleatoriamente,
qual a probabilidade de:
Variável Aleatória - variável descritora de populações, cujos valores são associados a proba-
bilidades de ocorrência.
Exemplo: Um estudante é submetido a três questões de múltipla escolha, em cada questão
tinha cinco alternativas. Logo a chance de acerta uma questão no chute é 20%
1
• Correto (C) - P (C) = 20% = 5
4
• Errado (E) - P (E) = 80% = 5
Supondo que sua variável aleatória é acertar a questão, temos que o ocorrência no espaço
amostral pode ser:
CCC CCE CEC CEE ECC ECE EEC EEE
Ω= , , , , , , ,
3 2 2 1 2 1 1 0
111 1
P (CCC) = =
555 125
114 4
P (CCE) = =
555 125
141 4
P (CEC) = =
555 125
144 16
P (CEE) = =
555 125
411 4
P (ECC) = =
555 125
414 16
P (ECE) = =
555 125
441 16
P (EEC) = =
555 125
444 64
P (EEE) = =
555 125
Pode-se construir uma tabela, em que X é o número de questões corretas e f(x) é a probabi-
lidade de ocorrer o resultado X.
x 0 1 2 3
f(x) 64/125 48/125 12/125 1/125
Nesta tabela X assume os valores (X = 0, 1, 2, 3) que são valores numéricos que descrevem
os resultados da experiência, logo os valores de X são de uma variável aleatória.
Uma função que transforma em resultados de um espaço amostral em números reais, chama-se
variável aleatória.
É uma função f (x) que associa a cada valor x da variável aleatória a sua respectiva proba-
bilidade. Esta função deve atender duas condições:
1. f (x) ≥ 0;
X
2. f (x) = 1
Noções de Probabilidade 42
x 0 1 2 3
f(x) 64/125 48/125 12/125 1/125
1. f (x) ≥ 0;
f (x) ou P (x) ou P (X = x)
Outra forma de representar uma distribuição de probabilidade de uma variável aleaória é por
meio de sua função de distribuição acumulado, que é definida por
n
X
F (x) = P (X ≤ x) = P (X = xi )
i=1
x 0 1 2 3
f(x) 64/125 48/125 12/125 1/125
x 0 1 2 3
F(x) 64/125 112/125 124/125 125/125
Definição: Seja X uma V.A.D., com valores possíveis x1, x2, ..., xn; Seja P (xi ) = P (X =
xi ), i = 1, 2, ..., n. Então, o valor esperado de X (ou Esperança Matemática de X), denotado por
E(X) é definido como
∞
X
E(X) = xi P (xi )
i=1
2 , da
Definição: Seja X uma V.A.D. . Define-se a variância de X, denotada por V (X) ou σX
seguinte maneira:
∞
X
V (X) = (xi − E(X))2 P (xi ) = ou V (X) = E(X 2 ) − (E(X))2
i=1
4
X 64 48 12 1 48 24 3
E(X) = xi P (xi ) = 0 +1 +2 +3 =0+ + + = 0, 60
125 125 125 125 125 125 125
i=1
4
X 64 48 12 1
V (x) = (xi − E(X))2 P (xi ) = (0 − 0, 60)2 + (1 − 0, 60)2 + (2 − 0, 60)2 + (3 − 0, 60)2
125 125 125 125
i=1
64 48 12 1
= 0, 36 + 0, 16 + 1, 96 + 5, 76
125 125 125 125
23, 04 7, 68 23, 52 5, 76 60
= + + + = = 0, 48
125 125 125 125 125
V (X) = E(X 2 ) − (E(X))2
4
X 64 48 12 1 64 48 12 1
E(X 2 ) = x2i P (xi ) = 02 + 12 + 22 + 32 =0 +1 +4 +9
125 125 125 125 125 125 125 125
i=1
48 48 9 105
= 0+ + + = = 0, 84
125 125 125 125
V (X) = 0, 84 − (0, 60)2 = 0, 84 − 0, 36 = 0, 48
1. f (x) ≥ 0 ∀x ∈ R
Z
2. f (x)dx = 1
R
Noções de Probabilidade 44
No casa das variáveis contínuas a função de distribuição acumulada, que é definida por
Z x
F (x) = P (X ≤ x) = f (x)dx
−∞
Ex.: O tempo gasto, em minutos, por um estudante para responder a uma questão de um
teste é uma variável aleatória contínua com função dada por
(
x
4 para 1 ≤ x ≤ 3
f (x) =
0 para outros valores
1. f (x) ≥ 0 ∀x ∈ R
∞ ∞ 3 3 3
1 x2 32 12
Z Z Z Z
x x 1 1 1 9 1 18
f (x)dx = dx = dx = xdx = = − = − = =1
−∞ −∞ 4 1 4 4 1 4 2 1 4 2 2 4 2 2 42
Noções de Probabilidade 45
Definição: Seja X uma V.A. continua, com fdp f (x). Então, o valor esperado de X (ou
Esperança Matemática de X), denotado por E(X) é definido como
Z ∞
E(X) = xf (x)dx
−∞
em que Z ∞
2
E(X ) = x2 f (x)dx
−∞
A distribuição discreta descreve quantidades aleatórias (dados de interesse) que podem as-
sumir valores particulares e os valores são finitos. Por exemplo, uma variável aleatória discreta
pode assumir somente os valores 0 e 1, ou qualquer inteiro não negativo, etc.
Exemplos
1. Lança-se uma moeda 10 vezes e anota-se o número de caras. Este número pode ser 0, 1, 2
...10.
2. Em uma pesquisa de mercado feita com 200 pessoas, perguntam-se estes compram um
determinado produto. O número de pessoas que compram o produto varia de 0 a 200.
3. Conta-se o número de acidentes que ocorrem em uma rodovia num feriado prolongado. O
número de acidentes em questão pode ser: 0, 1, 2... Como não temos um valor que limite
esse número, supomos que o número de acidentes é qualquer inteiro não negativo.
Existem várias distribuições discretas ou modelos probabilísticos discretos que podem ser
usados em diversas situações práticas. O problema é determinar qual modelo é mais adequado
para a situação em estudo, e como aplicá-lo adequadamente.
É a mais simples das distribuições discretas e recebe o nome de uniforme porque todos os
valores da variável aleatória são assumidos com a mesma probabilidade.
Exemplo o lançamento de um dado não viciado, definindo como X, a variável aleatória que
representa a face voltada para cima, X assume os valores x = 1, 2, 3, 4, 5, 6 com a mesma proba-
bilidade 1/6.
A distribuição uniforme neste caso é dada por
1
f (x) = para x = 1, 2, 3, 4, 5, 6
6
1
f (x) = para x = x1 , x2 , x3 , ..., xk
k
k numero de termos.
Verifica-se então que f (x) depende de k.
1. Média µ = k+1
2
6+1
No exemplo dos dados µ = 2 = 3, 5
2
2. Variância σ 2 = k 12−1
62 −1
No exemplo dos alérgicos sigma2 == 12 = 2, 92 s
Noções de Probabilidade 47
Na prática existem muitos experimentos que admitem apenas dois resultados. Exemplos:
Situações com alternativas dicotômicas podem ser representadas genericamente por respostas
do tipo sucesso-fracasso.
Esses experimentos recebem o nome de ensaio de Bernoulli e originam uma variável alea-
tória com distribuição Bernoulli. Neste caso, consideramos uma experiência com dois possíveis
resultados
• Sucesso → P (sucesso) = p;
• Fracasso → P (f racasso) = q.
Temos que:
1. Média µ = p
6+1
No exemplo dos dados µ = 2 = 3, 5
2. Variância σ 2 = pq
62 −1
No exemplo dos alérgicos sigma2 == 12 = 2, 92 s
Na maior parte das vezes, são realizados n ensaios de Bernoulli. O interesse está no número
X de ocorrências de sucessos.
Exemplos:
2. numa linha de produção, observar dez itens, e verificar quantos são defeituosos;
3. verificar, num dado instante, o número de processadores ativos, num sistema com multi-
processadores;
3. para o qual a probabilidade de sucesso em cada ensaio é sempre igual a p, 0 < p < 1
P (X = x) = Cxn px q n−x
1. x = 0 homem
2. x = 2 homens
Exemplo: Lançada oito moedas (ou uma moeda oito vezes), qual a chance de obter
• Três caras?
A variável aleatória x neste caso é o número de caras obtidos no lançamento, logo neste caso
o sucesso sair cara nas moedas lançadas. Assim temos:
1
n = 8, p = = 0, 5 q = 1 − q = 1 − 0, 5 = 0, 5
2
A função de probabilidade
f (x) = Cxn px q n−x
P [X = 3] = C38 p3 q 8−3
8!
= (0, 5)3 (0, 5)5
3! (8 − 3)!
= 56 × 0, 125 × 0, 03125 = 0, 2187 ou 21, 87%
P [X ≤ 3] = P [X = 0] + P [X = 1] + P [X = 2] + P [X = 3]
P [X = 0] = C08 p0 q 8−0 = 0, 0039
P [X = 1] = C18 p1 q 8−1 = 0, 0313
P [X = 2] = C28 p2 q 8−2 = 0, 1094
P [X = 3] = 0, 2187
P [X ≤ 3] = 0, 0039 + 0, 0313 + 0, 1094 + 0, 2187 = 0, 3633 ou 36, 33%
P [X ≥ 4] = P [X = 4] + P [X = 5] + P [X = 6] + P [X = 7] + P [X = 8]
ou
P [X ≥ 4] = 1 − P [X < 4] = 1 − (P [X = 0] + P [X = 1] + P [X = 2] + P [X = 3])
= 1 − 0, 3633 = 0, 6367 ou 63, 67%
1. Média µ = np
2. Variância σ 2 = npq
√
3. Desvio Padrão σ = npq
1. Média µ = np = 8 × 0, 5 = 4
Noções de Probabilidade 50
2. Variância σ 2 = 8 × 0, 5 × 0, 5 = 2
√ √
3. Desvio Padrão σ = npq = 2 = 1, 41
2. Cada indivíduo é classificado como sucesso (p) ou fracassos (q) e há M sucessos na popu-
lação.
3. É selecionada uma amostra sem reposição de n indivíduos de forma que cada subconjunto
de tamanho n seja igualmente provável de ser escolhido.
(N −k)
Cxk C(n−x) ,
f (x) = x = 0, 1, 2, 3, ....
CnN
em que:
• N quantidade de itens;
• n tamanho da amostra;
• k numero de sucessos;
Exemplo: Pequenos motores elétricos são expedidos em lotes de 50 unidades. Antes que
uma remessa seja aprovada, um inspetor escolhe 5 desses motores e os inspeciona. Se nenhum
dos motores inspecionados for defeituoso, o lote é aprovado. Se um ou mais forem verificados
defeituosos, todos os motores da remessa são inspecionados. Suponha que existam, de fato,
três motores defeituosos no lote. Qual a probabilidade de que a inspeção de todo o lote seja
necessária?
Se fizermos igual a X o numero de motores defeituosos encontrados, inspeção de todo o lote
seja necessária se X ≥ 1
Noções de Probabilidade 51
(N −k)
Cxk C(n−x) ,
P [X = x] =
CnN
P [X ≥ 1] = 1 − P [X < 1] = 1 − P [X = 0])
(50−3)
C03 C(5−0) ,
C03 C547 ,
P [X = 0] = = = = 0, 7239
C550 C550
P [X ≥ 1] = 1 − 0, 7239 = 0, 2761
n
Quando se tem N < 0, 1, pode-se utilizar a distribuição binomial para aproximar a distribui-
ção hipergeométrica.
• numero de vezes que uma pessoa estaciona num certo local proibido até apanhar uma
multa;
f (x) = pq x x = 0, 1, 2, 3, ....
em que:
• p probabilidade de sucesso;
• q probabilidade de fracasso.
P [X = x] = pq x
P [X ≥ 2] = 1 − P [X < 2] = 1 − (P [X = 0] + P [X = 1])
P [X = 0] = (0, 05)(0, 95)0 = 0, 05
P [X = 1] = (0, 05)(0, 95)1 = 0, 0475
P [X ≥ 2] = 1 − (0, 05 + 0, 0475) = 1 − 0, 0975
λx
f (x) = e−λ , x = 0, 1, 2, 3, ....
x!
em que:
Exemplo: O número médio de dias por ano que ocorrem chuvas acima de 50mm.h−1 em uma
determinada região é 1,5. Qual a probabilidade de haver mais de dois dias com chuvas acima
dessa intensidade.
λx
P [X = x] = e−λ
x!
P [X > 2] = 1 − P [X ≤ 2] = 1 − (P [X = 0] + P [X = 1] + P [X = 2])
1, 50
P [X = 0] = = e−1,5 = 0, 2231
0!
1, 51
P [X = 1] = = e−1,5 = 0, 3347
1!
1, 52
P [X = 2] = = e−1,5 = 0, 2510
2!
P [X > 2] = 1 − (0, 2231 + 0, 3347 + 2510) = 1 − 0, 8088 = 0, 1912 ou 19, 12%
A distribuição de Poisson também é conhecida na prática com lei dos eventos raros. Evento
raro pode ser considerado quando n ≥ 50 e p ≤ 0, 10.Nestes casos podemos utilizar a distribuição
de Poisson para probabilidades de situações que seriam utilizadas uma distribuição binomial.
Exemplo: A probabilidade de que um indivíduo apresente reação alérgica após a aplicação
de um soro é de 0,002. Esse mesmo soro foi aplicado a um grupo de 1800 pessoas, qual a
probabilidade de que duas pessoas apresentem reação alérgica? n=1800 p=0,002
λ = 1800 × 0, 002 = 3, 6 alérgicos
λx
P [X = x] = e−λ
x!
3, 62
P [X = 2] = = e−3,6 0, 1770ou 17, 70%
2!
1. Média µ = λ
No exemplo dos alérgicos µ = 3, 6
2. Variância σ 2 = λ
No exemplo dos alérgicos σ 2 = 3, 6 s
√
3. Desvio Padrão σ = λ
√
No exemplo da sementes σ = 3, 6 = 1, 9
Noções de Probabilidade 54
São distribuições de variáveis aleatórias contínuas. Uma variável aleatória contínua toma
um numero infinito não numerável de valores (intervalos de números reais), os quais podem ser
associados com medidas numa escala contínua. Exemplos:
1. Mede-se a altura de uma mulher em uma cidade. O valor encontrado é um número real.
Aqui também sabemos que esse número não passa de 3 metros, mas é conveniente considerar
qualquer numero real positivo.
2. Em um exame físico para selecionar um jogador de futebol é medido o peso de cada candi-
dato; aqui também consideramos que o resultado pode ser qualquer número real positivo.
4. Para pacientes que se apresentam num hospital a primeira atitude é medir-se a temperatura;
o valor da temperatura é um número real que se pode considerar compreendido entre 35o
e 42o C.
As variáveis continuas ficam completamente definidas por qualquer uma das seguintes funções
• Função densidade de probabilidade f (x) - definida para todo o x em que a variável está
definida.
F (x) = P (X ≤ x)
em que:
Área de um retângulo
A = B.h
1
= (b − a)
b−a
A = 1
Exemplo. Se uma VAC assume qualquer valor no intervalo (−2, 3) com a mesma probabili-
dade, a distribuição uniforme tem a seguinte função de densidade:
(
1 1
3−(−2) = 5 para x ∈ (−2, 3)
f (x) =
0 para x 6∈ (−2, 3)
1 2
P (0 ≤ x ≤ 2) = b.h = 2. = = 0, 4
5 5
P (0 ≤ x ≤ 2) = F (2) − F (0)
2+2 4
F (2) = =
5 5
0+2 2
F (0) = =
5 5
4 2 2
P (0 ≤ x ≤ 2) = − = = 0, 4
5 5 5
1. O tempo para carregar um caminhão considerando que em média gasta-se 15 minutos para
realizar esta tarefa;
em que:
Noções de Probabilidade 57
Exemplo: Suponha que uma máquina falhe em média uma vez a cada dois anos. Calcule a
probabilidade da máquina falhar durante o próximo ano. Tempos λ = 12 = 0, 5, e X tempo para
falhar, temos P (X ≤ 1)
1
2. Variância σ 2 = λ2
(x − µ)2
1
f (x) = √ exp − , −∞ < x < ∞
2πσ 2 2σ 2
1. É simétrica em relação a µ;
2. O ponto máximo de f(x) ocorre em x = µ. Neste ponto as três medidas de posição (média,
moda e mediana) se confundem;
Devido a dificuldade de resolução dessa integral, procurou-se métodos alternativos para obten-
ção das probabilidades. Uma das formas mais utilizadas é por meio de tabela de probabilidades
de uma distribuição Normal padrão (Z).
Uma propriedade interessante de uma variável aleatória X que segue qualquer distribuição
Normal é a de que ela pode ser transformada em uma variável normal padrão Z, por meio da
expressão
x−µ
z=
σ
As áreas referentes à variável Z são geralmente tabeladas do tipo
P (0 < Z < z)
Exemplo: A produção diária de uma fabricante de tintas é uma variável aleatória X com
distribuição normal com média µ = 10000galões e variância σ 2 = 1000000galões2 . A direção
dessa fabrica quer criar um bônus de incentivo aos funcionários, que será pago se a produção
média diária exceder 11000galões. Qual a probabilidade da empresa pagar o bônus? Quero saber
√ √
P (X > 11000), primeiro vamos padronizar esta variável, sendo σ = σ 2 = 1000000 = 1000
Primeiro vamos padronizar esta variável
Assim,
P (X > 11000) = (Z > 1, 0)
Noções de Probabilidade 59
Como a tabela me fornece apenas o valor de que está entre 0 e z, então temos
Então
P (9000 < x < 9500) = P (−1 < z < −0, 5)
Como na tabela tem apenas valores positivos e a distribuição normal é simétrica temos que
P (0, 5 < z < 1, 0) = P (0 < z < 1, 0) − P (0 < z < 0, 5) = 0, 3413 − 0, 1915 = 0, 1498
Qual a probabilidade da empresa produzir entre 9500 e 11000 galões por dia. Utilizando as
padronizações já realizadas temos que
Assim,
P (−0, 5 < z < 1, 0) = P (0 < z < 1, 0) + P (0 < z < 0, 5) = 0, 3413 + 0, 1915 = 0, 5328
A distribuição normal pode ser utilizada como uma aproximação das distribuições Binomial e
de Poisson. Esta aproximação se torna cada vez melhor quando o tamanho da amostra n cresce.
Recomenda-se usar a aproximação normal, quando:
• Distribuição Binomial - se np e nq ≥ 5
• Distribuição Poisson - se np ≥ 5
Queremos P (X > 5), utilizando a correção de continuidade P (X > 5, 5). Vamos padronizar
x−µ 5, 5 − 9
z= = √ = −1, 39
σ 6, 3
Assim,
Exemplo: Numa lâmina verificou-se que existiam em média 27,6 bactérias/cm2. Qual a
probabilidade de se encontrar mais de 35 bactérias por centímetro quadrado?
Temos λ = 27, 6
Queremos P (X > 35), utilizando a correção de continuidade P (X > 35, 5). Vamos padroni-
zar
x−µ 35, 5 − 27, 6
z= = √ = 1, 50
σ 27, 6
Assim,
Tabela 3.2: Distribuição Normal - probabilidade do valor de z padronizado estar entre 0 e o valor
tabulado nas margens
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997
3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,8 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,9 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000
Noções de Probabilidade 63
Ao retirarmos uma amostra aleatória de uma população e calcularmos a partir desta amostra
qualquer quantidade, encontramos a estatística, ou seja, chamaremos os valores calculados em
função dos elementos da amostra de estatísticas.
• Se a população tem distribuição normal, então a média amostral terá uma distribuição
aproximadamente normal, independentemente da forma da distribuição de frequências da
população de onde foi retirada a amostra;
x−µ
z=
√σ
n
Exemplo: Uma industria elétrica fabrica lâmpadas que têm vida útil distribuída com média
de 800horas e variância igual 1600(horas)2 . Qual a probabilidade de uma amostra aleatória de
tamanho n = 64 ter vida útil superio a 806, 65horas
Temos que µ = 800 e σ 2 = 1600 e σ = 40, então µX = 800 e σX 2 = 1600 ,
64
Queremos P (X > 10, 0), primeiro vamos padronizar
Então:
P (X > 806, 65) = P (z > 1, 33) = 0, 5 − P (0 < z < 1, 33) = 0, 5 − 0, 4082 = 0, 0918
• Existe uma curva para cada tamanho de amostra (n) e o valor ν = n − 1 (número de graus
de liberdade) é usado para obtenção de valores na tabela;
Exemplo: Seja uma amostra n = 15. Qual é o valor de t acima do qual tem-se 5% de
probabilidade. α = 0, 05, ν = 15 − 1 = 14, pela tabela temos que t=1,761
Considere que uma população a proporção de elementos que portadores de certa característica
é p . Definindo uma variável aleatória, da seguinte maneira
(
1 se o indivíduo for portador da caractéristica
X=
0 se o indivíduo nãofor portador da caractéristica
Assim, pelo Teorema Limite Central, quando n é grande (n > 30), a proporção amostral p̂ de
sucessos em n ensaios de Bernoulli tem distribuição aproximadamente normal com média µ = p
e variância σ 2 = pq
n , e assim podemos utilizar a padronização:
p̂ − µ p̂ − p
z= = q
σ pq
n
exemplo:
Noções de Probabilidade 67
Há casos em que se está mais interessado na variância do que na média da amostra. Por
exemplo, em filas de espera. Mesmo conhecendo-se o tempo médio de espera, a informação do
grau de variabilidade deste tempo é importante. A distribuição usada neste caso é conhecida
como Distribuição Qui-Quadrado, definida como:
(n − 1)S 2
χ2 =
σ2
1
f (x) = xν/2−1 e−x/2 I{x≥0} ,
2ν/2 Γ(ν/2)
Da mesma forma que a distribuição t, existe uma curva para distribuição Qui-quadrado para
cada tamanho de amostra (n) e o valor ν = n − 1 (número de graus de liberdade) é usado para
obtenção de valores na tabela.
Exemplo: Uma amostra com n = 15. Qual o valor que deixa à sua direita 5% da área?
α = 0, 05, ν = 15 − 1 = 14, pela tabela temos que t=1,761
3.6.3.2 Distribuição F
S12 σ12
F =
S22 σ22
ν1 +ν2
ν1 ν21 ν1
−1
Γ 2 ν2 x 2
f (x) = ν1 +ν2
ν1
ν2
ν1 x 2
Γ 2 Γ 2 1+ ν2
Para se obter valores tabelados da distribuição F, é necessário observar dois graus de libera-
dade ν1 = n1 − 1 e ν2 = n2 − 1, o primeiro associado à variância amostral do numerador, e o
segundo associado à variância amostral do denominador.
A tabela de F informa o valor acima do qual se encontra a area α e existe uma tabela para
cada valor α e diferentes combinações de ν1 e ν2 .
Tabela 3.4: Disitruição Qui-quadrado - Valores de χ2 para P (χ2 > χ2c com α =
0, 995; 0, 9900, 975; 0, 950; 0, 900; 0, 750; 0, 500; 0, 250; 0, 100; 0, 050; 0, 025; 0, 010; 0, 005.
n α
0,995 0,990 0,975 0,950 0,900 0,750 0,500 0,250 0,100 0,050 0,025 0,010 0,005
1 3,93E-05 1,57E-04 0,001 0,004 0,016 0,102 0,455 1,323 2,706 3,841 5,024 6,635 7,879
2 0,010 0,020 0,051 0,103 0,211 0,575 1,386 2,773 4,605 5,991 7,378 9,210 10,597
3 0,072 0,115 0,216 0,352 0,584 1,213 2,366 4,108 6,251 7,815 9,348 11,345 12,838
4 0,207 0,297 0,484 0,711 1,064 1,923 3,357 5,385 7,779 9,488 11,143 13,277 14,860
5 0,412 0,554 0,831 1,145 1,610 2,675 4,351 6,626 9,236 11,070 12,832 15,086 16,750
6 0,676 0,872 1,237 1,635 2,204 3,455 5,348 7,841 10,645 12,592 14,449 16,812 18,548
7 0,989 1,239 1,690 2,167 2,833 4,255 6,346 9,037 12,017 14,067 16,013 18,475 20,278
8 1,344 1,647 2,180 2,733 3,490 5,071 7,344 10,219 13,362 15,507 17,535 20,090 21,955
9 1,735 2,088 2,700 3,325 4,168 5,899 8,343 11,389 14,684 16,919 19,023 21,666 23,589
10 2,156 2,558 3,247 3,940 4,865 6,737 9,342 12,549 15,987 18,307 20,483 23,209 25,188
11 2,603 3,053 3,816 4,575 5,578 7,584 10,341 13,701 17,275 19,675 21,920 24,725 26,757
12 3,074 3,571 4,404 5,226 6,304 8,438 11,340 14,845 18,549 21,026 23,337 26,217 28,300
13 3,565 4,107 5,009 5,892 7,041 9,299 12,340 15,984 19,812 22,362 24,736 27,688 29,819
14 4,075 4,660 5,629 6,571 7,790 10,165 13,339 17,117 21,064 23,685 26,119 29,141 31,319
15 4,601 5,229 6,262 7,261 8,547 11,037 14,339 18,245 22,307 24,996 27,488 30,578 32,801
16 5,142 5,812 6,908 7,962 9,312 11,912 15,338 19,369 23,542 26,296 28,845 32,000 34,267
17 5,697 6,408 7,564 8,672 10,085 12,792 16,338 20,489 24,769 27,587 30,191 33,409 35,718
18 6,265 7,015 8,231 9,390 10,865 13,675 17,338 21,605 25,989 28,869 31,526 34,805 37,156
19 6,844 7,633 8,907 10,117 11,651 14,562 18,338 22,718 27,204 30,144 32,852 36,191 38,582
20 7,434 8,260 9,591 10,851 12,443 15,452 19,337 23,828 28,412 31,410 34,170 37,566 39,997
21 8,034 8,897 10,283 11,591 13,240 16,344 20,337 24,935 29,615 32,671 35,479 38,932 41,401
22 8,643 9,542 10,982 12,338 14,041 17,240 21,337 26,039 30,813 33,924 36,781 40,289 42,796
23 9,260 10,196 11,689 13,091 14,848 18,137 22,337 27,141 32,007 35,172 38,076 41,638 44,181
24 9,886 10,856 12,401 13,848 15,659 19,037 23,337 28,241 33,196 36,415 39,364 42,980 45,558
25 10,520 11,524 13,120 14,611 16,473 19,939 24,337 29,339 34,382 37,652 40,646 44,314 46,928
26 11,160 12,198 13,844 15,379 17,292 20,843 25,336 30,435 35,563 38,885 41,923 45,642 48,290
27 11,808 12,878 14,573 16,151 18,114 21,749 26,336 31,528 36,741 40,113 43,195 46,963 49,645
28 12,461 13,565 15,308 16,928 18,939 22,657 27,336 32,620 37,916 41,337 44,461 48,278 50,994
29 13,121 14,256 16,047 17,708 19,768 23,567 28,336 33,711 39,087 42,557 45,722 49,588 52,335
30 13,787 14,953 16,791 18,493 20,599 24,478 29,336 34,800 40,256 43,773 46,979 50,892 53,672
40 20,707 22,164 24,433 26,509 29,051 33,660 39,335 45,616 51,805 55,758 59,342 63,691 66,766
50 27,991 29,707 32,357 34,764 37,689 42,942 49,335 56,334 63,167 67,505 71,420 76,154 79,490
60 35,534 37,485 40,482 43,188 46,459 52,294 59,335 66,981 74,397 79,082 83,298 88,379 91,952
70 43,275 45,442 48,758 51,739 55,329 61,698 69,334 77,577 85,527 90,531 95,023 100,425 104,215
80 51,172 53,540 57,153 60,391 64,278 71,145 79,334 88,130 96,578 101,879 106,629 112,329 116,321
90 59,196 61,754 65,647 69,126 73,291 80,625 89,334 98,650 107,565 113,145 118,136 124,116 128,299
100 67,328 70,065 74,222 77,929 82,358 90,133 99,334 109,141 118,498 124,342 129,561 135,807 140,170
Noções de Probabilidade 71
Tabela 3.5: Limites unilaterais de F ao nível de 10% de probabilidade com os graus de liberdade
ν1 e ν2
ν2 ν1
1 2 3 4 5 6 7 8 9 10 11
1 39,863 49,500 53,593 55,833 57,240 58,204 58,906 59,439 59,858 60,195 60,473
2 8,526 9,000 9,162 9,243 9,293 9,326 9,349 9,367 9,381 9,392 9,401
3 5,538 5,462 5,391 5,343 5,309 5,285 5,266 5,252 5,240 5,230 5,222
4 4,545 4,325 4,191 4,107 4,051 4,010 3,979 3,955 3,936 3,920 3,907
5 4,060 3,780 3,619 3,520 3,453 3,405 3,368 3,339 3,316 3,297 3,282
6 3,776 3,463 3,289 3,181 3,108 3,055 3,014 2,983 2,958 2,937 2,920
7 3,589 3,257 3,074 2,961 2,883 2,827 2,785 2,752 2,725 2,703 2,684
8 3,458 3,113 2,924 2,806 2,726 2,668 2,624 2,589 2,561 2,538 2,519
9 3,360 3,006 2,813 2,693 2,611 2,551 2,505 2,469 2,440 2,416 2,396
10 3,285 2,924 2,728 2,605 2,522 2,461 2,414 2,377 2,347 2,323 2,302
11 3,225 2,860 2,660 2,536 2,451 2,389 2,342 2,304 2,274 2,248 2,227
12 3,177 2,807 2,606 2,480 2,394 2,331 2,283 2,245 2,214 2,188 2,166
13 3,136 2,763 2,560 2,434 2,347 2,283 2,234 2,195 2,164 2,138 2,116
14 3,102 2,726 2,522 2,395 2,307 2,243 2,193 2,154 2,122 2,095 2,073
15 3,073 2,695 2,490 2,361 2,273 2,208 2,158 2,119 2,086 2,059 2,037
20 2,975 2,589 2,380 2,249 2,158 2,091 2,040 1,999 1,965 1,937 1,913
30 2,881 2,489 2,276 2,142 2,049 1,980 1,927 1,884 1,849 1,819 1,794
40 2,835 2,440 2,226 2,091 1,997 1,927 1,873 1,829 1,793 1,763 1,737
50 2,809 2,412 2,197 2,061 1,966 1,895 1,840 1,796 1,760 1,729 1,703
60 2,791 2,393 2,177 2,041 1,946 1,875 1,819 1,775 1,738 1,707 1,680
120 2,748 2,347 2,130 1,992 1,896 1,824 1,767 1,722 1,684 1,652 1,625
240 2,727 2,325 2,107 1,968 1,871 1,799 1,742 1,696 1,658 1,625 1,598
ν2 ν1
12 13 14 15 20 30 40 50 60 120 240
1 60,705 60,903 61,073 61,220 61,740 62,265 62,529 62,688 62,794 63,061 63,194
2 9,408 9,415 9,420 9,425 9,441 9,458 9,466 9,471 9,475 9,483 9,487
3 5,216 5,210 5,205 5,200 5,184 5,168 5,160 5,155 5,151 5,143 5,138
4 3,896 3,886 3,878 3,870 3,844 3,817 3,804 3,795 3,790 3,775 3,768
5 3,268 3,257 3,247 3,238 3,207 3,174 3,157 3,147 3,140 3,123 3,114
6 2,905 2,892 2,881 2,871 2,836 2,800 2,781 2,770 2,762 2,742 2,732
7 2,668 2,654 2,643 2,632 2,595 2,555 2,535 2,523 2,514 2,493 2,482
8 2,502 2,488 2,475 2,464 2,425 2,383 2,361 2,348 2,339 2,316 2,304
9 2,379 2,364 2,351 2,340 2,298 2,255 2,232 2,218 2,208 2,184 2,172
10 2,284 2,269 2,255 2,244 2,201 2,155 2,132 2,117 2,107 2,082 2,069
11 2,209 2,193 2,179 2,167 2,123 2,076 2,052 2,036 2,026 2,000 1,986
12 2,147 2,131 2,117 2,105 2,060 2,011 1,986 1,970 1,960 1,932 1,918
13 2,097 2,080 2,066 2,053 2,007 1,958 1,931 1,915 1,904 1,876 1,861
14 2,054 2,037 2,022 2,010 1,962 1,912 1,885 1,869 1,857 1,828 1,813
15 2,017 2,000 1,985 1,972 1,924 1,873 1,845 1,828 1,817 1,787 1,771
20 1,892 1,875 1,859 1,845 1,794 1,738 1,708 1,690 1,677 1,643 1,626
30 1,773 1,754 1,737 1,722 1,667 1,606 1,573 1,552 1,538 1,499 1,478
40 1,715 1,695 1,678 1,662 1,605 1,541 1,506 1,483 1,467 1,425 1,402
50 1,680 1,660 1,643 1,627 1,568 1,502 1,465 1,441 1,424 1,379 1,354
60 1,657 1,637 1,619 1,603 1,543 1,476 1,437 1,413 1,395 1,348 1,321
120 1,601 1,580 1,562 1,545 1,482 1,409 1,368 1,340 1,320 1,265 1,232
240 1,573 1,552 1,533 1,516 1,451 1,376 1,332 1,302 1,281 1,219 1,180
Noções de Probabilidade 72
Tabela 3.7: Limites unilaterais de F ao nível de 2,5% de probabilidade com os graus de liberdade
ν1 e ν2
ν2 ν1
1 2 3 4 5 6 7 8 9 10 11
1 647,789 799,500 864,163 899,583 921,848 937,111 948,217 956,656 963,285 968,627 973,025
2 38,506 39,000 39,165 39,248 39,298 39,331 39,355 39,373 39,387 39,398 39,407
3 17,443 16,044 15,439 15,101 14,885 14,735 14,624 14,540 14,473 14,419 14,374
4 12,218 10,649 9,979 9,605 9,364 9,197 9,074 8,980 8,905 8,844 8,794
5 10,007 8,434 7,764 7,388 7,146 6,978 6,853 6,757 6,681 6,619 6,568
6 8,813 7,260 6,599 6,227 5,988 5,820 5,695 5,600 5,523 5,461 5,410
7 8,073 6,542 5,890 5,523 5,285 5,119 4,995 4,899 4,823 4,761 4,709
8 7,571 6,059 5,416 5,053 4,817 4,652 4,529 4,433 4,357 4,295 4,243
9 7,209 5,715 5,078 4,718 4,484 4,320 4,197 4,102 4,026 3,964 3,912
10 6,937 5,456 4,826 4,468 4,236 4,072 3,950 3,855 3,779 3,717 3,665
11 6,724 5,256 4,630 4,275 4,044 3,881 3,759 3,664 3,588 3,526 3,474
12 6,554 5,096 4,474 4,121 3,891 3,728 3,607 3,512 3,436 3,374 3,321
13 6,414 4,965 4,347 3,996 3,767 3,604 3,483 3,388 3,312 3,250 3,197
14 6,298 4,857 4,242 3,892 3,663 3,501 3,380 3,285 3,209 3,147 3,095
15 6,200 4,765 4,153 3,804 3,576 3,415 3,293 3,199 3,123 3,060 3,008
20 5,871 4,461 3,859 3,515 3,289 3,128 3,007 2,913 2,837 2,774 2,721
30 5,568 4,182 3,589 3,250 3,026 2,867 2,746 2,651 2,575 2,511 2,458
40 5,424 4,051 3,463 3,126 2,904 2,744 2,624 2,529 2,452 2,388 2,334
50 5,340 3,975 3,390 3,054 2,833 2,674 2,553 2,458 2,381 2,317 2,263
60 5,286 3,925 3,343 3,008 2,786 2,627 2,507 2,412 2,334 2,270 2,216
120 5,152 3,805 3,227 2,894 2,674 2,515 2,395 2,299 2,222 2,157 2,102
240 5,088 3,746 3,171 2,839 2,620 2,461 2,341 2,245 2,167 2,102 2,047
ν2 ν1
12 13 14 15 20 30 40 50 60 120 24
1 976,708 979,837 982,528 984,867 993,103 1001,414 1005,598 1008,117 1009,800 1014,020 1016,
2 39,415 39,421 39,427 39,431 39,448 39,465 39,473 39,478 39,481 39,490 39,4
3 14,337 14,304 14,277 14,253 14,167 14,081 14,037 14,010 13,992 13,947 13,9
4 8,751 8,715 8,684 8,657 8,560 8,461 8,411 8,381 8,360 8,309 8,28
5 6,525 6,488 6,456 6,428 6,329 6,227 6,175 6,144 6,123 6,069 6,04
6 5,366 5,329 5,297 5,269 5,168 5,065 5,012 4,980 4,959 4,904 4,87
7 4,666 4,628 4,596 4,568 4,467 4,362 4,309 4,276 4,254 4,199 4,17
8 4,200 4,162 4,130 4,101 3,999 3,894 3,840 3,807 3,784 3,728 3,69
9 3,868 3,831 3,798 3,769 3,667 3,560 3,505 3,472 3,449 3,392 3,36
10 3,621 3,583 3,550 3,522 3,419 3,311 3,255 3,221 3,198 3,140 3,11
11 3,430 3,392 3,359 3,330 3,226 3,118 3,061 3,027 3,004 2,944 2,91
12 3,277 3,239 3,206 3,177 3,073 2,963 2,906 2,871 2,848 2,787 2,75
13 3,153 3,115 3,082 3,053 2,948 2,837 2,780 2,744 2,720 2,659 2,62
14 3,050 3,012 2,979 2,949 2,844 2,732 2,674 2,638 2,614 2,552 2,52
15 2,963 2,925 2,891 2,862 2,756 2,644 2,585 2,549 2,524 2,461 2,42
20 2,676 2,637 2,603 2,573 2,464 2,349 2,287 2,249 2,223 2,156 2,12
30 2,412 2,372 2,338 2,307 2,195 2,074 2,009 1,968 1,940 1,866 1,82
40 2,288 2,248 2,213 2,182 2,068 1,943 1,875 1,832 1,803 1,724 1,68
50 2,216 2,176 2,140 2,109 1,993 1,866 1,796 1,752 1,721 1,639 1,59
60 2,169 2,129 2,093 2,061 1,944 1,815 1,744 1,699 1,667 1,581 1,53
120 2,055 2,014 1,977 1,945 1,825 1,690 1,614 1,565 1,530 1,433 1,37
240 1,999 1,958 1,921 1,888 1,766 1,628 1,549 1,497 1,460 1,354 1,28
4
INFERÊNCIA ESTATÍSTICA
Vários tipos de estudos tem o objetivo de obter conclusões (fazer inferências) a respeito de
parâmetros de uma população. A impossibilidade de avaliar toda a população faz com que a
partir de amostras possamos obter estimativas daqueles parâmetros. A generalização da amos-
tra para a população é feita com o auxílio de um modelo estatístico para a situação em estudo,
estas generalizações estão sempre associadas um grau de incerteza e, consequentemente, uma
probabilidade de erro. A teoria da estimação preocupa-se com a obtenção do respectivo de um
estimador para um determinado parâmetro, com intuito de descrever o seu comportamento com
o menor erro possível.
Parâmetro: É uma constante (um número) que caracteriza uma população. Exemplo: média
populacional µ , variância populacional σ 2 , etc. Em geral, os parâmetros são desconhecidos.
Estimador: É uma expressão algébrica utilizada para obter um valor aproximado de um
parâmetro. Exemplo:
Xn
xi
i=1
X=
n
.
Estimativa: É o valor numérico de um estimador. É determinada usando os dados amostrais.
Exemplo: Mediante uma pesquisa queremos conhecer o tamanho médio dos estudantes uni-
versitários do Brasil.
• Estimador:
n
X
xi
i=1
X=
n
.
4.1 ESTIMAÇÃO
É um processo de indução, na qual usamos dados extraídos de uma amostra para produzir
inferência sobre a população. Esta inferência só será válida se a amostra for significativa.
Tipos de Estimações de Parâmetros
1. Estimação Pontual;
2. Estimação Intervalar
É usada quando a partir da amostra procura-se obter um único valor de certo parâmetro
populacional, ou seja, obter estimativas a partir dos valores amostrais.
A estimativas são os valores amostrais obtidos para a média, variância, proporção, etc. Os
valores de X, S 2 , S estimam, respectivamente µ, σ 2 e σ.
P (a ≤ µ ≤ b) = 1 − α
Dessa maneira α será o nível de significância, isto é, o erro que se estará cometendo ao afirmar
que o parâmetro está entre o limite inferior e o superior calculado.
Consideremos uma população cujos elementos podem ser classificados em dois tipos: Sucesso
e Insucesso. Pretende-se estimar a proporção p de sucessos na população.
Dada uma amostra de tamanho n, uma estimativa pontual de p da proporção de sucessos é
dada por
x
p̂ =
n
.
Pelo teorema do limite cental, quando n for suficientemente grande p̂ tem distribuição apro-
ximadamente normal, com média µp̂ = p e variância a σp̂2 = pq
n , em que:
p̂ − p
z= q
pq
n
Inferência Estatística 76
Fixando uma probabilidade de confiança (1−α) , o intervalo de confiança para uma proporção
pode ser obtido da seguinte forma:
r r !
p̂q̂ p̂q̂
P p̂ − z α2 ≤ p ≤ p̂ + z α2 =1−α
n n
r
p̂q̂
onde:z α é a margem de erro da proporção e z α2 é o valor da curva normal padrão acima
2 n
do qual encontramos uma área de α2 .
Exemplo: Uma empresa de pesquisa de mercado faz contato com 30 pessoas para saber a
satisfação a uma determinada marca de refrigerante, 12 delas respondem que gosta da referida
marca. Obtenha o intervalo de confiança de 95% para proporção de pessoas que gostam da
marca.
Nesse caso o sucesso é o gosto pela marca de refrigerante
x 12
p̂ = = = 0, 40
n 30
α 0, 05
1 − α = 0, 95 ⇒ α = 1 − 0, 95 = 0, 05 ⇒ = = 0, 025
2 2
Assim,
IC95% (µ) = [0, 32; 0, 48]
Exemplo: Um pesquisador obteve a partir de uma amostra uma média X = 180cm para altura
de uma determinado grupo de pessoas utilizando uma amostra n=40, sabe-se que a variância
Inferência Estatística 77
α 0, 10
1 − α = 0, 90 ⇒ α = 1 − 0, 90 = 0, 10 ⇒ = = 0, 05
2 2
Assim, temos que procurar na tabela qual o valor de Z que deixa 0, 05 de probabilidade acima
dele.
Olhando na tabela o valor em que P (0 < Z < z) = 0, 45, temos que z = 1, 65, logo o valor
Z α2 = 1, 65
σ σ
P X − Z α2 √ ≤ µ ≤ X + Z α2 √ =1−α
n n
√ √ !
200 200
P 180 − 1, 65 √ ≤ µ ≤ 180 + 1, 65 √ = 0, 90
40 40
P (176, 31 ≤ µ ≤ 183, 69) = 0, 90
α 0, 05
1 − α = 0, 95 ⇒ α = 1 − 0, 95 = 0, 05 ⇒ = = 0, 025
2 2
Assim,
IC95% (µ) = [178, 61; 187, 38]
Na prática quando não se conhece a média X também não se conhece a variância, nesse caso
utilizamos o intervalo de confiança:
S S
P X − t α2 √ ≤ µ ≤ X + t α2 √ =1−α
n n
Exemplo: Em uma determinada industria para verificar a qualidade dos rolamentos esféricos
produzidos foi tomado uma amostra ao acaso um lote de 15 peças, fornecendo um diâmetro
médio de 240cm com desvio padrão de 15cm . Encontre um intervalo de confiança de 95% para
o diâmetro.
Primeiramente temos que obter o valor tabelado de t, como queremos o intervalo de confiança
a 95%, temos que:
α 0, 05
1 − α = 0, 95 ⇒ α = 1 − 0, 95 = 0, 05 ⇒ = = 0, 025
2 2
Olhando na tabela o valor que deixa 0,025 de área acima com ν = 15 − 1 = 14, temos
t = 2, 145
α
2
S S
P X − t √ ≤ µ ≤ X + t2 √
α α =1−α
n2 n
15 15
P 240 − 2, 145 √ ≤ µ ≤ 180 + 2, 145 √ = 0, 95
15 15
P (231, 69 ≤ µ ≤ 248, 31) = 0, 95
Assim,
IC95% (µ) = [231, 69; 248, 31]
Inferência Estatística 79
Quando a população da qual foi amostra foi coletada for Normal, pode-se obter um intervalo
de confiança para a variância σ 2 dada por:
!
(n − 1)S 2 (n − 1)S 2
P ≤ σ2 ≤ =1−α
χ α2 χ(1− α )
2
Assim,
IC95% (σ 2 ) = [77, 18; 358, 14] IC95% (σ) = [8, 78; 18, 92]
Inferência Estatística 80
É uma metodologia estatística que permite tomar decisão sobre uma ou mais populações
baseando no conhecimento de informações da amostra.
Ao tentarmos a fixação de decisões, é conveniente a formulação de suposições ou de conjeturas
acerca das populações de interesse, que, em geral, consistem em considerações sobre parâmetros
das mesmas. Essas suposições, que podem ser ou não verdadeiras, são denominadas de Hipóteses
Estatísticas, que podem ser:
• HIPÓTESE ALTERNATIVA - São quaisquer hipóteses que difiram da Hipótese Nula. Pode
ser representada por H1 ou Ha
Ao testar uma hipótese estabelecida, a probabilidade máxima com a qual se sujeitaria a correr
o risco de um erro do tipo I é denominada de Nível de Significância do Teste e é representada
por α.
Estudaremos testes de hipóteses com uma hipótese nula (H0 ) e uma hipótese alternativa
(Ha ). A partir da formulação de (H0 ) e (Ha ), podemos definir se teste de hipótese é unilateral
ou bilateral.
Consideremos θ o parâmetro estudado e θ0 valor inicialmente suposto para. Podemos formular
as seguintes hipóteses:
(
H0 : θ = θ0
Teste Bilateral
H1 : θ 6= θ0
(
H0 : θ = θ0
Teste Unilateral
H1 : θ > θ 0
(
H0 : θ = θ0
Teste Unilateral
H1 : θ < θ 0
Suponha que X é uma variável aleatória com média µ desconhecida e variância σ 2 conhecida.
E queremos testar a hipótese de que a média é igual a um certo valor especificado µ0 . O teste
Inferência Estatística 81
Para testar a hipótese, toma-se uma amostra aleatória de n observações e se calcula a esta-
tística
x − µ0
zc = σ
√
n
Como se trata de um teste bilateral temos duas alternativas para verificar se a hipótese H0
é rejeitada
• se |zc | > z α2 .
h i
• se 2P |zc z α2 ≤ α
Como se trata de testes unilaterais temos duas alternativas para verificar se a hipótese H0 é
rejeitada
• se |zc | > zα .
• se P [|zc | > zα ] ≤ α
Exemplo: Uma industria elétrica fabrica lâmpadas afirma que o tempo de vida médio é de
800horas. Tomaram-se o tempo de vida de 40 lâmpadas e obteve-se uma média X = 750 e
Inferência Estatística 82
sabe-se que a variância populacional é σ 2 = 1600cm2 . Pode-se afirmar que a indústria estava
correta.
Utilizando um teste unilateral (
H0 : µ = 800
H1 : µ < 800
Calculando o valor de zc
X − µ0 750 − 800
zc = σ = = −7, 90
√ √40
40
n
Como não foi especificado o nível de significância, vamos assumir α = 0, 05. Nesse caso,
trata-se de um teste unilateral, temos que observar o valor tabelado para zα = z0,05 = 1, 65.
Conclusão: Observando |zc | = 7, 90, temos que como 7, 90 > 1, 65, rejeita-se H0 , a um nível
de significância de 5%, ou seja, com 95% de probabilidade a empresa estava errada ao afirmar
que o tempo de vida médio é de 800horas.
Suponha que X é uma variável aleatória Normal com média µ desconhecida e variância σ 2
desconhecida. E queremos testar a hipótese de que a média é igual a um certo valor especificado
µ0 . O teste de hipótese pode ser formulado como segue:
( ( (
H0 : µ = µ0 H0 : µ = µ0 H0 : µ = µ0
H1 : µ 6= µ0 H1 : µ < µ0 H1 : µ > µ0
Para testar a hipótese, toma-se uma amostra aleatória de n ≤ 30 observações com variância
desconhecida se calcula a estatística
x − µ0
tc =
S
√
n
Rejeita-se H0
• teste bilateral:
– se |tc | > t α2 .
h i
– se 2P |tc | > t α2 ≤ α
• teste unilateral:
– se |tc | > tα .
– se P [|tc | > tα ] ≤ α
Para testar a hipótese, toma-se uma amostra aleatória de n > 30 observações com variância
desconhecida se calcula a estatística
x − µ0
zc =
S
√
n
Inferência Estatística 83
Rejeita-se H0
• teste bilateral:
– se |zc | > z α2 .
h i
– se 2P |zc | > z α2 ≤ α
• teste unilateral:
– se |zc | > zα .
– se P [|zc | > zα ] ≤ α
x − µ0 236 − 240
tc = = = −1, 193
S √15
√ 20
n
Como não foi especificado o nível de significância, vamos assumir α = 0, 05. Nesse caso, trata-
se de um teste unilateral, temos que observar o valor tabelado para t α2 = t 0,05 = t0,025 = 2, 093.
2
Conclusão: Observando |tc | = 1, 193, temos que como 1, 193 < 2, 093 não existe razão para
rejeitar H0 , logo os diâmetros médios estão atendendo as especificações.
Exemplo: Uma amostra de 76 peixes pescados numa certa represa produziu um peso médio
de 13,36g e desvio-padrão 4,79g. Suspeita-se que a média de peso da população desses peixes
nessa região seja 12g. Teste essa hipótese com um nível de significância de 5%.
Utilizando um teste unilateral.
(
H0 : µ = 12, 0
H1 : µ > 12, 0
Calculando o valor de zc
x − µ0 13, 36 − 12, 0
zc = = = 2, 475
S 4, 79
√ √
n 76
Nesse caso, trata-se de um teste bilateral, temos que observar o valor tabelado para z α2 =
z 0,05 = z0,025 = 1, 960.
2
Conclusão: Observando |zc | = 2, 475, temos que como 2, 475 > 1, 65 rejeita-se H0 ao nível de
5% de significância. Portanto, a média de peso da população desses peixes é superior a 12g.
Inferência Estatística 84
Assim como para a média, existem testes de hipóteses associados a proporções, estes testes
são a respeito do parâmetro populacional p. Com os dados coletados de uma amostra de tamanho
n, pode-se verificar o numero de sucessos X, e estimar a proporção p̂.
Para testar as hipóteses sobre proporções pode-se utilizar a distribuição normal , nesse caso
se calcula a estatística
p̂ − p0
zc = r
p 0 q0
n
Rejeita-se H0
Para obter os valores de z tabelados, o mais prático é consultar a tabela de t, na última linha,
quando os graus de liberdades são suficientemente grandes.
Exemplo: Um centro de pesquisas afirma que 30% das pessoas são usuários de internet sem
fio em uma determinada região. Em uma amostra aleatória de 30 pessoas, em 12 dizem ter rede
sem fio em casa. Teste a afimarção do centro de pesquisa utilizando a significância α = 0, 05.
Temos que p0 = 0, 30 ⇒ q0 = 1 − p0 = 1 − 0, 30 = 0, 70, número de sucessos X = 12, tamanho
da amostra n = 30, assim temos:
X 12
p̂ = = = 0, 40
n 30
Utilizando um teste bilateral (
H0 : p = 0, 30
H1 : p 6= 0, 30
Calculando o valor de zc
p̂ − p0 0, 40 − 0, 30
zc = r =r = 1, 20
p0 q0 0, 3 × 0, 7
n 30
Nesse caso, trata-se de um teste bilateral, temos que observar o valor tabelado para z α2 =
z 0,05 = z0,025 = 1, 960.
2
Conclusão: Observando |zc | = 1, 20, temos que como 1, 20 < 1, 96 ⇒ |zc | < z α2 não existe
evidências para rejeitar H0 ao nível de 5% de significância, logo a proporção de pessoas que
utilizam a internet sem fio em de 30%.
2. Selecionar a estatística de teste que será usada para decidir rejeitar ou não a hipótese nula.
4. Usar o nível de significância α para desenvolver regra de decisão que indica os valores
críticos da estatística de teste que levará a rejeição de H0 .
Nas unidades anteriores, descrevemos a distribuição de valores de uma única variável, com
esse objetivo aprendemos a calcular medidas de tendência central e variabilidade. Porém, se
considerarmos duas ou mais variáveis surge um novo problema: as relações que podem existir
entre as variáveis estudadas.
Vamos verificar as relações entre as seguintes variáveis:
• Altura e peso - espera-se que quanto mais alto mais pesado é o individuo;
• Quantidade de memória RAM e tempo de processamento - espera-se que com mais memória
RAM tenha-se um tempo menor de processamento;
Para estudar a relação entre duas variáveis quantitativas na utilizamos a análise de regressão
e correlação destas variáveis.
Correlação é um número entre -1 e 1 que mede o grau relacionamento entre duas variáveis
quantitativas
Regressão é o estudo que busca ajustar uma equação a um conjunto de dados de forma que
a relação entre duas variáveis quantitativas possa ser expressa matematicamente.
Definimos um conjunto de variáveis (x, y), sendo x a variável independente e y a variável
dependente. A primeira forma de verificar a relação de duas variáveis é traçar o gráfico de
dispersão do dados.
O gráfico de dispersão contém uma variável independente representada no eixo horizontal e
a variável dependente representada no eixo vertical.
O gráfico de dispersão da um idéia da existência de correlação, entretanto não apresenta qual
a magnitude da correlação. Para determinar a magnitude da correlação utilizamos o coeficiente
de correlação populacional (ρ). Em geral trabalhamos com amostras, e para estimar o coeficiente
de correlação populacional pode-se utilizar o coeficiente de correlação amostral.
X
(xi − x̄)(yi − ȳ)
r = sXi X
(xi − x̄)2 (yi − ȳ)2
i i
sendo que:
• r = 0 - ausência de correlação.
O valor obtido para o coeficiente de correlação amostral tem como finalidade estimar o po-
pulacional, ou seja, verificar se na população existe uma associação entre as variáveis em estudo.
Inferência Estatística 87
Desta forma, deve ser realizado um teste de hipótese sobre o coeficiente populacional, com
base no resultado obtido na amostra, que pode ser definido da seguinte maneira:
(
H0 : ρ = 0
H1 : ρ 6= 0
r−0
tc = q
1−r2
n−2
x 10 12 14 16 18 20 22
y 11,8 10,2 12,1 13,2 15,1 15,4 15,6
n
X
xi
i 112
x = = = 16
n 7
n
X
yi
i 93, 4
y = = = 13, 3
nX 7
(xi − x̄)(yi − ȳ)
r = sXi X
(xi − x̄)2 (yi − ȳ)2
i i
49, 6
= √ = 0, 9148
112 × 26, 25
Verificou que o valor da correlação é r=0,9148. Vamos testar a hipótese se este valor é
diferente de zero.
(
H0 : ρ = 0
H1 : ρ 6= 0
Temos v = n − 2 = 7 − 2 = 5 graus de liberdade
r−0 0, 9148
tc = q =q = 5, 06
1−r2 1−0,91482
n−2 5
y = a + bx +
em que:
• são os erros aleatórios de uma população normal, com média 0 e variância constante.
Após ajustar o modelo de regressão deve-se realizar um teste de hipótese para verificar se os
coeficientes são diferentes de zero:
(
H0 : a = 0 H0 : b = 0
H1 : a 6= 0 H1 : b =6 0
ta =
A análise de variância é uma técnica utilizada para se testar o ajuste da equação como um
todo, ou seja, um teste para verificar se a equação de regressão obtida é significativa ou não.
Inferência Estatística 90
X
SQTotal = (yi − ȳ)2
i
X
2
SQRegressão = b (xi − x̄)2
i
SQErro = SQTotal − SQRegressão
QMRegressão = SQRegressão
SQErro
QMErro =
n−2
(
H0 : a = 0 ou b = 0
H1 : a 6= 0 e b 6= 0
O teste de hipótese para avaliar se o modelo de regressão é significativo é feito da seguinte
forma:
SQRegressão
r2 = 0 < r2 < 1
SQTotal
ele representa a porcentagem da variação total que é explicada pela equação de regressão, quanto
maior o seu valor melhor.
Após ter verificado o ajuste da equação de regressão pode-se utiliza-la para fazer previsões.
Exemplo: Utilizando o exemplo da renda bruta mensal (em salários mínimos) e a porcentagem
da renda bruta anual gasta com assistência médica.
Vamos ajustar o modelo
y = a + bx
y = 6, 26 + 0, 44x