You are on page 1of 37

PARTE III:

Análise de dados: Métodos Gráficos


Métodos numéricos: medidas de posição e dispersão

24
4. ESTATÍSTICA DESCRITIVA:
APRESENTAÇÃO DE DADOS – MÉTODOS GRÁFICOS

Como já dissemos as ferramentas usuais da estatística descritiva para apresentação dos


dados são:
 Tabelas e distribuições de freqüências;
 Gráficos ou diagramas: histogramas, gráficos de barras, gráficos de pizzas, gráfico de
linhas, ramos e folhas, entre outros.

4.1 Métodos Gráficos para apresentação dos dados

Objetivo: Facilitar a compreensão do fenômeno estatístico por meio do efeito visual imediato.

Tipos de gráficos: Existem vários tipos de gráficos, os mais usados são:

Para dados temporais (ou seja, no tempo), temos:


- Gráficos de linha;
- Gráfico de barras.
Para dados qualitativos:
- Gráficos de coluna;
- Gráficos de barras;
- Gráficos de setores (ou gráfico de Pizza).
Representação gráfica mais usada para dados contínuos:
- Polígono de freqüências;
- Histograma e
- Ogiva.

Figura 8: Resumo da aplicação de tabelas e gráficos de acordo com o tipo de variável

25
Gráficos de linha: Sempre que as categorias utilizadas representarem um intervalo de tempo, assim
como sucede com os dados do exemplo 1 (Figura 2), os dados podem ser descritos também através
de um gráfico de linha. Um gráfico de linha retrata as mudanças nas quantidades com respeito ao
tempo através de uma série de segmentos de reta

Gráfico de barras (ou colunas): O gráfico ou diagrama de barras representa por meio de uma série
de barras, quantidades ou freqüências para diferentes categorias de dados. (Ver Exemplo 1 – Figura
3) A diferença entre um diagrama de barras e um histograma é que o histograma refere-se sempre
aos dados quantitativos contínuos, enquanto o diagrama de barras ilustra quantidades para qualquer
tipo de variáveis qualitativas. O gráfico de barras, quando as barras estão dispostas no sentido
vertical, também é chamado de gráfico de colunas.

Gráfico de setores: O gráfico ou diagrama de setores, também conhecido como gráfico de Pizza, é
uma gráfico particularmente apropriado para representar as divisões de um montante total. (Ver
Exemplo 2 – Figura 4).

Histograma: Um Histograma é um gráfico de barras de uma distribuição de freqüência com uma


diferença: não há espaços entre as barras. Os intervalos de classe são colocados no eixo horizontal
enquanto as freqüências são colocadas no eixo vertical. Já representações gráficas comuns para
variáveis quantitativas contínuas (Ver Exemplo 3 – Figura 5).

Polígonos de Freqüência: O polígono de freqüência é um gráfico de linha de uma distribuição de


freqüência. Os eixos de um Polígono de freqüência são similares ao do Histograma, exceto que no
eixo horizontal são colocados os pontos médios de cada intervalo de classe do histograma. (Figura 6)

Ogiva: Uma Ogiva é um gráfico de uma distribuição de freqüência acumulada. (Ver Figura 7)

Exemplo 1: De acordo com os dados dos censos demográficos do IBGE, temos os seguintes dados,
em termos percentuais, sobre o analfabetismo no Brasil:
ANO 1872 1890 1920 1940 1950 1960 1970 1980 1990
% 82,3 82,6 71,2 61,1 57,1 46,7 38,7 31,9 26,5

Construa:
a) Um gráfico de linha;

Figura 9: Gráfico de linha do % de analfabetismo por ano.

26
b) Um gráfico de barras (ou colunas);

Figura 10: Gráfico de barras para o % de analfabetismo do Brasil

Exemplo 2: De 75.200 mortes por acidentes nos EUA, em um ano, 43.500 foram causadas por veículos
motorizados, 12.200 por quedas, 6.400 envenenamento, 4.600 afogamento, 4.200 incêndios, 2.900
ingestão de alimentos ou de um objeto, e 1.400 por armas de fogo (com base em dados do Conselho
de Segurança Nacional). Descrever estes dados através de um gráfico de setores.

GRÁFICO DE SETORES

Armas de f ogo; 1400;


Veiculo Mot orizado; 2%
43500; 57%
Ingest çao de
aliment os ou objet o;
2900; 4%

Incêndio; 4200; 6%

Af ogament o; 4600; 6%
Quedas; 12200; 16%
Envenenament o;
6400; 9%

Figura 11: Gráfico de Pizza ou setores para a variável qualitativa “tipo de mortes por acidentes”.

Exemplo 3: A tabela abaixo representa o salário de famílias de uma pequena comunidade.

Salário (em reais) Freq. Absoluta (fa) Freq. % (fp) Freq. Acumulada (fa ac)
8000,00 |- 9000,00 18 25,7% 25,7%
9000,00 |- 10000,00 31 44,3% 70,0%
10000,00 |- 11000,00 15 21,4% 91,4%
11000,00 |- 12000,00 3 4,3% 95,7%
12000,00 |- 13000,00 1 1,4% 97,1%
13000,00 |- 14000,00 1 1,4% 98,6%
14000,00 |- 15000,00 1 1,4% 100,0%
Total 70 100%

27
Construa com estes dados:
a) Um Histograma;

HISTOGRAMA
50%
44%
45%
40%
Frequencia percentual

35%
30%
26%
25% 21%
20%

15%
10%
4%
5% 1% 1% 1%
0%
8000 |- 9000 9000 |- 10000 10000 |- 11000 11000 |- 12000 12000 |- 13000 13000 |- 14000 14000 |- 15000

Salarios em reais
Figura 12: Histograma do salário das famílias da comunidade

b) Um polígono de freqüências

POLIGONO DE FREQUENCIA
50%

45% 44%
40%
Frequencia percentual

35%
30%

25% 26%
21%
20%

15%
10%

5% 4%
1% 1% 1%
0%
8000 |- 9000 9000 |- 10000 10000 |- 11000 11000 |- 12000 12000 |- 13000 13000 |- 14000 14000 |- 15000

Salarios em reais
Figura 13: Polígono de freqüência do salário das famílias da comunidade

28
c) Uma Ogiva

OGIVA
100% 100%
97% 99%
90% 96%
91%
Frequencia percentual ac

80%

70% 70%

60%

50%
40%

30%
26%
20%

10%
0%
8000 |- 9000 9000 |- 10000 10000 |- 11000 11000 |- 12000 12000 |- 13000 13000 |- 14000 14000 |- 15000

Salarios em reais
Figura 14: Ogiva do salário das famílias da comunidade

Exemplo 4: Os histogramas abaixo mostram como as populações de dois países distintos se distribuem
por faixa etária. O país “A” tem 50 milhões de habitantes e o país “B” tem 20 milhões.

Figura 15: Histograma para dados agrupados com freqüências absolutas

Segundo os histogramas (que consideram as freqüências absolutas), o país A tem mais velhos que o
país B: 5 milhões acima dos 80 anos para o país A contra 2 milhões acima dos 80 anos para o país B.

Será que podemos concluir que o país A é um país com população relativamente mais velha que a
do país B?
Para melhor comparar as distribuições populacionais dos dois países, vamos analisar os histogramas
para as freqüências relativas percentuais:

29
Figura 16: Histograma para dados agrupados com freqüências relativas

A porcentagem de pessoas acima de 80 anos no país A é exatamente igual à do país B.


De fato, constata-se que as distribuições populacionais dos dois países por faixa etária são
idênticas!
Isto não é evidente a partir da comparação dos histogramas para as freqüências absolutas, o
que indica que só se podemos comparar duas distribuições quando usamos histogramas para dados
relativos.
Note que a comparação entre os histogramas também só é possível porque os intervalos
escolhidos para as duas amostras são iguais.

30
Exemplo 5: Considere o conjunto de dados abaixo.

Faça um resumo através dos gráficos apropriados.

31
5
Exemplo5: Tabela 2.1 - Funcionários
Variável Qt. Discreta: Número de Filhos
Variável Ql. Nominal: Região de procedência

Outros; 5 3% Gráfico
36% de
Gráfico 4 0%
Barras
Pizza 3 8%

Nº filhos
2 19%

1 14%
Capital;
31% Interior; 0 56%
33%
0% 10% 20% 30% 40% 50% 60% 70%
Frequencia %

Variável Qt. Discreta: Número de Filhos


Variável Ql Ordinal: Grau de Instrução
70%
60%
50%
Gráfico 60%
de 56%
50% 50% Gráfico
Barras
40% 33% Frequencia % de linhas
40%
30% 30%
17%
20% 20% 14% 19%
10% 10% 8%
0% 0% 3%
0%
Ensino Ensino Médio Superior A ordem é 0 1 2 3 4 5
Fundamental importante Nº de Filhos

Disciplina: Estatística
Prof. Sergio A. Rodrigues

32
6
Exemplo5: Tabela 2.1 - Funcionários
Variável Qt. Contínua: Salário mínimo
Variável Qt. Contínua: Salário mínimo Ogiva
40% 0,97
100% 100%
33% 90% 83%
28% Histograma 80%

Frequencia % ac.
30%
61%
Frequencia %

70%
22%
60%
20% 50%
0,14 40%
28% '

30%
10%
20%
0,03 10%
0% 0%
4 a 7,99 8 a 11,99 12 a 15,99 16 a 19,99 20 a 24 4 a 7,99 8 a 11,99 12 a 15,99 16 a 19,99 20 a 24
Classe de salários Classe de salários

Variável Nº de filhos versus Salários Mínimos


Variável Qt. Contínua: Salário mínimo
Gráfico de
Polígono 50 Dispersão
40%
Freqüência 45
33% Número de filhos
30% 28% 40
Frequencia %

35
20%
22%
30
'

0,14 25
10%
20
0,03
0% 15
4 a 7,99 8 a 11,99 12 a 15,99 16 a 19,99 20 a 24 0,00 2,50 5,00 7,50 10,00 12,50 15,00 17,50 20,00 22,50 25,00

Classe de salários Salários

Disciplina: Estatística
Prof. Sergio A. Rodrigues

33
8
Exemplo6: gráfico para tabelas cruzadas
Variável sexo versus candidato que votaria na eleição

Intenção de voto entre os homens e mulheres


45 Em frequência %
41
40 35 Cand. NL
35
Cand. DM
30 28 27
Cand. PA
25
20 18 Cand B

15
14
Cand. E
10
10 6 5 5 4 5 Branco / Nulo
5 1 1
Indeciso
0
Masculino Feminino

ou
Intenção de voto entre os homens e mulheres
Em frequência %

Feminino 35 27 18 4 1 5 10

Masculino 41 28 14 6 1 5 5

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

Cand. NL Cand. DM Cand. PA Cand. B Cand. E Branco / Nulo Indeciso

Disciplina: Estatística
Prof. Sergio A. Rodrigues

34
Exemplo 5: O Gráfico de Pareto é usado para mostrar por ordem de importância, a contribuição de cada item
para o efeito total. Para classificar oportunidades para a melhoria. É uma técnica gráfica simples para a
classificação de itens desde os mais até os menos freqüentes. Ele é baseado no Princípio de Pareto, que
declara que muitas vezes apenas alguns itens são responsáveis pela maior parte do efeito. É um gráfico de
barras verticais permitindo determinar quais problemas ou assuntos resolver e qual a sua ordem de
prioridade. Os dados utilizados foram reportados numa Lista de Verificação ou em uma outra fonte de coleta
de dados, concentra a nossa atenção e esforços para problemas ou assuntos verdadeiramente importantes
(separa o importante do trivial). Na maioria das vezes, teremos melhores resultados se atuarmos nos dados
da barra mais alta do gráfico do que nos embaraçarmos nas barras menores.

Vamos considerar que em uma central telefônica de uma grande empresa, havia a sensação de saturação do
sistema utilizado. Para melhor representar o que ocorria foi realizado um acompanhamento com as
telefonistas que teriam que observar os problemas, anotando em que números ocorriam e lançá-los na Lista
de Verificação.

Lista de Verificação.
X= Tipo de Defeito fi= Nº de Ocorrências fp Fp
Linha ruidosa 250 49 49
Linha aberta 110 21 70
Alarme 85 17 86
Não responde 45 9 95
Não toca 25 5 100
Total Geral 515 100

Gráfico de Pareto

120

100 95 100
86
80 70

fp
fp

60
49
fp ac
40
21
17
20
9
5
0
Linha Ruidosa Linha Aberta Alarme Não Responde Não Toca

tipo de defeito

Figura 17: Histograma para dados agrupados com freqüências relativas

Como é possível notar pelo gráfico o defeito "Linha ruidosa" (defeito nas uniões dos fios telefônicos ou
emendas mal feitas) representa 49% de todos os defeitos ocorridos no período e que os dois maiores
defeitos "Linha ruidosa" e "Linha Aberta" (deixar o telefone fora do gancho) representam juntos 70% de
todos os defeitos. Corrigindo estes dois defeitos teremos uma melhoria de 70% no sistema.

35
Exercício prático:
A próxima tabela nos dá a média das temperaturas máximas mensais na estação Santa Cruz no
período entre Janeiro de 1982 e Dezembro de 1991. O que fazer com todos estes 120 números?
A coisa mais sensata é fazer um gráfico da temperatura versus o índice de tempo (mês e ano). Este
gráfico vai revelar o óbvio, isto é, que as temperaturas no verão são mais altas que no inverno! Além
disso, a gente vai perceber que existe um comportamento sazonal nos dados, ou seja, dentro de
cada ano a evolução da temperatura se repete mais ou menos da mesma maneira. O gráfico
também nos possibilita verificar que a temperatura máxima nestes 10 anos está sempre acima de 22º.

Tabela 2- Temperatura máxima (média das máximas) na estação de Santa Cruz (RJ) .
Mês Ano Mês Ano Mês Ano Mês Ano Mês Ano
jan-82 33.55 jan-83 33.51 jan-84 36.50 jan-88 35.30 jan-90 35.20
fev-82 34.80 fev-83 33.69 fev-84 36.60 fev-88 31.60 fev-90 34.00
mar-82 29.80 mar-83 32.42 mar-84 32.40 mar-88 32.70 mar-90 33.80
abr-82 27.60 abr-83 31.00 abr-84 29.70 abr-88 30.40 abr-90 33.00
mai-82 27.40 mai-83 25.81 mai-84 30.50 mai-88 27.80 mai-90 28.40
jun-82 28.50 jun-83 24.98 jun-84 30.00 jun-88 25.80 jun-90 28.00
jul-82 28.20 jul-83 26.30 jul-84 27.80 jul-88 24.80 jul-90 26.00
ago-82 28.70 ago-83 27.20 ago-84 26.40 ago-88 29.00 ago-90 26.20
set-82 28.10 set-83 24.20 set-84 27.00 set-88 28.90 set-90 27.40
out-82 29.20 out-83 27.40 out-84 30.30 out-88 28.40 out-90 30.90
nov-82 30.53 nov-83 31.60 nov-84 30.20 nov-88 29.40 nov-90 33.10
dez-82 31.67 dez-83 31.90 dez-84 30.00 dez-88 31.20 dez-90 33.70
jan-85 30.00 jan-86 33.60 jan-87 33.80 jan-89 32.60 jan-91 31.20
fev-85 33.50 fev-86 33.60 fev-87 33.90 fev-89 33.20 fev-91 33.40
mar-85 32.40 mar-86 32.80 mar-87 31.10 mar-89 32.00 mar-91 31.80
abr-85 32.10 abr-86 31.70 abr-87 31.10 abr-89 31.60 abr-91 31.00
mai-85 28.00 mai-86 30.00 mai-87 27.30 mai-89 27.70 mai-91 28.60
jun-85 27.30 jun-86 28.20 jun-87 26.70 jun-89 26.70 jun-91 29.40
jul-85 27.30 jul-86 26.30 jul-87 29.90 jul-89 25.70 jul-91 26.90
ago-85 30.70 ago-86 28.00 ago-87 27.70 ago-89 27.20 ago-91 27.90
set-85 26.30 set-86 28.10 set-87 27.85 set-89 26.90 set-91 27.50
out-85 28.30 out-86 29.20 out-87 28.00 out-89 27.80 out-91 30.10
nov-85 29.90 nov-86 33.10 nov-87 30.40 nov-89 30.50 nov-91 29.80
dez-85 29.90 dez-86 31.40 dez-87 32.10 dez-89 31.50 dez-91 33.30

O gráfico apresentado na Figura 11 é muito útil, mas certamente ele não conta à estória toda.
Por exemplo, qual será a temperatura média de todos os meses? Dentre os 120 meses, em quantos a
temperatura média esteve entre 28 e 33 graus? Qual o percentual de temperaturas entre 22 e 25
graus? Tomando-se os 120 pontos, quais os valores de temperatura tais que 90% dos meses têm
temperaturas entre estes dois valores? Podemos pensar nestas, e numa infinidade de outras questões.
O fato é que um simples gráfico da temperatura versus o tempo não fornece as respostas.

Figura 18: Temperaturas máximas (1982 a 1991)

36
O primeiro passo é fazer a distribuição de freqüência dos seus dados. Isto é simplesmente uma
medida mais compacta de representação dos dados. Você divide as temperaturas em intervalos
(chamados intervalos de classe) e conta quantas observações caem em cada intervalo.
A escolha do número de intervalos é meio arbitrária. O importante é garantir que o número de
classes não seja nem muito grande nem muito pequeno. Se o número de classes for muito pequeno,
fica difícil verificar as diferenças entre as classes. Ao contrário, se o número de classes for muito
grande, existirão muito poucas observações em cada classe.
O primeiro passo é ordenar os dados (se for possível fazê-lo automaticamente, senão, não
vale a pena). Isto torna um pouco mais fácil a colocação dos dados em cada classe.
Considerando 7 classes para as temperaturas, a primeira vai de 24 a 26 graus, a segunda vai
de 26.1 a 28 graus e assim sucessivamente. A Tabela de freqüências dos dados da temperatura será
dada por:

Classe Freqüência Freqüência Relativa Freq. Relativa Acumulada


24-26 graus 7 7/120 = 5,83 % 5,83 %
26,1-28 graus 31 31/120 = 25,83 % 31,66 %
28,1-30 graus 26 26/120 = 21,67 % 53,33 %
30,1-32 graus 26 26/120 = 21,67 % 75,00 %
32,1-34 graus 25 25/120 = 20,83 % 95,83 %
34,.1-36 graus 3 3/120 = 2,50 % 98,33 %
36,1-38 graus 2 2/120 = 1,67 % 100 %
Total 120 100%

Observação: Escolha do número de classes numa tabela de freqüência: Seja n o número de intervalos numa
tabela de freqüência. Recomenda-se escolher n entre 5 e 20. Quanto maior o número de
observações, maior o número de intervalos. Geralmente usa-se n igual à raiz quadrada do
número total de observações, o que neste caso daria 120  11 . Para facilitar a visualização
normalmente usamos intervalos com o mesmo comprimento (ou quase). Também muitas vezes o
primeiro intervalo é descrito como "abaixo de um certo valor" e o último como "acima de um
certo valor". Neste exemplo usamos n = 7, por uma questão puramente prática, pois este número
nos permitiu encontrar intervalos de classe de comprimento 1.9 em todas as classes, exceto a
primeira, e todas as classes terminam com uma temperatura que é um número inteiro e par.
Pura conveniência!

A Tabela de freqüências já nos permite responder a diversas outras questões. Por exemplo, a
grande maioria (69,17 %) das temperaturas máximas está entre 26,1 e 32 graus. Também percebemos
que temperaturas máximas acima de 34,1 graus são incomuns (apenas 5 dentre as 120).
A partir de uma Tabela de freqüências podemos facilmente construir um histograma.
Como já foi visto, o Histograma é um gráfico de barras, onde o eixo vertical contém as
freqüências (ou freqüências relativas) e o eixo horizontal contém os intervalos de classes. Muitas vezes
faz-se a área de cada barra igual à freqüência relativa de cada classe, de tal forma que a área total
sob o histograma é 1 (100%). O histograma a seguir foi produzido automaticamente pelo Excel. Você
pode verificar que os pontos médios dos intervalos são diferentes dos que especificamos no
diagrama de freqüência.

37
Histograma da distribuição de frequência de temperaturas

30
25,83
25
21,67 21,67 20,83
20

15

10
5,83
5 2,5 1,67
0
24-26 26,1-28 28,1-30 30,1-32 32,1-34 34,.1-36 36,1-38
graus graus graus graus graus graus graus

Figura 19: Histograma da distribuição de temperatura

O histograma pode ser construído a partir de tabelas de freqüências com um número maior de
classes. Por exemplo, ao construir uma tabela com 11 classes, o histograma seria:

Figura 20: Histograma da distribuição de temperaturas (os valores do eixo x são os pontos médios das classes

38
5. ESTATÍSTICA DESCRITIVA:
MÉTODOS NUMÉRICOS:
medidas de posição e dispersão

5.1. Resumo dos dados


A partir de agora suponha que os dados observados na amostra são x1, x2, ..., xn. Note que n é
o tamanho da amostra. A partir dos x's vamos encontrar números que resumem as características da
amostra. Vamos estar interessados em 2 tipos principais de medidas numéricas: as que caracterizam
a localização do centro da amostra e as que caracterizam a dispersão dos dados.

Noção de Somatório
Um dos símbolos mais usados em estatística é a letra grega  (lê-se sigma maiúsculo), usada
para designar a soma de vários termos, chamada de somatória. Em geral, a operação de somatória
é expressa da seguinte maneira:
N

x
i 1
i  x1  x 2  x 3  ...  x i  ...  x N1  x N ,

onde  implica somatória, xi é a variável a ser somada, i é o índice da somatória e 1 e N designam a


abrangência da soma.

Exemplos: Sejam x1 = 1, x2 = 3, x3 = 2, x4 = 4 e x5 = 5.

a)
5

x
i 1
i  x1  x 2  x 3  x 4  x 5  1 3  2  4  5  15

b)
4

x
i 2
i  x2  x3  x4  3  2  4  9

c)
5

x  x12  x 22  x 23  x 24  x 25  1  3  2  4  5  55


2 2 2 2 2 2
i
i 1

39
d)
2
5 
  x i   x 1  x 2  x 3  x 4  x 5   1 3  2  4  5  15  225
2 2 2

 i1 

5.2. Medidas de posição /Medidas de tendência central

a) Média Aritmética
A média aritmética, ou simplesmente média, de uma amostra de n elementos é definida por:
n

x i
x i 1

Quando calculamos a média aritmética com base em observações de uma amostra, essa
medida é chamada de média amostral e freqüentemente é denotada por x . Já quando
calculamos a média aritmética com base em observações da população, chamamos de média da
população, sendo denotada por µ. Normalmente, a média amostral, x , é utilizada para estimar
("chutar") a média da população (µ).

A média aritmética é uma medida que indica onde está o "centro" de seu conjunto de dados,
ou seja, os valores de seu conjunto de dados estarão espalhados tendo a média como um
representante do ponto central em torno do qual eles tendem a se espalhar.

Por exemplo, se 10 pessoas levarem em seus bolsos, num dado instante, as seguintes quantias
em dinheiro: R$5,00; R$7,00; R$7,00; R$10,00; R$12,00; R$15,00; R$19,00; R$22,00; R$26,00 e R$35,00, elas
levam, em média, R$15,80.
Note que nenhuma delas leva, de fato, R$15,80 no bolso, mas este valor representa um ponto
em torno do qual os diferentes valores estão distribuídos.
Quando o número de elementos na amostra é pequeno, a média torna-se muito sensível a
grandes valores dos elementos.

Por exemplo, se a décima pessoa do exemplo acima levasse R$200,00 no bolso ao invés de
R$35,00, a média do dinheiro das pessoas passaria a ser de R$32,30. Se ela levasse R$1.000,00 a média
pularia para R$110,70.

40
Uma outra maneira de se expressar à média de uma coleção de números é através das
freqüências de ocorrência desses números. Se os números x1, x2, x3,...,xn ocorrerem f1, f2, f3,...,fn vezes,
respectivamente, a média dos números pode ser escrita como:
n

 .x i fa
x i 1

Exemplo: Uma pesquisa sobre o número de filhos por família tendo por base uma amostra de 47
famílias resultou na tabela de freqüências abaixo.

Número de Filhos (xi) Freqüência X . fa


(fa)

0 1 0*1=0
1 8 1*8=8
2 18 2 * 18 = 36
3 14 3 * 14 = 42
4 4 4 * 4 = 16
5 2 5 * 2 = 10
total 47 112

O número médio de filhos por família é dado por:

 .x i fa
112
x i 1
  2,38 filhos
n 47

b) Mediana
A mediana divide um conjunto de dados em duas partes iguais, de maneira que 50% dos
dados fiquem acima dela e 50% fiquem abaixo.

Dados ordenados
50% dos 50% dos
dados
Mediana
dados

Para encontrar a mediana é necessário que os dados (x i) estejam ordenados (x1, x2, ...,xn), de
tal forma que x1 é o menor elemento do conjunto de dados, x2 é o segundo menor elemento, ...., e xn
é o maior elemento. A partir disso, basta encontrar a mediana, dado por:

Md  X n  0 , 5
2

41
Se o valor de X for um número inteiro, a mediana será o valor do conjunto de dados que está
na posição encontrada na fórmula acima.
Se o valor de X não for um número inteiro, a mediana será dada pela média dos elementos do
conjunto de dados que se encontram nas posições dadas pelo numero inteiro anterior e superior ao
X8  X9
numero de X encontrado na formula anterior, ou seja, se Md  X 8,5  .
2

Exemplo1: Sejam os dados de idade de um grupo de alunos: 23, 4, 6, 12, 4, 4, 7, 19, 15.

Para se obter a mediana, primeiramente devem-se organizar os dados em ordem crescente:


4, 4, 4, 6, 7, 12, 15, 19, 23.

Como o número de dados é ímpar (9), a mediana será simplesmente o elemento do meio do
conjunto de dados, ou seja, o número 7. Abaixo do 7 existem quatro números e acima dele também,

1, 4, 4, 6, 7,12,15,19, 23 ,

Usando a fórmula, poderíamos encontrar a mediana por:

Md  X 9  0 , 5  X 5
2

O numero do conjunto de dados que está na posição 5 é o numero 7, ou seja, Md  7

INTERPRETAÇÃO: metade dos alunos (50%) tem menos que 7 anos de idade. Consequentemente, a
outra metade tem mais que 7 anos de idade.

Se o dado 23 fosse substituído por 230, ou mesmo 230.000.000, a mediana não mudaria,
continuando a ser 7.
Como a mediana só depende do número de elementos em uma amostra e não dos seus
valores individuais, ela é insensível a altos valores dos dados.

Exemplo2: Sejam os seguintes dados de idade de um conjunto de alunos: 13, 6, 17, 5, 10, 5.

Arranjando em ordem crescente: 5, 5, 6, 10, 13, 17.

42
O número de dados é par (6), portanto não há um dado central que divida a amostra em duas
partes iguais. Neste caso, tomam-se os dois valores centrais e calcula-se a sua média, que será a
mediana.
Usando a fórmula, a mediana é dada por:

X3  X4
Md  X 6  0, 5  X 3, 5 
2
2

Os números do conjunto de dados que estão nas posições X3 e X4, são respectivamente os números
6 e 10.

X 3  X 4 6  10
Desta forma a Md    8.
2 2

INTERPRETAÇÃO: Metade dos alunos analisados (50%) tem menos do que 8 anos de idade.

Note que o número 8 não faz parte do conjunto dos dados, mas mesmo assim é a sua
mediana.
A mediana é outra medida de tendência central, dando um valor em torno do qual os
diferentes dados estão distribuídos. Ela caracteriza o centro da distribuição: metade dos dados está
acima dela e metade abaixo.

Analogamente ao caso da média, também podemos definir uma mediana para a


população.
A mediana amostral tem uma vantagem sobre a média amostral: ela é menos influenciada
por observações extremas do que a média amostral.

c) Moda
A moda de um conjunto de elementos é o elemento que ocorre o maior número de vezes, ou
seja, o mais freqüente.
No caso em que mais de um valor da amostra ocorre com a freqüência máxima, a
distribuição é chamada de multimodal.

Por exemplo, para os dados: 1, 5, 3, 1, 2, 1, 5, a moda é o número 1.

Já para os dados: 7, 12, 5, 12, 5, 8, 9, 5, 6, 12, há duas modas, os números 5 e 12. Neste último
caso a distribuição é dita bimodal.

43
Unimodais Multimodais (bimodais)
Figura 21: Ilustração de distribuições unimodais e multimodais

Quando uma distribuição de dados é unimodal, isto é tem um único valor mais freqüente, a
moda também é usada como medida de tendência central para o conjunto de valores. Os valores
estão distribuídos em torno do pico da distribuição de freqüências.

A decisão sobre o uso da média, da mediana ou da moda para descrever a tendência


central de uma amostra depende da forma da distribuição de freqüências e do uso que se fará dela.

Para a descrição de distribuições assimétricas a mediana é bastante útil, já que não “sente” o
peso dos grandes valores dos dados. A média, neste caso, sofre esta influência e acaba fornecendo
uma descrição errônea dos dados.

Para distribuições simétricas não há grandes diferenças entre o uso da média, da mediana, ou
da moda. Se uma distribuição for unimodal e perfeitamente simétrica a sua média, a sua mediana e
a sua moda serão iguais.

44
Para uma distribuição multimodal, os valores das várias modas fornecem uma melhor
descrição da distribuição do que a sua média ou mediana.

d) Quartis, Decis e Percentis


A mediana é o valor que separa o conjunto de dados em duas partes iguais: 50% dos dados
abaixo dela e 50% acima. Existem, assim como a mediana, outros valores que separam os dados em
partes iguais. Os mais importantes e usados são:

 Quartis: dividem os dados em quatro partes iguais (cada parte com 25% dos dados). Os quartis
são indicados por Q1 (primeiro quartil), Q2 = Md (segundo quartil) e Q3 (terceirto quartil).

 Decis: dividem os dados em dez partes iguais (cada parte com 10% dos dados). Os decis são
indicados por D1 (primeiro decil), D2 (segundo decil), ..., D9 (nono decil).

 Percentis: dividem os dados em cem partes iguais (cada parte com 1% dos dados). Os percentis
são indicados por P1 (primeiro percentil), P2 (segundo percentil), ..., P99 (nonagésimo nono
percentil).

Um conjunto de dados pode ser dividido em 3 quartis, 9 decis e 99 percentis. Veja o exemplo a
seguir para os quartis.

Para uma coleção de n dados discretos, as posições (ou postos) dos quartis, decis e percentis
são calculadas por:

Quartis:
1o quartil : posição  (n  1) e portanto Q1  x (n1) ;
4 4

2o quartil ou mediana: posição  2 * (n  1)  (n  1) e portanto Q2  x 2*(n1)  x (n1) ;


4 2 4 2

3o quartil: posição  3 * (n  1) e portanto Q3  x 3*(n1) .


4 4

Decis:
1o decil: posição  n e portanto D1  x n ;
10 10

2o decil: posição  2 * n e portanto D 2  x 2*n ;


10 10

i-ésimo decil: posição  i * n e portanto D i  x i*n ;


10 10

45
9o decil: posição  9 * n e portanto D9  x 9*n .
10 10

Percentis:
1o percentil: posição  n e portanto P1  x n ;
100 100

2o percentil: posição  2 * n e portanto P2  x 2*n ;


100 100

i-ésimo percentil: posição  i * n e portanto Pi  x i*n ;


100 100

99o percentil: posição  99 * n e portanto P99  x 99*n .


100 100

A partir das posições, pode-se calcular o valor do quartil, do decil ou do percentil desejado.

Como regra geral, se a posição calculada coincide com um número inteiro o valor numérico
que ocupa essa posição é tomado; se a posição for um número exatamente entre dois números
inteiros, toma-se a média entre os valores que ocupam as posições desses números inteiros; e se a
posição for um número não inteiro e diferente do valor central entre dois números inteiros, a
convenção que será adotada aqui é arredondar para a posição do número inteiro mais próximo e
tomar o valor correspondente.

Por exemplo, para os 16 números ordenados:

0,5; 0,7; 0,7; 0,9; 1,0; 1,1; 1,1; 1,2; 1,3; 1,3; 1,5; 1,8; 2,1; 2,2; 2,5; 2,5.

Posição de Q1= (n  1) =(16+1)/4=4,25. Arredondando para 4  Q1 = 0,9.


4

Posição de Q2= (n  1) =(16+1)/2=8,5  Q2 = Md = (1,2 + 1,3)/2 = 1,25.


2

Posição de Q3= 3 * (n  1) =3*4,25=12,75. Arredondando para 13  Q3 = 2,1.


4

Posição de D1= n =16/10=1,6. Arredondando para 2  D1 = 0,7.


10

Posição de D9= 9 * n =9*1,6=14,4. Arredondando para 14  D9 = 2,2.


10

Posição de P95= 95 * n =95*0,16=15,2. Arredondando para 15  P95 = 2,5.


10

e) Média, Mediana e Moda para Dados Agrupados


Se, por algum motivo, não se tiver acesso aos dados de uma amostra, mas apenas à sua
tabela de freqüências ou ao seu histograma não será possível calcular exatamente os valores da sua
média, da sua mediana, da sua moda e dos quantis. Neste caso, o melhor que se pode fazer é
calculá-las aproximadamente. Tomemos como exemplo a tabela a seguir:

46
Exemplo 1: Medidas da capacidade vital de 50 adultos do sexo masculino entre 18 e 27 anos de
idade (Santa Casa de São Paulo, 1974).

Freqüência
Capacidade Vital (  ) Freqüência (fi)
Acumulada
4,0 ├ 4,5 8 8
4,5 ├ 5,0 11 19
5,0 ├ 5,5 5 24
5,5 ├ 6,0 15 39
6,0 ├ 6,5 6 45
6,5 ├ 7,0 2 47
7,0 ├ 7,5 2 49
7,5 ├ 8,0 1 50
Total 50
Fonte: Depto. de Provas Funcionais Pulmonares - Santa Casa/SP.

Para se calcular a média das medidas acima, que só são fornecidas na forma de uma tabela
de freqüências, é necessário supor que todas as medidas que caiam dentro de um intervalo de
classe são iguais ao ponto médio daquele intervalo. Portanto, para cada intervalo calcula-se o seu
ponto médio e considera-se que ele ocorre com a mesma freqüência da classe. Desta maneira, a
aproximação que se faz para os dados desconhecidos deste problema é a seguinte:

Dados xi (pontos médios 4,25 4,75 5,25 5,75 6,25 6,75 7,25 7,75 Total
das classes)
Freqüências (fi) 8 11 5 15 6 2 2 1 50

Considerando os dados da tabela aproximada como os dados verdadeiros para o problema,


basta agora usar a fórmula da média aritmética para obter a média da distribuição:

 x fa
i
4,25 * 8  4,75 * 11  5,25 * 5  5,75 * 15  6,25 * 6  6,75 * 2  7,25 * 2  7,75 * 1 272
x    5,44
8  11  5  15  6  2  2  1 50
 fa

onde xi são os pontos médios de cada classe.

Para calcular a mediana, também teremos que fazer uma aproximação. Inicialmente, temos
que determinar o intervalo de classe no qual ela se encontra. Como existem 50 dados, a mediana
será a média entre o 25o e o 26 o dados, portanto será o "dado" na posição 25,5. Olhando na coluna
das freqüências acumuladas da tabela, vemos que o dado na posição 25,5 cai dentro do quarto
intervalo de classe, que vai de 5,5 a 6,0. Portanto, já sabemos que a mediana tem que valer entre 5,5
e 6,0.
Para encontrar um valor único, vamos fazer o seguinte raciocínio: Dentro do intervalo que vai
de 5,5 a 6,0 temos 15 dados (veja na tabela). Não sabemos os valores exatos desses dados, mas
vamos supor que eles varrem o intervalo de 5,5 a 6,0 de maneira uniforme. Como este intervalo tem
6,0 - 5,5 = 0,5 unidades, para distribuir 15 dados uniformemente por ele temos que por um dado a
cada 0,5/15 unidades. O primeiro dado do intervalo é o 25 o do total de 50 e será colocado em
5,5 + 1*(0,5/15). O segundo dado do intervalo é o 26 o e será colocado em 5,5 + 2*(0,5/15). Os demais
dados são posicionados de maneira equivalente até o 15 o , que ficará em 5,5 + 15*(0,5/15) = 6,0.

47
Como o dado correspondente à mediana é o 25,5, ou seja é o de ordem 1,5 dentro da série
dos 15 dados a serem postos dentro do intervalo, o seu posicionamento será:
5,5 + 1,5*(0,5/15) = 5,5 + 0,05 = 5,55.

De maneira genérica, podemos estimar a mediana de uma distribuição de dados agrupados


a partir da fórmula:
h
Md  L i  P  fai . ,
fm
onde Li é o limite inferior da classe onde está a mediana, P é a posição da mediana no conjunto total
dos dados (chamado de posição ou posto da mediana), fai é a freqüência acumulada até a classe
anterior à classe onde está a mediana, h é a largura do intervalo de classe e fm é a freqüência da
classe onde está a mediana.

Usando esta fórmula para calcular a mediana para o exemplo dado, temos:
0,5 0,5
Md  5,5  25,5  24.  5,5  1,5.  5,5  0,05  5,55 
15 15

Para se calcular a moda, basta obter o ponto central do intervalo de maior freqüência.

No caso do exemplo, o intervalo de maior freqüência é o quarto, que vai de 5,5 a 6,0. Seu
ponto central é 5,75  . Também se pode falar de intervalo ou classe modal. Neste caso, a classe
modal seria a classe de maior freqüência: 5,5 ├ 6,0  .

Exemplo 2: Calcular a média, a mediana e a moda para a seguinte distribuição de freqüências.

Medidas das larguras dos pulsos dos braços esquerdos de 45 alunos de ambos os
sexos da turma de Estatística (Administração) do prof. Roque (3 o sem. de 2003).
Comprimento do Pulso (cm) Freqüência (fi) Freqüência Acumulada
4,8 ├ 5,1 8 8
5,1 ├ 5,4 16 24
5,4 ├ 5,7 3 27
5,7 ├ 6,0 5 32
6,0 ├ 6,3 9 41
6,3 ├ 6,6 4 45
Total 45

Média:

 x fa
i
4,95  8  5,25 16  5,55  3  5,85  5  6,15  9  6,45  4 250,65
x    5,57 cm
8  16  3  5  9  4 45
 fa
onde xi é o ponto médio das classes.

Mediana: A mediana é o 23 o dado, que cai na 2a classe, que vai de 5,1 a 5,4. Esta classe tem 16
elementos e a mediana é o 15 o deles. Portanto:
h 0,3 0,3
Md  L i  P  fai   5,1 (23  8).  5,1 15.  5,1 0,28  5,38 cm
fm 16 16

48
Moda: A moda é o ponto médio da classe de maior freqüência. Portanto: Moda = 5,25 cm. A classe
modal é a classe de maior freqüência. Logo: Classe modal = (5,1 a 5,4) cm.

Já para calcularmos os quartis, decis e percentis , quando temos dados agrupados, usamos
um raciocínio idêntico ao que foi usado para o cálculo da mediana, substituindo a posição da
mediana (P) pela posição do quartil, decil ou percentil em questão.

5.3. Medidas de Dispersão


As medidas de tendência central não são as únicas medidas necessárias para caracterizar
uma amostra (ou população). Precisamos também saber o quanto às observações na amostra estão
"espalhadas".
Por exemplo, nos dois gráficos a seguir as populações têm a mesma média (µ), mas
certamente a primeira distribuição tem maior dispersão.

Figura 22: Distribuição 1 (com maior dispersão) Figura 23: Distribuição 2 (mais concentrada na media µ)

Variação ou Dispersão de um conjunto de dados é como os dados tendem a dispersar-se em


torno de um valor médio.
Dentre as várias medidas de dispersão ou variação, podemos destacar como mais comuns à
amplitude, o desvio médio, o desvio padrão e a variância.

a) Amplitude (range)
A amplitude total dos dados de uma amostra é a diferença entre o maior e o menor número
da amostra.

49
A = maior valor – menor valor

Por exemplo, para o conjunto de valores {2, 3, 4, 6, 6, 7, 7, 9, 9, 10, 12} a amplitude total é
A=12 – 2 = 10.

Já para o histograma abaixo, a amplitude total dos dados é 306,5 – 294,5 = 12. Note que se
tomou a diferença entre os pontos médios da última e da primeira classe.

Histograma
45
40
35
Freqüência

30
25
20
15
10
5
0
293-296 296-299 299-302 302-305 305-308

Figura 24: Histograma dos dados

A amplitude total dos dados dá uma visão “grosseira” da variação, ou dispersão, dos dados.
No entanto, em alguns casos é justamente esta visão grosseira sobre dispersão que se quer.

Por exemplo, uma pessoa de férias no exterior e que pretende alugar um carro pode estar
interessada em saber quais os valores máximo e mínimo que uma multa de trânsito pode ter no país
para onde ela vai.

b) Desvio Médio
O desvio médio de um conjunto de dados indica quão distantes “em média” estão os dados
individuais em relação à média aritmética do grupo. Consideremos a seguinte tabela.

Ganho de peso para uma amostra de seis ratos com dieta suplementar

No do rato
Ganho de peso
(xi) (gramas)
 xi  x  xi  x xi  x 2
1 6 3 3 9
2 2 -1 1 1
3 4 1 1 1
4 1 -2 2 4
5 3 0 0 0
6 2 -1 1 1

x  18  x  x  0 x x 8  x  x   16
2
i i i i

x i
18
x  i 1
  3.
6 6

50
A partir dos dados da segunda coluna calcula-se a média x . A terceira coluna serve para
ilustrar o fato de que a soma dos desvios é sempre nula. Na quarta coluna estão listados os valores
absolutos dos desvios. A soma desses valores absolutos dividida pelo total de dados é o desvio médio:
6

x i x
8
DM  i 1
  1,3 gramas.
n 6

Este resultado quer dizer que, em média, os dados estão 1,3 gramas afastados do valor médio
do grupo, que vale 3 gramas.

O desvio médio é muito pouco usado e só aparece aqui para ajudar na apresentação de
uma medida similar, esta sim bastante usada, o desvio padrão, o qual é obtida a partir da variância.

c) Variância
Para obter a variância de um conjunto de dados, somamos os quadrados dos desvios
(diferença entre cada valor e a média de todos os valores) e dividimos o resultado por (n-1). O valor
obtido é um tipo de média dos quadrados dos desvios, chamada de variância.
A Variância é a medida mais comum de dispersão. A variância amostral, denotada por S2 é
definida como:

1 n
S  2
 x i  x 2
n  1 i 1
onde x é a média amostral, já definida e n é o tamanho da amostra.
Já a Variância populacional é denotada por  2 , podendo ser calculada por:
N 2

2
 x i  
  i 1
N
onde  é a média populacional, calculada com base nos dados da população e N é o tamanho da
população.

É importante lembrar que a variância (da amostra ou da população) é sempre maior ou igual
a zero.
A unidade de medida da variância é o quadrado da unidade de medida das observações.
Assim, se os dados estão em metros, à variância é expressa em metros quadrados. Isso dificulta a
interpretação da variância. Para evitar isso, normalmente trabalhamos com o desvio padrão, o qual
será definido a seguir.

d) Desvio Padrão

51
Como vimos, a variância é uma soma de quadrados, e, portanto, é expressa nas unidades da
variável medida ao quadrado. Por exemplo, se estamos analisando os pesos (em gramas) dos
pacotes de café produzidos por uma empresa, a variância será dada em gramas ao quadrado.
Para voltarmos às unidades originais da variável medida (sem o quadrado), temos que tomar
a raiz quadrada da variância. A raiz positiva da variância é chamada de desvio padrão.

O desvio padrão amostral, denotado por S, é definido como a raiz quadrada positiva da
variância amostral, ou seja,

S  v ariância S 2
Desta forma, podemos concluir que S é sempre expresso na mesma unidade de medida que
as observações na amostra.

No caso do exemplo anterior (do ganho de peso de uma amostra de 6 ratos), a variância de
uma amostra, designada por S2 e o desvio padrão por S são dados por:
Ganho de peso
(xi) (gramas)
 xi  x  xi  x 2
6 3 9
2 -1 1
4 1 1
1 -2 4
3 0 0
2 -1 1

 x  x   16
2
i

6 2

2
 x i  x
16
S  i 1
  3,2 gramas 2 ; S   S 2  1,79 gramas .
n 1 5

O desvio padrão é uma medida de dispersão. Quando temos dois conjuntos de dados e o
primeiro tem uma amplitude total muito pequena, seu desvio padrão será menor que o do segundo
conjunto.
OI desvio padrão mede dispersão através do afastamento médio dos dados em relação à
média do conjunto de dados.
O desvio padrão, conforme foi definido, é o chamado desvio padrão amostral. Ele é obtido
tomando-se a raiz quadrada da divisão da soma dos quadrados dos desvios por (n-1), o número de
elementos na amostra menos um.
Existe outra definição de desvio padrão, válida para quando estamos trabalhando com uma
população, ou seja, com o conjunto total de valores sendo estudado. Neste caso, o desvio padrão
populacional é definido como a raiz quadrada da divisão da soma dos quadrados dos desvios por N,
ou seja, o número total de dados na população,

  2  Variância da população ,

52
Note que, para o caso do desvio padrão populacional, usou-se a letra grega  (sigma) para
representá-lo. Esta é a convenção adotada em estatística: o desvio padrão populacional é
denotado por  e o desvio padrão amostral é denotado por S.
De maneira geral, usa-se letras do alfabeto grego para representar variáveis relativas a uma
população e letras do alfabeto latino para representar variáveis relativas a uma amostra (por
exemplo, usa-se  para representar a média de uma população e x para representar a média de
uma amostra).

Alguém poderia perguntar por que o desvio padrão foi definido de um jeito para amostras e
de outro para populações. O motivo para isto é explicado pelas propriedades dos estimadores
estudadas na inferência estatística. Por ora, podemos dizer que se quisermos estimar o desvio padrão
para uma população a partir do cálculo do desvio padrão para uma amostra retirada da
população, o desvio padrão da amostra calculado dividindo-se por (n-1) será um melhor estimador
do verdadeiro desvio padrão da população, , do que seria o desvio padrão da amostra calculado
dividindo-se por n.

e) Coeficiente de variação amostral


Em muitos casos é importante comparar a variabilidade relativa de muitos conjuntos de
dados. Isto não pode ser feito apenas pelo exame dos desvios padrões dos conjuntos de dados, pois
os conjuntos podem conter dados com magnitudes bem diferentes ou unidades diferentes. Para fazer
tal tipo de comparação, é costume expressar o desvio padrão como uma porcentagem da média
aritmética. A variável definida a partir desta expressão é chamada de coeficiente de variação:

O coeficiente de variação amostral é definido como:

S
CV %  100 ,
x
onde S é o desvio padrão amostral e x é a média amostral.

A definição do coeficiente de variação para a população é análoga, substituindo-se S por 


e x por µ.

Exemplo1: Para um grupo de indivíduos, a temperatura corporal média é igual a 36,8C com desvio
padrão de 0,27C e a pulsação média é igual a 78 batidas/min com desvio padrão de 9 batidas/min.
Portanto, os coeficientes de variação para a temperatura e a pulsação dos indivíduos são:

0,27 9
CVtemp.  100  0,7%; CVpulso  100  11,5%
36,8 78
Vemos então que a variabilidade relativa da pulsação é bem maior que a variabilidade relativa da
temperatura. O coeficiente de dispersão é útil quando se quer analisar como a dispersão de um
conjunto de dados varia no tempo, dado que a média dos dados também varia.

53
Exemplo2: Suponhamos que uma pesquisa tenha sido feita comparando-se o aumento no preço de
um cafezinho em seis diferentes bares da cidade entre 1994 e 2000 e os resultados sejam os dados
abaixo (valores em reais).

Bar A B C D E F x S CV

1994 0,30 0,40 0,40 0,50 0,60 0,70 0,483 0,147 30,4%

2000 0,60 0,80 0,80 1,00 1,20 1,40 0,967 0,294 30,4%

Note que todos os valores dobraram de 1994 para 2000. O desvio padrão para a amostra também
dobrou, indicando que a dispersão dos valores aumentou. Porém, o preço médio do cafezinho
também dobrou, de maneira que o coeficiente de variação permaneceu constante. Podemos dizer
que, de maneira absoluta, a dispersão dos preços do cafezinho dobrou entre 1994 e 2000; porém, de
maneira relativa, ela permaneceu constante.

Exemplo3: Para entender melhor as medidas de variabilidade ou dispersão, imagine que quatro
alunos obtiveram, em cinco provas, as notas apresentadas na tabela abaixo:

Notas de quatro alunos em cinco provas de estatística


Aluno Notas Média
Prova 1 Prova 2 Prova 3 Prova 4 Prova 5
Antônio 5 5 5 5 5 5
João 6 4 5 4 6 5
José 10 5 5 5 0 5
Pedro 10 10 5 0 0 5

Todos os alunos obtiveram média igual a 5, mas a dispersão das notas obtidas em torno da média
não é a mesma para todos os alunos. Olhando os dados de notas da tabela acima, verificamos que
as notas do aluno Antônio não variaram, enquanto que as notas do aluno João tiveram uma
pequena variação e de Pedro uma grande variação. Mas quanto está variando as notas de cada
aluno? As notas de qual aluno variaram mais?

Somente olhando os dados, percebe-se que:


 As notas de Antônio não variaram (a dispersão é nula).
 As notas de João variaram menos do que as notas de José (a dispersão das notas de João é
menor do que a dispersão das notas de José).
 As notas de Pedro variaram mais do que as notas de todos os outros ( a dispersão das notas de
Pedro é a maior).

Estas observações serão verificadas através das seguintes medidas de dispersão: amplitude, variância
e desvio padrão.

Calculando a AMPLITUDE (A):

As notas de Antônio tem amplitude: A=5 –5 A=0


As notas de João têm amplitude: A=6– 4 A=2
As notas de José têm amplitude: A = 10 – 0 A = 10
As notas de Pedro têm amplitude: A = 10 – 0 A = 10

54
A amplitude nem sempre capta certas diferenças. No caso das notas dos alunos, a amplitude mostra,
acertadamente, que as notas de Antônio não variam (A=0) e que as notas de João variam menos
que as notas de José (A=2 e A=10 respectivamente). Entretanto a amplitude não mostra que as notas
de Pedro variaram mais do que as notas de José A=10 (nos dois casos).

A amplitude não mede bem a dispersão dos dados porque, em seu cálculo, usam-se apenas os
valores extremos – e não todos os dados. De qualquer forma a amplitude é usada, principalmente
porque é fácil de calcular e fácil de interpretar.

Calculando a VARIÂNCIA

Os dados distribuem-se em torno da média. Então o grau de dispersão de um conjunto de dados


pode ser medido pelos desvios em relação à média. Desvios em relação à média é a diferença entre
cada valor da amostra (os dados) e a média da amostra.

Para medir dispersão dos dados em torno da média, os estatísticos usam a soma de quadrados dos
desvios divididos por “n-1”. Como os quadrados de números negativos são positivos, toda soma de
quadrados é positiva ou, no mínimo, nula (a soma dos quadrados dos desvios só é nula quando todos
os desvios são iguais à zero).

Então, para calcular a variância dos dados das notas do aluno João:

Dados do aluno João Desvios (x – x ) Quadrados dos desvios


(xi) (x i  x )2
10 10 – 5 = 5 25
10 10 – 5 = 5 25
5 5–5=0 0
0 0–5=-5 25
0 0 – 5 = -5 25
x 5 5

 x  x   0
5

 x  x 
2
 100
i 1 i 1

Desta forma, usando a fórmula da variância amostral:


 x  x 
2
100 100
S2     25
n 1 5 1 4

Para os demais alunos, temos as seguintes variâncias:


 x  x 
2
0
Cálculo da variância das notas de Antonio: S 2
  S2   S2  0
n 1 4

 x  x 
2

Cálculo da variância das notas de João: S 2


  S2 1
n 1

 x  x 
2

Cálculo da variância das notas de José: S 2


  S 2  12,5
n 1

55
Para entender que a variância mede a dispersão dos dados em torno da média, podemos verificar
que:
 Para as notas de Antônio que não variam, S 2 =0.
a) Para as notas de João, que variaram menos do que as notas de José, S 2 =1, menor do que a
variância das notas de José, que é S 2 =12,5.
b) Para as notas de Pedro, que variaram mais do que todas as outras, a variância é S 2 =25, maior do
que todas as outras.

A unidade da variância é dada ao quadrado e, portanto não tem interpretação coerente na


maioria das situações.

Calculando o DESVIO PADRÃO (S)

.
Para as notas dos alunos, temos o desvio padrão:
S  S2 S S2
S 0 S 1
Antônio S0 João S 1

S S2 S S2
S  12 ,5 S  25
José S  3,54 Pedro S5

Calculando o coeficiente de variação

Para as notas dos alunos, temos o desvio padrão:


S 0 S 1
Antônio:
CV    0 . 100  0% João:
CV    0,2 . 100  20%
x 5 x 5
S 3,54 S 5
José:
CV    0,708 . 100  70,8% Pedro:
CV    1 . 100  100%
x 5 x 5

Exemplo 3: Sabendo-se que a produção leiteira diária da vaca A, durante uma semana, foi de: 10,
2
14, 13, 15, 16, 18 e 12 litros, pede-se calcular a amplitude, o desvio-padrão (S), a variância ( S ) e o
coeficiente de variação (cv). Interprete os resultados

Solução:

Amplitude: A= 18 – 10 = 8 litros de leite

ou seja, existe uma variação de 8 litros de leite entre o dia que a vaca A produziu mais e o dia que
menos produziu.

56
OBS: Sabemos que a média para estes dados é: x = 14 litros de leite por dia

Desvio-padrão:

 (x i  x) 2
(x1  x) 2  (x 2  x) 2    (x n  x) 2
S i 1
= =
n 1 n 1
(10  14) 2  (14  14) 2  13  142  15  142  16  142  18  142  12  142
 
7 1


 42  02   12  12  22  42   22 
16  0  1  1  4  16  4

42

6 6 6
 7  2,65 litros de leite por semana

Interpretação: A vaca A em média produz 14 litros de leite por dia, variando aproximadamente 2,65
litros de leite para mais e para menos.

Variância:

S 2  (S ) 2  2,652  7(litros de leite) 2

Coeficiente de variação:

S 2,65
cv    0,1893 ou seja, existe uma variabilidade de 18,93% dos dados em relação a
x 14
média.

57
EXERCÍCIOS DE ESTATÍSTICA
1) Considere que uma loja de roupas anotou o número de calças femininas vendidas todo o mês
durante um ano. Os dados deste levantamento estão abaixo:
ANO jan fev mar abr mai jun jul ago set out nov dez
% 50 41 32 30 25 28 34 25 15 34 30 49
Construa:
a) Um gráfico de linha;
b) Um gráfico de barras (ou colunas).

2) Em uma escola tomou-se a medida da altura de cada um de quarenta estudantes, obtendo-se os


seguintes dados (em centímetros):
160 152 155 154 161 162 162 161 150 160 163 178 153 155
163 156 162 161 161 171 160 170 156 164 167 165 155
155 151 158 166 169 170 158 160 168 164 157 156 152
a) Fazer a distribuição de freqüência usando 6 classes. (iniciando por 150 cm e terminando em 180).
b) A partir da tabela acima, construir um histograma e interprete os resultados.
c) Faça um polígono de freqüência.

3) Uma secretária de uma grande empresa faz o agendamento das reuniões com a diretoria da
empresa. Para cada reunião agendada, ela anota o período do dia em que foi agendada a
reunião e o número de participantes.
Reunião 1 2 3 4 5 6 7 8 9 10 11 12 13
Período M T N M M M T N M T T M N
Nº de participantes 5 4 2 3 2 5 4 4 3 6 5 5 6

a) Construa uma tabela de freqüência para a variável “Período da reunião” e faça um gráfico de
barras. Interprete os resultados.
b) Faça uma tabela de freqüência para a variável “Nº de participantes” e construa um gráfico de
barras. Interprete os resultados.

4) O gerente de uma central telefônica solicitou para a secretária da área fazer um relatório com os
principais tipos de defeitos que ocorrem em um determinado mês. O objetivo deste estudo era
minimizar o número de ligações com defeitos. Para isso, a secretaria solicitou as telefonistas que
anotassem os tipos de defeitos que ocorrem em cada ligação com problemas na central. Um
resumo deste levantamento pode ser visto na tabela abaixo:

X= Tipo de Defeito fa= Nº de Ocorrências


Linha aberta 82
Linha cruzada 36
Linha ruidosa 140
Não responde 45
Não toca 15
Total Geral 515

a) Faça um gráfico de barras com a tabela acima.


b) Colocar a tabela acima em ordem decrescente de “fa” e encontrar “fr”, “fp” e “Fp”.
c) Usando a tabela do item “b” faça em um mesmo gráfico, barras com os percentuais da
coluna “fp” e linha com os percentuais da coluna “Fp” (Gráfico de Pareto). Interprete os
resultados.

58
5) Sabendo-se que a produção leiteira diária da vaca A, durante uma semana, foi de: 10, 14, 13, 15,
16, 18 e 12 litros, pergunta-se: Encontre a média, a moda e a mediana para a produção diária de
leite desta vaca.

6) A pulsação de 10 estudantes após exercícios físicos foram às seguintes (em batimentos por
minuto): 80, 91, 84, 86, 80, 89, 85 e 86. Determine a media, a moda e a mediana e interprete os
resultados.

7) Os salários-hora de sete funcionários de uma companhia são: R$180,00, R$220,00, R$253,00,


R$220,00 e R$192,00 R$1200,00 e R$750,00. Determine a média a moda e a mediana e interprete os
resultados.

8) Uma imobiliária fez um estudo para analisar o valor dos aluguéis pagos pelos seus inquilinos. Para
isso, uma amostra de 21 inquilinos foi levantada, onde analisamos o valor pago pelo aluguel (em
reais). O resultado da amostra segue abaixo:
400 120 390 450 300 335 480 475 450 450 390 630 600 560 570 450 300 590 600 620 750
a) Qual é o valor médio dos aluguéis pago pelos inquilinos desta imobiliária? Interprete o resultado.
b) Calcule a moda e a mediana e interprete esses resultados.
c) Faça uma tabela de freqüência com 2 classes e calcule o valor médio dos alugueis usando essa tabela.

9) Uma imobiliária fez um estudo para analisar o valor dos aluguéis pagos pelos seus inquilinos dos
apartamentos de 1 quarto da cidade de Ribeirão Preto, independente da imobiliária. Para isso,
uma amostra de 39 inquilinos foi levantada, onde analisamos o valor pago pelo aluguel (em
reais). Segue os resultados:
Valor do fi
aluguel (R$)
300 5
400 18
500 10
600 6
Total 39
a) Qual é o valor médio dos aluguéis pago pelos inquilinos desta imobiliária? Interprete o resultado.

10) Uma revista realizou um levantamento para informa-se sobre seus assinantes. Uma das questões
do levantamento perguntava sobre o valor que o assinante tinha aplicado na poupança. A
seguinte tabela de freqüência foi preparada a partir das respostas para essa questão:

Valor investido na fa
poupança (em R$)
0 250 17
250 500 9
500 750 12
750 1000 20
1000 1250 13
1250 1500 13
1500 1750 20
Total 104

Calcule o valor médio investido na poupança e interprete os resultados.

59
11) A idade média dos candidatos a um determinado curso de especialização sempre foi baixa, na
ordem de 22 anos. Como esse curso foi planejado para atender a todas as idades, decidiu-se
fazer uma campanha de divulgação. Para verificar se a campanha foi ou não eficiente, fez-se um
levantamento da idade dos candidatos a ultima promoção, e os resultados estão na tabela
abaixo:
Idade fa
18 |--- 22 anos 30
22 |--- 26 anos 10
26 |--- 30 anos 8
30 |--- 34 anos 2
34 |--- 38 anos 3
Total 53
a) Baseando-se nestes resultados, você diria que a campanha produziu algum efeito, isto é, aumentou a idade
média? Por quê?
b) Complete a tabela de freqüência acima (calculando fr, fp e Fp) e interprete os resultados da tabela de
freqüência, dizendo qual é o percentual de candidatos com idade entre 30 e 34 anos e o percentual de
candidatos que possuem menos do que 34 anos.

12) Considere a amostra de 6 clientes de uma locadora de DVD, onde foi levantado o “número de
DVD locados por mês”:
5 8 10 7 10 14
Calcule a amplitude, a variância, o desvio padrão e o coeficiente de variação e interprete os resultados.
Resposta: Amplitude=9,0 Desvio Padrão = 3,1 Variância = 9,6 CV=34,4%

13) Em 13 semanas consecutivas para o vendedor A e 12 semanas para o vendedor B, a comissão


dos dois vendedor (A e B) em R$ foi de:
Vend. A R$ 35 R$ 47 R$ 31 R$ 94 R$ 98 R$ 100 R$ 15 R$ 10 R$ 120 R$ 73 R$ 60 R$ 184 R$ 13
Vend. B R$ 60 R$ 80 R$ 85 R$ 90 R$ 96 R$ 93 R$ 68 R$ 75 R$ 86 R$ 93 R$ 83 R$ 88

a) Calcule a comissão semanal média de cada vendedor. Interprete.


b) Calcule o desvio padrão da comissão de cada vendedor e interprete.
c) Utilize o coeficiente de variação para concluir qual vendedor é mais constante em suas vendas.

14) Duas empresas, A e B, analisando os salários de seus funcionários (em mil reais) obteve os
seguintes resumos a respeito dos salários de seus funcionários:
Empresa A: Média = 1220 e Desvio Padrão = 91,3
Empresa B: Média = 900 e Desvio Padrão = 76,8
A OIT (Organização Internacional do Trabalho) recomenda que se a variação em torno da média for maior do
que 8% os salários devem ser revistos, pois acima deste valor, considera-se que os salários são demasiadamente
desiguais. Qual empresa deverá realizar revisão de seus salários, considerando o padrão da OIT? Por quê?

15) O Departamento Pessoal de uma certa empresa fez um levantamento dos salários de uma
amostra de 120 funcionários do setor administrativo, obtendo os seguintes resultados:
 O Salário médio dos funcionários é de R$ 1.544,00.
 O desvio padrão dos salários dos funcionários é de R$ 1.124,00
a) Calcule a variância e o coeficiente de variação da variável salário.
b) Como você interpretaria os resultados do enunciado?

16) O treinador de uma equipe de corredores, anotou o tempo das corridas de dois grupos de corredores. Em
um grupo formado por 55 corredores foi anotado o tempo que cada corredor demorou a percorrer 400
metros, sendo que o tempo médio foi de 2,8 minutos com um desvio padrão de 1.3 minutos. Já o outro grupo
de corredores, formado por 50 corredores, obteve um tempo médio de 5,9 minutos para percorrer 1.600
metros, com desvio padrão de 1,8 minutos.
a) Calcule a variância de cada grupo de corredores
b) Interprete os resultados do desvio padrão em cada grupo de corredores.
c) Qual grupo de corredor é mais constante?

60

You might also like