You are on page 1of 18

NOES BSICAS DE ESTATSTICA

Estatstica Bsica Gleice, Airlane, Gizelton

NOES BSICAS DE ESTATSTICA

Anlise Exploratria de Dados


Aps a coleta e a digitao de dados em um banco de dados apropriado, o prximo passo
a anlise descritiva. Esta etapa fundamental, pois uma anlise descritiva detalhada permite ao
pesquisador familiarizar-se com os dados, organiz-los e sintetiz-los de forma a obter as
informaes necessrias do conjunto de dados para responder as questes que esto sendo
investigadas. Tradicionalmente, a anlise descritiva limitava-se a calcular algumas medidas de
posio e variabilidade. No final da dcada de 70, Tukey criou uma nova corrente de anlise.
Utilizando principalmente tcnicas visuais, buscando descrever quase sem utilizar clculos, alguma
forma de regularidade ou padro nos dados, em oposio aos resumos numricos. Nessa etapa,
iremos produzir tabelas, grficos e medidas resumo que descrevam a tendncia dos dados,
quantifiquem a sua variabilidade, permitam a deteco de estruturas interessantes e valores atpicos
no banco de dados.

Tipo de variveis
Cada uma das caractersticas de interesse observadas ou medidas durante o estudo denominada de
varivel. As variveis que assumem valores numricos so denominadas quantitativas, enquanto
que as no numricas, qualitativas.
Uma varivel qualitativa quando seus valores so atributos ou qualidades (por ex: sexo, raa,
classe social). Se tais variveis possuem uma ordenao natural, indicando intensidades crescentes
de realizao, so classificadas de qualitativas ordinais (por ex: classe social - baixa, mdia ou
alta). Se no for possvel estabelecer uma ordem natural entre seus valores, so classificadas como
qualitativas nominais (por ex: Sexo - masculino ou feminino).
As variveis quantitativas podem ser classificadas ainda em discretas ou contnuas. Variveis
discretas podem ser vistas como resultantes de contagens, e assumem, em geral, valores inteiros
(por ex: Nmero de filhos). Variveis contnuas podem assumir qualquer valor dentro de um
intervalo especificado e so, geralmente, resultados de uma mensurao (por ex: Peso, em kg;
Altura, em metros).

Descrio dos dados


importante conhecer e saber construir os principais tipos de tabelas, grficos e medidas resumo
para realizar uma boa anlise descritiva dos dados. Vamos tentar entender como os dados se
distribuem, onde esto centrados, quais observaes so mais freqentes, como a variabilidade
Estatstica Bsica Gleice, Airlane, Gizelton

etc., tendo em vista responder s principais questes do estudo. Cada ferramenta fornece um tipo de
informao e o seu uso depende, em geral, do tipo de varivel que est sendo investigada. Grosso
modo, utilizaremos as duas abordagens sugeridas no quadro:

varivel qualitativa*

varivel quantitativa

tabela de freqncias

medidas de posio: mdia, mediana, moda

grfico de barras

medidas de disperso: varincia, desvio-padro,

diagrama circular (pizza)

amplitude, coeficiente de variao


tabela de freqncias
histograma
boxplot
grfico de linha ou seqncia
polgono de freqncias

*Esta abordagem tambm pode ser interessante para as variveis quantitativas discretas.

Tabela de freqncias
Como o nome indica, conter os valores da varivel e suas respectivas contagens, as quais so
denominadas freqncias absolutas ou simplesmente, freqncias. No caso de variveis
qualitativas ou quantitativas discretas, a tabela de freqncia consiste em listar os valores possveis
da varivel, numricos ou no, e fazer a contagem na tabela de dados brutos do nmero de suas
ocorrncias. A freqncia do valor i ser representada por ni , a freqncia total por n e a freqncia
relativa por fi = n i /n.
Para variveis cujos valores possuem ordenao natural (qualitativas ordinais e quantitativas em
geral), faz sentido incluirmos tambm uma coluna contendo as freqncias acumuladas f ac, obtidas
pela soma das freqncias de todos os valores da varivel, menores ou iguais ao valor considerado.
No caso das variveis quantitativas contnuas, que podem assumir infinitos valores diferentes,
invivel construir a tabela de freqncia nos mesmos moldes do caso anterior, pois obteramos
praticamente os valores originais da tabela de dados brutos. Para resolver este problema,
determinamos classes ou faixas de valores e contamos o nmero de ocorrncias em cada faixa. Por
ex., no caso da varivel peso de adultos, poderamos adotar as seguintes faixas: 30 | 40 kg, 40 |
50 kg, 50 | 60, 60 | 70, e assim por diante. Apesar de no adotarmos nenhuma regra formal
para estabelecer as faixas, procuraremos utilizar, em geral, de 5 a 8 faixas com mesma amplitude.
Eventualmente, faixas de tamanho desigual podem ser convenientes para representar valores nas
extremidades da tabela.

Estatstica Bsica Gleice, Airlane, Gizelton

Exs.:
Nmero e Proporo (%) de bitos, segundo regies.
Brasil, 1996 e 1999.
Regio
n
%
Norte

16117

4,93

Nordeste

69811

21,37

Sudeste

170050

52,05

Sul

48921

14,97

Centro-Oeste

21830

6,68

326729

100,00

BRASIL

Nmero e Proporo (%) de bitos, segundo sexo e regies.


Brasil, 1996 e 1999.
masculino
Regio

feminino

Norte

10857

4,85

5260

5,12

Nordeste

46242

20,65

23569

22,93

Sudeste

118774

53,04

51276

49,89

Sul

33113

14,79

15808

15,38

Centro-Oeste

14958

6,68

6872

6,69

223944

100,00

102785

100,00

BRASIL

Grfico de barras
Para construir um grfico de barras, representamos os valores da varivel no eixo das abscissas e
suas as freqncias ou porcentagens no eixo das ordenadas. Para cada valor da varivel
desenhamos uma barra com altura correspondendo sua freqncia ou porcentagem. Este tipo de
grfico interessante para as variveis qualitativas ordinais ou quantitativas discretas, pois permite
investigar a presena de tendncia nos dados.
Ex.:

Estatstica Bsica Gleice, Airlane, Gizelton

Proporo (%) de bitos, segundo sexo e regies. Brasil, 1996 e 1999.


60.00

50.00

40.00

30.00

20.00

10.00

0.00
Norte

Nordeste

Sudeste

Sul

Centro-Oeste

regies
masculino

feminino

Diagrama Circular
Para construir um diagrama circular ou grfico de pizza, repartimos um disco em setores circulares
correspondentes s porcentagens de cada valor (calculadas multiplicando-se a freqncia relativa
por 100). Este tipo de grfico adapta-se muito bem para as variveis qualitativas nominais.
Ex.:

Proporo (%) de internaes de homens adultos, segundo motivos de hospitalizao.


Regio Centro-Oeste, 1999.

Leses e envenenamentos

Aparelho circulatrio

Aparelho digestivo

Aparelho respiratrio

Estatstica Bsica Gleice, Airlane, Gizelton

Demais

Histograma
O histograma consiste em retngulos contguos com base nas faixas de valores da varivel e com
rea igual freqncia relativa da respectiva faixa. Desta forma, a altura de cada retngulo
denominada densidade de freqncia ou simplesmente densidade definida pelo quociente da rea
pela amplitude da faixa. Alguns autores utilizam a freqncia absoluta ou a porcentagem na
construo do histograma, o que pode ocasionar distores (e, conseqentemente, ms
interpretaes) quando amplitudes diferentes so utilizadas nas faixas.
Ex.:

Medidas de posio (tendncia central)


So medidas que visam localizar o centro de um conjunto de dados, isto , identificar um valor em
torno do qual os dados tendem a se agrupar. As medidas de posio ou de tendncia central mais
utilizadas so: mdia aritmtica, mediana e moda.
mdia aritmtica: a soma de todas as observaes dividida pelo nmero de observaes.
Ex.: mdia aritmtica de 3, 4, 7, 8 e 8.

x=

3 + 4 + 7 + 8 +8
30
x=
x=6
5
5

mediana: valor que ocupa a posio central dos dados ordenados; o valor que deixa metade dos
dados abaixo e metade acima dele. Se o nmero de observaes for par, a mediana ser a mdia
aritmtica dos dois valores centrais.
Ex.: mediana de
a) 3, 4, 7, 8 e 8 ? Md=7
b) 3, 4, 7, 8, 8 e 9 ? Md =

7 +8
15
Md = Md = 7,5
2
2

moda: o valor mais freqente no conjunto de dados.


Estatstica Bsica Gleice, Airlane, Gizelton

Ex.: Nmero de filhos por funcionrio de uma certa empresa:


No de filhos

Total

Freqncia

20

Medidas de disperso
As medidas de tendncia central fornecem informaes valiosas mas, em geral, no so suficientes
para descrever e discriminar diferentes conjuntos de dados. As medidas de disperso ou
variabilidade permitem visualizar a maneira como os dados espalham-se (ou concentram-se) em
torno do valor central. Para mensurarmos esta variabilidade podemos utilizar as seguintes
estatsticas: amplitude total; distncia interquartlica; desvio mdio; varincia; desvio padro e
coeficiente de variao.
Amplitude total: a diferena entre o maior e o menor valor do conjunto de dados.
Ex.: dados: 3, 4, 7, 8 e 8.
amplitude total = 8 3 = 5
Distncia interquartlica: a diferena entre o terceiro e o primeiro quartil de um conjunto de
dados. O primeiro quartil o valor que deixa um quarto dos valores abaixo e trs quartos acima
dele. O terceiro quartil o valor que deixa trs quartos dos dados abaixo e um quarto acima dele. O
segundo quartil a mediana. (O primeiro e o terceiro quartis fazem o mesmo que a mediana para as
duas metades demarcadas pela mediana.) Ex.: quando se discutir o boxplot.
Desvio mdio: a diferena entre o valor observado e a medida de tendncia central do conjunto de
dados.
Varincia: uma medida que expressa um desvio quadrtico mdio do conjunto de dados, e sua
unidade o quadrado da unidade dos dados.
n

s2 =

(x

x )2

i =1

n 1

Desvio Padro: raiz quadrada da varincia e sua unidade de medida a mesma que a do conjunto
de dados.

s = s2
Coeficiente de variao: uma medida de variabilidade relativa, definida como a razo percentual
entre o desvio padro e a mdia, e assim sendo uma medida adimensional expressa em percentual.

cv =

s
x

Estatstica Bsica Gleice, Airlane, Gizelton

Boxplot
Tanto a mdia como o desvio padro podem no ser medidas adequadas para representar um
conjunto de valores, uma vez que so afetados, de forma exagerada, por valores extremos. Alm
disso, apenas com estas duas medidas no temos idia da assimetria da distribuio dos valores.
Para solucionar esses problemas, podemos utilizar o Boxplot. Para constru-lo, desenhamos uma
"caixa" com o nvel superior dado pelo terceiro quartil (Q3 ) e o nvel inferior pelo primeiro quartil
(Q1 ). A mediana (Q2 ) representada por um trao no interior da caixa e segmentos de reta so
colocados da caixa at os valores mximo e mnimo, que no sejam observaes discrepantes. O
critrio para decidir se uma observao discrepante pode variar; por ora, chamaremos de
discrepante os valores maiores do que Q3 +1.5*(Q3 -Q1 ) ou menores do que Q1 -1.5*(Q3-Q1 ).

observaes extremas ou outliers


Q3 +1.5* (Q3-Q1)

(y)

maior valor
Q3
Q2 (mediana)
Q1
menor valor
Q1 -1.5* (Q3-Q1)

O Boxplot fornece informaes sobre posio, disperso, assimetria, caudas e valores discrepantes.

Grfico de linha ou seqncia


Adequados para apresentar observaes medidas ao longo do tempo, enfatizando sua tendncia ou
periodicidade.
Ex.:

Estatstica Bsica Gleice, Airlane, Gizelton

Taxa de fecundidade total. Brasil, 1970 a 2000


7

0
1970

1980

1990

2000

anos

Fonte: IBGE.

Polgono de freqncias
Semelhante ao histograma, mas construdo a partir dos pontos mdios das classes.
Ex.:
Distribuio de recm-nascidos acometidos de sndrome de desconforto idioptico grave
segundo peso ao nascer (g)
16
14
12

nmero

10
8
6
4
2
0
0

500

Fonte: Hand DJ et al. 1994.

1000

1500

2000

2500

3000

3500

4000

4500

peso (g)

Grfico de ogiva
Apresenta uma distribuio de freqncias acumuladas, utiliza uma poligonal ascendente utilizando
os pontos extremos.
Ex.:

Estatstica Bsica Gleice, Airlane, Gizelton

Distribuio de mulheres idosas segundo a altura


100

% acumulado

80

60

40

20

0
140

145

150

155

160

165

170

175

180

185

altura (cm)

Fonte: Hand DJ et al. 1994.

Diagrama de disperso
Adequado para descrever o comportamento conjunto de duas variveis quantitativas. Cada ponto
do grfico representa um par de valores observados.
Ex:

3.6
3.4
Volume (l)

3.2
3.0
2.8
2.6
2.4
2.2
50

60

70

80

90

100

Peso (Kg)

Estatstica Bsica Gleice, Airlane, Gizelton

10

BIBLIOGRAFIA BSICA

BUSSAB WO, MORETTIN PA (2002). Estatstica Bsica. 5 ed. So Paulo: Saraiva Editora.
CALLEGARI-JACQUES SM (2003). Bioestastica princpios e aplicaes. Porto Alegre:
Artmed. 255p.
MAGALHES MN, LIMA ACP (2004). Noes de probabilidade e estatstica. 6 ed. So Paulo:
Edusp. 392 p.
SOARES JF, SIQUEIRA AL (1999). Introduo estatstica mdica. Belo Horizonte, UFMG:
Coopmed Editora Mdica. 300p.

Estatstica Bsica Gleice, Airlane, Gizelton

11

Exerccios
Um questionrio foi aplicado aos alunos do primeiro ano de uma escola fornecendo as seguintes
informaes:
Id:

identificao do aluno

Turma: turma a que o aluno foi colocado (A ou B)


Sexo:

F se feminino, M se masculino

Idade: idade, em anos


Alt:

altura em metros

Peso:

peso em quilogramas

Filhos: nmero de filhos na famlia


Fuma: hbito de fumar, sim ou no
Toler: tolerncia ao cigarro:
(I) Indiferente, (P) Incomoda pouco e (M) Incomoda muito
Exerc: horas de atividade fsica, por semana
Cine:

nmero de vezes que vai ao cinema, por semana

OpCine:

opinio a respeito das salas de cinema na cidade:

(B) regular a boa e (M) muito boa


TV :

horas gastas assistindo TV, por semana

OpTV: opinio a respeito da qualidade da programao na TV:


(R) ruim, (M) mdia, (B) boa e (N) no sabe
O conjunto de informaes disponveis, aps a tabulao do questionrio ou pesquisa de campo,
denominado tabela de dados brutos e contm os dados da maneira que foram coletados
inicialmente. Os valores obtidos para cada uma dessas informaes esto apresentados na Tabela
1.1.

Estatstica Bsica Gleice, Airlane, Gizelton

12

Tabela 1.1. Informaes de questionrio estudantil dados brutos


Id
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50

Turma Sexo Idade Alt Peso Filhos Fuma Toler Exerc Cine OpCine TV OpTV
A
F
17 1,60 60,5
2
NAO P
0
1
B
16
R
A
F
18 1,69 55,0
1
NAO M
0
1
B
7
R
A
M
18 1,85 72,8
2
NAO P
5
2
M
15
R
A
M
25 1,85 80,9
2
NAO P
5
2
B
20
R
A
F
19 1,58 55,0
1
NAO M
2
2
B
5
R
A
M
19 1,76 60,0
3
NAO M
2
1
B
2
R
A
F
20 1,60 58,0
1
NAO P
3
1
B
7
R
A
F
18 1,64 47,0
1
SIM
I
2
2
M
10
R
A
F
18 1,62 57,8
3
NAO M
3
3
M
12
R
A
F
17 1,64 58,0
2
NAO M
2
2
M
10
R
A
F
18 1,72 70,0
1
SIM
I
10
2
B
8
N
A
F
18 1,66 54,0
3
NAO M
0
2
B
0
R
A
F
21 1,70 58,0
2
NAO M
6
1
M
30
R
A
M
19 1,78 68,5
1
SIM
I
5
1
M
2
N
A
F
18 1,65 63,5
1
NAO
I
4
1
B
10
R
A
F
19 1,63 47,4
3
NAO P
0
1
B
18
R
A
F
17 1,82 66,0
1
NAO P
3
1
B
10
N
A
M
18 1,80 85,2
2
NAO P
3
4
B
10
R
A
F
20 1,60 54,5
1
NAO P
3
2
B
5
R
A
F
18 1,68 52,5
3
NAO M
7
2
B
14
M
A
F
21 1,70 60,0
2
NAO P
8
2
B
5
R
A
F
18 1,65 58,5
1
NAO M
0
3
B
5
R
A
F
18 1,57 49,2
1
SIM
I
5
4
B
10
R
A
F
20 1,55 48,0
1
SIM
I
0
1
M
28
R
A
F
20 1,69 51,6
2
NAO P
8
5
M
4
N
A
F
19 1,54 57,0
2
NAO
I
6
2
B
5
R
B
F
23 1,62 63,0
2
NAO M
8
2
M
5
R
B
F
18 1,62 52,0
1
NAO P
1
1
M
10
R
B
F
18 1,57 49,0
2
NAO P
3
1
B
12
R
B
F
25 1,65 59,0
4
NAO M
1
2
M
2
R
B
F
18 1,61 52,0
1
NAO P
2
2
M
6
N
B
M
17 1,71 73,0
1
NAO P
1
1
B
20
R
B
F
17 1,65 56,0
3
NAO M
2
1
B
14
R
B
F
17 1,67 58,0
1
NAO M
4
2
B
10
R
B
M
18 1,73 87,0
1
NAO M
7
1
B
25
B
B
F
18 1,60 47,0
1
NAO P
5
1
M
14
R
B
M
17 1,70 95,0
1
NAO P
10
2
M
12
N
B
M
21 1,85 84,0
1
SIM
I
6
4
B
10
R
B
F
18 1,70 60,0
1
NAO P
5
2
B
12
R
B
M
18 1,73 73,0
1
NAO M
4
1
B
2
R
B
F
17 1,70 55,0
1
NAO
I
5
4
B
10
B
B
F
23 1,45 44,0
2
NAO M
2
2
B
25
R
B
M
24 1,76 75,0
2
NAO
I
7
0
M
14
N
B
F
18 1,68 55,0
1
NAO P
5
1
B
8
R
B
F
18 1,55 49,0
1
NAO M
0
1
M
10
R
B
F
19 1,70 50,0
7
NAO M
0
1
B
8
R
B
F
19 1,55 54,5
2
NAO M
4
3
B
3
R
B
F
18 1,60 50,0
1
NAO P
2
1
B
5
R
B
M
17 1,80 71,0
1
NAO P
7
0
M
14
R
B
M
18 1,83 86,0
1
NAO P
7
0
M
20
B

Estatstica Bsica Gleice, Airlane, Gizelton

13

1. Construa a tabela de freqncias para a varivel sexo e interprete.


Sexo

ni

fi

ni = freqncia do valor i

fi = ni / n

total

n=50

2. Construa a tabela de freqncias para as demais variveis qualitativas e interprete.

3. Calcule medidas descritivas (de posio e disperso) para a idade dos estudantes do sexo
masculino. Interprete.

Estatstica Bsica Gleice, Airlane, Gizelton

14

4. Construa o boxplot da varivel peso para os dois sexos. Interprete.


Feminino
Ordem
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1

Peso
70,0
66,0
63,5
63,0
60,5
60,0
60,0
59,0
58,5
58,0
58,0
58,0
58,0
57,8
57,0
56,0
55,0
55,0
55,0
55,0
54,5
54,5
54,0
52,5
52,0
52,0
51,6
50,0
50,0
49,2
49,0
49,0
48,0
47,4
47,0
47,0
44,0

Masculino
Ordem
13
12
11
10
9
8
7
6
5
4
3
2
1

Peso
95,0
87,0
86,0
85,2
84,0
80,9
75,0
73,0
73,0
72,8
71,0
68,5
60,0

Estatstica Bsica Gleice, Airlane, Gizelton

15

5. Uma nova rao foi fornecida a sunos recm desmamados e deseja -se avaliar sua eficincia. A
rao tradicional dava um ganho de peso ao redor de 3,5 kg em um ms. A seguir, apresentamos os
dados referentes ao ganho, em quilos, para essa nova rao, aplicada durante um ms em 200
animais nas condies acima.
a. Construa o histograma
b. Determine o 1 , 2 e 3 quartis.
c. Voc acha que a nova rao mais eficiente que a tradicional? Justifique.
Ganho de peso

ni

fi

di

(kg)
1.0+ - - - 2.0

45

2.0+ - - - 3.0

83

3.0+ - - - 4.0

52

4.0+ - - - 5.0

15

5.0+ - - - 6.0

6.0+ - - - 7.0

Total

Estatstica Bsica Gleice, Airlane, Gizelton

16

6. Como parte de uma avaliao mdica em uma empresa, foi medida a freqncia cardaca dos
funcionrios de um determinado setor.

Freqncia cardaca

ni

fi

di

(bpm)
60+ - - - 65

11

65+ - - - 70

35

70+ - - - 85

68

75+ - - - 80

20

80+ - - - 85

12

85+ - - - 90

10

90+ - - - 95

95+ - - - 100

Total
a. Obtenha o histograma.
b. Freqncias cardacas que estejam abaixo de 62 ou acima de 92 requerem
acompanhamento mdico. Qual a porcentagem de funcionrios nestas condies?
c. Uma freqncia ao redor de 72 batidas por minuto considerada padro. Voc acha que de
modo geral esses funcionrios se encaixam nesse caso?

Estatstica Bsica Gleice, Airlane, Gizelton

17

8. O que acontece com a mdia e o desvio padro:


a. Se um mesmo nmero somado a todos os elementos de um conjunto de dados?
b. Se cada elemento de um conjunto de dados for multiplicado por um valor constante.

9. Comente as seguintes afirmativas:


c. Sempre a metade dos dados est abaixo da mdia.
d. A mdia o valor tpico de um conjunto de dados.
e. Enquanto tivermos alunos com rendimento abaixo da mdia, no poderemos descansar.

Estatstica Bsica Gleice, Airlane, Gizelton

18

You might also like