Professional Documents
Culture Documents
PREFCIO ..................................................................................................7
Captulo 1 - RECENSEAMENTO E SONDAGEM. POPULAO E AMOSTRA...........11
1.1 - Recenseamento e sondagem ...........................................................11
1.2 - Populao e Amostra ........................................................................15
1.3 - Estatstica Descritiva e Estatstica Indutiva ......................................26
1.4 - Exemplos de aplicao da Estatstica ..............................................29
Captulo 2 - ANLISE, REPRESENTAO E REDUO DE DADOS. TABELAS
E GRFICOS ............................................................................................31
2.1 - Introduo .........................................................................................31
2.2 - Tipos de dados. Frequncia absoluta e relativa ...............................32
2.2.1 - Dados qualitativos .....................................................................32
2.2.2 - Dados quantitativos ...................................................................34
2.3 - Representao grfica de dados ......................................................41
2.3.1 - Variveis discretas. Diagrama de barras ...................................41
2.3.2 - Variveis contnuas. Histograma. Funo cumulativa ...............43
2.3.2.1 - Histograma ...................................................................43
2.3.2.2 - Funo cumulativa .......................................................47
2.3.3 - Outras representaes grficas ................................................50
2.3.3.1 - Diagrama circular .............................................................50
2.3.3.2 - Caule-e-folhas ................................................................51
2.3.3.3 - Diagrama de extremos e quartis ......................................56
Captulo 3 - CARACTERSTICAS AMOSTRAIS. MEDIDAS DE LOCALIZAO
E DISPERSO ..........................................................................................71
3.1 - Introduo .........................................................................................71
3.2 - Medidas de localizao ....................................................................72
3.2.1 - Mdia .........................................................................................73
3.2.2 - Mediana .....................................................................................79
3.2.3 - Quartis .......................................................................................85
3.2.4 - Moda ..........................................................................................87
PREFCIO
didctica
onde
so
possam facilitar
professor
possa
planificar
desenvolver
as actividades de
aprendizagem.
Cada vez mais reconhecida a importncia da Estatstica no currculo dos alunos. Ela
tem sido inserida nos programas de Matemtica e encarada como uma rea favorvel
ao desenvolvimento de certas capacidades expressas nos currculos, tais como
interpretar e intervir no real; formular e resolver problemas; comunicar; manifestar rigor
e esprito crtico; e ainda a aquisio de uma atitude positiva face Cincia. Deste
modo, ensinar Estatstica no pode limitar-se ao ensino de tcnicas e frmulas e
padro, por exemplo, mas sim que entenda o significado do valor encontrado na
situao proposta.
2. A comunicao dos resultados de actividades prticas e de problemas dever
ser acompanhada de relatrios escritos e de discusso na turma, onde os alunos
expliquem as concluses por palavras suas. Cada vez mais reconhecida na Educao
Matemtica a importncia da comunicao escrita e oral por parte do aluno e da
discusso entre pares na construo e compreenso dos conceitos e dos
procedimentos.
3. O desenvolvimento de projectos de carcter investigativo pelos alunos deve
ser levado a cabo atravs de trabalho de grupo, porque tambm atravs do trabalho
colaborativo que surge a discusso e portanto, muitas vezes a clarificao dos
conceitos.
No consideramos que esta obra seja definitiva. Contamos, assim, com a vossa
colaborao no sentido de nos enviarem crticas e sugestes, que possam contribuir
para o seu melhoramento.
Sabendo que a componente de Estatstica do programa de Matemtica , de um modo
geral, uma das preferidas pelos alunos, esperamos que este guia contribua para o
professor desenvolver na sala de aula actividades e projectos significativos para eles, e
portanto motivantes, contribuindo assim para o sucesso em Mate-mtica.
Os autores
Captulo 1
RECENSEAMENTO E SONDAGEM
POPULAO E AMOSTRA
ou censo
encontra-se
10
constitui um motivo de orgulho para os portugueses visto que foi um dos primeiros
estudos deste gnero conhecido na Europa.
O INE, Instituto Nacional de Estatstica, tem a seu cargo fazer recenseamentos da
popu-lao portuguesa, o ltimo dos quais, o XIII Recenseamento Geral da Populao,
foi reali-zado em 1991. Neste recenseamento ficaram a conhecer-se variadas
caracte-rsticas do nosso povo como por exemplo: a situao civil, a habitacional, a
populao emigrante, etc. Os dados relativos aos censos so extremamente importantes
pois tm influncia directa na deciso em assuntos de interesse nacional e local, tal
como seja na educao, emprego, sade, transportes, recursos naturais, etc, etc.
Comparando resultados de recenseamentos sucessivos pode-se extrapolar e predizer
padres futuros da populao. Podemos obter informao sobre, por exemplo, a
estrutura da idade da populao e crescimento populacional, fundamental para o
planeamento na construo de novas escolas, alojamento para idosos, etc.
A realizao de um recenseamento geral da populao, alm de implicar gastos muito
elevados, extremamente difcil de conduzir. H problemas associados com a recolha
adequada da informao, seu armanezamento, tratamento, posterior divulgao, etc.
de referir que esta prtica se pode estender a outras situaes, tais como, s habitaes
(recenseamento da habitao), s indstrias (recenseamento industrial), Agricultura
(recenseamento agrcola), etc. importante que fique claro que a palavra
recensea-mento est associada anlise de todos os elementos da populao em
causa e que tem por objectivo no s a enumerao dos seus elementos, como tambm
o estudo de caractersticas importantes . No contudo vivel nem desejvel,
principalmente quan-do o nmero dos elementos da populao muito elevado, inquirir
todos os elementos da populao sempre que se quer estudar uma ou mais
caractersticas particulares des-sa populao. Assim surge o conceito de sondagem,
que se pode tentar definir como:
Sondagem - Estudo cientfico de uma parte de uma populao com o
objec-tivo de estudar atitudes, hbitos e preferncias da populao
relativamente a acontecimentos, circunstncias e assuntos de interesse
comum.
11
12
13
14
Outras razes, alm das apontadas anteriormente, que podem levar a que no se possa
observar exaustivamente todos os elementos de uma populao, prendem-se com o
facto de algumas populaes terem dimenso infinita - populao constituda pelas
temperaturas em todos os pontos de uma cidade, ou a prpria observao levar
destruio da populao! Por exemplo, o departamento de controlo de qualidade de
uma fbrica de baterias de carros, em que o teste para verificar se a bateria est em
perfeitas condies obriga ao desmantelamento da bateria, no pode verificar todas as
baterias, pois destruiria toda a populao!
As consideraes anteriores levam-nos a concluir que, de um modo geral, no
podemos determinar exactamente os parmetros desconhecidos da populao a
estudar. Podemos sim estim-los utilizando estatsticas, que so quantidades calculadas
a partir da observao de uma amostra recolhida da populao.
Amostra - subconjunto da populao, que se observa com o objectivo de
tirar concluses para a populao de onde foi recolhida.
Tendo em considerao o objectivo com que se recolhe a amostra, o de retirar
concluses para a populao, esta fase do processo estatstico, a da recolha da
amostra, muito importante, pois a amostra deve ser to representativa quanto possvel
da populao.
Resumindo, importante chamar a ateno que, em toda a situao estatstica
envolvendo populao e amostra, a caracterstica numrica que se est a estudar
aparece sob duas formas: como caracterstica populacional ou parmetro e como
caracterstica amostral ou estatstica. No caso do exemplo 3, caracterstica
populacional "percentagem de eleitores que esto decididos a votar" corresponde a
caracterstica amostral " percentagem dos 1000 eleitores (entretanto recolheu-se uma
amostra de dimenso 1000), que interrogados disseram estar decididos a votar". Estas
quantidades so conceptualmente distintas, pois enquanto a caracterstica populacional
pode ser considerada um valor exacto, embora desconhecido, a caracterstica amostral
conhecida, embora contendo um certo erro, mas que todavia pode ser considerada
uma estimativa til da caracterstica populacional respectiva, se efectivamente a
amostra utilizada for representativa da populao subjacente.
15
16
Este princpio pode ser exemplificado com uma populao de dimenso pequena, como
no exemplo seguinte.
Exemplo 4 - Consideremos a populao constituda pelos 18 alunos de uma turma do
10 ano de uma determinada Escola Secundria, em que a caracterstica de interesse a
estudar a altura mdia desses alunos. Uma maneira possvel de recolher desta
populao uma amostra aleatria, seria escrever cada um dos indicadores dos
elementos da populao num quadrado de papel, inserir todos esses bocados de papel
numa caixa e depois seleccionar tantos quantos a dimenso da amostra desejada.
Este exemplo pode ser aproveitado pelo Professor, que pedir a cada aluno que retire
da caixa 4 papis, registe os nmeros dos alunos seleccionados e os coloque de novo
na caixa, antes do prximo aluno fazer a recolha da sua amostra. Chamar-se- aqui a
ateno que a recolha est a ser feita sem reposio, pois quando se retira um papel
(elemento da populao), ele no reposto enquanto a amostra no estiver completa
(com a dimenso desejada). Qualquer conjunto de nmeros recolhidos desta forma dar
origem a uma amostra aleatria, constituda pelas alturas dos alunos seleccionados.
Ca-da aluno dispor assim de uma amostra de dimenso 4, que lhe vai permitir calcular
uma mdia, que ser uma estimativa do parmetro a estudar - valor mdio da altura dos
alunos da turma. Obter-se-o tantas estimativas, quantas as amostras retiradas.
Chamar-se- ento a ateno para o facto de nesta altura no se poder dizer qual das
estimativas "melhor", isto , qual delas uma melhor aproximao do parmetro a
estimar, j que esse parmetro desconhecido (obviamente que nesta populao to
pequena seria possvel estudar exaustivamente todos os seus elementos, no sendo
necessrio recolher nenhuma amostra - este exemplo s serve para exemplificar uma
situao)!
O processo que acabamos de descrever um processo que nos permite obter amostras
aleatrias simples.
Nesta altura poder-se- explorar a utilizao da calculadora, para obter uma amostra
aleatria.
17
18
[1 ; 124[. Se considerarmos s a
123
rand + 1 ,
obtido
de
uma
vez
fazendo
simplesmente
19
20
Para fixar ideias, admitamos que a populao a estudar constituda por 3 turmas A, B
e C, com 25, 30 e 18 alunos respectivamente e que se pretende recolher uma amostra
de dimenso 15. Calculando-se a percentagem de alunos de cada turma que compem
a populao, entra-se com esses valores para calcular quantos alunos se deve recolher
em cada turma para constituirem a amostra:
Turma
N elementos
25
25/73 = .34
.34 x 15 5
30
30/73 = .41
.41 x 15 6
18
18/73 = .25
.25 x 15 4
Total
73
15
21
22
23
Sondagem
10%
no sabem
quem
o Presidente
da Repblica
DEZ por cento dos portugueses no sabem quem
o Presidente da Repblica e 9 por cento
desconhecem a identidade do primeiro-ministro. Uma
sondagem
de
2000
inquiridos
EX-PRESSO/Euroexpanso revela ainda ndices
mais desoladores para o presidente da Assembleia
da Repblica (s identificado por 39 por cento dos
inquiridos),
para
os
lderes
partidrios
(desconhecidos de mais de metade do universo) e
para os chefes dos grupos parlamentares
(igno-rados pela quase totalidade da amostra). Os
dados da sondagem mostram ainda que os
portugueses no distinguem entre Antnio Guterres/
primeiro-ministro e Antnio Guterres/secretrio-geral
do PS: 91 por cento sabem que ele o chefe de
Governo, mas 52 por cento ignoram que ele o lder
dos socialistas (ver pg. 7).
Ficha Tcnica
Sondagem efectuada entre os dias 6 e 31 de
Janei-ro. O universo constitudo pela populao
de Portugal Continental, com idades entre os 18 e
os 74 anos. A amostra de 1964 indivduos,
entrevistados directamente, nas suas residncias,
seleccionados atravs do mtodo de quotas
resultantes da interseco das variveis sexo,
idade e grau de instruo, e distribudos do
seguinte modo: Litoral Norte (474), Grande Porto
(212) , Interior Norte (272), Litoral Centro (298),
Grande Lisboa (449) e Interior Sul (259). Os
resultados foram ponderados com base nas
variveis regio/sexo/idade. A sondagem da
responsabilidade da Euroexpanso e a anlise de
resultados feita pelo EXPRESSO.
24
PAREDE
Recenseamento
A Junta de Freguesia da Parede est a
rea-lizar o recenseamento da populao desta
fre-guesia, afim de actualizar o nmero real das
pessoas ali residentes. Estes dados precisos,
quantitativos de populao, s so actualizados de
dez em dez anos, com o recenseamento geral da
populao.
Para o efeito, a Junta elaborou um formulrio
onde constam o nome e a morada, a na-turalidade
dos residentes, a filiao e outros dados pessoais,
o ano em que se fixou na fre-guesia, a profisso e
as habilitaes literrias.
Todo este processo est a ser realizado por
partes, uma vez que a Parede constituda por
vrios aglomerados, abrangendo uma rea
con-sidervel. Assim, foram entregues em casa
de cada paredense, o nmero de formulrios
cor-respondente aos elementos do agregado
fa-miliar. De seguida, com um prazo mximo de
oito dias, feita a recolha dos formulrios, sendo a
responsabilidade da prpria freguesia.
O acesso aos resultados ser possvel daqui
a alguns meses, quando todo este processo tiver
terminado, visto que, a seguir recolha dos dados
proceder-se- ao seu tratamento.
Brbara Brcia
25
- Existiam 100 977 famlias monoparentais, com pelo menos uma criana com menos de
15 anos, em que esta ou estas viviam com o pai ou com a me - maioritariamente com a
me: 89% dos casos) e em cerca de metade dos casos sem outros adultos.
- Existiam 18 034 famlias com crianas com menos de 15 anos, vivendo apenas com
um ou os dois avs.
- 8 616 crianas viviam em alojamentos descritos como "barracas", especialmente junto
s grandes cidades.
26
No
Sim
No
Sim
Sim
27
Nesta altura o Professor poder recordar aos alunos a forma como as previses so
dadas, em noite de eleies, sob a forma de intervalos. Poder referir que por vezes a
guerra de audincias faz com que estas previses tenham pouco sentido, por
apresentarem intervalos com uma to grande amplitude que a sua preciso, como
estimativas das percentagens pretendidas, muito pequena. Esta situao prende-se
com o facto de as amostras utilizadas para a construo dos intervalos terem uma
dimenso muito reduzida, havendo assim muito pouca informao disponvel. No
entanto, medida que a noite vai avanando, os intervalos vo diminuindo de
amplitude, estando esta diminuio da amplitude relacionada com a dimenso da
amostra que entretanto vai aumentando, at finalmente estarem todos os votos
contados. Nesta altura, os intervalos reduzem-se a pontos, que so as percentagens
pretendidas.
Poder-se- tambm chamar a ateno para que a compreenso do processo estatstico
nos permitir compreender melhor notcias que, com muita frequncia, se lem nos
jornais ou ouvem na televiso. Por vezes alguns estudos sobre os mesmos assuntos,
apresentam resultados que chegam a ser contraditrios! Isto acontece nomeadamente
no estudo de certos aspectos do comportamento humano, utilizando testes psicolgicos,
ou no estudo de certas doenas utilizando cobaias. Muitas das inferncias feitas so
imperfeitas, a maior parte das vezes por terem como base dados imperfeitos.
28
Populao
Amostra
Caractersticas
populacionais
Estatstica
Indutiva
Estatstica
Descr itiva
Estudo da amostra:
- tabelas
- grficos
- medidas
-
Caractersticas
amostrais
29
3. Os 120 empregados de um fabrica ganha em mdia 100 mil escudos por ms.
Aqui temos apenas um problema de Estatstica Descritiva visto que a informao foi
feita com base nos dados relativos ao salrio de todos os empregados da empresa.
4. Baseados numa amostra de 500 trabalhadores de uma empresa de construo civil,
acredita-se que a mdia dos salrios dos trabalhadores de esse ramo de 110 000$00.
Como apenas se estudou o salrio de uma amostra de trabalhadores da empresa,
estamos perante um problema de Inferncia Estatstica.
Nota: Ao discutir cada exemplo, o Professor deve lembrar que h sempre um erro,
medido em termos de probabilidade, associado a qualquer Inferncia Estatstica que se
faa. Esse erro depende, alm de outros factores, da dimenso da amostra. Assim, no
1 exemplo a inferncia que fizermos tanto mais segura quanto mais televisores forem
inspeccionados, sendo certa apenas se inspeccionarmos todos os televisores.
Repare-se que tambm, no exemplo 2, a inferncia ser tanto mais segura quanto mais
eleitores se inquirirem. No entanto, nunca podemos ter uma garantia de 100% que o
Candidato ganhe as eleies pois pode haver sempre alterao de opinio.
30
31
Captulo 2
2.1 - Introduo
A forma como se organiza e reduz a informao obtida a partir da observao da
amostra utilizando tabelas, grficos e medidas, depende em grande parte do tipo de
dados a estudar. Estes processos de anlise procuram responder a algumas questes,
tais como:
- Sero os dados quase todos iguais?
- Sero muito diferentes uns dos outros?
- De que modo que so diferentes?
- Existe alguma estrutura subjacente ou alguma tendncia?
- Existem alguns agrupamentos especiais?
- Existem alguns dados muito diferentes da maior parte?
Estas questes no podem ser respondidas rapidamente, olhando unicamente para um
conjunto de dados! No entanto, se estiverem organizados sob a forma de tabelas ou
grficos, j a resposta s questes anteriores se torna mais simples.
Seguidamente comearemos por dar uma possvel classificao para os dados e os
processos adequados para a sua representao. Estes processos de reduo dos
dados permitem realar as caractersticas principais e a estrutura subjacente, custa de
alguma informao que se perde, mas que no relevante para o estudo em vista.
32
Erro!
33
MP - Mico Preto
Classes
CI
PP
BA
CA
PL
MP
Total
Freq. abs.
11
31
8
21
13
16
100
Freq. rel.
0.11
0.31
0.08
0.21
0.13
0.16
1.00
A reduo dos dados anteriores segundo uma tabela de frequncias permite concluir
imediatamente que:
A novela preferida por mais pessoas a Pedra sobre Pedra
A novela preferida por menos pessoas a Barriga de Aluguer
Estas concluses no seriam to evidentes a partir dos dados inicialmente recolhidos.
Ao fazer a reduo, sob a forma de uma tabela de frequncias, a nica informao que
se perdeu foi a ordenao inicial dos dados.
Quando se constri uma tabela de frequncias, a partir de uma amostra, um processo
de fcil verificao de que as frequncias esto bem calculadas consiste em som-las
para todas as classes consideradas, pois:
- A soma das frequncias absolutas igual dimenso da amostra;
- A soma das frequncias relativas igual a 1.
34
Bsico
Primrio Preparat.
1985-1986
1986-1987
41534
41553
Sec. Unific
29189
31742
28675
28751
Secundrio
Sec. comp. 12ano
Liceal
14187
15171
3584
4136
Tcnico
3069
3454
2216
2656
(cont)
Cursos
Profission
Artstico
1281
969
1985-1986
1986-1987
Total
Mdio
Mag.Infantil
Mag.Primrio
629
602
535
414
571
485
125470
129933
Observao: No foram considerados os ensinos pr-escolar e superior por no haver informao disponvel completa.
Bsico
Primrio Preparat.
1985-1986
1986-1987
0.331
0.320
Sec. Unific
0.233
0.244
0.229
0.221
Secundrio
Sec. comp. 12ano
Liceal
0.113
0.117
0.029
0.032
Tcnico
0.024
0.027
0.018
0.020
(cont)
Cursos
Profission.
1985-1986
1986-1987
0.010
0.007
Artstico
0.005
0.005
Mdio
Mag.Infantil
Mag.Primrio
0.004
0.003
0.005
0.004
Total
1
1
35
quantitativos
Representam
informao
resultante
de
36
Classes
0
1
2
3
4
Total
Tabela de frequncias
Freq. abs.
Freq. rel.
4
0.20
8
0.40
4
0.20
3
0.15
1
0.05
20
1.00
Freq.rel.acum
0.20
0.60
0.80
0.95
1.00
-
37
27
33
37
42
44
47
49
53
56
59
61
68
74
82
91
27
33
37
42
44
47
49
53
56
59
62
68
74
83
91
27
33
37
42
45
47
49
53
56
59
62
68
75
83
91
27
33
37
43
45
47
50
53
57
59
62
69
75
83
92
29
34
39
43
45
47
50
53
57
60
63
69
76
83
92
30
34
39
43
45
47
51
54
57
60
63
69
76
84
92
30
34
39
43
45
48
51
54
57
60
64
69
78
84
93
30
35
39
43
45
48
51
54
58
60
65
69
80
84
93
30
35
39
43
45
48
51
54
58
60
66
69
80
84
93
31
36
39
43
46
48
51
54
58
60
66
69
80
84
93
31
36
39
43
46
48
52
55
58
61
66
71
80
84
95
31
36
40
44
46
48
52
55
58
61
67
71
81
84
95
32
37
41
44
46
48
52
55
58
61
67
72
81
90
32
37
42
44
46
48
52
56
58
61
67
73
81
90
Tabela de frequncias
Freq. abs.
6
36
52
46
36
12
20
15
223
freq. rel.
0.027
0.161
0.233
0.206
0.161
0.054
0.090
0.067
0.999
38
39
Existe uma regra emprica que nos d um valor aproximado para o nmero de classes:
Para uma amostra de dimenso n, o nmero de classes k o menor
inteiro tal que 2k n.
Esta regra deve ser encarada como uma ajuda para iniciar o estudo de um conjunto de
dados, quando no h qualquer outra indicao partida que nos ajude a decidir em
quantas classes vamos organizar os dados.
Exemplo 5: Os dados seguintes (que se encontram ordenados) referem-se ao tempo de
vida (em anos) de 50 doentes que nasceram com uma certa doena rara :
0.8
0.9
1.0
1.1
1.1
1.7
1.9
2.0
2.0
2.4
2.5
2.6
2.6
3.2
3.5
4.8
6.3
6.9
7.6
9.0
9.7
13.5
13.5
14.4
15.5
16.2
18.2
18.2
20.7
21.8
23.5
23.6
23.7
27.1
27.6
28.1
29.7
30.9
31.2
31.7
33.2
36.6
36.7
38.0
40.2
45.0
45.1
61.7
66.4
67.4
Dimenso da amostra: 50
De acordo com a regra emprica apresentada anteriormente teramos:
Nmero de classes:
Amplitude de classe
Classes
[0, 10[
[10, 20[
[20, 30[
[30, 40[
[40, 50[
[50, 60[
[60, 70[
Total
Tabela de frequncias
Freq. abs.
Freq. rel.
21
0.42
7
0.14
9
0.18
7
0.14
3
0.06
0
0.00
3
0.06
50
1.00
40
Nota 1: Um erro que se comete com muita frequncia considerar a ltima classe
fechada direita. Este procedimento no correcto. Todas as classes devem ser
construdas segundo a mesma metodologia, isto , fechadas esquerda e abertas
direita.
Nota 2: Para definir um conjunto de classes associado a um conjunto de dados,
de-ve-se ter em conta que, de um modo geral, quanto mais elementos tiver a amostra,
maior ser o nmero de classes que se deve considerar (o que est de acordo com a
regra indicada). No entanto, mesmo que a dimenso da amostra seja suficiente-mente
grande, no aconselhvel considerar um nmero de classes superior a 15.
Exemplo 6 - Foram inquiridos 75 agregados familiares de uma determinado zona
residencial, com o objectivo de tomar decises a muito curto prazo sobre as
necessidades da rede escolar. Cada agregado familiar deu indicaes sobre as idades
dos filhos entre os 3 e os 18 anos. Obteve-se uma amostra de dimenso 133, a qual se
organizou na seguinte tabela de frequncias:
Classes
[3, 6[
[6, 10[
[10, 12[
[12, 15[
[15, 19[
Total
Tabela de frequncias
Freq.abs.
Freq.rel.
44
0.33
36
0.27
28
0.21
15
0.11
10
0.08
133
1.00
Qual o critrio utilizado na definio das classes? O que ressalta da tabela quanto
classe etria da populao da dita zona residencial e quanto s necessidades, no que
diz respeito rede escolar?
Comentrio: Na definio das classes anteriores teve-se em conta o objectivo do
estudo sobre as necessidades da rede escolar. Assim, consideraram-se como classes
as classes etrias que correspondem, de uma maneira geral, aos diferentes graus de
ensino. Da anlise da tabela conclui-se que na dita zona residencial a populao
relativamente jovem, havendo predominncia de crianas em idade pr-escolar, pelo
que se deve comear a pensar em criar meios, para daqui a alguns anos, essas
crianas terem acesso escolaridade obrigatria e eventualmente ao secundrio.
41
0.209
0.218
0.226
0.239
0.224
0.207
0.215
0.219
0.222
0.225
0.219
0.218
0.245
0.220
0.237
0.207
0.245
0.207
0.222
42
.20
.15
.05
n irmos
43
.20
n irmos
44
95
92
89
86
83
80
77
74
71
68
65
62
59
56
53
50
47
44
41
38
35
32
26
29
fi
hi
fi
hi
Nota 1: Se todas as classes tiverem a mesma amplitude, ento h i = h. Neste caso, por
vezes constroem-se os rectngulos com alturas iguais s frequncias relativas
(absolutas) das respectivas classes, vindo as reas dos rectngulos proporcionais e no
45
Freq. abs.
21
7
9
7
3
0
3
50
Freq. rel.
0.42
0.14
0.18
0.14
0.06
0.00
0.06
1.00
Freq.rel.acum
0.42
0.56
0.74
0.88
0.94
0.94
1.00
-
Freq.rel./h
0.042
0.014
0.018
0.014
0.006
0.000
0.006
-
0.05
Freq.rel./10
0.04
0.03
0.02
0.01
0
[0, 1 0[
[10, 20[
[20, 30[
[30, 40[
[40, 50[
[50, 60[
[60, 70[
Tempo
46
Podemos obter um histograma com a calculadora grfica. Para isso, comeamos por
inserir os dados numa lista, normalmente em L1.
Depois vamos a STAT PLOT, escolhemos 1:Plot 1 e
seleccionamos as opes indicadas na figura.
em
Xscl,
de
aproxima-damente 9.514.
Se quisermos escolher a amplitude das classes e o incio da primeira classe, basta
alterar em WINDOW os respectivos valores.
Por exemplo, comeando em 0 com
amplitude de 10, obtemos este
histograma.
47
Muitas vezes fazemos um estudo de uma certa amostra na calculadora grfica e depois
no nos convm apagar os dados introduzidos porque iremos precisar deles mais tarde.
Temos por isso de guard-los numa lista prpria.
Para isso, teclamos 2nd
LIST
OPS
B:
L
e escrevemos a seguir o nome que queremos dar a esta lista,
com um mximo de 5 caracteres (escolhemos DOENT).
Teclando ENTER os dados que estavam em L1 ficam guardados na lista LDOENT.
Quando quisermos voltar a usar estes dados basta ir buscar esta lista a LIST.
2.3.2.2 - Funo cumulativa
Para representar graficamente as frequncias acumuladas considera-se a funo
cumulativa cuja construo se exemplifica a seguir:
Freq.acum.
1.00
0.90
0.80
0.70
0.60
0.50
0.40
0.30
0.20
0.10
0
10
20
30
40
50
60
70
Tempo d e v id a
48
1.00
0.90
0.80
0.70
0.60
0.50
0.40
0.30
0.20
0.10
0
10
15 .7 1
20
30
40
50
60
70
Tempo d e v id a
Uma vez que se admite que a frequncia se distribui uniformemente sobre a amplitude
de classe, isto , a frequncia 0.14 (=0.56-0.42) distribui-se uniforme-mente sobre o
intervalo de amplitude 10, atravs da resoluo de uma equao de proporcionalidade,
obtm-se o ponto que andvamos procura:
49
0.25
Freq.rel.
0.2
0.15
0.1
[90,100[
[80,90[
[70,80[
[60,70[
[50,60[
[40,50[
[30,40[
[20, 30[
0.05
Na construo dos rectngulos que formam o histograma, utilizmos para altura de cada
50
Classes
51
Exemplo 1 ( cont): O diagrama circular para este caso tem o seguinte aspecto:
CI
11%
MP
16%
PL
13%
PP
31%
CA
21%
BA
2.3.3.2 - Caule-e-folhas
um tipo de representao que se pode considerar entre a tabela e o grfico, uma vez
que so apresentados os verdadeiros valores da amostra, mas numa apresentao
sugestiva, que faz lembrar um histograma. Consiste em escrever do lado esquerdo de
uma linha vertical, o dgito (ou dgitos) da classe de maior grandeza, seguidos dos
restantes. Exemplificamos seguidamente a construo de uma representao em
caule-e-folhas.
Exemplo 6 - Num determinado teste realizado a 48 estudantes, obtiveram-se as
seguintes pontuaes:
75
99
76
93
98
66
60
85
42
90
77
70
75
79
49
62
84
80
92
80
87
89
83
74
65
68
71
69
59
57
78
90
63
95
53
62
86
55
81
84
78
79
77
64
37
88
58
73
Para fazer a representao caule-e-folhas, comeamos por traar uma linha verti-cal e
do lado esquerdo os dgitos dominantes, que no nosso caso o das dezenas:
1 passo
3
4
5
6
7
4 3
8
9
2 passo
3
4
5
6
7
8
9
3 passo
3
4
5
6
7
7
2
9
5
5
8
9
4 7 6 0 9 8 3 1 5 0 4
8 9 0 5 2 3 0
9
7 5 3 8
3 6 8 0 2 9 2 4
5 8 9 9 6 7 1 8 7 0
52
7
2
3
0
0
0
0
9
5
2
1
0
0
7
2
3
1
2
8
3
4
3
3
9
4
5
4
5
5
5
4
8
6 8 9
6 7 7 8 8 9 9
5 6 7 8 9
9
Esta representao muito til para ordenar amostras, pois basta agora percorrer a
representao de cima para baixo, para recuperar a amostra ordenada.
Exemplo 7: No seguinte quadro, apresenta-se o nmero de concelhos de cada um dos
distritos de Portugal Continental e das Regies Autnomas de Aores e Madeira
(Anurio Estatstico de Portugal, 1992):
Regio
Aveiro
Beja
Bragana
Braga
Cast.Branco
Coimbra
vora
Faro
Guarda
Leiria
N concelhos
19
14
13
12
11
17
14
16
14
16
Regio
Lisboa
Portalegre
Porto
Santarm
Setbal
Viana Cast.
Vila Real
Viseu
Aores
Madeira
N concelhos
15
15
17
21
13
10
14
24
19
11
0
2
4
6
9
1
1
3
4
6
9
1
3
4 4 5 5
7 7
53
0 1 1 2 3 3 4 4 4 4
5 5 6 6 7 7 9 9
1 4
Repare-se que, em qualquer das modalidades apresentadas, cada caule tem sempre a
possibilidade de ter penduradas o mesmo nmero de folhas diferentes: na primeira
representao 2 folhas e na ltima representao 5 folhas.
Nota: A representao em caule-e-folhas muito sugestiva para a representao de
dois conjuntos de dados referentes mesma caracterstica, mas de populaes
diferentes, como se exemplifica a seguir.
Exemplo 8: Utilizaram-se 45 ratos de ambos os sexos, no estado adulto, e mediu-se o
tempo (em segundos) de reaco a determinada droga, sendo os resultados sumariados
no quadro seguinte:
Sexo
M
M
M
M
M
M
F
F
F
Tempo
142
126
134
112
199
97
90
52
53
Sexo
M
M
M
M
M
M
F
F
F
Tempo
142
128
132
107
118
108
58
55
50
Sexo
M
M
M
M
M
F
F
F
F
Tempo
151
141
120
55
123
33
41
68
64
Sexo
M
M
M
M
M
F
F
F
F
Tempo
121
115
99
120
101
37
65
61
71
Sexo
M
M
M
M
M
F
F
F
F
Tempo
152
127
138
130
95
30
102
66
74
54
73 0
1
8 5 3 2 0
8 6 5 4 1
4 1
0
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
5
1
2
0
0
1
1
7
5
5
0
2
2
2
9
7
8
1 3 6 7
4 8
2
Turma B:
73
84
76
70
69
69
46
81
92
66
87
81
78
45
67
73
88
79
95
86
79
75
98
81
82
70
60
82
77
81
81
87
88
94
79
92
77
70
74
71
55
56
distribuio
das
frequncias
faz-se
de
forma
aproximadamente
simtrica,
Distribuies enviesadas
A distribuio das frequncias faz-se de forma acentuadamente assimtrica,
apresentando valores substancialmente mais pequenos num dos lados, relativamente
ao outro:
57
A distribuio das frequncias faz-se de tal forma que existem algumas classes nos
extremos, cujas frequncias so muito pequenas, relativamente s classes centrais,
apresentando algumas classes intermdias com frequncia nula:
Extremo
i nferior
1 quarti l mediana
3 quarti l
Extremo
superi or
58
E xtremo
i nferio r
50 % d os da dos
1 qu arti l med ia na
25 % d os mai ores
el eme ntos
3 qu arti l
E xtremo
su peri or
Como que se pode reconhecer a simetria ou o enviesamento dos dados, a partir desta
representao?
Existem fundamentalmente trs caractersticas da representao extremos e quartis,
que nos do ideia da simetria ou enviesamento dos dados e da sua maior ou menor
concentrao:
- distncia entre a linha indicadora da mediana e os lados do rectngulo;
- comprimento da caixa;
- comprimento das linhas que saem dos lados dos rectngulos.
Apresentamos seguidamente 3 exemplos de diagramas de extremos e quartis,
correspondentes a tipos diferentes de distribuio dos dados.
Dados simtricos
59
337
195
144
116
96
83
75
74
70
59
54
53
38
30
27
19
19
14
11
141
Uma representao de extremos e quartis para estes dados, tem o seguinte aspecto 2:
e os quartis.
60
(2) Holanda
Amesterdo 8.68
Roterdo
7.31
Haia
6.02
Utrecht
2.64
Eindhoven 1.75
Haarlem
1.72
Groningen 1.51
Tilburg
1.42
Enschede 1.31
Arnhem
1.29
(5) Inglaterra
Londres
79.86
Birmingham11.02
Liverpool
7.22
Manchester 6.38
Leeds
5.09
Sheffield
4.88
Bristol
4.30
Coventry
3.30
Nottingham 3.10
Kingston
2.99
(3) Frana
Paris
28.11
Marselha
7.83
Lyon
5.35
Toulouse
3.30
Nice
2.94
Bordus
2.54
Nantes
2.46
Estrasburgo 2.33
St. Etienne 2.03
Lille
1.99
(6) Itlia
Roma
23.59
Milo
15.80
Npoles 11.82
Turim
11.14
Gnova
7.84
Palermo
5.90
Florena
4.54
Bolonha
4.44
Catnia
3.61
Veneza
3.36
It li a
Ingl aterra
E spa nha
Fran a
Hol and a
S uc ia
0
80
40
61
realar ainda as cidades de Paris, Madrid e Roma substancialmente mais populosas dos
que as restantes. De notar tambm o enviesamento, com cauda mais longa para a
direita, apresentado por todos os pases:
It li a
E spa nha
Fran a
Hol and a
S uc ia
0
15
30
62
Nota:
Caixa-dos-bigodes
(Box-plot)
anteriormente considerada, mas um pouco mais elaborada a caixa dos bigodes, que
se apresenta a seguir.
Tal como no diagrama de extremos e quartis o conjunto dos valores da amostra
compreendidos entre o 1 e o 3 QUARTIS, representado por um rectngulo (caixa)
com a MEDIANA indicada por uma barra. Consideram-se seguidamente duas linhas que
unem os meios dos lados dos rectngulos com os chamados valores adjacentes, que
definiremos a seguir.
3 qu arti l
Define-se valor adjacente inferior AI, como sendo o menor valor da amostra
(eventualmente o mnimo), que maior ou igual que
Q1 - 1.5 x (Q3 - Q1)
Define-se valor adjacente superior AS, como sendo o maior valor da amostra
(eventualmente o mximo), que menor ou igual que
Q3 + 1.5 x (Q3 - Q1)
Por vezes surgem na amostra valores, que se distinguem dos restantes por serem
muitos grandes ou muito pequenos. A esses valores chamamos outliers. Dizemos que
um valor outlier, quando no est compreendido no intervalo [AI, AS]. Os outliers
representam-se na caixa-dos-bigodes por uma notao que pode ser um trao, um
asterisco ou um ponto.
Tal como a representao extremos e quartis, a caixa-dos-bigodes reala informao
importante sobre os dados, nomeadamente sobre o centro da amostra (mediana),
variabilidade, simetria, dando-nos ainda informao sobre a existncia de outliers
(valores que se distinguem dos restantes, dando a ideia de no pertencerem ao mesmo
conjunto de dados).
63
Desp.
mdia
anual total
Aliment.
Vesturio
Habitao
Sade
Transporte
Educao e
cultura
Outros
Produtores
agrcolas
Assalaria-d
os agrcolas
100
100
Pessoal
operrio
100
Empresri-o
s no
agrcolas
Pessoal
admi-nistrati
vo
Quadros
tcnicos,
cientficos e
de direco
100
100
100
Profission.
liberais
100
No activos
100
52.7
10.4
16.5
2.7
9.2
1.4
51.9
10.5
17.5
2.6
8.2
1.9
42.9
10.9
18.0
1.9
12.0
3.3
36.6
10.4
15.1
2.4
19.0
3.9
34.2
10.6
18.7
2.5
14.7
4.9
22.6
9.4
19.0
1.9
22.5
6.9
27.9
7.9
15.1
1.7
28.2
5.5
47.3
8.9
18.6
4.2
9.4
2.9
7.2
7.4
11.0
12.6
14.5
17.7
13.8
8.8
Ano 1990
64
Desp.
mdia
anual total
Aliment.
Vesturio
Habitao
Sade
Transporte
Educao e
cultura
Outros
Produtores
agrcolas
Assalaria-d
os agrcolas
100
100
Pessoal
operrio
100
Empresri-o
s no
agrcolas
Pessoal
admi-nistrati
vo
Quadros
tcnicos,
cientficos e
de direco
100
100
100
Profission.
liberais
100
No activos
100
44.3
9.9
17.3
2.1
13.1
2.0
44.4
10.8
17.2
2.1
10.1
3.1
35.7
9.7
19.0
2.4
14.1
3.6
29.8
9.9
19.5
2.4
16.2
3.6
26.9
10.2
18.5
2.5
19.0
4.5
19.9
9.4
19.7
2.6
22.4
6.8
19.0
9.7
21.8
2.5
19.5
3.6
40.7
8.1
20.3
4.8
11.9
2.5
11.3
12.3
15.5
18.6
18.4
19.3
24.0
11.8
a) Fixando-se num dos anos, considere dois grupos scio-econmicos sua escolha.
Faa representaes grficas adequadas para os dados relativos aos grupos que
considerou e compare-os no que diz respeito s despesas nas diferentes rubricas.
b) Considerando o mesmo grupo para os dois anos, estude a evoluo das despesas
nas diferentes rubricas.
2 - Em 1960 e novamente em 1980 foi feito um inqurito s mulheres americanas sobre
o n de filhos. Os resultados obtidos foram os seguintes ( Freedman et al., 1991,
Statistics):
Nmero de
filhos
0
1
2
3
4
5
6
7
8
9
% mulheres
1960
22
17
21
16
10
5
3
2
2
3
% mulheres
1980
29
16
22
15
8
4
2
1
1
1
65
3 - A tabela seguinte mostra a distribuio das frequncias relativas do ltimo dgito das
idades dos indivduos adultos. Esta informao foi recolhida relativamente a dois censos
diferentes: o de 1880 e o de 1970 ( Freedman et al., 1991, Statistics)
Dgito
0
1
2
3
4
5
6
7
8
9
1880
16.8
6.7
9.4
8.6
8.8
13.4
9.4
8.5
10.2
8.2
1970
10.6
9.9
10.0
9.6
9.8
10.0
9.9
10.2
10.0
10.1
66
Freq.abs
Nota
Freq.abs
Nota
Freq.abs
Nota
Freq.abs
Nota
Freq.abs
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
17
2
12
6
10
22
27
26
42
25
59
25
37
33
50
73
43
62
65
56
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
115
51
56
73
61
115
64
76
69
59
114
57
83
80
62
118
62
96
94
74
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
149
82
98
81
64
104
54
69
64
38
186
74
101
61
63
80
52
48
37
39
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
40
38
30
52
38
34
26
22
37
19
27
19
14
34
15
18
14
1
22
13
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
11
13
7
7
6
4
8
1
6
1
6
2
2
1
1
4
1
0
1
0
6
5
4
3
2
1
0
0
10
15
20
25
50
c) Entre 3000 dlares e 4000 dlares d) Entre 4000 dlares e 5000 dlares
67
II) a) Haver mais famlias com rendimentos entre 6000 dlares e 7000 dlares ou
entre 7000 dlares e 8000 dlares ? Ou ser aproximadamente o mesmo?
b) Haver mais famlias com rendimentos entre 10000 dlares e 11000 dlares ou entre
15000 dlares e 16000 dlares ? Ou ser aproximadamente o mesmo?
R:
I) a) 2%
b) 3% c) 4% d) 5% e) 15% f) 15%
0
4
12
16
20
a) No b) 20% c) 70%
68
(1)
(2)
50
125
200
50
125
(altura em c m )
(altura em c m )
(3)
50
(4)
125
200
50
(altura em c m )
R:a) - (2)
200
b) - (3)
125
200
(altura em c m )
c) - (4)
d) - (1)
69
b) Pensa-se que o pinheiro habitual (PH) tem um crescimento muito mais lento que esta
nova espcie ensaiada, admitindo-se at que a velocidade do crescimento do PH seja
metade da do PN. Por outro lado, pensa-se que se se utilizar um fertilizante adequado,
o PN cresce mais 10 mm do que se no se utilizar o fertilizante. Tendo em considerao
o histograma apresentado pela amostra de PN, esboce histogra-mas que representem
uma amostra de PH e outra amostra de PN com fertilizante. Justifique os esboos
apresentados.
30
Freq . Absolu ta
25
20
15
10
0
[35,38 [
[38,41 [
[41,44 [
[44,47 [
[47,50 [
[50,53 [
[53,56 [
70
9 - Um servio de sade registou o n mdio de cigarros fumados por dia por cada
doente (homem) assistido nesse servio. Os dados recolhidos permitiram construir o
seguinte histograma:
Freq.rel
%
h
4
3
2
1
0
0
10
20
40
80
1.5%; 15%;
30%;
50%?
b) A percentagem de fumadores que fuma um mao ou mais por dia, mas menos de 2
maos aproximadamente:
1.5%; 15%;
30%;
50%?
1.5%; 15%;
30%;
50%?
71
1984
95.3
97.6
95.9
98.0
99.8
96.7
96.1
96.7
98.6
93.6
90.2
94.8
Out. pases
ustria
Canad
EUA
Finlndia
Japo
Noruega
Sucia
Suia
Turquia
URSS
1984
95.4
95.0
98.3
96.6
96.5
98.0
97.3
94.2
99.0
95.8
Eur12
Alemanha
Blgica
Dinamarca
Espanha
Frana
Grcia
Holanda
Irlanda
Itlia
Luxemb.
Portugal
Reino Uni.
1990
117.9
118.4
107.8
116.1
113.6
103.3
109.1
143.8
117.8
118.0
135.2
109.3
Out. pases
ustria
Canad
EUA
Finlndia
Japo
Noruega
Sucia
Suia
Turquia
URSS
1990
121.2
107.0
115.7
114.0
125.4
141.1
105.2
118.0
138.8
x
72
Organizao
de
Antnio
Barreto,
Instituto
de
Cincias
Sociais,
Universi-dade de Lisboa):
Construa pirmides de idade para Portugal em 1960, 1970, 1981 e 1991 e tire
concluses quanto evoluo da populao. Ser que a populao portuguesa est a
envelhecer? Discuta algumas implicaes sociais.
1960
Grupos etrios
0-4
5-9
10-14
15-19
20-24
25-29
30-34
35-39
40-44
44-49
50-54
55-59
60-64
65-69
70-74
75-79
80 e +
Total
1970
1981
1991
H
5.2
4.9
4.8
4.1
3.8
3.6
3.4
3.2
2.7
2.7
2.5
2.1
1.6
1.3
0.9
0.6
0.4
M
4.9
4.7
4.7
4.3
4.1
3.9
3.7
3.4
2.9
3.0
2.9
2.5
2.1
1.7
1.4
0.9
0.8
HM
10.1
9.6
9.4
8.4
7.9
7.6
7.2
6.7
5.6
5.7
5.4
4.6
3.8
3.0
2.3
1.5
1.2
H
4.7
5.0
4.8
4.1
3.5
2.8
2.9
3.1
3.0
2.8
2.4
2.4
2.1
1.6
1.1
0.6
0.6
M HM
4.5 9.2
4.8 9.9
4.7 9.4
4.4 8.5
3.8 7.3
3.2 6.0
3.3 6.2
3.4 6.5
3.4 6.4
3.1 6.0
2.7 5.2
2.7 5.1
2.6 4.8
2.2 3.8
1.6 2.7
1.0 1.6
1.0 1.6
H
4.1
4.5
4.4
4.4
3.9
3.4
3.1
2.7
2.8
2.8
2.7
2.5
2.0
1.9
1.4
0.8
0.5
M
HM
3.9 8.1
4.3 8.8
4.3 8.7
4.3 8.7
3.9 7.8
3.5 6.9
3.3 6.4
3.0 5.8
3.1 5.8
3.1 6.0
3.1 5.8
2.9 5.4
2.4 4.4
2.3 4.2
2.0 3.4
1.4 2.2
1.2 1.7
H
2.8
3.4
4.0
4.3
3.9
3.6
3.5
3.3
3.1
2.8
2.7
2.7
2.5
2.1
1.5
1.1
0.9
M
HM
2.7 5.5
3.2 6.5
3.9 7.9
4.2 8.6
3.8 7.8
3.7 7.4
3.6 7.0
3.4 6.7
3.3 6.4
3.0 5.8
3.0 5.7
3.0 5.7
2.9 5.4
2.6 4.8
2.0 3.5
1.6 2.7
1.7 2.6
47.9
52.1
100.0
47.5
52.5
48.2
51.8
48.2
51.8
100.0
100.0
100.0
73
Sugesto - para construir uma pirmide de idades considere um eixo vertical em que
marca as classes etrias e construa para um e outro lado desse eixo os histogramas
correspondentes aos homens e s mulheres. A ttulo de exemplo considera-se a
pirmide para 1960:
1960
80 e +
70-74
60-64
50-54
40-44
30-34
20-24
10-14
0-4
74
Captulo 3
CARACTERSTICAS AMOSTRAIS
MEDIDAS DE LOCALIZAO E DISPERSO
3.1 - Introduo
Vimos anteriormente alguns processos de resumir a informao contida nos dados,
utilizando tabelas e grficos. Veremos agora um outro processo de resumir essa
informao, utilizando determinadas medidas, calculadas a partir dos dados, que se
chamam estatsticas.
Das medidas ou estatsticas que iremos definir para caracterizar os dados, destacam-se
as medidas de localizao, nomeadamente as que localizam o centro da amostra, e as
medidas de disperso, que medem a variabilidade dos dados.
Observemos que, ao resumir na forma de alguns nmeros a informao contida nos
dados, estamos a proceder a uma reduo "drstica" desses dados. Assim, estas
medidas devem ser convenientemente escolhidas, de modo a representarem o melhor
possvel o conjunto de dados que pretendem sumariar. Como veremos, definiremos
vrias medidas possveis, mas no poderemos dizer, de uma forma geral, que uma
melhor do que outra, j que a sua utilizao depende do contexto e da situao em que
necessitam de ser calculadas e de como vo ser utilizadas.
Ser mesmo necessrio utilizar os dois tipos de medidas, isto , de localizao e de
disperso, para caracterizar um conjunto de dados? O exemplo seguinte procura
responder a esta questo.
Exemplo 1 - Dois alunos do 12 ano obtiveram as seguintes notas:
Pedro
Joo
14
15
13
10
13
8
13
13
13
14
13
13
14
16
13
14
13
16
O Pedro e o Joo tiveram a mesma mdia de 13.2, mas o Joo no teve aproveitamento
a todas as disciplinas. Quer dizer que utilizmos uma medida de reduo dos dados, a
mdia, que no suficiente para caracterizar e diferenciar os dois conjuntos de dados.
75
3333333
44
0
1
1
1
1
1
1
1
8
0
33
44
5
66
Antes de comear a definir as medidas que vo ser utilizadas para resumir a informao
contida nos dados (e lembramos mais uma vez que estamos na fase da anlise
estatstica conhecida por ESTATSTICA DESCRITIVA), vamos introduzir uma notao
conveniente para representar a amostra. Assim, o conjunto de dados ou observaes
que constituem a amostra ser representado por
x1, x2, x3, , xn
onde x1, x2,...., xn, representam, respectivamente, os resultados da 1 observao,d a
2 observao, da n-sima observao, a serem recolhidas para constituir uma amostra
de dimenso n. Esta notao no pressupe uma ordenao.
76
Centro
No entanto, a situao anterior muito rara, pois devido aleatoriedade presente nos
dados, os histogramas no apresentam aquele aspecto. Por outro lado, quando o
histograma enviesado, a situao ainda se torna mais complicada, pois difcil de
dizer o que o centro. Existem ento vrios processos para definir o centro, cujas
medidas no do normalmente o mesmo resultado. Destas medidas destacamos a
mdia e a mediana, a definir seguidamente.
3.2.1 - Mdia
A mdia amostral ou simplesmente mdia, a medida de localizao do centro da
amostra, mais vulgarmente utilizada. Representa-se por x,- e calcula-se utilizando o
seguinte processo:
- Somam-se todos os elementos da amostra
- Divide-se o resultado da soma pelo nmero de elementos da amostra
Utilizando a notao introduzida anteriormente para representar a amostra, de dimenso
n, a mdia obtm-se a partir da expresso:
x,- =
Erro!
77
Erro!
Erro!
Erro!
78
13.5
obteve-se o valor
x,-
13.6
11.2
15.1
10.6
12.4
14.3
113.5
= 24.1.
Embora todos os dados, menos um, estejam no intervalo [10.6, 15.1], o valor obtido para
a mdia est "bem afastado" daquele intervalo! Uma medida que se pretendia
representativa dos dados, no est a conseguir esses objectivos, pois se nos disserem
que um conjunto de dados tem mdia 24.1, imediatamente pensamos em valores que
no se afastem muito daquele valor.
O que acontece que a mdia muito sensvel a valores muito grandes ou muito
pequenos.
No caso do exemplo foi o valor 113.5 que inflacionou a mdia. Alm disso temos alguma
razo para pensar que pode ter havido um erro ao digitar o valor 113.5, digitando um 1
a mais!
E se em vez de 113.5 o valor correcto fosse 13.5, qual o valor da mdia? Neste caso
para a mdia dos seguintes dados
12.4
obteve-se o valor
13.5
13.6
x,-
11.2
15.1
10.6
12.4
14.3
13.5
anterior!
Sendo a mdia uma medida to sensvel aos dados, preciso ter cuidado com a sua
utilizao, pois pode dar uma imagem distorcida dos dados que pretende representar!
Para alm do facto de ser uma medida muito simples de calcular, existir alguma outra
razo que a torne uma medida to "popular"?
Pode-se mostrar (e essa demonstrao faz parte da Inferncia Estatstica) que quando a
distribuio dos dados "normal" (o histograma correspondente tem a forma
aproxi-mada de um sino), ento a melhor medida de localizao do centro a mdia.
79
Ora sendo a Distribuio Normal uma das distribuies mais importantes e que surge
com mais frequncia nas aplicaes, esse facto justifica a grande utilizao da mdia.
A mdia tem uma outra caracterstica, que torna a sua utilizao vantajosa em certas
aplicaes:
Quando o que se pretende representar a quantidade total expressa pelos dados,
utiliza-se a mdia. Na realidade, ao multiplicar a mdia pelo n total de elementos,
obtemos a quantidade pretendida.
Obervao: Chama-se a ateno para que s tem sentido calcular a mdia para
dados de tipo quantitativo.
80
81
1 caso - O pai d uma das quantias a cada filho, tendo o resultado do sorteio sido o
seguinte:
Jos
Joo
Erro!= 13.2.
Assim
Jos
Joana
Maria
Joo
Lus
A soma das quantias a receber (3.2 + 2.2) = 5.4, enquanto que a soma das quantias a
devolver (0.8 + 1.8 + 2.8) = 5.4, pelo que efectivamente as quantias devolvidas
chegam para pagar as quantias a receber.
Graficamente temos
15
13 .2
10
qu antia a receb er
qu antia a devo lv er
Jo s Jo ana Maria Jo o Lu s
82
Actividade 3 - Sendo uma medida importante, a mdia muitas vezes permite que se
fa-am afirmaes menos correctas. Comente com os alunos casos onde a mdia
"mal" utilizada, como por exemplo:
Um jornalista publicou no seu jornal a seguinte notcia relativamente aos atrasos das
camionetas que partiam de Sintra para Lisboa: "As camionetas da empresa VIAJANTE
com destino a Lisboa e partindo de Sintra, tm em mdia meia hora de atraso". O
jornalista baseou-se na seguinte informao: As camionetas com partida s 10h30m
verificaram os seguintes atrasos (em minutos), durante a semana de 24 a 30 de Maro:
2 feira
3 feira
4 feira
5 feira
6 feira
Sbado
Domingo
11
170
sem atraso
10
3.2.2 - Mediana
A mediana uma medida de localizao do centro da distribuio dos dados, definida
do seguinte modo: ordenados os elementos da amostra, a mediana o valor
(pertencente ou no amostra) que a divide ao meio, isto , 50% dos elementos da
amostra so me-nores ou iguais mediana e os outros 50% so maiores ou iguais
mediana.
Para a determinao da mediana, utiliza-se a seguinte regra, depois de ordenada a
amostra de n elementos:
- Se n mpar, a mediana o elemento mdio.
- Se n par, a mediana a semi-soma dos dois elementos mdios.
Uma forma simples de aplicar a regra anterior considerar o quociente
Erro!:
83
10
10
11
11
11
11
12
84
45
60
70
80
120
380
N empregados
23
58
50
20
85
Mdia
Mediana
Dados copiados
(5,2,50,6,9)
14.4
6
med ia na
md ia
10
med ia na
20
30
40
20
30
40
md ia
50
10
50
Resumindo, como a mdia influenciada quer por valores muito grandes, quer por
valores muito pequenos, se a distribuio dos dados for enviesada para a direita (alguns
valores grandes como outliers), a mdia tende a ser maior que a mediana; se for
aproximadamente simtrica, a mdia aproxima-se da mediana e se for enviesada para a
esquerda (alguns valores pequenos como outliers), a mdia tende a ser inferior
mediana. Representando as distribuies dos dados ( esta observao vlida para as
representaes grficas na forma de diagrama de barras ou de histograma) na forma de
uma mancha, temos, de um modo geral:
mdia mediana
mdia
<
mediana
Deve ser ento chamada a ateno que o simples clculo da mdia e da mediana nos
pode dar informao sobre a forma da distribuio dos dados.
86
Rep. classe
5
15
25
35
45
55
65
a
coluna
Freq. abs.
21
7
9
7
3
0
3
50
correspondente
Freq. rel.
0.42
0.14
0.18
0.14
0.06
0.00
0.06
1.00
Freq.rel.acum
0.42
0.56
0.74
0.88
0.94
0.94
1.00
-
verifica-mos que a frequncia de 50% corresponde classe [10, 20[, sendo ento esta a
classe que contm a mediana: classe mediana. Para obter um valor aproximado para a
mediana, partimos do princpio que a frequncia de 14% correspondente a esta classe
se distribui uniformemente sobre o intervalo de amplitude 10. Assim, fazendo uma regra
de trs simples, como j exemplificmos com a funo cumulativa, vamos a esta classe
procurar o valor a que corresponda uma frequncia de 8%:
8%
6%
20
10
?
87
A partir dos dados originais, o valor obtido para a mediana a semi-soma entre os
elementos das posies 25 e 26, ou seja,
Erro!= 15.85
*
* *
* *
10
*
*
20
Ainda para este exemplo, vamos calcular o valor aproximado para a mdia a partir dos
dados agrupados. Substituimos os elementos de cada classe pelo ponto mdio da
classe, que elegemos como ponto representativo :
x,- 5 6 0.42 + 15 6 0.14 +25 6 0.18 +35 6 0.14 +45 6 0.06+65 6 0.06
x,- 20.02
Por outro lado o valor exacto para a mdia ser:
x,- =
Erro!
= 19.46
Comparando os valores da mediana e da mdia, verifica-se que a mdia superior
mediana. Isto sintoma de que os dados no se distribuem de forma simtrica, mas sim
de forma enviesada para a direita, havendo alguns valores grandes que esto a
inflacionar a mdia. Efectivamente esta caracterstica j havia sido realada pela forma
do histograma.
88
Freq. abs.
21
4
12
7
3
0
3
50
Freq. rel.
0.42
0.08
0.24
0.14
0.06
0.00
0.06
1.00
Freq.rel.acum
0.42
0.50
0.74
0.88
0.94
0.94
1.00
-
Classes
0
1
2
3
4
Total
Tabela de frequncias
Freq. abs.
Freq. rel.
4
0.20
6
0.30
5
0.25
3
0.15
2
0.10
20
1
Freq.rel.acum
0.20
0.50
0.75
0.90
1.00
-
O valor 1 satisfaz a condio para ser mediana, mas qualquer valor entre 1 e 2 tambm
satisfaz essas condies! ou no verdade que se escolhessemos para mediana 1.2,
50% dos elementos da amostra so menores ou iguais a 1.2 e os restantes so maiores
ou iguais a 1.2? No entanto, para fixar ideias costuma-se escolher para mediana o ponto
mdio entre 1 e 2, de forma que a mediana seria neste caso 1.5, o que est de acordo
com a metodologia indicada para o clculo da mediana a partir dos dados antes de
agrupados.
Nota: Deve-se chamar a ateno para que, com dados de tipo qualitativo, as nicas
caractersticas amostrais que se podem calcular so a moda, categoria com maior
frequncia, e por vezes a mediana, quando for possvel estabelecer uma hierarquia
entre as diferentes categorias ou modalidades que a varivel em estudo possa assumir.
89
3. 2.3 - Quartis
A noo de quartil j foi abordada, quando falamos no diagrama de extremos e quartis.
Assim o quartil de ordem 1 ou 1 quartil (respectivamente ordem 3 ou 3 quartil), Q 1
(Q3), ser o valor tal que 25% (75%) dos elementos da amostra so menores ou iguais a
ele e os restantes so maiores ou iguais.
H vrios processos para a determinao dos quartis, que nem sempre conduzem
aos mesmos resultados. Um dos processos pode ser o de utilizar a mesma metodologia
aplicada para a obteno da mediana, isto , consideram-se os quartis como as
medianas das duas partes em que ficou dividida a amostra inicial pela mediana. A parte
inferior dividida pelo 1 quartil, enquanto que a parte superior dividida pelo 3 quartil.
10
11
17
18
14
13
10
15
12
15
17
18
10
11
12
12
13
14
90
1 qua rtil=11
10
10
11
3quartil= 15
12
12
13
14
15
15
18
m e diana = 12.5
3 - Finalmente o 1 quartil (3 quartil) ser a mediana da parte inferior (parte superior)
em que ficou dividida a amostra pela mediana.
Suponhamos que a amostra tinha mais 3 elementos (n mpar de elementos):
1 quartil=12
10
10
11
12
3quartil=18
12
13
14
15
15
18
19
20
20
mediana = 14
56
62
54
52
51
60
61
56
55
56
54
57
67
61
49
Um aluno com o peso de 62kg, pode ser considerado "normal" , isto nem demasiado
magro, nem demasiado gordo?
91
49 51 52 52 54 54 55 56 56 56 57 60 61 61 62 67
1qu artil=53
mediana= 56
3qu artil=60.5
Um aluno com o peso de 62 Kg um bocado forte, pois s 25% dos alunos que tm
um peso superior ou igual a 60.5 Kg.
3.2.4 -Moda
Para um conjunto de dados, define-se moda como sendo o valor que surge com mais
frequncia, se os dados so discretos, ou o intervalo de classe com maior frequncia, se
os dados so contnuos e esto agrupados.
Esta medida merece referncia por ser especialmente til para reduzir a informao de
conjuntos de dados qualitativos, portanto apresentados sob a forma de nomes ou
categorias, para os quais no se pode calcular a mdia e por vezes nem a mediana ( se
no forem susceptveis de ordenao).
92
2 3 4 5
2 3 4 5 6
3 5 7 9 11
Para cada um destes conjuntos calcule a mdia. Identifique qual a relao existente
entre os conjuntos e diga como poderia obter a mdia do ltimo conjunto, a partir da
mdia dos dois primeiros conjuntos.
2 - Considere os seguintes diagramas de barras:
93
12
10
5
4
0
6
5
4
3
2
1
6
5
4
3
2
1
0
3 4 5 6 7 8 9
10
6
5
4
3
2
1
0
94
0
4
8
12
16
20
5
0
6
5
4
1
7
7
6
2
2
8
7
6
4
3
9
5
4
7
6
2
4 5
6
0 1 2 3 4
5 6 7 8 9
2 4
6
4
7
6
4
4
5
7 8
90
95
8 - Pretende-se iniciar uma nova cultura numa certa regio agrcola. Sendo a
pluviosidade um dos factores determinantes, recorreu-se aos valores da precipitao
diria nos ltimos 3 anos e elaborou-se a seguinte tabela:
Pluv.
(mm)
[0,5[
[5,10[
[10,15[
[15,20[
[20,25[
[25,30[
[30,35[
[35,40
N dias
105
148
220
193
184
123
95
27
Suponha que s se deve introduzir a cultura no caso de, em pelo menos 50% dos dias a
pluviosidade ultrapassar os 18 mm. Ser ou no razovel, cultivar nesta regio o
produto em causa?
15
15
15
15
15
Conjunto 2
10
13
15
17
20
Conjunto 3
15
23
30
Embora tenham a mesma mdia e mediana, tm um aspecto bem diferente no que diz
respeito variabilidade.
15
10
0
13 15
15
17
20
23
30
96
Como a medida de localizao mais utilizada a mdia, ser relativamente a ela que se
define a principal medida de disperso - o desvio padro, apresentado a seguir.
Comeamos, no entanto, por definir varincia, que serve de base definio de desvio
padro.
3.3.1 - Varincia
Define-se a varincia, e representa-se por s2, como sendo a medida que se obtm
somando os quadrados dos desvios das observaes, relativamente mdia, e
dividindo pelo nmero de observaes:
s2 =
Erro!
Erro!
97
liberdade. Esta definio, embora prefervel por razes que se prendem com a
Inferncia Estatstica, contudo menos intuitiva, e no objectivo desta anlise
proceder a qualquer tipo de Inferncia Estatstica. Assim, a opo entre as duas
expresses pode ser deixada ao critrio do Professor, que poder por exemplo escolher
a que for utilizada no manual indicado para os alunos. No poder deixar de referir a
existncia das duas expresses, tanto mais que elas coexistem na mquina de calcular.
Tambm referir que a diferena entre as duas expresses muito pequena, sobretudo
se a dimenso da amostra for suficientemente grande.
Uma vez que a varincia envolve a soma de quadrados, a unidade em que se exprime
no a mesma que a dos dados. Por exemplo, ao recolhermos informao sobre a
caracterstica altura, em cm, a varincia vir em cm2, que uma medida de rea,
portanto dificilmente interpretvel como medida de variabiliadde. Assim, para obter uma
medida da variabilidade ou disperso com as mesmas unidades que os dados, e
portanto de mais fcil interpretao, tomamos a raiz quadrada da varincia e obtemos o
desvio padro.
s=
Erro!
s* =
Erro!
ou
O desvio padro uma medida que s pode assumir valores no negativos e quanto
maior for, maior ser a disperso dos dados.
98
99
conjunto C os blocos tm alturas 10, 20, 30, 40, 50 e 60 cm; no conjunto D h 3 blocos
de altura 10 cm e outros 3 blocos de altura 60 cm:
100
Freq.abs.
Freq.abs.
1
10
20
30
40
50
10
60
20
30
A
Freq.abs.
20
30
50
60
40
50
60
Freq.abs.
10
40
40
50
60
10
20
30
Pedindo para calcular o desvio padro das alturas de cada um dos conjuntos os
estudantes facilmente verificam que:
desvio padro de A = desvio padro de B
desvio padro de C < desvio padro de D
Confrontados com os resultados intuitivos, os estudantes concluem que o desvio padro
uma medida muito especfica da variabilidade.
O desvio padro, da mesma forma que a mdia, muito sensvel presena de outliers,
sendo portanto uma medida de disperso pouco resistente. Assim, um valor elevado
para o desvio padro pode ser devido ou a uma grande variabilidade nos dados, ou
ento a uma pequena variabilidade com a existncia de um ou mais outliers.
101
20
30
30
30
30
30
30
40
50
102
- Se a distribuio enviesada
16
22
24
26
30
26
18
23
35
22
42
23
28
20
40
29
26
15
33
27
26
25
14
16
28
19
19
14
Introduzimos
nu-ma
calculadora
os
dados
grfica
A mdia 23.8.
O desvio padro 7.512.
A mediana 23.5.
visualizao
da
103
visualizaoi
da
A sobreposio no mesmo ecr dos diagramas de extremos e quartis das duas listas
mostra claramente que os dois diagramas so iguais, tendo havido apenas um
deslocamento de 5 unidades.
Vemos ento que um aumento de 5 em todos os valores fez com que a mdia e
a mediana tambm aumentassem de 5, enquanto que o desvio padro se no alterou.
No caso geral, se todos os valores de uma populao aumentarem de uma
quantidade b, a mdia tambm aumenta b, mas o desvio padro no se altera.
104
obtida
partir
de
L1,
A mdia agora
23.8 x 1.1 =
26.18.
O desvio padro 7.512 x 1.1
8.263.
A mediana passou para 25.85.
A sobreposio no mesmo ecr
dos diagramas de
105
2 - Suponha que adicionou 100, a cada um dos valores de uma amostra. O que
acontece ao:
a) Desvio padro
b) Amplitude inter-quartil
c) Amplitude
d) Mdia
e) Mediana
3 - Suponha que obteve o valor -40.5 para a varincia. O que conclui?
4 - Suponha que a amplitude de uma amostra 105.4 e que ao calcular o desvio padro
obteve o valor 160.6. O que conclui?
5 - Suponha que tem os nmeros 0, 1, 2, 3, , 8, 9, 10. Pretende-se que escolha 4
destes nmeros, sendo permitidas repeties, tal que (Moore, 1995):
a) i) Os 4 nmeros escolhidos tenham o menor desvio padro possvel.
ii) Os 4 nmeros escolhidos tenham o maior desvio padro possvel.
b) Haver mais do que uma escolha possvel em i) e ii)?
6 - O Sr. Malaquias, cujas habilitaes literrias no vo alm do 4 ano de
escola-ridade, respondeu a 2 anncios de ofertas de emprego. As empresas
trabalhavam no mesmo ramo, pelo que o servio que o Sr. Malaquias iria fazer seria
semelhante em qualquer das empresas. Resolveu perguntar alguma coisa sobre os
ordenados processados nos dois stios, tendo obtido a seguinte informao:
Mdia
Mediana
Desvio padro
Empresa A
89 000$00
80 000$00
3 200$00
Empresa B
95 000$00
70 000$00
3 800$00
106
N = 20
Median = 152.5
Min = 111
Max = 190
Carne de porco:
Mean = 158.7
Min = 107
Max = 195
N = 17
Median = 153
Mean = 122.5
Min = 87
N = 17
Median = 129
Carne de aves:
Max = 170
107
Captulo 4
DADOS BIVARIADOS
CORRELAO E REGRESSO
4.1 - Introduo
Por vezes o que se pretende estudar da Populao no uma caracterstica isolada,
mas duas ou mais caractersticas que se supe relacionadas entre si. No caso de se
pretender estudar duas caractersticas conjuntamente, os valores observados aparecem
sob a forma de pares de valores, isto , cada indivduo ou resultado experimental
contribui com um conjunto de dois valores. o que acontece, por exemplo, quando se
considera para cada aluno candidato ao Ensino Superior, a classificao interna final e
a nota do exame de uma disciplina. Outros exemplos so a altura e peso de alunos de
uma escola primria; as notas de Fsica e Matemtica dos alunos do 10 de uma dada
escola; as alturas de pais e filhos; o consumo de gasolina e a cilindrada de um carro,
etc. Ento, para estudar duas caractersticas conjuntas, recolhe-se uma amostra de
dados bivariados, a qual po-de ser representada da seguinte forma:
(x1, y1), (x2, y2), , (xi,yi), , (xn,yn)
Para representar e organizar este tipo de informao considera-se uma representao
grfica a que se d o nome de nuvem de pontos ou diagrama de disperso.
Diagrama de disperso - uma representao grfica para os dados
bivariados, em que cada par de dados (xi,yi) representado por um ponto
de coordenadas (xi,yi), num sistema de eixos coordenados.
Este tipo de representao muito til, pois permite realar algumas propriedades entre
os dados, nomeadamente no que diz respeito ao tipo de associao entre as variveis x
e y.
Consideremos alguns exemplos detalhadamente:
Exemplo 1: Com o objectivo de averiguar se a distncia atingida no salto em
com-primento est relacionada com o peso dos estudantes, um Professor de Educao
108
187.5 182.5 214.0 147.0 167.0 157.5 170.0 198.5 145.0 166.5 189.0
59.6
69.2
61.8
67.0
59.6
54.0
42.7
68.0
66.9
65.8
64.5
Que pode ele concluir? Note-se que aqui no estamos interessados no estudo
estats-tico de uma caracterstica da populao isoladamente, mas sim no modo como
uma caracterstica da populao (a distncia do salto em comprimento) est relacionada
com outra caracterstica da mesma populao (o peso).
Para melhor compreendermos estes dados podemos fazer a representao grfica
ade-quada, obtendo uma nuvem de pontos, em que representamos nas ordenadas a
vari-vel de interesse (distncia atingida no salto em comprimento) e em abcissa a
sal to (cm)
24 0
22 0
20 0
18 0
16 0
14 0
12 0
40
50
60
70
pe so (kg)
Observamos que no h uma relao clara entre estas duas caractersticas. A nuvem de
pontos encontra-se bastante dispersa. Diz-se que ento as duas caractersticas esto
fracamente correlacionadas. No de esperar que o facto de sabermos o peso do aluno
nos indique de algum modo a distncia que ele vai saltar. Pode ser pesado e saltar
bastante, como pode saltar pouco.
109
Gestao
(semanas)
nvel de
protena
Gestao
(semanas)
nvel de
protena
Gestao
(semanas)
nvel de
protena
Gestao
(semanas)
0.38
0.58
0.51
0.38
0.58
11
12
13
15
17
0.67
0.84
0.56
0.78
0.86
18
19
21
22
25
0.65
0.74
0.83
0.99
0.84
27
28
29
30
31
1.04
0.92
1.18
0.92
33
34
35
36
O objectivo desta experincia averiguar como que uma varivel (nvel de protena)
afectada por uma outra varivel (tempo de gestao). Se representarmos estes dados
graficamente atravs da nuvem de pontos vemos claramente que o nvel da protena
aumenta com o tempo de gestao. Podemos traar uma recta no grfico de modo que
os pontos se encontrem prximos da recta e bem distribudos para um lado e outro dela.
Diz-se ento que as variveis esto positivamente correlacionadas. pois de esperar
que se consiga saber, atravs do tempo de gestao, qual o nvel provvel de protena
no sangue.
nvel de p ro te n a
1.2
1
0.8
0.6
0.4
0.2
0
0
10
20
30
40
Profundidade (cm)
Humidade (gr. gua/
100g
solo)
150
300
450
600
750
900
1050
124
78
54
35
30
21
22
18
110
Humi dad e
50 0
10 00
15 00
P ro fu ndi da de
atravs da expresso,
n
(x
n
(x
i1
onde
x )(y i y )
i 1
x) 2
(y
y )2
i 1
xi x , ento tambm
se espera ter, em geral, yi y , e que quando xi x , tambm yi y , o que faz com
que o produto no numerador seja, em geral, positivo. O caso r >0 corresponde assim
Note-se que quando as variveis variam no mesmo sentido, se
111
valores das variveis se encontram sobre uma recta com declive positivo ou negativo.
r so:
a humidade e a profundidade.
Observao: A expresso do coeficiente de correlao aqui apresentada como mera
informao para os Professores. Os alunos devem obter os valores dos coeficientes de
correlao para vrias situaes atravs da mquina de calcular. O que se pretende
que eles apenas relacionem o valor de
112
x
y
-3
-2
-1
2 2
2 2
y
3
2
1
0
-4
-2
xi
yi
eo
113
y 0.023 x +0.0202.
nvel de protena
recta correspondente a
1.2
1.1
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36
tempo d e ges ta o (se mana s)
Mdicos por
10000
habitantes
Taxa de mortalidade
infantil (por 1000
nados vivos)
15.38
2.65
3.06
6.75
4.65
5.21
14.29
9.01
1.25
11.90
10.99
8.93
8
49
68
36
56
53
15
11
67
27
21
34
114
3:SortD(...
L1,L2
STAT
1:Edit...
V-se
1:Plot1
claramente
Regulamos o grfico
que
existe
uma
ZOOM
9:ZoomStat
correlao
CALC
4:LinReg
L1,L2,Y1
ENTER
115
GRAPH
Ao pedirmos LinReg(ax+b) L1,L2,Y1 a mquina no
s determina a equao da recta de regresso como
tambm a coloca imediatamente no editor de funes.
Assim, se a-gora pedirmos o grfico, vamos ter a nuvem de
pontos e a recta de regresso.
A equao da recta , usando valores aproximados,
y = 4.165x + 69.73.
116
DP
3235
24182
20993
15401
19749
19487
NVR
132.8
14.9
16.7
20.0
14.2
13.5
DP
19581
14077
18137
22919
24534
24987
NVR
16.5
22.2
15.8
13.3
15.1
16.2
DP
21675
22315
18402
33445
27345
15358
NVR
12.5
11.8
19.6
10.5
10.1
19.0
N vecul os roub ad os
14 0
12 0
10 0
80
60
40
20
0
0
10 000
20 000
30 000
40 000
O 1 distrito que aparece na tabela tem uma densidade populacional muito baixa, mas
um elevado nmero de veculos roubados. Uma averiguao mais cuidada levou
con-cluso que aquele distrito correspondia ao Centro de Chicago, uma rea
essencialmente de comrcio e de escritrios, e consequentemente uma rea em que a
densidade de veculos no tem a ver com a densidade populacional. Este distrito no
deveria ter sido includo na amostra. Assim, retirando este distrito, podemos construir
uma nova recta de regresso. Obtm-se agora a recta
NVR = 27.36 -0.00056 DP
sendo o coeficiente de correlao -0.79.
117
N vecul os roubados
25
20
15
10
5
0
0
10 000
20 000
30 000
40 000
40
35
30
25
20
15
10
5
0
0
10 000
20 000
30 000
40 000
(x , y ) , conduz-nos
118
resistente).
10
8.04
8
6.95
13
7.58
9
8.81
11
8.33
14
9.96
6
7.24
4
4.26
12
10.8
4
7
4.82
5
5.6
10
9.14
8
8.14
13
8.74
9
8.77
11
9.26
14
8.10
6
6.13
4
3.10
12
9.13
7
7.26
5
4.74
8
6.58
8
5.76
8
7.71
8
8.84
8
8.47
8
7.04
8
5.25
8
5.56
8
7.91
8
6.89
19
12.5
0
119
Captulo 5
NOTAS FINAIS
5.1 - Introduo
Sendo objectivo da Estatstica o de retirar informao a partir de dados, gostaramos,
como nota final, de chamar a ateno para o que diz David Moore, em The Basic
Practice of Statistics, " Data are numbers, but they are not "just numbers". Data are
numbers with a context. The number 10.5, for example, carries no information by itself.
But if we hear that a friend's new baby weighed 10.5 pounds at birth, we congratulate her
on the healthy size of the child. The context engages our background knowlwdge and
allows us to make judgments. We know that a baby weighing 10.5 pounds is quite large,
and that it isn't possible for a human baby to weigh 10.5 ounces or 10.5 kilograms. The
context makes the number informative".
Assim, mais uma vez observamos que deve ser incentivado nos alunos o gosto pela
anlise e interpretao, mais do que a simples utilizao dos dados para a manipulao
de grficos e frmulas. Alis, aproveitamos para observar, mais uma vez, que
precisamente neste tema da Estatstica que os alunos devem ser aconselhados a utilizar
a
calculadora
para
no
serem
sobrecarregados
com
clculos
pesados
desnecessrios.
Tambm, tendo em considerao o que dissemos no primeiro pargrafo, a avaliao
deste tema merece uma observao especial. Sempre que possvel, essa avaliao
dever-se- centrar na realizao de pequenos projectos, que se desenvolvero ao longo
das aulas, medida que os conceitos forem introduzidos, evitando, unicamente, os
testes clssicos de uma disciplina de Matemtica. Assim, e meramente a ttulo de
exemplo, damos algumas sugestes de pequenos trabalhos, que podem ser objecto de
trabalhos de grupo.
120
121
122
5. M & Ms
As embalagens de M&Ms traro todas o mesmo nmero de pastilhas?
Cada aluno traz de casa uma embalagem pequena de M&Ms fechada.
As embalagens so abertas na aula e cada aluno conta quantas pastilhas de chocolate
tem a sua embalagem.
Recolhem-se os dados referentes a todas as embalagens.
Faz-se o estudo estatstico do nmero de pastilhas por embalagem.
6. SOBREVIVNCIA DOS M & Ms
Material por cada grupo de 2 alunos:
1 copo de plstico
2 pratos de plstico
40 pastilhas de chocolate M & Ms
Colocam-se as 40 pastilhas no copo e lanam-se para um dos pratos. As
pastilhas que no ficarem com a pequena inscrio M&M virada para cima so
eliminadas e colocadas no 2 prato. As que ficaram com a inscrio virada para cima
so as sobreviventes e voltam a ser colocadas no copo.
Repete-se o processo com as sobreviventes.
Ao fim de 4 lanamentos do copo, a experincia termina e regista-se o nmero
de pastilhas que no foram eliminadas.
Cada grupo de 2 alunos faz esta experincia 10 vezes.
Faz-se a recolha dos resultados de todas as experincias da turma.
Estuda-se estatisticamente o nmero de sobreviventes (medidas de
localizao e de disperso, grficos, etc.).
No fim, cada um come os seus dados estatsticos...
7. MOEDAS
Cada aluno regista o nmero de moedas que tem e a respectiva quantia em
escudos.
Recolher os dados referentes a toda a turma.
Fazer o estudo estatstico referente varivel nmero de moedas.
Fazer o estudo estatstico referente varivel quantia.
Estudar a correlao entre as variveis nmero de moedas e quantia.
(Retirado de Bastos et al., 1997)
123
BIBLIOGRAFIA
BARRETO, A. (1996) - A Situao Social em Portugal, 1960-1995, Instituto de Cincias
Sociais, Universidade de Lisboa.
BASTOS, R.; BERNARDES, A.; LOPES, A. V.; LOUREIRO, C.; VARANDAS, J. M.;
VIANA, J. P. (1997) - Matemtica 10, Edies Contraponto, Porto.
BOWMAN, A. W.; ROBINSON, D. R. (1987) - Introduction to Statistics, Adam Hilgor,
Bristol.
BOWMAN, A. W.; ROBINSON, D. R. (1987) - Regression and Analysis of Variance, Adam
Hilgor, Bristol.
CLEGG, F. (1995) - Estatstica para Todos, Gradiva, Lisboa.
DAVIS, J. C. (1973) - Statistics and Data Analysis in Geology, Wiley.
FREEDMAN, D.; PISANI, R.; PURVES, R.; ADHIKARI, A. (1991) - Statistics, Second Edition,
W.W. Norton & Company, New York.
GAL, I. (1995) - Statistical Tools and Statistical Literacy: The Case of The Average,
Teaching Statistics, Vol. 17, Number 3.
GRAA MARTINS, M. E. (1995) - Introduo s Probabilidades e Estatstica - Edio da
Sociedade Portuguesa de Estatstica, Lisboa.
Grupo Azarquiel, (1993) - Estatstica no 3 Ciclo do Ensino Bsico, Associao de
Professores de Matemtica, Lisboa.
HAWKINS, A.; JOLLIFFE, GLICKMAN, L. (1992) - Teaching Statistical Concepts,
Longman, London.
HOLMES, P. (1994) - Classroom Practicals, Centre for Statistical Education, University
of Sheffield.
HOLMES, P. (1994) - Stem and Leaf, Centre for Statistical Education, University of
Sheffield.
HOLMES, P.; WORSNOP, R. (1993) - Bottles and Things, Centre for Statistical
Education, University of Sheffield.
HOLMES, P.; WORSNOP, R. (1992) - Canteen Choice, Centre for Statistical Education,
University of Sheffield.
HOLMES, P.; WORSNOP, R. (1993) - Growing Up, Centre for Statistical Education,
University of Sheffield.
Instituto Nacional de Estatstica (1991) - Anurio Estatstico de Portugal, INE, Lisboa.
124
LOOSEN, F.; LION, M.; LACANTE, M. (1985) - The Standard Deviation: Some Drawbacks
of an Intuitive Approach, Teaching Statistics, Vol. 7, Number 3.
MENDENHALL, W.; OTT, L.; LARSON, R. (1974) - A Tool for the Social Sciences, Duxbury
Press, Belmont, California.
MOORE, D. (1995) - The Basic Practice of Statistics, W. H. Freeman adn Company, New
York.
ROUNCEFIELD, M. (1994) - Box Plots, Centre for Statistical Education, University of
Sheffield.
RUNYON, R. P.; HABER, A.; PITTENGER, D.; COLEMAN, K. A. (1996) - Fundamen-tals
of Behavioral Statistics, MacGraw-Hill Companies, U.S.A..
SEN, A.; SRIVASTAVA, M. (1990) - Regression Analysis, Springer-Verlag, New York.
VICENTE, P.; REIS, E; FERRO, F. (1996) - A amostragem como factor decisivo de
125