Professional Documents
Culture Documents
1. INTRODUO
A importncia da estatstica pode ser vista atravs da sua utilizao ao nvel
do Estado, de organizaes sociais e profissionais, do cidado comum e ao nvel
cientfico. O grau de importncia atribuda estatstica to grande que
praticamente todos os governos possuem organismos oficiais destinados
realizao de estudos estatsticos.
A estatstica responsvel pelo desenvolvimento cientfico em geral. De uma
forma sinttica, pode dizer-se que a estatstica um conjunto de tcnicas
apropriadas para recolher, classificar, apresentar e interpretar conjuntos de dados
numricos. Assim, a estatstica constitui-se fundamentalmente como mtodo e no
como uma teoria, pois o seu objetivo descrever os fenmenos e no tanto explic-
los. Como a estatstica um ramo de matemtica aplicada, os seus mtodos so
rigorosos e precisos. Apesar da objetividade que a matemtica confere aos mtodos
estatsticos, deve ter-se em conta que os seus resultados incorporam alguma
subjetividade. Tal subjetividade resulta principalmente da qualidade das medidas e
das observaes.
Este trabalho tem por objetivo coletar e analisar dados: altura e idade, de uma
turma do 1 ano de engenharia da Faculdade Federal do Tringulo Mineiro e aplicar
todo o conhecimento adquirido na disciplina de Probabilidade e Estatstica sobre
essa amostra.
4
2. METODOLOGIA
Esse trabalho baseia-se em analisar a relao entre altura e idade entre os
alunos da turma 303 de 2011 de engenharia da Universidade Federal do Triangulo
Mineiro UFTM. Os dados foram coletados no dia 09 de Novembro de 2011,
contando com colaborao macia da turma em questo.
Todos os alunos que participaram foram considerados como sendo a populao
da amostra, e partindo-se disso foi extrada duas amostras da populao, uma de
homens com 15 membros e outra com 10 mulheres. A formao das amostras foi
feita atravs do software Microsoft Excel, que sorteou de forma aleatria os
elementos das amostras, esse software tambm foi de extrema importncia em
praticamente todas as etapas do trabalho.
Foram calculados as medidas de tendncias e de disperso tanto de idade
como de altura da populao e da amostra.
Tambm foram feitos grficos de disperso para analisar se existe alguma
correlao linear entre os dados obtidos.
Posteriormente estudou-se sobre intervalos de confiana e testes de
hipteses em relao a amostra.
Por fim, foi realizado testes de aderncia para verificar se a altura e idade da
amostra seguem uma distribuio normal.
3. FUNDAMENTAO TERICA
Nesta seo mostrado os conceitos tericos utilizados e necessrios para
elaborao deste trabalho.
3.1. MEDIDAS DE TENDNCIA CENTRAL E MEDIDAS DE DISPERSO
Quando se deseja obter o valor esperado de uma amostra quase sempre a
Mdia o melhor parmetro. O clculo da mdia feito atravs do somatrio de
todos os termos da amostra dividido pelo numero de elementos da mesma. Como
mostra a equao 1.
5
(1)
A Mediana o valor intermedirio da amostra, quando a mesma se encontra
ordenada, crescente ou decrescente.
A Moda o termo mais frequente na amostra.
A Varincia e o Desvio Padro so medidas de disperso, seu valor
numrico sozinho no apresenta grande sentido, essas medidas devem ser
analisadas em funo de um parmetro. O desvio padro a raiz quadrada da
Varincia e ambas tem como funo analisar o quanto determinada medida pode
variar em torno de um valor esperado, sua funo tambm medir a preciso de
uma estimao. A varincia de uma populao pode ser calcula pela equao (2) e
o desvio padro pela equao (3).
(2)
(3)
H uma diferena no clculo da varincia e do desvio padro da populao
para o amostral, no amostral onde n nas equaes (2) e (3) troca-se por n-1,
ficando a equao para a varincia e desvio padro amostral como mostrado a
seguir nas equaes (4) e (5) respectivamente.
(4)
( )
1
1
2
=
=
n
X x
s
n
i
i
(5)
6
3.2. INTERVALOS DE CONFIANA
So feitas estimativas intervalares quando se deseja obter um intervalo de
valores possveis, no qual se admite que esteja o parmetro populacional. Neste tipo
de estimativa tem-se um intervalo de valores em torno do parmetro amostral, no
qual julgamos, com um risco conhecido de erro, estar o parmetro da populao. A
esse intervalo chamamos intervalo de confiana.
Para efetuar a estimativa de mdias de uma populao, deve-se levar em
conta se o desvio padro da populao ou no conhecido.
Nos casos em que se conhece o desvio-padro da mdia, situao pouco
comum se falando em situaes prticas, utiliza-se a tabela de distribuio normal e,
atravs da relao representada em (6), estimamos o intervalo desejado, dadas as
condies de confiabilidade e o nmero de elementos da amostra.
(6)
Sendo,
- n = nmero de elementos da amostra;
- = desvio padro populacional;
- 1 = coeficiente de confiana desejado;
- = Mdia amostral.
Lembrando que para altos valores de n, nossa amostra se aproxima de uma
distribuio normal, ento a troca de por S (desvio padro amostral), tem pouco
efeito na distribuio de Z. Temos assim que nesses casos no h necessidade de
se conhecer o desvio padro populacional, o que muito mais til em situaes
prticas.
Apesar disso, temos que para valores de desvio padro populacionais
desconhecidos e pequenos valores de n, a distribuio normal apresenta valores
com menor preciso, o que pode comprometer os resultados estimativos. Nesse
caso utiliza-se a distribuio t de Student, onde se faz o uso da relao representada
7
em (7), dadas as condies de confiabilidade e o nmero de elementos de sua
amostra.
(7)
Onde,
- n = nmero de elementos da amostra;
- S = desvio padro amostral;
- 1 = coeficiente de confiana desejado;
- = Mdia amostral.
Para estimar um intervalo de confiana para a varincia populacional, dada
uma coleta de dados amostrais, utiliza-se a distribuio qui-quadrado. Tendo um
nmero n de elementos conhecido, faz-se o uso da relao representada em (8).
(8)
Onde:
- n = nmero de elementos da amostra;
- S = desvio-padro da amostra;
-
2
(/2)(n 1)
= valor da varivel aleatria de distribuio
2
com n 1 graus de
liberdade;
-
2
(1 /2)(n 1)
= idem para (1 /2). Lembrar que a distribuio chi-quadrado
no simtrica;
-
2
= varincia da populao, presumivelmente desconhecida;
- 1 = coeficiente de confiana desejado.
3.3. TESTES DE HIPTESES
Os testes de hipteses so utilizados para comparar algum parmetro entre
duas amostras, sendo os mais comuns, os testes de comparao entre mdias
populacionais ou entre varincias populacionais. Inicialmente apresenta-se uma
8
hiptese nula (
(10)
4. RESULTADOS E DISCUSSO
4.1 ARRANJO DOS DADOS
Os dados coletados so exibidos na Tabela 1:
N NOME Idade (anos): Altura (m):
1 ELISA PINHEIRO TAMIAO 19 1,63
2 GABRIEL SHIOTSUKI ROSADA 20 1,75
3 GABRIELA DOS REIS PEREIRA 18 1,6
4 GABRIELA LINO FREITAS 20 1,7
5 GABRIELA ZAMPIERI CAMPOS 18 1,72
6 GASPAR FERREIRA IDALIO SILV 18 1,71
7 GIORDANNI DA SILVA TRONCHA 18 1,83
8 GIOVANA MARA ARAUJO OLIVEIRA 20 1,62
9 GUILHERME DUTRA GERARDI 18 1,81
10 GUILHERME MAURI FARIA DA CUNHA 18 1,7
11 GUILHERME RANUSSI URBANO 18 1,85
12 GUILHERME SILVA BARCELLOS DO NACIMENTO 19 1,69
13 GUSTAVO BISSI PIMENTEL 19 1,9
14 GUSTAVO DE SOUZA WINK 18 1,65
15 GUSTAVO FUNES BOLELLA 19 1,74
16 GUSTAVO FUREGATO PEDREIRA DE FREITAS 18 1,73
17 GUSTAVO HENRIQUE SANCHES ARF 20 1,95
18 GUSTAVO JOSSE RIBEIRO RIOS 20 1,95
11
19 GUSTAVO LAZARINI 20 1,85
20 HERMANN ALVES CARNEIRO DENECKE 20 1,85
21 IGOR ALVES RECHE 20 1,67
22 ISABELA OLIVEIRA LOPES 18 1,62
23 ISABELLA MURINELLI PESOTI 18 1,67
24 ISABELLA RIBEIRO JORGE 18 1,67
25 ISADORA MANZI NEVES ADRIANO 18 1,71
26 IVAN ILICH KERBAUY VELOSO 22 1,73
27 JAIRO BORGES FERREIRA JUNIOR 18 1,91
28 JAQUELINE VIVEIROS 18 1,57
29 JEANCARLLE CAMARGO DE CARVALHO 19 1,77
30 JESSICA MIRANDO ROSA 20 1,59
31 JESSICA PAOLA MARTIS 19 1,72
32 JESSICA SEBASTIANE 19 1,65
33 JOAO LUCAS HANA FRADE 20 1,81
34 JOAO PAULO BORGES RODRIGUES 21 1,85
35 JOAO PAULO DE OLIVEIRA 18 1,67
36 JOAO VITOR SARTORI RICCIARDI 20 1,81
37 JORGE PAIN COURI 19 1,76
38 JOSE MARIO BERETA RUBIO 21 1,88
39 JOSIANNE RIBELA MARICONI 18 1,63
40 JULIA NUNIZ BARBOZA VACILOTTO 19 1,67
41 MATHEUS DAMASCENO AMORIM 18 1,75
42 PAULA ARAUJO NASCIUTTI 19 1,57
Tabela 1 Dados coletados
Os dados sobre as idades da Tabela 1 foram representados de duas formas:
um histograma, mostrado na Figura 1, e tambm uma anlise da porcentagem,
mostrado na Figura 2.
0
2
4
6
8
10
12
14
16
18
20
18 19 20 21 22
Frequncia
12
Figura 1 Histograma das idades da populao.
Figura 2 Grfico das porcentagens das idades.
Analisando os grficos, observa-se que, na turma 303, a idade predominante
dos alunos de 18 anos, correspondendo a 43% da populao total.
De maneira anloga, foi feito um grfico, mostrando em classes, as
frequncias das alturas. Logo abaixo o grfico 1 est representado na Figura 3. Foi
feito tambm um grfico das porcentagens, ilustrado na Figura 4.
43%
24%
26%
5%
2%
Porcentagem
18 19 20 21 22
0
1
2
3
4
5
6
7
8
9
10
Frequncia
de Alturas
13
Figura 3 Frequncia das alturas
Figura 4 Porcentagem das alturas
Com os dados da Tabela, referentes populao, foram obtidos os valores
das mdias, varincias, desvios-padro, moda e mediana, das idades e alturas,
apresentados na Tabela 2.
Idade Altura
Mdia 19 1,7360
Varincia 1,0952 0,0104
Desvio padro: 1,0592 0,1032
Moda 18 1,67
Mediana 19 1,72
Tabela 2 Estatstica da populao
Foi realizada tambm uma separao da populao em dois conjuntos:
homens e mulheres que segue na Tabela 3 e na Tabela 4, respectivamente.
ALUNOS Idade: Altura:
GABRIEL SHIOTSUKI ROSADA 20 1,75
GASPAR FERREIRA IDALIO SILV 18 1,71
GIORDANNI DA SILVA TRONCHA 18 1,83
GUILHERME DUTRA GERARDI 18 1,81
GUILHERME MAURI FARIA DA CUNHA 18 1,70
GUILHERME RANUSSI URBANO 18 1,85
1,55-1,6
1,6-1,65
1,65-1,7
1,7-1,75
1,75-1,8
1,8-1,85
1,85-1,9
1,9-1,95
1,95-2
14
GUILHERME SILVA BARCELLOS DO NACIMENTO 19 1,69
GUSTAVO BISSI PIMENTEL 19 1,90
GUSTAVO DE SOUZA WINK 18 1,65
GUSTAVO FUNES BOLELLA 19 1,74
GUSTAVO FUREGATO PEDREIRA DE FREITAS 18 1,73
GUSTAVO HENRIQUE SANCHES ARF 20 1,95
GUSTAVO JOSSE RIBEIRO RIOS 20 1,95
GUSTAVO LAZARINI 20 1,85
HERMANN ALVES CARNEIRO DENECKE 20 1,85
IGOR ALVES RECHE 20 1,67
IVAN ILICH KERBAUY VELOSO 22 1,73
JAIRO BORGES FERREIRA JUNIOR 18 1,91
JEANCARLLE CAMARGO DE CARVALHO 19 1,77
JOAO LUCAS HANA FRADE 20 1,81
JOAO PAULO BORGES RODRIGUES 21 1,85
JOAO PAULO DE OLIVEIRA 18 1,67
JOAO VITOR SARTORI RICCIARDI 20 1,81
JORGE PAIN COURI 19 1,76
JOSE MARIO BERETA RUBIO 21 1,88
MATHEUS DAMASCENO AMORIM 18 1,75
Tabela 3 Populao de Homens.
ALUNAS Idade: Altura:
ELISA PINHEIRO TAMIAO 19 1,63
GABRIELA DOS REIS PEREIRA 18 1,6
GABRIELA LINO FREITAS 20 1,7
GABRIELA ZAMPIERI CAMPOS 18 1,72
GIOVANA MARA ARAUJO OLIVEIRA 20 1,62
ISABELA OLIVEIRA LOPES 18 1,62
ISABELLA MURINELLI PESOTI 18 1,67
ISABELLA RIBEIRO JORGE 18 1,67
ISADORA MANZI NEVES ADRIANO 18 1,71
JAQUELINE VIVEIROS 18 1,57
JESSICA MIRANDO ROSA 20 1,59
JESSICA PAOLA MARTIS 19 1,72
JESSICA SEBASTIANE 19 1,65
JOSIANNE RIBELA MARICONI 18 1,63
JULIA NUNIZ BARBOZA VACILOTTO 19 1,67
PAULA ARAUJO NASCIUTTI 19 1,57
Tabela 4 Populao de Mulheres.
Da mesma forma, foi calculado para cada conjunto a mdia, a varincia e o
desvio-padro, apresentados abaixo na Tabela 5.
15
Homens
Mulheres
Idade Altura
Idade Altura
Mdia 19,19231 1,7912
18,6875 1,64625
Varincia 1,309172 0,0073
0,589844 0,002398
Desvio Padro 0,0855 0,0855
0,768013 0,048974
Tabela 5 Estatsticas das Amostras.
Aps a escolha das amostras, realizado atravs de sorteio pelo Excel, foram
feitos os clculos da mdia, varincia e desvio-padro. Na Tabela 6 e na Tabela 7,
esto os dados desses dois subconjuntos, representando os 15 homens e as 10
mulheres, respectivamente.
ALUNOS Idade: Altura:
GABRIEL SHIOTSUKI ROSADA 20 1,75
GASPAR FERREIRA IDALIO SILV 18 1,71
GIORDANNI DA SILVA TRONCHA 18 1,83
GUILHERME DUTRA GERARDI 18 1,81
GUILHERME MAURI FARIA DA CUNHA 18 1,70
GUILHERME RANUSSI URBANO 18 1,85
GUILHERME SILVA BARCELLOS DO NACIMENTO 19 1,69
GUSTAVO BISSI PIMENTEL 19 1,90
GUSTAVO DE SOUZA WINK 18 1,65
GUSTAVO FUNES BOLELLA 19 1,74
GUSTAVO FUREGATO PEDREIRA DE FREITAS 18 1,73
GUSTAVO HENRIQUE SANCHES ARF 20 1,95
GUSTAVO JOSSE RIBEIRO RIOS 20 1,95
GUSTAVO LAZARINI 20 1,85
HERMANN ALVES CARNEIRO DENECKE 20 1,85
Tabela 6 Amostra de homens
ALUNAS Idade: Altura:
ELISA PINHEIRO TAMIAO 19 1,63
GABRIELA DOS REIS PEREIRA 18 1,6
GABRIELA LINO FREITAS 20 1,7
GABRIELA ZAMPIERI CAMPOS 18 1,72
GIOVANA MARA ARAUJO OLIVEIRA 20 1,62
ISABELA OLIVEIRA LOPES 18 1,62
ISABELLA MURINELLI PESOTI 18 1,67
ISABELLA RIBEIRO JORGE 18 1,67
ISADORA MANZI NEVES ADRIANO 18 1,71
JAQUELINE VIVEIROS 18 1,57
16
Tabela 7 Amostra de mulheres
A Tabela 8, mostrada a seguir, mostra os clculos realizados, em relao s
tabelas 6 e 7.
Homens
Mulheres
Idade Altura
Idade Altura
Mdia 18,86667 1,7973
18,5000 1,6510
Varincia 0,8381 0,0091
0,7222 0,0025
Desvio padro 0,9155 0,0953
0,8498 0,0504
Tabela 8 Estatstica das Amostras
4.2. CORRELAES LINEARES
Com o intuito de verificar se h uma correlao linear entre os dados obtidos,
foi analisado primeiramente a relao entre idades e alturas para a amostra formada
apenas por mulheres e tambm formada apenas por homens, com a ajuda do
software Microsoft Excel foram plotados os grficos 1 e 2:
Grfico 1 Correlao Linear entre idade e altura para amostra de mulheres
y = 0,0042x + 1,5733
R = 0,0014
1.56
1.58
1.6
1.62
1.64
1.66
1.68
1.7
1.72
1.74
17 18 19
(m)
Correlao Idade e Altura - Mulheres
17
Grfico 2 Correlao Linear entre idade e altura para amostra de homens
Os Grficos 1 e 2 revelam que no h uma relao linear entre as idades e as
alturas tanto para a amostra de homens quanto para de mulheres. Esse resultado
pode ser observado pela falta de ordem entre os pontos, no possvel observar
alguma relao linear entre as variveis, os valores de R corroboram com a
constatao anterior, pois como j explicado anteriormente, valores de r ou r
prximos a zero revelam uma correlao ruim.
Tambm foi testado se existe alguma correlao linear entre idades e numero
de alunos por idade na amostra mista (homens e mulheres), para verificar a
existncia ou no dessa correlao foi plotado o Grfico 3.
Grfico 3 Correlao linear entre idade e n de alunos por idade
y = 0,0092x + 1,6018
R = 0,0127
1.60
1.65
1.70
1.75
1.80
1.85
1.90
1.95
2.00
17 18 19 20 21 22
Correlao Idade e Altura - Homens
(anos)
(m)
y = -2,7143x + 59,857
R = 0,8624
R = 0,9286
0
2
4
6
8
10
12
14
17 18 19 20 21 22 23
N de
alunos
Correlao Idade e N de alunos por idade - Amostra
18
Ao contrrio dos grficos 1 e 2, o grfico 3 Apresenta pontos com uma
distribuio que aproxima-se grosseiramente com uma correlao linear, o valor de
R nos indica isso, pois se aproxima modestamente de 1.
Para uma melhor anlise do grfico 3 foi feito o teste do Coeficiente de
correlao para valendo 0,05 e 0,1. O teste teve como objetivo verificar se a
correlao significativa. Foram adotadas as seguintes hipteses:
- H
0
: =0
- H
1
: 0
A partir dos dados do grfico 3, com o uso da equao (10) e o auxilio de uma
tabela de t de Student, foram obtidos:
t
2
= 3,54 ; t
2,0,05
= 2,92 ; t
2,0,025
= 4,303
Para a hiptese H
0
ser rejeitada t
n-2
> t
(n-2;/2)
deve ser verdadeiro, portanto
pode se afirmar que com 10% de significncia que a correlao linear do grfico 3
no nula, entretanto isso no verdadeiro quando a significncia de 5%. Essa
correlao linear com =0,1 no muito significativa, pois este valor de
relativamente alto em relao ao seu valor mais comumente usado que de
0,01 e 0,05.
4.3. ESTIMATIVAS INTERVALARES
Para estimativas referentes a intervalos de confiana, primeiramente fez-se os
clculos considerando a varincia conhecida, definida pelos dados obtidos na
pesquisa. A Tabela 9 representa os erros calculados para as amostras de homens e
mulheres, bem como para a amostra como um todo, sendo o valor desse erro igual
metade do comprimento do intervalo estimado. Diferentes valores de confiana
foram utilizados para fins de anlise de preciso dos resultados obtidos. Lembrando
que os valores de idade so dados em anos e altura em metros.
19
Erro
Altura
mulheres
Altura
homens
Altura
sala
Idade
mulheres
Idade
homens
Idade sala
0,05 0,030 0,043 0,039 0,48 0,58 0,41
0,01 0,040 0,056 0,052 0,62 0,76 0,54
Tabela 9 Erros das distribuies de mdia de idade e de altura, com varincia conhecida.
Com a anlise dos dados, percebemos que quando se aumenta o valor de
confiana na determinao de um intervalo, h um sensvel aumento no
comprimento desse mesmo intervalo, o que comprova o fato de que quanto maior a
confiabilidade estabelecida no tratamento estatstico, menor ser a preciso dos
dados apresentados.
Tambm foi observado a influncia dos dados envolvidos, como o nmero de
elementos e a varincia da populao correspondente ao conjunto amostral, pois,
apesar de o nmero de elementos homens ser maior, a varincia populacional de
suas alturas, que no caso apresentou um valor maior que o das mulheres, fez com
que o intervalo de confiana para a mdia de suas alturas apresentasse um maior
comprimento.
Sabendo que no uma situao comum em estatstica o conhecimento
prvio do valor de varincia populacional, estabelecemos tambm uma situao
onde consideramos esse valor desconhecido, para que pudssemos fazer uso de
mtodos estimativos com aplicaes mais comuns. Como o nmero de elementos
em todas as amostras relativamente pequeno, fizemos o uso da distribuio t de
Student, sendo que os resultados obtidos com esse mtodo esto apresentados na
Tabela 10.
Erro
Altura
mulheres
Altura
homens
Altura
sala
Idade
mulheres
Idade
homens
Idade sala
0,05 0,041 0,055 0,044 0,37 0,67 0,43
0,01 0,060 0,077 0,060 0,53 0,95 0,58
Tabela 10 Erros das distribuies de mdia de idade e de altura com varincia desconhecida.
20
Percebe-se que, se desconhecemos o valor da varincia populacional, o
comprimento do intervalo de confiana tende, geralmente, a um aumento
significativo, reduzindo ento a sua preciso. Apenas a distribuio amostral da
altura das mulheres apresentou diminuio com relao ao mtodo anterior, o que
pode ter acontecido devido ao fato de a varincia amostral ser menor que a
varincia populacional.
Por ltimo, foram estimados intervalos de confiana para a varincia,
estabelecendo os mesmos critrios de confiana dos itens anteriores. Os dados
referentes a essa etapa se encontram na Tabela 11 que, como as anteriores mostra
os erros para cada situao.
Erro
Altura
mulheres
Altura
homens
Altura
sala
Idade
mulheres
Idade
homens
Idade sala
0,05 0,005 0,010 0,007 0,382 1,458 0,718
0,01 0,008 0,015 0,011 0,641 2,234 1,03
Tabela 11 Erros das varincias de idade e de altura.
Tambm para o caso de intervalos de confiana para a varincia vemos
nitidamente a influncia de fatores como nmero de elementos e varincia amostral.
Nota-se, por exemplo, que o intervalo de confiana para a varincia de idade dos
homens bem mais alto se comparado aos outros grupos, dado que sua varincia
amostral tambm apresentou um valor relativamente elevado. O comprimento dos
intervalos para a amostra feminina se mostraram bastante pequenos devido aos
baixos valores de varincia amostral tanto para o caso da idade quanto para a
altura.
4.4 TESTES DE HIPTESES
Teste de Hiptese para verificar se a mdia da altura entre as duas
populaes, a de homem e a de mulher, so iguais. Utilizando = 5%
21
2
2
2
1
2
1
0
2 1
n n
X X
Z
o o
+
A
=
=
= 4.82
Como
, rejeita-se
2
2
2
1
2
1
0
2 1
n n
X X
Z
o o
+
A
=
=
= 1.74
Como Z<
se aceita
( )
2
2
2
1
2
1
0 2 1
v
n
s
n
s
x x
t
+
= =
= 4.097
=
(
= 23
22
Como
, rejeita-se
( )
2
2
2
1
2
1
0 2 1
v
n
s
n
s
x x
t
+
= =
= 1.876
=
(
=21
Como
, rejeita-se