You are on page 1of 54

Estatstica descritiva

Tambm designada Anlise exploratria de dados ou Anlise preliminar de dados

Estatstica descritiva vs inferencial

Estatstica Descritiva: conjunto de mtodos estatsticos que visam sumariar e descrever os atributos mais proeminentes aos dados.

Estatstica Inferencial: conjunto de mtodos estatsticos que visam caracterizar (ou inferir sobre) uma populao a partir de uma parte dela (a amostra).

Estatsticas ou medidas amostrais

Estatstica ou medida amostral: uma medida numrica que descreve alguma caracterstica de uma amostra. habitualmente representada
por letras latinas. Por exemplo: x (mdia), s (desvio padro), r (coeficiente de correlao)

Amostra

Estatstica / medida amostral


3

Parmetros

Parmetro: uma medida numrica que descreve alguma caracterstica de uma populao. habitualmente representado por
letras gregas. Por exemplo: (mdia), (desvio padro), (coeficiente de correlao)

Populao Parmetro
4

Ferramentas de Estatstica Descritiva

Clculo numrico de medidas amostrais. Resumo e descrio global dos dados atravs da construo de tabelas e de grficos. Anlise e interpretao dos resultados obtidos.
5

Medidas amostrais

Tendncia ou localizao central:

mdia (mean), mediana (median), moda (mode), mdia aparada (trimmed mean).

Medidas amostrais

Localizao relativa:

Mnimo (minimum), Mximo (maximum), Quantil (quantile), Quartil (quartile), Percentil (percentile).

Medidas amostrais

Disperso:

amplitude (range), distncia inter-quartil (inter-quartile range), varincia (variance), desvio padro (standard deviation), coeficiente de variao (coefficient of variation),

Medidas amostrais

Assimetria:

Coeficiente de assimetria (skweness).

Tabelas de frequncias

Tabelas que resumem a informao contida na amostra, ordenando os seus valores e agrupando-os em classes (de valores repetidos ou de valores distribudos por intervalos).

10

Grficos

Grficos de frequncias Histogramas Caixas de bigodes ou diagramas de extremos e quartis (boxplots) Diagramas de caule-e-folhas (stem and leaf) Diagramas de disperso (scatterplot)

11

Descrio resumida das vrias ferramentas de Estatstica descritiva

12

Ordenao e tabela de frequncias

Tipos de frequncias:

Frequncia absoluta Frequncia relativa Frequncia absoluta acumulada Frequncia relativa acumulada

Uma tabela de frequncias uma tabela onde figuram os valores de pelo menos um destes tipos de frequncias.

13

Tabela de frequncias

Exemplo de uma tabela produzida pelo SPSS:


Durante um ano contabilizou-se diariamente o n de golfinhos presos nas redes dos pescadores das guas Aoreanas.
n de golfinhos presos num dia Frequency 37 45 84 52 23 11 2 1 1 1 257 Percent 14,4 17,5 32,7 20,2 8,9 4,3 ,8 ,4 ,4 ,4 100,0 Valid Percent 14,4 17,5 32,7 20,2 8,9 4,3 ,8 ,4 ,4 ,4 100,0 Cumulative Percent 14,4 31,9 64,6 84,8 93,8 98,1 98,8 99,2 99,6 100,0

Valid

0 1 2 3 4 5 6 8 9 13 Total

14

Medidas amostrais

Tendncia ou localizao central:

mdia (mean), mediana (median), moda (mode), mdia aparada (trimmed mean).

15

Medidas de localizao central: Mdia

Mdia: Numa amostra de n observaes, x1, x2, , xn

x1 x2 ... xn x n

x x
i 1 i

Se os dados estiverem agrupados (k valores distintos)


* * * x1 f1 x2 f 2 ... xn f n x n

xi* f i
i 1

x
n

* i i

onde fi designa a frequncia absoluta de xi* (ou a frequncia absoluta da classe com marca xi* no caso de dados agrupados em classes)
16

Medidas de localizao central: Mdia

A mdia pode ser pensada como o centro de massa dos valores das observaes, ie, o ponto de equilibrio aps dispormos as observaes sobre uma rgua.

Pontos afastados ou erros nas observaes podem afastar a mdia do grosso das observaes.
17

Medidas de localizao central: Mediana

A mediana a observao central, depois de ordenada a amostra.


Se a amostra tiver dimenso mpar, coincide com a observao central. Exemplo: Na amostra 1.2; 1.7; 2.1; 2.2; 2.4 a mediana 2.1 . Se a amostra tiver dimenso par, a mediana toma o valor da mdia das duas observaes mais centrais. Exemplo: Na amostra 0.3; 0.7; 0.9; 1.1 a mediana 0.8.

A mediana mais robusta que a mdia a erros ou a observaes afastadas.


18

Medidas de localizao central: Mdia aparada

Uma mdia aparada no mais do que uma mistura entre os conceitos de mdia e mediana por forma a combinar as qualidades de ambas. Uma mdia aparada uma mdia que calculada excluindo uma certa proporo de observaes em cada extremo da amostra.

19

Medidas de localizao central: Moda


A moda o valor mais frequente de uma amostra. Ao contrrio do que acontece com a mediana e a mdia, uma amostra pode possuir mais do que uma moda.

Moda
20

Medidas de localizao central: Moda

A moda a nica medida de localizao central que pode ser utilizada para dados numa escala nominal. A moda pode no ter significado, especialmente em dados de natureza contnua ou em dados discretos com poucas observaes repetidas! Quando os dados esto agrupados em classes podemos falar da classe modal, ou seja, da classe com maior frequncia.

21

Medidas amostrais

Localizao relativa:

Mnimo (minimum), Mximo (maximum), Quantil (quantile), Quartil (quartile), Percentil (percentile).

22

Medidas de localizao relativa: Mnimo e Mximo

Mnimo o valor mais reduzido da amostra Mximo o valor mais elevado da amostra

23

Medidas de localizao relativa: Quartis

Quartis so os valores (Q1, Q2 e Q3) que dividem a amostra, depois de ordenada, em quatro partes iguais (ou o mais iguais possvel). Q2 coincide com a mediana.

24

Medidas de localizao relativa: Quantis e Percentis

Quantil de ordem p (0 p 1) um valor, xp, que divide a amostra em duas partes, tal que esquerda de xp est a proporo p da amostra e direita a proporo 1-p. Percentil de ordem p (p vai de 1 a 100) - o mesmo que um quantil mas em que a proporo dada em percentagem.

25

Medidas amostrais

Disperso:

amplitude (range), distncia inter-quartil (inter-quartile range), varincia (variance), desvio padro (standard deviation), coeficiente de variao (coefficient of variation),

26

Medidas de disperso: Amplitude

A amplitude de uma amostra a diferena entre o mximo e o mnimo.


Exemplo: Na amostra 1.2; 1.7; 2.1; 2.2; 2.3 a amplitude 2.3 - 1.2 = 1.1.

27

Medidas de disperso: Distncia interquartil

Distncia inter-quartil a diferena entre o 3 e o 1 quartis, Q3 - Q1.


No intervalo que vai de Q1 a Q3 encontram-se 50% das observaes (as mais centrais).

28

Medidas de disperso: varincia

A varincia a mdia dos quadrados dos desvios das observaes em relao mdia da amostra.

Habitualmente considera-se uma verso corrigida da varincia

29

Medidas de disperso: desvio padro

A varincia no vem representada na mesma unidade das observaes. Se tomarmos a raiz quadrada da varincia obtemos o desvio padro que tambm uma medida de disperso e vem na mesma unidade das observaes.

Nos programas de estatstica e nas mquinas de calcular o que aparece so as verses corrigidas da varincia e do desvio padro. O desvio padro e a varincia podem ser fortemente afectados por erros ou observaes muito afastadas.
30

Medidas de disperso: coeficiente de variao

O Coeficiente de variao a razo entre o desvio padro e a mdia, v = s / x. Trata-se de uma medida relativa de disperso e por isso no tem unidades.

31

Medidas amostrais: assimetria

Coeficiente de assimetria uma medida que assume o valor zero quando a distribuio de frequncias da amostra completamente simtrica e assume valores diferentes de zero (positivos ou negativos) quando a distribuio no simtrica.
Ateno que numa amostra quase impossvel observar simetria pura. Por isso o coeficiente de assimetria assume valores quase sempre diferentes de zero. Para termos uma ideia se a assimetria relevante devemos comparar o valor do coeficiente com o erro associado. Se o coeficiente no exceder 2 ou 3 vezes o erro, o seu valor no ser muito relevante, especialmente quando queremos extrapolar para a populao.
32

Medidas amostrais: assimetria

Uma distribuio possui assimetria positiva (alternativamente negativa) quando existe uma concentrao de valores na zona de valores mais reduzidos (alternativamente elevados) da amostra.
Quase simetria Coef.ass. ~ 0 Assimetria negativa Coef.ass. <0

Assimetria positiva Coef.ass. >0

33

Medidas amostrais: assimetria

A assimetria tambm pode ser avaliada comparando os valores da mdia, mediana e moda (desde que esta ltima faa sentido).

Assimetria positiva: moda < mediana < mdia

moda

mdia mediana
34

Medidas amostrais: assimetria


Assimetria negativa: mdia < mediana < moda

Simetria pura:

mdia = mediana = moda

Simetria aproximada: mdia ~ mediana ~ moda

35

Grficos

Grficos de frequncias Histogramas Caixas de bigodes ou diagramas de extremos e quartis (boxplots) Diagramas de caule-e-folhas (stem and leaf) Diagramas de disperso (scatterplot)

36

Histogramas

O histograma um grfico que reflecte a forma da distribuio de frequncias da amostra. Tambm procura reflectir a estrutura (forma) da populao de onde foi retirada a amostra. Para construir um histograma necessrio primeiro repartir os dados por classes e depois calcular as respectivas frequncias. O histograma um grfico de frequncias construdo a partir desta tabela de frequncias (por classes). Os histogramas so particularmente teis para variveis contnuas ou variveis com poucos valores repetidos.

37

Histogramas

A apresentao do histograma depende muito do nmero de classes considerado. Um nmero muito grande de classes produz um histograma com demasiada irregularidade, enquanto um histograma com um nmero demasiado reduzido de classes oculta a forma da distribuio (perde-se demasiada informao).

38

Histogramas
Poucas classes Muitas classes

39

Grficos de frequncias

Grficos de frequncias so grficos de barras que traduzem graficamente o contedo da tabela de frequncias. Os mais habituais so os grficos de frequncias absolutas ou relativas, mas tambm podemos construir grficos de frequncias absolutas ou relativas acumuladas. Os grficos de frequncias (no acumuladas) so apropriados para dados qualitativos ou numricos discretos (ou que se comportam como tal). Quando as frequncias absolutas so reduzidas e a gama de valores da amostra dispersa os grficos de frequncias tornam-se pouco interessantes (muito irregulares).
40

Grficos de frequncias

Chama-se funo de distribuio emprica funo cuja imagem grfica o grfico de frequncias relativas acumuladas.

100%

Exemplo:
Percent

75%

50%

25%

0% 0 1 2 3

41

Caixas de bigodes

Pode ser encarada como a representao grfica de algumas medidas de localizao: mediana Q1 Q3 outliers e extremos

42

Caixas de bigodes
Mnimo da amostra mas no menos de Q1-1.5(Q3-Q1) Mximo da amostra mas no mais de Q3+1.5(Q3-Q1)

43

Caixa de bigodes

Algumas caixas tm os bigodes at ao mnimo e mximo e no tm representados outliers. As caixas de bigodes do informao sobre

A localizao central: mediana Outras localizaes: 1 e 3 quartis e mnimo e mximo. Disperso: amplitude e distncia inter-quartil Assimetria: posio relativa da mediana na caixa, comprimento dos bigodes.
44

Caixas de bigodes
Assimetria positiva Simetria

Assimetria negativa

45

Caixa de bigodes comparativas

As caixas de bigodes tambm so teis para comparar vrias amostras num mesmo grfico, caixas de bigodes comparativas.

46

Caixas de bigodes comparativas

Exerccio 3 da folha 2:

47

Diagramas de caule e folha

Representa os dados, separando cada valor em duas partes: o caule (valor esquerda do trao vertical) e a folha (algarismo direita do trao vertical) diametro Stem-and-Leaf Plot Exemplo: Frequency Stem & Leaf (10.5 10.7 10.8
11.0 11.2 11.4 12.9 13.7 14.1) 11.0 11.3 11.7 12.9 13.8 11.1 11.4 12.0 13.3 14.0
3,00 8,00 3,00 3,00 2,00 10 . 11 . 12 . 13 . 14 . 578 00123447 099 378 01

Stem width: Each leaf:

1,00 1 case(s)
48

Diagramas de caule e folha


Outro exemplo:
(63
64 65 66
altura Stem-and-Leaf Plot

Frequency
2,00 4,00 6,00 8,00 9,00 3,00 Stem width: Each leaf: Devemos multiplicar cada valor por 10 para recuperar os dados.

Stem & Leaf


6. 6. 7. 7. 8. 8. 34 5669 112244 55566789 000001123 567 10,00 1 case(s)

66 69 71 71 72 ....85 86 87)

49

Formas de distribuies

Os grficos de frequncias, histogramas, diagramas de caule-e-folhas (e em parte as caixas de bigodes) do-nos informao quanto forma da distribuio dos dados (e consequentemente da populao de onde foram retirados) Existem distribuies de vrios tipos: unimodais, bimodais e multimodais

50

Formas de distribuies
Exemplo: unimodal

bimodal

51

Diagramas de disperso

Os diagramas de disperso so grficos que permitem relacionar duas variveis entre si. Representam-se pares de dados (x,y), onde no eixo horizontal marcam-se os valores de x e no eixo vertical os valores de y

52

Diagramas de disperso

Exemplo: pesos e comprimentos de 414 recmnascidos.

53

Matrix de diagramas de disperso

Exerccio 4 da folha 2: rvores

54

You might also like