Professional Documents
Culture Documents
Estatstica Descritiva: conjunto de mtodos estatsticos que visam sumariar e descrever os atributos mais proeminentes aos dados.
Estatstica Inferencial: conjunto de mtodos estatsticos que visam caracterizar (ou inferir sobre) uma populao a partir de uma parte dela (a amostra).
Estatstica ou medida amostral: uma medida numrica que descreve alguma caracterstica de uma amostra. habitualmente representada
por letras latinas. Por exemplo: x (mdia), s (desvio padro), r (coeficiente de correlao)
Amostra
Parmetros
Parmetro: uma medida numrica que descreve alguma caracterstica de uma populao. habitualmente representado por
letras gregas. Por exemplo: (mdia), (desvio padro), (coeficiente de correlao)
Populao Parmetro
4
Clculo numrico de medidas amostrais. Resumo e descrio global dos dados atravs da construo de tabelas e de grficos. Anlise e interpretao dos resultados obtidos.
5
Medidas amostrais
mdia (mean), mediana (median), moda (mode), mdia aparada (trimmed mean).
Medidas amostrais
Localizao relativa:
Mnimo (minimum), Mximo (maximum), Quantil (quantile), Quartil (quartile), Percentil (percentile).
Medidas amostrais
Disperso:
amplitude (range), distncia inter-quartil (inter-quartile range), varincia (variance), desvio padro (standard deviation), coeficiente de variao (coefficient of variation),
Medidas amostrais
Assimetria:
Tabelas de frequncias
Tabelas que resumem a informao contida na amostra, ordenando os seus valores e agrupando-os em classes (de valores repetidos ou de valores distribudos por intervalos).
10
Grficos
Grficos de frequncias Histogramas Caixas de bigodes ou diagramas de extremos e quartis (boxplots) Diagramas de caule-e-folhas (stem and leaf) Diagramas de disperso (scatterplot)
11
12
Tipos de frequncias:
Frequncia absoluta Frequncia relativa Frequncia absoluta acumulada Frequncia relativa acumulada
Uma tabela de frequncias uma tabela onde figuram os valores de pelo menos um destes tipos de frequncias.
13
Tabela de frequncias
Valid
0 1 2 3 4 5 6 8 9 13 Total
14
Medidas amostrais
mdia (mean), mediana (median), moda (mode), mdia aparada (trimmed mean).
15
x1 x2 ... xn x n
x x
i 1 i
xi* f i
i 1
x
n
* i i
onde fi designa a frequncia absoluta de xi* (ou a frequncia absoluta da classe com marca xi* no caso de dados agrupados em classes)
16
A mdia pode ser pensada como o centro de massa dos valores das observaes, ie, o ponto de equilibrio aps dispormos as observaes sobre uma rgua.
Pontos afastados ou erros nas observaes podem afastar a mdia do grosso das observaes.
17
Uma mdia aparada no mais do que uma mistura entre os conceitos de mdia e mediana por forma a combinar as qualidades de ambas. Uma mdia aparada uma mdia que calculada excluindo uma certa proporo de observaes em cada extremo da amostra.
19
A moda o valor mais frequente de uma amostra. Ao contrrio do que acontece com a mediana e a mdia, uma amostra pode possuir mais do que uma moda.
Moda
20
A moda a nica medida de localizao central que pode ser utilizada para dados numa escala nominal. A moda pode no ter significado, especialmente em dados de natureza contnua ou em dados discretos com poucas observaes repetidas! Quando os dados esto agrupados em classes podemos falar da classe modal, ou seja, da classe com maior frequncia.
21
Medidas amostrais
Localizao relativa:
Mnimo (minimum), Mximo (maximum), Quantil (quantile), Quartil (quartile), Percentil (percentile).
22
Mnimo o valor mais reduzido da amostra Mximo o valor mais elevado da amostra
23
Quartis so os valores (Q1, Q2 e Q3) que dividem a amostra, depois de ordenada, em quatro partes iguais (ou o mais iguais possvel). Q2 coincide com a mediana.
24
Quantil de ordem p (0 p 1) um valor, xp, que divide a amostra em duas partes, tal que esquerda de xp est a proporo p da amostra e direita a proporo 1-p. Percentil de ordem p (p vai de 1 a 100) - o mesmo que um quantil mas em que a proporo dada em percentagem.
25
Medidas amostrais
Disperso:
amplitude (range), distncia inter-quartil (inter-quartile range), varincia (variance), desvio padro (standard deviation), coeficiente de variao (coefficient of variation),
26
27
28
A varincia a mdia dos quadrados dos desvios das observaes em relao mdia da amostra.
29
A varincia no vem representada na mesma unidade das observaes. Se tomarmos a raiz quadrada da varincia obtemos o desvio padro que tambm uma medida de disperso e vem na mesma unidade das observaes.
Nos programas de estatstica e nas mquinas de calcular o que aparece so as verses corrigidas da varincia e do desvio padro. O desvio padro e a varincia podem ser fortemente afectados por erros ou observaes muito afastadas.
30
O Coeficiente de variao a razo entre o desvio padro e a mdia, v = s / x. Trata-se de uma medida relativa de disperso e por isso no tem unidades.
31
Coeficiente de assimetria uma medida que assume o valor zero quando a distribuio de frequncias da amostra completamente simtrica e assume valores diferentes de zero (positivos ou negativos) quando a distribuio no simtrica.
Ateno que numa amostra quase impossvel observar simetria pura. Por isso o coeficiente de assimetria assume valores quase sempre diferentes de zero. Para termos uma ideia se a assimetria relevante devemos comparar o valor do coeficiente com o erro associado. Se o coeficiente no exceder 2 ou 3 vezes o erro, o seu valor no ser muito relevante, especialmente quando queremos extrapolar para a populao.
32
Uma distribuio possui assimetria positiva (alternativamente negativa) quando existe uma concentrao de valores na zona de valores mais reduzidos (alternativamente elevados) da amostra.
Quase simetria Coef.ass. ~ 0 Assimetria negativa Coef.ass. <0
33
A assimetria tambm pode ser avaliada comparando os valores da mdia, mediana e moda (desde que esta ltima faa sentido).
moda
mdia mediana
34
Simetria pura:
35
Grficos
Grficos de frequncias Histogramas Caixas de bigodes ou diagramas de extremos e quartis (boxplots) Diagramas de caule-e-folhas (stem and leaf) Diagramas de disperso (scatterplot)
36
Histogramas
O histograma um grfico que reflecte a forma da distribuio de frequncias da amostra. Tambm procura reflectir a estrutura (forma) da populao de onde foi retirada a amostra. Para construir um histograma necessrio primeiro repartir os dados por classes e depois calcular as respectivas frequncias. O histograma um grfico de frequncias construdo a partir desta tabela de frequncias (por classes). Os histogramas so particularmente teis para variveis contnuas ou variveis com poucos valores repetidos.
37
Histogramas
A apresentao do histograma depende muito do nmero de classes considerado. Um nmero muito grande de classes produz um histograma com demasiada irregularidade, enquanto um histograma com um nmero demasiado reduzido de classes oculta a forma da distribuio (perde-se demasiada informao).
38
Histogramas
Poucas classes Muitas classes
39
Grficos de frequncias
Grficos de frequncias so grficos de barras que traduzem graficamente o contedo da tabela de frequncias. Os mais habituais so os grficos de frequncias absolutas ou relativas, mas tambm podemos construir grficos de frequncias absolutas ou relativas acumuladas. Os grficos de frequncias (no acumuladas) so apropriados para dados qualitativos ou numricos discretos (ou que se comportam como tal). Quando as frequncias absolutas so reduzidas e a gama de valores da amostra dispersa os grficos de frequncias tornam-se pouco interessantes (muito irregulares).
40
Grficos de frequncias
Chama-se funo de distribuio emprica funo cuja imagem grfica o grfico de frequncias relativas acumuladas.
100%
Exemplo:
Percent
75%
50%
25%
0% 0 1 2 3
41
Caixas de bigodes
Pode ser encarada como a representao grfica de algumas medidas de localizao: mediana Q1 Q3 outliers e extremos
42
Caixas de bigodes
Mnimo da amostra mas no menos de Q1-1.5(Q3-Q1) Mximo da amostra mas no mais de Q3+1.5(Q3-Q1)
43
Caixa de bigodes
Algumas caixas tm os bigodes at ao mnimo e mximo e no tm representados outliers. As caixas de bigodes do informao sobre
A localizao central: mediana Outras localizaes: 1 e 3 quartis e mnimo e mximo. Disperso: amplitude e distncia inter-quartil Assimetria: posio relativa da mediana na caixa, comprimento dos bigodes.
44
Caixas de bigodes
Assimetria positiva Simetria
Assimetria negativa
45
As caixas de bigodes tambm so teis para comparar vrias amostras num mesmo grfico, caixas de bigodes comparativas.
46
Exerccio 3 da folha 2:
47
Representa os dados, separando cada valor em duas partes: o caule (valor esquerda do trao vertical) e a folha (algarismo direita do trao vertical) diametro Stem-and-Leaf Plot Exemplo: Frequency Stem & Leaf (10.5 10.7 10.8
11.0 11.2 11.4 12.9 13.7 14.1) 11.0 11.3 11.7 12.9 13.8 11.1 11.4 12.0 13.3 14.0
3,00 8,00 3,00 3,00 2,00 10 . 11 . 12 . 13 . 14 . 578 00123447 099 378 01
1,00 1 case(s)
48
Frequency
2,00 4,00 6,00 8,00 9,00 3,00 Stem width: Each leaf: Devemos multiplicar cada valor por 10 para recuperar os dados.
66 69 71 71 72 ....85 86 87)
49
Formas de distribuies
Os grficos de frequncias, histogramas, diagramas de caule-e-folhas (e em parte as caixas de bigodes) do-nos informao quanto forma da distribuio dos dados (e consequentemente da populao de onde foram retirados) Existem distribuies de vrios tipos: unimodais, bimodais e multimodais
50
Formas de distribuies
Exemplo: unimodal
bimodal
51
Diagramas de disperso
Os diagramas de disperso so grficos que permitem relacionar duas variveis entre si. Representam-se pares de dados (x,y), onde no eixo horizontal marcam-se os valores de x e no eixo vertical os valores de y
52
Diagramas de disperso
53
54