You are on page 1of 88

Medidas numricas descritivas

Sandro Bruno do Nascimento Lopes


Universidade Federal do Rio Grande do Norte

8 de janeiro de 2015

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

1 / 88

Sumrio
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

2 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

3 / 88

Introduo

Alguns modelos de grficos, como histogramas e diagramas de ramo-e-folha,


permitem ter uma noo visual da distribuio dos valores de acordos com
grupos determinados a priori;
O objetivo descrever tais informaes de forma numrica.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

4 / 88

Introduo

Para o clculo das medidas numricas, ser utilizado como exemplo uma pesquisa
realizada a 15 pessoas de uma determinada cidade, escolhidas aleatoriamente,
sobre o tempo de viagem de casa para o trabalho em minutos. Os dados obtidos
foram: 30, 20, 10, 40, 25, 20, 10, 60, 15, 40, 5, 30, 12, 10, 10.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

5 / 88

Introduo
Em rol: 5, 10, 10, 10, 10, 12, 15, 20, 20, 25, 30, 30, 40, 40, 60;
Em diagrama de ramo-e-folha:
0|5
1|000025
2|005
3|00
4|00
5|
6|0
Algumas concluses que podem ser extradas dos dois grficos:
Menor valor: 5 minutos;
Maior valor: 60 minutos;
Valor com maior nmero de ocorrncias: 10 (4 vezes);
Ramo com maior ocorrncia: 1
Distribuio assimtrica.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

6 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

7 / 88

Tipos de medidas

A tendncia central corresponde extenso na qual todos os valores de


dados se agrupam em torno de um valor central tpico;
A variao corresponde ao montante de disperso, ou espalhamento, de
valores em relao a um valor central;
O formato corresponde ao padro da distribuio de valores do valor mais
baixo para o mais alto.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

8 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

9 / 88

Medias de tendncia central

Tendncia central: valores no centro da distribuio, em torno dos quais os


dados se agrupam;
Medidas tipicamente usadas:
Mdia aritmtica (mdia);
Mediana;
Moda.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

10 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

11 / 88

Mdia

A mdia aritmtica (mdia) a mais comum das medidas de tendncia


central;
Matematicamente, a soma dos valores dividido pelo nmero de valores:

Definio
Para uma amostra de tamanho n, dada por {X1 , X2 , , Xn }, a mdia X dada
por:
Pn
Xi
X1 + X2 + + Xn
X = i=1
=
n
n

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

12 / 88

Mdia
Fisicamente, a mdia pode ser vista como o ponto de equilbrio em um
conjunto de dados (gangorra), onde todos os valores desempenham um papel
igual (mesma massa);

afetada por valores atpicos, tambm chamados de valores extremos ou


outliers.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

13 / 88

Mdia
Propriedades:
A soma dos desvios em relao a mdia nula: o desvio mede a distncia
entre o valor e a mdia, possui valor negativo considerando valores abaixo da
mdia e valores positivos considerando valores acima da mdia.
n
X

(Xi X ) = 0

i=1

A mdia o valor que minimiza a soma do quadrado dos desvios: seja o valor
c, denominado como centro dos dados, tal que a distncia medida pela
soma dos quadrados dos desvios dos outros valores em relao a c seja a
menor possvel. Este valor c sempre ser a mdia.
X = arg min
c

Sandro Bruno (UFRN)

n
X

(Xi c)

i=1

Medidas numricas descritivas

8 de janeiro de 2015

14 / 88

Mdia

Para o exemplo dado, a mdia X dada por:


5 + 10 + 10 + 10 + 10 + 12 + 15 + 20 + 20 + 25 + 30 + 30 + 40 + 40 + 60
15
337
=
22, 5minutos
5

X=

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

15 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

16 / 88

Mediana
Em um rol (lista dos dados em ordem crescente), a mediana o nmero
correspondente ao meio da lista, de forma que 50% dos valores esto acima e
50% esto abaixo dele;
A mediana de um conjunto de dados ordenados localizada na posio
n+1
:
2
n+1
um valor inteiro. Ento, a
2
mediana o valor correspondente a este ndice (o nmero do meio da lista);
n+1
Se o nmero de valores par, ento
um valor no-inteiro. Ento,
2
convenciona-se que mediana a mdia dos dois valores do meio.
Se o nmero de valores mpar, ento

No afetada por valores atpicos (extremos):

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

17 / 88

Mediana

Propriedade:
A mediana o valor que minimiza a soma do valor das distncias (valor
absoluto dos desvios): seja c o centro dos dados, tais que a distncia dos
outros valores em relao a c seja a menor possvel. Este valor c sempre ser
a mediana.
n
X
mediana = arg min
|Xi c|
c

Sandro Bruno (UFRN)

i=1

Medidas numricas descritivas

8 de janeiro de 2015

18 / 88

Mediana

Para o exemplo dado, a posio da mediana no rol :


n+1
15 + 1
16
=
=
=8
2
2
2
A mediana est na 8 posio, correspondendo ao elemento 20. Logo, a mediana
20 minutos.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

19 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

20 / 88

Moda

A moda o valor que ocorre com maior frequncia;


Usada tanto para dados numricos quanto para dados categricos (cuidado:
afetada pela escolha de classes de agrupamento);
Pode no haver moda e pode haver vrias modas em um conjunto de dados;
No afetada por valores extremos:

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

21 / 88

Moda

Propriedade:
A mediana o valor que minimiza a soma do valor das distncias (valor
absoluto dos desvios): seja c o centro dos dados, tais que a distncia dos
outros valores em relao a c seja a menor possvel. Este valor c sempre ser
a mediana.
n
X
mediana = arg min
|Xi c|
c

Sandro Bruno (UFRN)

i=1

Medidas numricas descritivas

8 de janeiro de 2015

22 / 88

Moda

No problema dado, a moda 10 minutos, j que aparece mais vezes (4 vezes).

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

23 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

24 / 88

Qual utilizar?

A mdia geralmente usada, a menos que existam valores extremos e com


distribuio muito assimtricas;
Nesse caso, a mediana a mais usada, uma vez que no sensvel a valores
extremos. Por exemplo, o preo mediano de casas pode ser registrado para
uma regio por ser menos sensvel a valores extremos;
O conceito de moda pode ser aplicado a dados categricos ou numricos
no-ordenados, ao contrrio da mdia e da mediana.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

25 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

26 / 88

Medidas de variao

Medidas de variao medem a disperso de valores em um conjunto de dados,


ou seja, o grau de afastamento dos dados em torno de um valor central;
Indicam se um conjunto de dados homogneo (mais concentrado em torno
do valor central) ou heterogneo (mais disperso em torno do valor central);
Medidas (absolutas) tipicamente utilizadas:
Amplitude;
Amplitude interquartil;
Varincia;
Desvio-padro.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

27 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

28 / 88

Amplitude
Medida de variao mais simples;
Definida como a diferena entre o maior e o menor dos valores dos dados:
Amplitude = Maior valor Menor valor
No leva em considerao o formato da distribuio dos dados:

sensvel a valores extremos:

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

29 / 88

Amplitude

Para o exemplo dado, a amplitude dada por:


amplitude = 60 5 = 55minutos

Sandro Bruno (UFRN)

Medidas numricas descritivas

(1)

8 de janeiro de 2015

30 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

31 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

32 / 88

Medidas separatrizes

Medidas separatrizes so valores que dividem o rol em partes iguais;


Medidas separatrizes tipicamente usadas:
Quartis (4 partes);
Decis (10 partes);
Centis (100 partes);

A nomenclatura geral quantil ou pertencil.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

33 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

34 / 88

Quartis

Quartis dividem os dados ordenados em 4 segmentos com o mesmo nmero


de valores por segmento:

O primeiro quartil, Q1 , o valor para o qual 25% das observaes so


menores e 75% so maiores do que ele;
Q2 o mesmo que a mediana (50% so menores, 50% so maiores);
Apenas 25% dos valores so maiores do que o terceiro quartil, Q3 .

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

35 / 88

Quartis
Determinado os quartis:
Em um rol de de n dados, os ndices para os quartis so definidos como:
n+1
;
4
n+1
Segundo quartil: valor na posio
;
2
3(n + 1)
.
Terceiro quartil: valor na posio
4
Primeiro quartil: valor na posio

Se a posio de um quartil um nmero inteiro, ento o quartil corresponde


ao valor ordenado nesta posio;
Se a posio uma frao com 0, 5 (2, 5, 3, 5, etc), ento o quartil igual a
mdia dos valores correspondendo as posies adjacentes (2 e 3, 3 e 4, etc);
Se a posio no um nmero inteiro e nem uma frao com 0, 5, ento
arredonda-se a posio para o inteiro mais prximo e determina-se o valor
correspondente.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

36 / 88

Quartis

Para o exemplo dado, as posies dos quartis so:


n+1
15 + 1
16
Primeiro quartil:
=
=
= 4;
4
4
4
15 + 1
16
n+1
=
=
= 8;
Segundo quartil:
2
2
2
3(n + 1)
3(15 + 1)
3(16)
Terceiro quartil:
=
=
= 3 4 = 12.
4
4
4
Logo, o primeiro, segundo e terceiro quartis so 10, 20 e 30 minutos,
respectivamente.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

37 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

38 / 88

Amplitude interquartil

A amplitude interquartil (AIQ) a diferena entre o terceiro e o primeiro


quartil:
Amplitude interquartil = Q3 Q1
Elimina alguns dos maiores e menores valores e calcula a amplitude apenas
com os valores restantes;
No sensvel a valores atpicos.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

39 / 88

Amplitude interquartil

No exemplo dado, sabe-se que o primeiro quartil 10 minutos, e o terceiro quartil


30 minutos. Logo, a amplitude interquartil dada por:
amplitude interquartil = 30 10 = 20minutos

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

40 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

41 / 88

Varincia

A varincia (e o desvio-padro) medem o quanto as observaes se afastam


da mdia;
A varincia a mdia (aproximada, por n 1 graus de liberdade) do
quadrado dos desvios dos valores em relao a mdia:
2

S =

Pn

i=1

Xi X
n1

2

Onde X a mdia amostral.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

42 / 88

Varincia
Propriedades:
A varincia de uma constante k nula;
V (k) = 0
A varincia da soma ou diferena de uma constante k com uma varivel
igual a varincia da varivel;
V (k + X ) = V (k X ) = V (X )
A varincia do produto de uma constante por uma varivel igual ao produto
do quadrado da constante pela varincia da varivel.
V (kX ) = k 2 V (X )

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

43 / 88

Varincia

No exemplo dado, a varincia dada como: 5, 10, 10, 10, 10, 12, 15, 20, 20, 25,
30, 30, 40, 40, 60
Valor mdio: 22, 5 minutos;
Quadrado das diferenas:
(5 22, 5)2 = (17, 5)2 = 306, 25;
(10 22, 5)2 = (12, 5)2 = 156, 25;
(12 22, 5)2 = (10, 5)2 = 110, 25;
(15 22, 5)2 = (7, 5)2 = 56, 25;
(20 22, 5)2 = (2, 5)2 = 6, 25;
(25 22, 5)2 = (2, 5)2 = 6, 25;
(30 22, 5)2 = (7, 5)2 = 56, 25;
(40 22, 5)2 = (17, 5)2 = 306, 25;
(60 22, 5)2 = (37, 5)2 = 1406, 25;

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

44 / 88

Varincia

Soma dos quadrados:


306, 25 + 156, 25 + 156, 25 + 156, 25 + 156, 25 + 110, 25 + 56, 25 + 6, 25
+ 6, 25 + 6, 25 + 56, 25 + 56, 25 + 306, 25 + 306, 25 + 1406, 25 = 3247, 75
Diviso por n 1:
S2 =

3247, 75
3247, 75
=
231, 9821
15 1
14

Logo a varincia de 231, 9821 minutos2

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

45 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

46 / 88

Desvio-padro

Medida de variao mais utilizada: desvio mdio dos dados em relao a


mdia.
Raiz quadrada da varincia;
Tem a mesma unidade que os dados originais.
s
2
Pn

X
i
i=1
S = S2 =
n1

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

47 / 88

Desvio-padro

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

48 / 88

Desvio-padro

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

49 / 88

Desvio-padro

Passos para computar o desvio-padro amostral:


Computar a diferena entre cada valor e a mdia;
Elevar cada uma das diferenas ao quadrado;
Somar os quadrados das diferenas;
Dividir o total por n 1 para obter a varincia amostral;
Tirar a raiz quadrada da varincia amostral.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

50 / 88

Desvio-padro

Para o exemplo dado, o desvio-padro pode ser calculado como a raiz quadrada
da varincia. Logo:

p
S = S 2 = 231, 9821 15, 2310
Logo, o desvio-padro de 15, 2310 minutos.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

51 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

52 / 88

Medidas de formato

Medidas de formato tentam captar, em um nmero, caractersticas da


distribuio dos dados como assimetria e achatamento;

As medidas mais usadas so assimetria e curtose (no sero vistas neste


curso):

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

53 / 88

Medidas de formato

Para dados com uma nica moda, a relao entre moda, mediana e mdia
nos fornecem uma ideia sobre a simetria de uma distribuio:

A assimetria segue a direo da cauda longa da distribuio.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

54 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

55 / 88

Box-plot
Um box-plot um grfico montado a partir de cinco valores significativos em
uma coleo de dados:
Valor mnimo (Xminimo );
Primeiro Quartil (Q1 );
Mediana ou segundo quartil (Q2 );
Terceiro Quartil (Q3 );
Valor mximo (Xmaximo ).

Formato de um box-plot:

O quadro e a linha central esto localizados no meio dos pontos extremos se


os dados forem simtricos em torno da mdia;
Um grfico box-plot pode ser apresentado tanto na vertical quanto na
horizontal.
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

56 / 88

Box-plot
Quando os dados tem uma nica moda, o box-plot nos d uma ideia da
direo da assimetria nos dados (sem precisar olhar a distribuio):

Os valores mnimo e mximo do box-plot podem ser substitudos por outros


valores:
1 e 99 percentis;
2 e 98 percentis;
Um desvio padro abaixo e acima da mdia;
O menor dado dentro de 1, 5*AIQ (amplitude interquartil) de Q1 e o maior
dado dentro de 1, 5*AIQ de Q3 .

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

57 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

58 / 88

Medidas numricas descritivas para a populao

As estatsticas descritivas discutidas descrevem uma amostra e no a


populao;
Medidas descritivas para a populao so chamadas de parmetros e
geralmente denotadas por letras gregas;
Os mais importantes parmetros de uma populao so a mdia
populacional, a varincia populacional e desvio-padro populacional.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

59 / 88

Medidas numricas descritivas para a populao


A mdia populacional a soma dos valores Xi na populao dividida pelo
tamanho N da populao:
Pn
Xi
X1 + X2 + + XN
= i=1
=
N
N
A varincia populacional a mdia do quadrado dos desvios dos valores em
relao a mdia populacional :
2 =

Pn

i=1

(Xi )
N

O desvio-padro populacional a medida de variao populacional mais


usada, tendo a mesma unidade que os dados originais, e equivale a raiz
quadrada da varincia:
s
Pn
2

i=1 (Xi )
2
= =
N
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

60 / 88

Medidas numricas descritivas para a populao

Estatsticas amostrais versus parmetros populacionais:


Medida
mdia
varincia
desvio-padro

Sandro Bruno (UFRN)

Parmetro populacional

Medidas numricas descritivas

Estatstica amostral
X
S2
S

8 de janeiro de 2015

61 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

62 / 88

Localizao de valores extremos

Duas alternativas diferentes so usadas para localizar valores atpicos


(extremos) dependendo das medidas usadas para variao:
Usando amplitude interquartil;
Usando o desvio-padro (escore-Z).

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

63 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

64 / 88

Localizao de valores extremos com a amplitude


interquartil

A amplitude Interquartil compreende 50% dos dados;


Uma regra para localizar valores extremos identificar dados que so:
Menores ou iguais do que Q1 1, 5 AIQ;
Maiores ou iguais do que Q3 + 1.5 AIQ;

Dados nestas condies so considerados valores extremos.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

65 / 88

Localizao de valores extremos com a amplitude


interquartil

Para o exemplo dado, os limites so:


Q1 1, 5 AIQ = 10 1, 5 20 = 10 30 = 20
Q3 + 1.5 AIQ = 30 + 1, 5 20 = 30 + 30 = 60
Como 60 um valor maio ou igual ao limite superior do teste, ento ele um
valor extremo.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

66 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

67 / 88

Localizao de valores extremos com o escore-Z

O escore-Z, Zi , de um valor a distncia que este valor est da mdia


medida em unidades de desvio-padro;
Para computar o escore-Z de um dado, basta diminuir a mdia e divida pelo
desvio-padro:
Xi X
Zi =
S
Quanto maior o valor absoluto do escore-Z, mais longe o valor est da mdia;
Um valor Xi considerado extremo se e somente se Zi 3 ou Zi 3.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

68 / 88

Localizao de valores extremos com o escore-Z

Para o exemplo dado, as condies do menor e valor valor dos dado :


5 22, 5
17, 5
Z1 =
=
1, 1490
15, 2310
15, 2310
37, 5
60 22, 5
Z2 =
=
2, 4621
15, 2310
15, 2310
Como Z1 > 3 e Z2 < 3, ento no h valores extremos na lista.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

69 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

70 / 88

Medidas numricas para duas variveis

As medidas numricas vistas at agora descrio informaes de apenas uma


varivel;
Geralmente lida-se diversas variveis que se relacionam entre si.
Nestes casos, busca-se definir medidas para a fora da relao entre as
variveis envolvidas;
No caso de dados bivariados, as medidas mais utilizadas so:
Covarincia amostral;
Coeficiente de correlao.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

71 / 88

Medidas numricas para duas variveis

Para as definies de covarincia e coeficiente de correlao, ser utilizado o


seguinte exemplo:
Supe-se que o contedo de hidrognio (X) seja um fator importante na
porosidade (Y) de fundies de liga de alumnio. Uma amostra das duas variveis
foi obtida e os dados esto dispostos abaixo:
X
Y

Sandro Bruno (UFRN)

0,18
0,46

0,20
0,70

0,21
0,41

0,22
0,44

Medidas numricas descritivas

0,30
0,72

8 de janeiro de 2015

72 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

73 / 88

Covarincia amostral
A covarincia amostral mede a fora da relao linear entre duas variveis;
Mede se as duas variveis se movem juntas;
Frmula da covarincia entre duas variveis X e Y :
Pn
(Xi X ) (Yi Y )
Cov (X , Y ) = i=1
n1
Interpretao da covarincia entre duas variveis:
Positiva: X e Y tendem a se mover na mesma direo. (Xi s grandes
observados ao mesmo tempo que Yi s grandes ou Xi s pequenos observados ao
mesmo tempo que Yi s pequenos);
Negativa: X e Y tendem a se mover em direes opostas. (Xi s grandes
observados ao mesmo tempo que Yi s pequenos ou Xi s pequenos observados
ao mesmo tempo que Yi s grandes);
Nula: X e Y so linearmente independentes.

A covarincia varia de acordo com dimenses utilizadas, para as mesmas


variveis.
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

74 / 88

Covarincia amostral

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

75 / 88

Covarincia amostral
No exemplo dado, a covarincia amostral pode ser resumida nas seguintes etapas:
Clculo da mdia de X:
X=

0, 18 + 0, 20 + 0, 21 + 0, 22 + 0, 30
1, 11
=
= 0, 222
5
5

Clculo da mdia de Y:
Y =

0, 46 + 0, 70 + 0, 41 + 0, 44 + 0, 72
2, 73
=
= 0, 546
5
5

Clculo do produto das diferenas das mdias entre as duas variveis:


(0, 18 0, 222) (0, 46 0, 546) = 0, 003612;
(0, 20 0, 222) (0, 70 0, 546) = 0, 003388;
(0, 21 0, 222) (0, 41 0, 546) = 0, 001632;
(0, 22 0, 222) (0, 44 0, 546) = 0, 000212;
(0, 30 0, 222) (0, 72 0, 546) = 0, 013572.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

76 / 88

Covarincia amostral

Soma dos valores obtidos:


0, 003612 0, 003388 + 0, 001632 + 0, 000212 + 0, 013572 = 0, 01564
Diviso por n 1:
Cov (X , Y ) =

Sandro Bruno (UFRN)

0, 01564
0, 01564
=
= 0, 00391
51
4

Medidas numricas descritivas

8 de janeiro de 2015

77 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

78 / 88

Coeficiente de correlao

O coeficiente de correlao mede a fora relativa da relao linear entre duas


variveis;
Clculo do coeficiente de correlao amostral entre duas variveis X e Y :
Pn
Cov (X , Y )
i=1 (Xi X ) (Yi Y )
r=s
2 s Pn
2 = SX SY
Pn
i=1 Xi X
i=1 Yi Y
n1
n1

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

79 / 88

Coeficiente de correlao

Propriedades:
O coeficiente de correlao adimensional;
O coeficiente de correlao varia entre -1 e 1;
Quanto mais prximo de -1 mais forte a relao linear negativa entre as
variveis;
Quanto mais prximo de 1, mais forte a relao linear positiva entre as
variveis;
Quanto mais prximo de 0, mais fraca a relao linear entre as variveis.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

80 / 88

Coeficiente de correlao

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

81 / 88

Coeficiente de correlao
No exemplo dado, o coeficiente de correlao pode ser obtido a partir das
seguintes etapas:
Clculo da covarincia entre X e Y: Cov (X , Y ) = 0, 01564;
Clculo do desvio-padro de X:
Clculo do quadrado das diferenas:
(0, 18 0, 222)2
(0, 20 0, 222)2
(0, 21 0, 222)2
(0, 22 0, 222)2
(0, 30 0, 222)2

= 0, 001764;
= 0, 000484;
= 0, 000144;
= 0, 000004;
= 0, 006084

Soma dos quadrado das diferenas


0, 001764 + 0, 000484 + 0, 000144 + 0, 000004 + 0, 006084 = 0, 00848
0, 0848
0, 0848
=
= 0, 00212
51
4
Raiz quadrada da varincia: SX = 0, 00212 0, 04604
Diviso por n 1:

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

82 / 88

Coeficiente de correlao
Clculo do desvio-padro de Y:
Clculo do quadrado das diferenas:
(0, 46 0, 546)2
(0, 70 0, 546)2
(0, 41 0, 546)2
(0, 44 0, 546)2
(0, 72 0, 546)2

= 0, 007396;
= 0, 023716;
= 0, 018496;
= 0, 011236;
= 0, 030276.

Soma dos quadrado das diferenas


0, 007396 + 0, 023716 + 0, 018496 + 0, 011236 + 0, 030276 = 0, 09112
0, 09112
0, 09112
=
= 0, 02278
51
4

Raiz quadrada da varincia: SX = 0, 02278 0, 15093


Diviso por n 1:

Clculo do coeficiente de correlao:


r=

Sandro Bruno (UFRN)

0, 00391
0, 56269
0, 04604 0, 15093

Medidas numricas descritivas

8 de janeiro de 2015

83 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

84 / 88

Correlao versus causalidade

Na causalidade, uma varivel apenas acontece por causa da outra;


Quando h correlao positiva observamos que duas variveis costumam
andar juntas. Pode ser que Y cause X , ou que X cause Y ou que exista
outra varivel (omitida) Z que cause as duas coisas...
Exemplos de correlao e no causalidade:
Com o passar do tempo, observamos primeiro o cantar do galo e uns minutos
depois o nascer do Sol - mas isso no quer dizer que o cantar do galo que
causa o nascer do Sol;
Pessoas que dormem de sapato acordam com dor de cabea. Dormir de sapato
causa dor de cabea?
Pessoas que dormem tarde tem salrio mais elevados. Vou dormir mais tarde
hoje para ver se acordo amanh com o salrio mais alto...

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

85 / 88

Correlao versus causalidade

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

86 / 88

Sumario
1
2
3

Introduo
Tipos de medidas
Medidas de tendncia central
Mdia
Mediana
Moda
Qual utilizar?
Medidas de variao
Amplitude
Amplitude interquartil

Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
5
6
7
8

Varincia
Desvio-padro
Medidas de formato
Box-plot
Medidas numricas descritivas para a populao
Localizao de valores extremos
Localizao de valores extremos com a amplitude interquartil
Localizao de valores extremos com o escore-Z
Medidas numricas para duas variveis
Covarincia amostral
Coeficiente de correlao

Correlao versus causalidade


10 Consideraes ticas
Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

87 / 88

Consideraes ticas

A anlise de dados objetiva: uma anlise de dados sempre deve apresentar


as medidas descritivas que melhor atendem as hipteses a respeito do
conjunto de dados;
A Interpretao dos dados subjetiva: a interpretao deve ser honesta,
neutra e clara;
As medidas descritivas numricas devem documentar tanto os resultados
bons quanto os resultados ruins;
No deve-se usar medidas descritivas inadequadas para distorcer os fatos;
Ficar atento para omisses ao ler estatsticas descritivas, pois elas podem
esconder fatos que no esto de acordo com o ponto de vista do autor.

Sandro Bruno (UFRN)

Medidas numricas descritivas

8 de janeiro de 2015

88 / 88

You might also like