You are on page 1of 6

1.

DISTRIBUIES EMPRICAS E ANLISE EXPLORATRIA DE DADOS (REF:


WILKS, 1995, cap. 3)
Observem o mapa da precipitao mdia diria observada nas diferentes estaes do ano:
Dezembro-Janeiro- Fevereiro (DJF); Maro-Abril-Maio (MAM); Junho-Julho-Agosto
(JJA); Setembro-Outubro-Novembro (SON). Para a obteno desses valores mdios
foram utilizados dados de precipitao obtidos por satlite (GPCP Global Precipitation
Climatology Program), que combinam informaes de satlite (Infravermelho,
microondas), com dados de estao em superfcie. Estes dados so obtidos em pntadas
(essa palavra foi adaptada do ingls pentad), que significa uma mdia em 5 dias. Um
ano possui 73 pntadas (desconsideramos o problema dos anos bissextos). O GPCP
produz dados globais com uma resoluo de 2.5 x 2.5 de latitude x longitude. Para
cobrir o globo todo, temos 144 longitudes x 73 latitudes (ou, como dizemos, 144 x 73 =
10512 pontos de grade). O GPCP produz dados desde 1979. Assim, para cada ponto de
grade temos uma srie temporal (considerando entre 1979 a 2004): 73(pntadas) x
25(anos) = 1825 pntadas. O conjunto todo de dados de precipitao possui 10512 series
temporais de 1825 pontos!
Uma das aplicaes mais importantes da estatstica para a meteorologia e climatologia
conseguir fazer um conjunto de dados ter algum sentido. Como vocs j devem ter
percebido, modelos numricos e sistemas de observaes produzem uma torrentes de
dados numricos. Um dos desafios mais significantes pegar todos esses dados e fazer
com que estes tenham significado.
De forma geral, essa atividade conhecida como Anlise Exploratria de Dados (em
ingls, exploratory data analysis - EDA). A AED baseia-se principalmente em
mtodos grficos para ajudar a compreenso dos dados. Alguns destes podem at mesmo
ser aplicados mo, quando o conjunto de dados pequeno. Entretanto, o uso de pacotes
estatsticos e programas de computador (por exemplo, construir voc mesmo um
programa para executar uma tarefa monstruosa), em qualquer linguagem de sua
preferncia (Fortran, C, Pascal, IDL, Matlab, etc).
1.1 Robustez e Resistncia.
A maior parte das tcnicas estatsticas clssicas trabalham melhor quando algumas
suposies restritas sobre a natureza dos dados podem ser encontradas. Por exemplo,
frequentemente assume-se que os dados seguem a familiar curva em forma de sino
observada na distribuio Gaussiana. Entretanto, estas pressuposies podem incorrer
em srios erros quando, na realidade, no so satisfeitas. Assim, sempre importante
checar se um conjunto de dados satisfaz as pressuposies feitas, principalmente se estas
so restritivas.
Exerccio 1.1. Utilizando o conjunto de dados fornecido, determinar a
distribuio de frequncia da temperatura anual e da precipitao (mdias
dirias por pntada). Comparar as distribuies e discutir qual delas se ajusta
melhor hiptese de uma distribuio gaussiana. Indicar os critrios utilizados
para esta afirmativa.
1
Duas propriedades importantes dos mtodos de AED devem ser satisfeitas: 1) Devem
ser Robustos; 2) Devem ser Resistentes

Um mtodo robusto no necessariamente timo em qualquer circunstncia particular,
mas funciona razoavelmente bem na maioria das circunstncias. Para uma circunstcia
em particular, a mdia amostral dada por :

n
i
i
x
n
x
1
1
(1)
obtida como a soma de todos os valores xi e dividida pelo nmero de valores, caracteriza
melhor o centro de um conjunto de dados se este sabidamente seguir uma Distribuio
Gaussiana. Contudo, se os dados so definitivamente no-Gaussianos (por exemplo, os
registros de extremos de precipitao veremos melhor esse aspecto adiante), ento a
mdia amostral poder caracterizar o centro de forma completamente confusa e errada.
Por outro lado, mtodos robustos geralmente no so sensveis a suposies particulares
sobre a natureza geral dos dados (veremos a seguir).
Um mtodo resistente aquele que no influenciado por um pequeno nmero de dados
aberrantes (outliers em ingls). Tais pontos frequentemente aparecem num conjunto de
dados devido a erros de origem variada. Os resultados de um mtodo resistente mudam
muito pouco se uma pequena frao dos dados mudada, mesmo se estes mudam
drasticamente.
Alm de no ser robusta, uma mdia amostral (Eq. 1) no uma caracterizao resistente
dos dados. Por exemplo, considere o conjunto de dados:
X=[11,12,13,14,15,16,17,18,19]
A mdia amostral igual a 15
Agora, suponha que alguem tenha digitado errado o ltimo valor :
X=[11,12,13,14,15,16,17,18,91]
O centro dos dados ser considerado (erroneamente) igual a 23. Medidas resistentes do
centro de um conjunto de dados, mudariam muito pouco ou praticamente nada pela
substituio de 19 com 91. Vamos investigar alguns casos.
1.1. QUANTIS
Muitas medidas que resumem as propriedades do conjunto de dados usam os chamados
QUANTIS AMOSTRAIS, (quantiles em ingls, ou tambm chamados de
fractiles). Estes termos so essencialmente equivalentes ao termo tambm comum
PERCENTIL. Um quantil amostral q
p
um nmero tendo a mesma unidade que o
dado, o qual excede a proporo do dado dada pelo subscrito p, com 0p1. O quantil
amostral q
p
pode ser interpretado aproximadamente como aquele valor do dado que
excede um membro escolhido aleatoriamente do conjunto de dado, com probabilidade p.
Analogamente, o quantil amostral q
p
poderia ser interpretado como o [p X 100]
-simo
percentil do conjunto de dados. A determinao dos quantis requer primeiro que os dados
2
sejam ordenados. A notao utilizada comumente para designar os dados ordenados a
seguinte {x
(1)
, x
(2)
, x
(3)
, x
(4)
,..., x
(n)
}, onde x
(1)
o valor mais baixo e x
(n)
o mais alto.
Alguns quantis so utilizados mais comumente como a mediana (ou q
0.5
) ou o 50
percentil. Este o valor do centro do conjunto de dados, no sentido que uma igual
proporo de dados cai acima e abaixo deste valor.
A mediana pode ser obtida pela seguinte relao:

'

+ +
+

par n
n x n x
impar n n
x q
2
] 1 ] 2 / ([ ) 2 / (
), 2 / ] 1 ([ 5 . 0 (2)
Ou seja, se existe um nmero mpar de dados, a mediana o dado correspondente ao
valor ordenado ascendente (n+1)/2. Por exemplo, se existirem 15 dados ordenados, a
mediana corresponde ao (15+1)/2 = 8 valor. Este valor separaria a metade do conjunto
de dados acima e abaixo. Por outro lado, se existe um nmero par de dados, ento a
mediana a mdia aritmtica entre o valor ordenado (n/2) e o valor ordenado [n/2] +1
Outro uso to comum quanto as medianas so os qurtis q
0.25
e q
0.75.
Usualmente, so
chamados de quartil inferior e quartil superior. Esto localizados a meio caminho entre a
mediana e os extremos x
(1)
e x
(n)

Exemplo. Passos para a determinao dos quantis (ou percentis):
1) Ordene os dados em ordem ascendente. Orden-los mo apresenta pouco
problema se o conjunto dos dados pequeno. Para grandes conjuntos de dados,
ser necessrio usar o computador (programar ou usar um software qualquer). Por
exemplo, considere a temperatura observada na latitude 12.5
o
S, 47.5
o
W nos meses
de julho-agosto de 2002.

N
ordem
Temperatura
Julho-
Agosto 2002
Temperatura
ordenada
Percentil
1
23.764 25.611 100.00%
2
23.614 25.002 90.90%
3
21.827 24.749 81.80%
4
22.196 24.675 72.70%
5
22.023 24.438 63.60%
6
24.438 24.244 54.50%
7
24.675 24.179 45.40%
8
24.244 23.764 36.30%
9
24.749 23.614 27.20%
10
25.611 22.196 18.10%
11
25.002 22.023 9.00%
12
24.179 21.827 0.00%
3

2) Obteno da mediana: Neste exemplo, existe um nmero par de dados. Assim,
a mediana obtida como a mdia aritmtica do valor (n/2) e do valor (n/2)+1. No
caso do exemplo, a mediana q
0.5
= (x
(6)
+x
(7)
)/2=(24.244 + 24.438)/2. = 24.341C
3). Clculo dos quartis e demais percentis: a melhor forma de fazer esse clculo
ordenar os dados, como na ltima coluna da Tabela acima. Passo seguinte
estabelecer o nmero de ordem no rank, como indicado na primeira coluna da
tabela. Para calcular o percentil, basta fazer a regra de propores:
) 1 (
) 1 (
100

n
ORDEM
N
Percentil
(3)
Com essa regra de propores saberemos como os dados observados correspondem
aos diferentes percentis da distribuio. Para calcular o quartil, se o mesmo no
aparece na tabela, ento voc necessita interpolar para o valor desejado. Por exemplo,
o q
(0.25)
ser obtido fazendo a mdia (x
(9)
+ x
(8)
)/2
Obs. Alguns softs como o Excel consideram o nmero de ordem no rank conforme
indicado neste texto (ou seja, o valor mais alto recebe o nmero 1 e o mais baixo o
12
1 100
0
N ordem Percentil
4
nmero n). Entretanto, essa ordem pode ser invertida que a regra das propores no
varia (mostre isso !).
Exercicio.1.2. (fazer em grupos de 2 pessoas). Pegar a srie de temperatura ou
precipitao fornecidas em veres ou invernos de anos diferentes (El Nino/ La Nina)
e calcular a mediana e os quantis. Comparar os resultados entre os grupos
procurando discutir se houve alguma alterao nas caractersticas da mediana e dos
extremos das distribuies.
Como fazer para calcular os percentis se temos os dados em intervalos de classe??
Vamos supor a seguinte distribuio de frequncia da temperatura mdia diria
(dados em pntadas) observada em 12.5S e 47.5W
Temperatura media diaria annual em 12.5S e 47.5 W
0.00
10.00
20.00
30.00
40.00
50.00
16 18 20 22 24 26 28 30 32 More
Valor superior do intervalo (C)
N
u
m
e
r
o

d
e

o
b
s
e
r
v
a
c
o
e
s
Classe
Temp
Frequenc
y
Rel. Fr.
(%)
16.01- 18.00 0 0.00
18.01- 20.00 17 0.97
20.01- 22.00 523 29.85
22.01- 24.00 806 46.00
24.01- 26.00 159 9.08
26.01- 28.00 160 9.13
28.01- 30.00 84 4.79
30.01- 32.00 3 0.17
More 0 0.00
total 1752 100%
Vamos calcular o valor de q(0.25) (o quartil inferior).
O quartil inferior obtido dividindo-se o nmero total de observaes por 4 (ou seja,
encontrando o nmero de dados que corresponde a 25% do total das observaes. No
presente caso, 1752/4 = 438. bom lembrar que o Excel s mostra o valor superior da
5
classe e que o inferior um intervalo aberto. Assim, foram includos os intervalos
inferiores para facilitar o clculo que se segue. Vamos tambm desprezar as classes que
no contm observaes, comeando assim pela classe (18.01 20.0). A primeira
pergunta que temos que fazer, que vai nos ajudar a resolver esse problema a seguinte:
Em que classe se encontra o primeiro quartil? Eu posso responder essa questo tanto
olhando para a frequncia quanto para a frequncia relativa. Se quero a classe em que
tenho 25% dos dados e isso corresponde a 438 dados, ento o primeiro quartil encontra-
se na classe 20.01 22.00 (que possui 29.85% + 0.97% acumulado dos dados). Agora,
gostaria de determinar com mais preciso qual esse quartil. Para tanto, vamos utilizar
um mtodo de interpolao linear

,
_

,
_


+
classe de valo
interv
4 /
25 . 0
quantil o esta onde classe elementos N
anterior classe elementos n N
classe inicial Valor Q

No caso,
( ) 21.71 00 . 2
523
17 438
1 . 20
025

,
_


+ Q
Notem que essa uma aproximao do quantil real. Se estivssemos calculando com o
conjunto inteiro de dados em pntadas do exemplo, o valor calculado de q
0.25
seria
21.89C. Mas, como pode ser percebido, uma aproximao bem razovel. O significado
do resultado que 25% das pntadas possuem temperatura igual ou menor a 21.71C ou,
o que equivalente, 75% das pntadas possuem temperatura maior que 21.71 C.
Exerccio 1.3. (fazer em grupo de 2 pessoas). Utilizar a distribuio acima e
calcular a mediana e o quartil superior. Interpretar os resultados.
Exerccio 1.4. (fazer em grupo de 2 pessoas). Utilizar a distribuio acima e
calcular o 60 percentil. Interpretar os resultados.
6

You might also like