Professional Documents
Culture Documents
Sumrio
1 Como abrir dados no Eviews
2 Grficos
3 Funes de distribuio
A Curva Normal
A curva Qui-quadrado e testes
Curva F
Distribuio de Poisson
4 Estatsticas descritivas, testes de hiptese e ANOVA
Histograma e Estatsticas
Teste de hiptese
Estatstica por Classificao
Teste da Distribuio Emprica
ANOVA
5 Caractersticas dos dados de sries de tempo
Ajustamento Sazonal
Alisamento Exponencial
Ciclos
Filtro HP
Filtros de frequncia
Autocorrelao (Correlograma)
Varincia de Longo Prazo
Teste de Razo de Varincia
Teste de Independncia BDS
6 Regresso Simples
Diagnstico dos coeficientes
Scaled Coefficients
Intervalo de Confiana
Variveis Omitidas
Diagnstico dos resduos
Teste de Normalidade
Teste de Independncia (BDS)
Correlograma Q-stat
Correlograma dos Resduos ao Quadrado
Teste de Autocorrelao LM
Testes de Heteroscedasticidade
Breusch-Pagan-Godfrey
Harvey
Glejser
ARCH
Diagnstico de estabilidade
Teste de Chow
Teste de Quandt-Andrews
Teste de Previso de Chow
Teste de Ramsey
Estimativas Recursivas
Recursive Residual
Teste CUSUM
Teste CUSUM ao Quadrado
Teste de Previso one-step
Teste de Previso N-step
Coeficientes Recursivos
Leverage Plots
Estatsticas de Influncia
Previso - Forecast
Anexo estatstico
7 Regresso Mltipla
Diagnstico de estabilidade
Previso
Stepwise
8 Raiz Unitria
Teste de Dickey-Fuller
Dickey-Fuller Aumentado
Teste ERS
Phillips-Perron
O teste KPSS
Teste NgPerron
Raiz Unitria Sazonal
9 Modelos ARIMA
Modelo AR
Modelo MA
ARMA
10 Modelos univariados da famlia ARCH
ARCH
GARCH
EGARCH
11 Modelos de Fator
A janela de opes que se abre a seguir consiste de trs passos. muito comum
que no se mudem as informaes no primeiro e no segundo passos. Nesse caso,
podemos clicar em avanar nesses dois primeiros passos. Porm, no terceiro passo,
caso no se modifique algumas opes, pode ser que o arquivo final no fique tal como
desejado. Em especial se no especificarmos a periodicidade e as datas.
Sendo assim, no passo trs, selecione dated regular frequency, que sempre
ser utilizado quando tivermos uma srie de tempo e, depois, a periodicidade trimestral
quarterly. Por fim, digite a data inicial como 1992Q1 e clique em finish.
Pronto, agora temos um workfile de 60 trimestres contendo cinco sries de
tempo com os respectivos nomes que estavam no Excel: pr, pw, px, qx, y.
Um ltimo ponto importante para salientar nesse ponto sobre a forma que as
datas so inseridas no eviews. Como pode ser visto no exemplo acima, especificamos
primeiro o ano, seguido da letra que compem a periodicidade, no caso de trimestre Q
e, no caso de meses m para ento, colocar o perodo. Como os dados comeam no
primeiro trimestre, colocamos 1. Se os dados tivessem como incio maro de 1996,
especificaramos 1996m1.
2. Criando um workfile
O arquivo que est sendo criado ainda no possui os dados. O que fizemos foi
apenas criar o chamado workfile. Para inserir os dados temos que, primeiro, criar um
objeto. V em Object/new object e selecione group. Do lado direito escolha um
nome para o grupo (evite acentos, espaos e etc, seja bem simples nessas escolhas). A
seguir, depois de clicar em ok, o eviews ir abrir uma janela que bem semelhante com
planilhas do Excel. V no Excel, selecione apenas os dados, no pegando as datas nem
os nomes das sries, copie e cole no eviews. A seguir feche o mesmo.
Note que agora temos um workfile e os dados, mas, as sries ficaram com nomes
diferentes. Isso pode ser resolvido clicando com o boto direito na srie e renomeando a
mesma.
Aps ter os dados no eviews, h diversas outras formas de trabalhar com eles de
forma a tornar a pesquisa mais fcil, em especial quando se trabalha com uma grande
quantidade de informao e diversos testes e estimativas.
Uma opo interessante do eviews o uso de diversas planilhas ao mesmo
tempo, sendo possvel preservar o vnculo entre as variveis. Tal recurso permite
trabalhar com diversos modelos, separados por planilhas, sem poluir o workfile
principal. Selecione as variveis { EMBED Equation.3 }, { EMBED Equation.3 }, {
EMBED Equation.3 }, { EMBED Equation.3 } e { EMBED Equation.3 }. A seguir,
clique com o boto direito do mouse na planilha de nome New Page, selecione
Copy/Extract from Current Page e depois By Link to New Page.
Na janela que ser aberta, ao escrever @all, o eviews ir copiar todo o perodo
amostral. Em objects to copy, selecione Listed Series, como mostrado na figura xx, e
deixe a opo include links selecionada. Caso queira dar um nome para a nova planilha,
clique em Page Destination e, em Page: escreva o nome que quiser.
Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Criando planilhas com vnculo
Note que ser criada uma nova planilha com os dados selecionados com cores
diferentes. Agora, sempre que os dados nas sries da planilha original forem
modificados, o mesmo ir ocorrer com essas sries na nova planilha.
1
Se voc ainda no conhece esse recurso, vale a pena ver em: { HYPERLINK
"http://research.stlouisfed.org/fred2/" }.
2. Grficos
O recurso de grficos em econometria muito til para uma deteco prvia das
caractersticas de um conjunto de dados como, por exemplo, sua distribuio, a
existncia de tendncia, movimentos cclicos, sazonalidade, outliers, quebra estrutural,
clusters dentre outras. No eviews possvel personalizar a construo de grficos,
escolhendo cores, tamanho e estilo de letra, linhas de tendncia, combinar diferentes
tipos de grficos, vincular os mesmos aos dados e demais aspectos. H outras opes
que ficam disponveis em options/graphics default. Deixamos para o leitor explorar
esse ponto consultando o manual que acompanha o software.
Nesse captulo iremos utilizar o arquivo do eviews de nome borracha.wk1. Abra
o mesmo. Ali ir ver cinco sries de dados qx, y, px, pr, pw, mais frente discutimos
a origem dessas. Inicialmente, d dois cliques na srie de nome qx. O eviews ir abrir
uma janela que se parece com as planilhas do Excel. A sequncia de dados que vemos
denominada de srie de tempo. Note que, na primeira coluna, temos as respectivas datas
que, para esse exemplo, trimestral, com incio no primeiro trimestre de 1992 e
terminando no ltimo trimestre de 2006. Porm, note que h uma sequencia de clulas
que esto vazias, com o termo NA. Isso ir facilitar quando quisermos prever o
comportamento dos dados no futuro. Veremos isso no captulo de regresso simples.
A seguir, a partir do menu view/graph. Note que h vrias opes de grficos. O
mais comum, e que ser mais explorado aqui, fazer um grfico de linha. Selecione
esse e o resultado como aparece na figura xx. Alternativamente, podemos fazer um
grfico de barras para esse conjunto de dados. Clique com o boto direito do mouse
sobre o grfico e depois options e selecione bar. O mesmo pode ser aplicado a cada
uma das outras opes. Outra alternativa usar o menu opes, localizado logo acima
do grfico.
5.0
QX
4.8
4.6
4.4
4.2
4.0
92 93 94 95 96 97 98 99 00 01 02 03 04 05 06
Programao
Para fazer um grfico, usamos o objeto graph. Para o exemplo de um grfico
de linha, aplicado srie qx colocamos o termo abaixo criando um grfico de nome
gqx. A seguir, especificamos que a linha tem cor vermelha, dado pelo RGB(255,0,0).
graph gqx.line qx
gqx.setelem linecolor(255,0,0)
Dentre as vrias opes a serem utilizadas em um grfico de linha, uma das mais
teis para a econometria a normalizao dos dados. Nesse caso, o que fazemos criar
um grfico onde cada informao subtrada da mdia e depois dividida pelo desvio-
padro. Assim, o resultado final uma nova sequencia de dados onde a mdia zero e
o desvio-padro 1. Para essa opo use :
graph gqx.line(n) qx
Aps criar o grfico de linha com uma opo do tipo (n), como mostrado no box
de programao, o produto final um grfico no estilo freeze. Esse uma espcie de
grfico desvinculado dos dados. O inconveniente dessa opo que toda vez que os
dados originais forem atualizados isso no ser feito no nosso grfico.
Para contornar esse problema devemos voltar a vincular os dados ao grfico. D
dois cliques no grfico gqx. A seguir selecione Graph Updating e, do lado direito as
opes automatic e, mais abaixo, update when data or the workfile sample changes.
Programao
Podemos montar um programa que faa automaticamente a atualizao dos
nossos grficos. Primeiro criamos um grfico de nome gqx e depois especificamos,
pelo comando setupdate e, entre parnteses a, que o mesmo seja atualizado sempre
que o conjunto de dados mudar. Ao fazer isso note que a cor da caixa que especifica o
grfico no workfile muda da cor verde para alaranjado.
graph gqx.line(n) qx
gqx.setupdate(a)
5.2
5.0
4.8
4.6
4.4
4.2
4.0
92 93 94 95 96 97 98 99 00 01 02 03 04 05 06
Programao
Esse grfico tambm pode ser feito a partir da opo ab=hist no comando line,
como mostrado a seguir:
graph gqx.line(ab=hist) qx
graph gqx.line(ab=k) qx
5.2
5.0
4.8
4.6
4.4
4.2
4.0
92 93 94 95 96 97 98 99 00 01 02 03 04 05 06
Lembre que a opo Freeze tem a desvantagem de no ser atualizada sempre que
os dados forem atualizados. Podemos contornar isso. Com o grfico aberto d dois
cliques e depois selecione Graph Updating. A seguir, selecione a opo Automatic e
Update when data or the workfile sample changes. Isso ir permitir que o grfico seja
atualizado sempre que os dados forem modificados no workfile.
Programao
Uma opo interessante a ser utilizada em grficos especificar uma rea em um
determinado perodo. Isso pode ser feito a partir do comando draw. Dentre as opes,
escolhemos que a rea segue as datas na parte horizontal (bottom), a cor cinza (gray) e
o perodo compreendido.
Outra opo que pode ser utilizada quando se tem mais de uma srie de dados,
em especial quando as mesmas possuem escalas diferentes. Nesse caso, se fizermos esse
grfico com apenas um eixo vertical, visualmente podemos ter uma informao de baixa
qualidade. O eviews permite que se faa um grfico com dois eixos.
Isso pode ser feito depois de se criar um grupo com as sries que se quer ilustrar.
Selecione primeiro a srie qx. Com o boto Ctrl do teclado pressionado, selecione a
srie px. A seguir, clique com o boto direito do mouse e open as Group. O eviews ir
abrir as duas sries em conjunto, uma em cada coluna. A seguir, clique em view/graph e
depois em ok.
Note que temos uma nica escala do lado esquerdo do grfico. Agora, clique
com o boto direito do mouse, v em Axes & Scaling e, depois Data scaling. A seguir,
do lado direito da tela, para cada srie selecionada, escolha a escala que quer coloc-la,
se esquerda ou direita. Nesse exemplo, escolhemos deixar a srie qx no eixo esquerdo e
a px no direito. Como exerccio, veja se consegue tambm inserir a informao da
distribuio de freqncia para cada conjunto de dados como mostrado na figura xx.
5.0
4.9
4.8
5.2 4.7
5.0 QX
4.6
PX
4.8
4.5
4.6
4.4
4.2
4.0
92 93 94 95 96 97 98 99 00 01 02 03 04 05 06
Programao
Um grfico com duas linhas em duas colunas com escalas diferentes pode ser
obtido a partir de uma das opes do comando line. Nesse caso, usamos d, que
permite criar um grfico com duas colunas. No se esquea de especificar qual a
segunda srie de dados que se quer colocar junto. No exemplo abaixo usamos a srie
px. Note que tambm especificamos a opo de histograma.
graph gqx.line(ab=hist, d) qx px
8 QX
6
Frequency
0
4.0 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 5.0 5.1 5.2
Essa anlise pode ser complementada com um grfico que tem o mesmo
formato, mas que, ao invs de ser uma distribuio de frequncia, seja uma funo de
densidade ou ento uma funo de frequncia relativa. Essas trs opes podem ser
selecionadas ao lado da opo histograma na caixa de opes. V em scaling e
selecione density. O desenho no ir mudar, mas, note que a escala vertical sim. Isso
porque, no caso da frequncia temos, no eixo vertical, a informao do nmero de dados
encontrados para cada intervalo. No caso da densidade estamos falando da rea, o que
tambm ser diferente para o caso de se selecionar relative frequency.
Vamos agora adicionar uma estimativa da funo de distribuio utilizando uma
funo de Kernel. Com o grfico aberto, clique em options. A seguir, na caixa details,
selecione options e depois em Add. Escolha kernel Density e clique em ok. A figura xx
mostra o resultado.
2.4
Histogram
2.0 Kernel
1.6
Density
1.2
0.8
0.4
0.0
3.6 3.8 4.0 4.2 4.4 4.6 4.8 5.0 5.2 5.4
Programao
Para fazer um grfico de distribuio conjugado com uma estimativa via
densidade de Kernel, podemos usar o seguinte comando.
.4
.3
Density
.2
.1
.0
-12 -10 -8 -6 -4 -2 0 2 4 6 8 10 12
normal. Porm, para confirmar tal resultado necessrio que se faa um teste especfico
que ser explicado no prximo captulo.
1.0
2
0.8
Quantiles of Normal
0.6
Probability
0.4
0
0.2
0.0 -1
-1 0 1 2 3 4 5 6 7 8 9 10
-2
-2 0 2 4 6 8 10
Quantiles of INV_07_08
Fazer a terica com os dados da
distribuio de frequncia
Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Scatter e linha de regresso entre qx e
y
5.2
5.0
4.8
QX
4.6
4.4
4.2
4.0
Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Scatter e linha de regresso entre
todas as variveis
4.9
4.8
PW
4.7
4.6
4.5
5.0
4.9
4.8
PX
4.7
4.6
4.5
5.2
4.8
QX
4.4
4.0
8.2
8.0
7.8
7.6
Y
7.4
7.2
7.0
4.0 4.2 4.4 4.6 4.8 4.5 4.6 4.7 4.8 4.9 4.5 4.6 4.7 4.8 4.9 5.0 4.0 4.4 4.8 5.2
PR PW PX QX
3. Funes de Distribuio
O eviews permite a construo de diversas curvas de distribuio, que podem
tanto serem discretas quanto contnuas. As mais utilizadas em testes de econometria2
so as funes normal, t-student, log-normal, F e qui-quadrado.
Ao trabalhar com funes de distribuio, devemos compreender dois pontos
importantes. O primeiro se a varivel em questo categrica ou numrica e, o
segundo, as diferenas que existem entre uma funo de probabilidade, ou densidade,
uma distribuio cumulativa e uma distribuio inversa, que a inversa da funo
cumulativa.
As variveis categricas so fceis de identificar. Ao aplicar um questionrio
com perguntas que contenham respostas como do tipo, sexo, nacionalidade e etc,
obtemos como resposta caractersticas e no nmeros. Essa classificao ser
importante para definir que tipo de teste ir usar para avaliar os resultados. Por exemplo,
se perguntarmos o sexo dos entrevistados, temos respostas categricas como homem ou
mulher. Por outro lado, se perguntarmos a idade teremos respostas numricas. Essas
podem tanto serem discretas, ou seja, 25 anos, 35 anos, ou contnuas, expressando a
idade inclusive em minutos, 13.140.325 minutos de vida.
A funo de densidade representa a distribuio de probabilidade de uma
varivel aleatria. como a probabilidade ir se comportar de acordo com os valores
que essa varivel aleatria ir assumir. Por exemplo, suponha uma varivel que possui
uma distribuio de probabilidade normal. Nesse caso, toda a rea abaixo da curva alm
de somar o valor 1, que a probabilidade da varivel assumir qualquer valor, ir se
comportar de acordo com a curva normal.
A distribuio cumulativa ir determinar o quanto da curva, ou de
probabilidade, existe at determinado valor que se queira avaliar. Para o exemplo de
uma curva normal, podemos encontrar qual a probabilidade de se ter um valor menor
que x. Esse dado por toda a rea abaixo da curva inferior a x. O conceito de
distribuio cumulativa muito importante para os propsitos do entendimento da
econometria e em testes de hiptese. Nesse caso, especificamos o ponto e encontramos
a rea (probabilidade) at esse ponto.
Por fim, a distribuio inversa ir representar a rea da curva que
complementar funo de distribuio cumulativa. Agora fazemos o procedimento
inverso da cumulativa, especificamos a rea desejada e, com isso, obtemos o ponto na
curva que representa essa rea.
Todas essas trs formas de avaliar uma funo de distribuio esto disponveis
no eviews e sero aplicadas a diferentes formas de distribuio a seguir. Nesse caso,
para cada uma das opes de uma distribuio o eviews fornece cdigos diferentes. Por
exemplo, para uma funo de distribuio cumulativa, tambm denominada de CDF,
usa-se o comando @c. Para uma funo de probabilidade (densidade), usa-se @d e, por
fim, para uma funo inversa, @q. Tambm possvel criar funes de distribuio
aleatrias a partir do comando @r, que gera nmeros aleatrios.
2
H diversas outras distribuies contnuas em estatstica como a Beta, de Cauchy, Exponencial, Gamma,
Gumbel, Logstica, Uniforme e de Weibull. Dentre as distribuies contnuas, destaque para a Binomial,
Geomtrica, Hipergeomtrica, Multinomial e de Poisson.
A CURVA NORMAL
Essa uma das mais importantes e tambm mais usadas funes de distribuio
de probabilidade, tambm denominada de curva de Gauss. Suponha uma varivel
aleatria X com n dados. Se estamos assumindo que essa varivel tem uma distribuio
normal, podemos determinar cada ponto dessa curva a partir da equao:
{ EMBED Equation.3 }
Onde a mdia da varivel aleatria X, o seu respectivo desvio-padro e x
o ponto a ser avaliado. Um caso particular da curva normal e que muito til a normal
padro. Nesse caso, a mdia zero e o desvio-padro 1. Destaca-se que mesmo que
nossa varivel X no tenha mdia igual a zero e desvio-padro 1 podemos converter os
mesmos para essas medidas, no que se denomina de padronizao.
Como forma de ilustrar o uso de funes de distribuio, abra o arquivo do
eviews de nome distribuio. Esse foi criado originalmente para receber um mximo
de 1 milho de dados que no so estruturados, ou seja, no seguem uma srie de tempo
com datas. Voc pode modificar a qualquer momento o tamanho desse banco de dados,
basta clicar duas vezes em Range e aumentar ou diminuir o intervalo.
Nesse momento, note que no h nenhuma informao, ou seja, nenhum dado
associado. Como primeiro passo, vamos simular uma varivel aleatria com 1 milho
de dados. Para tanto, precisamos definir que tipo de distribuio que iremos usar. Como
a curva normal a mais utilizada, vamos iniciar com ela.
Programao
Podemos gerar nmeros aleatrios no eviews de vrias formas. Para criar um
arquivo do eviews com dados inteiros no total de 1 milho, ou seja, uma serie com
1000000 linhas, usamos o comando abaixo no arquivo:
series z=@rnorm
80,000 .4
Histogram
Kernel
60,000
Frequency
.3
Density
40,000
.2
20,000
.1
0
-5 -4 -3 -2 -1 0 1 2 3 4 5 .0
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5
Com base em qualquer conjunto de dados, podemos gerar uma densidade a partir
do uso da funo de kernel. Para o nosso exemplo, simulamos 1 milho de dados que
seguem uma distribuio normal. Sendo assim, ao usar a funo de kernel para
encontrar a densidade que descreve esses dados, ela mostra exatamente o desenho da
curva normal. A opo densidade de kernel pode ser usada em diversos outros
conjuntos de dados, nos fornecendo uma boa viso de como a distribuio dos
mesmos.
Outra contribuio interessante para visualizar comparar nosso conjunto de
dados com uma distribuio normal terica, ou seja, uma curva normal que seja criada a
partir da funo. Com o grfico aberto clique em options, a seguir, do lado direito, em
options novamente. Depois em add e theoretical density. Vamos escolher primeiro uma
curva normal e clique em ok. Note que a mesma fica praticamente imperceptvel, uma
vez que a curva terica se mistura com a curva estimada pela densidade de kernel.
Podemos mudar os parmetros dessa densidade terica para que ela fique mais
ntida. Repita os passos a seguir e, em theoretical density especifique mdia 1 e desvio
padro 1. Note que agora a curva de cor verde se desloca para a direita.
Histogram
Kernel
.4 Normal
.3
Density
.2
.1
.0
Esse procedimento -6 pode
-5 -4ser-3repetido
-2 -1 para
0 1diferentes
2 3 4valores
5 6 de7 mdia
8 e desvio
padro e, dessa forma, podemos encontrar diferentes formatos para a curva normal. Para
exemplificar isso, com o grfico aberto clique em options. A seguir, em options
novamente e, do lado esquerdo, apague os grficos histogram e kernel. Acrescente mais
duas curvas normais tericas. No total, teremos trs curvas. Agora, deixe todas com
mdia igual a zero e faa para a primeira curva desvio padro igual a 1, depois para a
segunda um desvio padro igual a 2 e, para a terceira curva, desvio padro igual a 3.
Clique em ok e voc ir gerar um grfico como a seguir.
.5
Normal
.4 Normal
Normal
.3
Density
.2
.1
.0
-8 -6 -4 -2 0 2 4 6 8
Programao
scalar r=@dnorm(0)
Agora que j sabemos como gerar uma curva normal aleatoriamente, vamos
testar outras opes. Suponha que se queira um conjunto de dados que segue
determinados parmetros, por exemplo, mdia igual a 0 e desvio-padro igual a 1. Nesse
caso, podemos criar a srie x usando apenas o comando nrnd.
Por outro lado, se queremos especificar uma mdia diferente, como por
exemplo, 100 e varincia igual a 22 o melhor usar uma equao. Nesse caso, criamos
a srie y e o comando @sqr representa a raiz de 22, que seria o desvio-padro. A seguir,
multiplicamos esse por uma srie gerada aleatoriamente com distribuio normal.
Programao
Tambm podemos gerar uma srie de dados que segue uma distribuio normal
com mdia zero e desvio-padro igual a 1 usando o comando nrnd:
Series x=nrnd
Alternativamente, para gerar uma srie de dados que tem mdia igual a 100 e
Series y=100+@sqr(22)*nrnd
O comando que especifica uma distribuio inversa tambm pode ser utilizado
para gerar uma sequncia de nmeros aleatrios porm, partindo de probabilidades.
Vamos escolher a distribuio normal para exemplificar, criando uma srie de nome t, e
usando o comando q.
Programao
Por fim, podemos gerar dados com distribuio, como, por exemplo, uma normal,
com mdia zero e varincia igual 1 usando uma funo inversa. Para tanto, usamos o
termo q que representa que estamos construindo uma funo quantlica, ou seja, a
inversa da funo de distribuio cumulativa. O termo rnd especificado para o
parmetro de probabilidade. Esse tem que ser entre 0 e 1. Nesse caso, ao colocar rnd
construmos a curva normal a partir de diversos valores aleatrios para a probabilidade.
Series t=@qnorm(rnd)
Programao
Usando como exemplo a nossa curva normal com mdia 0 e varincia unitria,
sabemos que o valor 0 divide ao meio a funo de distribuio, colocando 50% da rea
para cada lado da distribuio. Nesse caso, isso pode ser verificado a partir de um
comando do eviews que usa o valor para encontrar a rea a partir de:
Scalar r=@cnorm(0)
Sabemos que uma curva normal padro tem muito bem definida a rea entre seus
pontos. Ou seja, entre -1 desvio-padro e 1 desvio-padro, a rea de 68,27%. J entre -
2 e 2 desvios-padro, a rea de 95,45% e, entre -3 e 3 desvios-padro, temos 99,73%.
Podemos usar os comandos da funo cumulativa para encontrar essa rea.
Programao
Para conseguir determinar a rea entre dois pontos da curva, podemos combinar
duas funes cumulativas. Primeiro determinamos a rea at o ponto maior e, depois,
retiramos a rea at o ponto menor.
Considerando uma curva normal padro, vamos avaliar a rea entre -1 e 1 desvio-
padro usando o comando a seguir:
Scalar rea=@cnorm(1)-@cnorm(-1)
Esse ir retornar o valor de 0,682, que o mesmo que dizer que 68,2% dos dados
esto entre -1 e 1 desvio-padro. Alm desse, um intervalo muito utilizado de +-2
desvios e tambm -+3. Esses podem ser encontrados apenas mudando o valor entre
parnteses do comando acima.
Programao
A seguir, podemos criar uma matriz de nmeros aleatrios que seguem uma
distribuio normal, usando os comandos mostrados abaixo. Para uma matriz de
1000000 linhas e 30 colunas, usamos:
matrix b=@mnrnd(1000000,30)
Programao
Suponha que tenhamos um conjunto de dados com mdia 35 e varincia de 3,5.
Podemos gerar esses dados utilizando:
Series n=35+@sqrt(3.5)*nrnd
series y=(x-@mean(x))/@stdev(x)
Series n1=(n-35)/@sqrt(3.5)
Exerccios:
1. Probabilidade. Considerando uma curva normal padronizada, encontre a
probabilidade de se ter um valor tal como:
{ EMBED Equation.3 } = 38,10%
{ EMBED Equation.3 }= 97,72%
{ EMBED Equation.3 }=99,96%
{ EMBED Equation.3 }=0,71%
2. Probabilidade. Supondo que a renda da populao do Brasil (r) de R$ 6.200
por ms com um desvio padro de R$ 954. Imagine que a distribuio dessa
renda seja normal. Responda aos itens a seguir. Dica: note que no temos uma
distribuio normal padro. Padronize os dados primeiro usando:
{ EMBED Equation.3 }
{ EMBED Equation.3 }=0,08%
{ EMBED Equation.3 }=0,16%
{ EMBED Equation.3 }=55,55%
3
Agradea a Karl Pearson pelo desenvolvimento da distribuio qui-quadrado.
4
Duas outras distribuies so prximas qui-quadrado, a Poisson e a Weibull.
Como pode ser visto, temos duas categorias, cara e coroa. Nesse caso, a
estatstica qui-quadrado dada pela soma da diferena das duas possibilidades em
relao ao valor esperado, ou seja, 2=1,28. O passo seguinte determinar a
probabilidade associada a esse valor. Mas, antes de fazer isso, vamos entender como a
distribuio qui-quadrado.
No eviews, essa funo de distribuio encontrada a partir de chisq. Com o
arquivo de antes aberto, vamos gerar uma distribuio aleatria com 1000000 de dados
usando o comando @qchisq(). Um ponto importante a destacar que o teste 2 s pode
ser aplicado a nmeros, no sendo aplicvel a propores, percentuais, mdias e etc.
Programao
A curva qui-quadrado tem um formato diferente. Usando o mesmo arquivo de
antes, com 1000000 de dados vamos construir uma curva qui-quadrado com 1 grau de
liberdade a partir do comando q, que fornece a inversa da curva:
series q=@qchisq(rnd,1)
Aqui, o termo rnd utilizado para gerar nmeros aleatrios entre 0 e 1 e, nesse
caso, representa diferentes valores para a probabilidade. Note que a probabilidade deve
ficar entre 0 e 1.
Curva qui-quadrado
Programao
Para encontrar a rea da curva entre o valor 0 e um ponto especificado,
podemos usar o comando @cchisq(). Para o nosso exemplo, temos o valor de 1,28
com 1 grau de liberdade. Sendo assim, usamos:
scalar qq=@cchisq(1.28,1)
Agora, vamos lanar um dado 120 vezes e anotar os resultados observados junto
com o esperado em uma tabela como mostrado abaixo.
1 30 20 5
2 12 20 3,2
3 27 20 2,45
4 18 20 0,20
5 17 20 0,45
6 16 20 0,80
Total 120 120 12,10
Note que o resultado para alguns nmeros supera em muito o valor que se
esperava. Um indcio de que o dado pode ser viciado. Para verificar isso, podemos
usar o teste qui-quadrado comparando o valor observado com o esperado a partir da
frmula:
2=(O-E)2/E
que aplicada para cada um dos resultados. Ao final, somamos todos os seis. Essa a
estatstica qui-quadrado. Para o nosso exemplo, 2=12,1.
Para testar se esse valor corresponde ou no a aceitar ou rejeitar a hiptese nula,
precisamos ter o nmero de graus de liberdade. Temos um procedimento com seis
termos que foram utilizados para calcular a estatstica, ou seja, nosso nmero de linhas.
Sabemos que o nmero de graus de liberdade desse tipo de teste dado por esse valor
menos 1 (N de linhas -1). Sendo assim, nosso experimento tem 5 graus de liberdade,
2(5) =12,1.
A seguir, devemos encontrar o p-valor. Esse pode ser dado no eviews usando o
comando scalar qq=1-@cchisq(12.1,5) e que retorna como resultado 0,0334, ou ento,
3,34%. Com esse resultado no possvel aceitar a hiptese nula, caso o nvel de
significncia seja de 5%. O que nos leva a crer que existe uma chance pequena do dado
ser honesto.
Vimos acima duas aplicaes do teste qui-quadrado para o que se conhece como
Goodness of fit. Esses testes so aplicados quando temos uma situao onde possvel
determinar um valor esperado, ou seja, a nossa hiptese baseada em uma teoria.
Outra possibilidade de aplicao desse teste para exerccios do tipo teste de
independncia, ou ento, como conhecido, via tabela de contingncia. Nesse caso
queremos ver se duas variveis so independentes e, para tanto, tambm fazemos uso do
valor esperado. Mas, nesse tipo de teste, no conhecemos o valor esperado e, para tanto,
devemos construir o mesmo utilizando os dados observados.
Como regra de formulao das hipteses a serem testadas, definimos como
hiptese nula o fato de que no h associao entre os grupos, ou distribuies, que
esto sendo testadas, ou seja, as variveis so independentes. Dessa forma, na hiptese
alternativa teremos que as variveis so dependentes, ou seja, h relao entre elas.
Vejamos um exemplo de teste de independncia usando a funo de
distribuio qui-quadrado. Considere que se tenha um experimento e que se queira
verificar se h relao de dependncia do resultado encontrado entre as diferentes
categorias.
Nesse caso, suponha que, em determinado ano, tenha-se verificado a incidncia
de trs diferentes tipos de pragas (onde praga uma varivel) em vrias fazendas
distribudas em trs estados (onde estado tambm uma varivel). Podemos afirmar que
existe uma relao entre uma determinada praga e a localizao da fazenda? Ou seja,
possvel afirmar que quando h um problema em uma regio podemos esperar que o
mesmo ir ocorrer em outra regio? Nesse caso queremos ver se existe uma relao
entre duas variveis, praga e estado.
Como primeiro passo, formulamos a hiptese nula e alternativa:
Como dito acima, a hiptese nula se refere ao caso de independncia entre as duas
variveis. A seguir, fomos literalmente a campo e pesquisamos, nas trs regies, as
fazendas que apresentaram cada uma dessas pragas. No total foram 510 fazendas que
apresentaram problemas e que foram distribudas de acordo com a tabela:
Isso nos remete que, para encontrar o valor esperado da clula i, devemos
usar:
{ EMBED Equation.3 }
Onde N dado por (a+b+c+d+e+f+g+h+i). Usando esse procedimento, podemos
produzir a matriz de valores esperados dos nossos resultados:
Valores Esperados
Estado 1 Estado 2 Estado 3
Praga 1 53,61 56,52 75,85
Praga 2 49,28 51,97 69,74
Praga 3 44,10 46,50 62,40
{ EMBED Equation.3 }
Programao
Para encontrar o p-valor de um teste qui-quadrado usamos a funo de
distribuio cumulativa, dada pelo comando @cchisq(). Para o nosso exemplo, temos
o valor de 3,418 com 1 grau de liberdade. Sendo assim, usamos:
scalar qq=1-@cchisq(3.418,1)
Vejamos outro exemplo desse tipo de teste. Muito se escuta falar que o fator
jogar em casa costuma ser determinante para uma equipe de futebol no decorrer de
um campeonato. Para comprovar esse fato, vamos testar essa hiptese para a equipe do
Grmio durante o campeonato brasileiro de 2003 a 2012. A tabela a seguir traz a diviso
dos resultados, separados entre jogos em casa e fora e resultados de vitria ou no-
vitria, que pode tanto ser derrota quanto empate.
Como temos uma tabela 2x2, para encontrar o valor do teste qui-quadrado usamos:
{ EMBED Equation.3 }
O que resulta em { EMBED Equation.3 }. Como temos uma tabela 2x2, h 1
grau de liberdade. Assim, usamos o comando scalar qq=1-@cchisq(43.13,1) para
encontrar o p-valor no eviews, que d qq=0,0000. Ou seja, o p-valor dado por 0,00%.
Nesse caso, podemos optar pela rejeio da hiptese nula se estivermos satisfeitos com
um nvel de significncia de 5% ou at um nvel de significncia menor. Sendo assim,
podemos concluir que, pelo menos para o campeonato brasileiro, entre 2003 e 2012,
para a equipe do Grmio, jogar em casa ou no foi determinante.
O ltimo ponto de discusso sobre a aplicao do teste qui-quadrado sobre
amostras e valores esperados pequenos. Em algumas situaes comum nos
depararmos com um experimento onde o nmero de resultados menor do que 40.
Nesse caso, claramente teremos um problema no teste. Alm disso, tambm podemos
ter uma situao onde o valor esperado de um evento, uma das clulas da tabela
encontrada, tem um resultado menor do que 5.
Apesar de ser um problema, mesmo assim, podemos fazer o teste, basta que se
faa uma correo que, na literatura de estatstica, denominada de Correo de Yates.
E isso simples. Quando for calcular o valor esperado de cada uma das clulas, ao invs
de utilizar a frmula:
{ EMBED Equation.3 }
Usamos a seguinte expresso:
{ EMBED Equation.3 }
Exerccios:
3. Teste de independncia. Em uma pesquisa foram entrevistados 340 alunos de
uma escola. Os entrevistados, separados por faixa de idade, deveriam apontar a
preferncia por uma cor. Sendo assim, estamos interessados em testar se existe
uma relao entre idade e preferncia por cor. Use como critrio de significncia
5%. Passos:
Escolha a hiptese nula
Encontre a estatstica qui-quadrado
Encontre o p-valor
conclua
Mulher
Solteira Viva Divorciada Total
Solteiro 818.300 5.876 50.696 874.872
Homem
CURVA F
Outra funo de distribuio muito til a F, comumente conhecida como
distribuio de Fisher, onde seu uso mais comum na anlise de varincia, tambm
conhecido como teste ANOVA. A distribuio F uma distribuio encontrada a partir
da razo da varincia de duas populaes independentes. Nesse caso, como estamos
com duas populaes, ou amostras, temos dois graus de liberdade. Por isso que a funo
F aparece sempre com F(v1,v2) onde v1 so os graus de liberdade dados pelo nmero de
amostras menos 1 e, v2, o nmero de tipos de medidas.
A funo densidade de probabilidade de uma varivel aleatria que tem
distribuio F, com n graus de liberdade no numerador e m no denominador, dada por:
{ EMBED Equation.3 }
Onde o valor de x dado no intervalo { EMBED Equation.3 }, ou seja, assume valores
positivos.
Dentre as suas principais propriedades, temos que ela assimtrica direita, ou
seja, seus valores sempre sero positivos. Dentre seus principais usos podemos destacar
o teste para identificar se duas amostras independentes foram geradas por uma
populao com distribuio normal com a mesma varincia e tambm se duas amostras
independentes possuem mesma varincia. Como hiptese principal tem o fato de que a
distribuio da populao no qual se est gerando a amostra normal e que as duas
populaes so independentes.
Vejamos como podemos gerar 1.000.000 nmeros aleatrios que descrevem uma
distribuio F. Nesse caso, usamos, no eviews, o comando @qfdist(), onde o termo q
representa a distribuio inversa, usada para gerar a curva procurada.
Programao
A curva F tambm muito til para testes em estatstica e econometria. Para
simular essa curva no eviews podemos usar os comandos a seguir:
series f=@qfdist(rnd,10,10)
Series f=@rfdist(10,10)
Note que, ao especificar valores pequenos para os graus de liberdade, temos uma
curva mais assimtrica. Na medida em que vamos aumentando os graus de liberdade, a
curva F vai tendo outro formato, at que, ao ter um nmero grande de graus de
liberdade, ir se aproximar da distribuio normal.
Da mesma forma que para as demais curvas aqui avaliadas, para se encontrar a
rea abaixo da curva F podemos usar a funo de distribuio cumulativa CDF. Por
exemplo, para uma curva F(50,10) qual seria a rea acumulada at o valor 2?
Programao
Para encontrar a rea da curva acumulada at determinado valor usamos a
funo abaixo:
scalar f4=@cfdist(x,v1,v2)
Series f4=@cfdist(2,50,10)
DISTRIBUIO DE POISSON
Se estamos diante da possibilidade de ocorrncia de um nmero muito grande de
eventos e, que a probabilidade de ocorrncia de um desses eventos seja bem pequena
ento, podemos usar a distribuio de Poisson. Seria como tentar medir a possibilidade
de ocorrncia de um evento raro, como um atropelamento em uma determinada rua de
baixo movimento, o nascimento de quadrigmeos dentre outros.
Para medir essa chance de ocorrncia de um evento, fazemos uso de trs
parmetros. O primeiro, que se refere ao espao de medida, pode tanto ser hora, minuto,
segundo, dias, espao, rea, volume, peso ou qualquer outro campo contnuo. Na
frmula da distribuio a varivel t. Esse sempre vem acompanhado do parmetro ,
que utilizado para medir a frequncia de ocorrncia do evento. O ltimo parmetro, x,
utilizado para definir a possibilidade do nmero de ocorrncias.
A frmula do teste de Poisson dada por:
{ EMBED Equation.3 }
A maneira mais fcil de entender o teste de Poisson aplicando o mesmo.
Imagine que se queira medir a probabilidade de que uma pessoa entre no
restaurante a qualquer momento. Sabemos que o fluxo de clientes medido por hora e
que esse de 3 por hora. Sendo assim, t=1 hora e =3. Qual seria a probabilidade de no
chegar nenhum cliente em 1 hora?
{ EMBED Equation.3 }
Programao
Para aplicar o teste de Poisson no eviews podemos usar a frmula da
distribuio cumulativa. Nesse caso, necessrio especificar dois parmetros, o m e o
x. Nesse caso m=t e x tal como definido anteriormente.
scalar p=@cpoisson(x,m)
Sugesto de exerccios
1) Encontre a rea entre dois pontos de curva normal padro que preencha entre +-
2,05 desvios padro.
2) Determine o formato de diferentes curvas normais variando apenas o desvio
padro. Para uma mdia igual a zero, use os seguintes valores para os desvios
padro: curva 1: 1,3; curva 2: 2,1; curva 3: 2,9
3) Sua namorada te liga, em mdia, 2 vezes por dia, considerando 24 horas. Qual
a probabilidade de ela no te ligar em 1 dia? Qual a probabilidade dela te ligar
pelo menos 1 vez por dia?
Bibliografia
Hodrick,
Sites teis
{ HYPERLINK "http://www.portalaction.com.br/" }
{ HYPERLINK "http://www.statistics.com/" }
5
Como a proposta desse livro no aprofundar nos conceitos de estatsticas, caso o leitor tenha interesse
em ver mais detalhes sobre esses pontos sugere-se um livro de estatstica.
Histograma e Estatsticas
Selecionando a alternativa de Histogram and Stats, o eviews ir retornar um
resumo do que podemos entender como estatstica descritiva. Para o exemplo da srie x
podemos ver que os dados so bem distribudos em torno da mdia, como mostra o
grfico esquerda, que conhecido como histograma.
A seguir, do lado direito, h uma srie de estatsticas que so reportadas. As duas
primeiras so medidas de tendncia central, como a mdia que, tal como esperado,
prxima de zero. E, a seguir est a mediana, que representa o ponto onde a funo de
distribuio dividida exatamente ao meio. Para o nosso exemplo ela tambm
prxima de zero. Essa uma caracterstica de um conjunto de dados que tem uma
distribuio normal padro, onde a mdia zero.
Depois so reportados o valor mximo e o valor mnimo do nosso conjunto de
dados. Note que ambos so muito prximos. Isso ocorre pois geramos uma funo com
distribuio normal e, nesse caso, os valores extremos, tanto para a esquerda quanto
para a direita, conhecidos como caudas, devem ser prximos em mdulo. Se, por
exemplo, o valor mximo fosse bem diferente, em mdulo, do valor mnimo, teramos
uma assimetria. A seguir est o desvio-padro que, tal como especificado, esperava-se
ter um valor unitrio.
Por fim, duas outras estatsticas so importantes para avaliar os nossos dados, a
assimetria e a curtose. Ambas so estatsticas derivadas a partir da mdia e do desvio-
padro e teis para caracterizar o tipo de distribuio dos dados.
Como vimos acima, o valor mximo e mnimo dos dados so muito prximos
em mdulo, o que acaba no gerando caudas para a nossa distribuio. Sendo assim,
podemos esperar que os nossos dados tivessem uma distribuio simtrica, tal como
sinalizado, por exemplo, pela igualdade entre a mdia e a mediana. Para comprovar
isso, calculamos a assimetria. No eviews utilizada a seguinte frmula:
{ EMBED Equation.3 }
Onde N o nmero de observaes que, no nosso caso 1 milho, { EMBED
Equation.3 } cada uma das i observaes, { EMBED Equation.3 } a mdia dessas
observaes e { EMBED Equation.3 } o desvio-padro amostral. Para o nosso
exemplo, a assimetria muito prxima do valor zero, o que esperado para uma curva
com distribuio normal.
A curtose, por outro lado, uma medida relacionada concentrao dos dados,
influenciando no desenho da curva verticalmente. Para o nosso exemplo, encontramos
curtose com valor 2,991. Esse tambm apresenta um valor muito prximo ao que se
espera de uma curva normal, que 3. O clculo da curtose pode ser feito a partir de:
{ EMBED Equation.3 }
Note que, tambm para esse clculo, usamos apenas as estatsticas de mdia e
desvio-padro.
Programao
Para fazer o histograma com a estatstica dos dados podemos usar o comando
hist para a srie x a partir de:
x.hist
Scalar jb=((@obs(x))/6)*((@skew(x))^2+((@kurt(x)-3)^2)/4)
Scalar testejb=@chisq(jb,2)
O mesmo tipo de anlise pode ser feito para obter informaes conjuntas sobre
outras estatsticas, como mediana, desvio-padro e etc. Vejamos como exemplo
considerar o mesmo conjunto de dados e selecionar tanto a estatstica de mdia (Mean)
quanto a de assimetria (skewness). A tabela de resultado como segue.
Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Estatsticas por classificao: Mdia e
Assimetria
Testes de Hiptese
Essa uma importante ferramenta estatstica para testar hipteses em sries de
dados individuais ou em conjunto. Vimos que a mdia da srie de dados x -0,000430 e
que seu desvio padro 1. Vamos testar a hiptese que a mdia igual a 0,01. V em
view/descriptive statistics & tests/simple hypothesis tests e, na caixa de dilogo que
aparece especifique o valor da mdia a ser testado. No nosso exemplo 0.01. Podemos
deixar em branco a informao do desvio padro que pedida direita em mean test
assumption
Assim, na caixa que descreve mean digite o valor 0.01. E, na parte Enter s.d. if
known, que corresponde ao desvio-padro da nossa srie de dados, no especifique
nada. A seguir, clique em ok. Para esse exemplo possvel ver como resultado apenas,
com a estatstica t, que segue uma distribuio t-student. Destaca-se que esse um teste
bi-caudal, pois estamos testando:
{ EMBED Equation.3 }
O resultado mostrado para o p-valor nos leva a rejeitar a hiptese nula de igualdade
tanto a inclusive menos de 1% de significncia. Ou seja, a mdia de x estatsticamente
diferente de 0,01. Segue-se o mesmo procedimento para testar a igualdade da varincia
ou da mediana.
Agora podemos refazer o teste especificando o desvio-padro. Nesse caso so
reportados dois resultados, um para a estatstica Z, que segue uma distribuio normal, e
outro para uma estatstica t.
6
Anteriormente confirmamos isso com o teste de Jarque-Bera.
Programao
Para fazer o teste de distribuio emprica no eviews via programao podemos
usar o comando abaixo. Nesse caso, o default testar se a srie de dados em questo
possui uma distribuio normal onde os parmetros de mdia e desvio padro so
estimados.
x.edftest
q.edftest(dist=chisq)
nome para essa matriz histograma_x) e, do lado direito, vamos pedir que sejam salvos
os dados de frequncia. A seguir, clique em ok.
A matriz histograma_x que salva contm trs colunas. As duas primeiras, C1 e
C2, so os diversos intervalos do histograma. A ltima coluna, a C3, a quantidade de
dados, ou seja, a frequncia dos mesmos, que aparece naquele intervalo. Por exemplo,
entre -4 e -3,75 temos 49 dados. As outras duas opes para dados de histograma so
densidade e frequncia relativa.
Ainda na parte de Specification, possvel ver a opo Bin Width. Esse se refere
ao tamanho do intervalo que ser utilizado para gerar o histograma. Nesse caso,
podemos escolher entre um default do eviews ou diversas outras opes.
Programao
Para obter os resultados de um histograma ou de uma funo de densidade
qualquer, podemos usar alguns comandos especficos. Para fazer um histograma da
serie x e depois salvando o resultado com o nome de histograma_x, usamos:
x.distdata(dtype=hist) histograma_x
x.distdata(dtype=kernel) kernel_x
ANOVA
A anlise de varincia, conhecida como ANOVA, uma tcnica de teste de
hiptese usada para testar a igualdade de duas ou mais mdias amostrais de uma
populao, tambm denominadas de tratamento. Para tanto, a anlise feita via
varincia amostral. Com essa tcnica possvel determinar se a diferena entre duas
amostras causada por um erro aleatrio ou ento uma diferena estrutural.
Para o uso da anlise de varincia, temos que assumir trs hipteses: (i) todas as
populaes que esto sendo usadas devem seguir uma distribuio normal, o que acaba
por caracterizar o teste como sendo paramtrico7; (ii) todas as populaes devem ter a
mesma varincia; (iii) as amostras devem ser selecionadas de forma aleatria, ou seja,
devem ser independentes.
Ao fazer o teste temos que ter em mente que a hiptese nula assumida sempre
ser de que a mdia das amostras selecionadas igual. Alm disso, como estamos
trabalhando com a razo de varincia nos dados, usamos a distribuio F para o teste.
H basicamente quatro tipos de teste ANOVA. O primeiro o teste one-way
between groups. Esse o teste ANOVA mais simples, e o objetivo testar se existe
diferena entre os grupos. O segundo o one-way repeated, usado para ver, por
exemplo, diferenas em um experimento repetido ou, ento, para ver mudanas ao
longo do tempo. Os dois testes seguintes so mais complexos, o two-way between
group e two-way repeated. Nesses feita uma investigao iterativa entre os diferentes
grupos.
Vamos ver um exemplo simples para fixar o conceito, e que se encontra no
arquivo de nome distribuio na planilha ANOVA. Suponha que uma empresa aplicou
trs diferentes mtodos para a produo de um produto e, para cada um desses mtodos,
coletou os resultados encontrados de forma aleatria durante um ms. Ou seja, pro
mtodo 1, temos 10 informaes de produtividade, para o mtodo 2 e 3 de forma
similar. Ou seja, temos um universo de 30 resultados. Esses mtodos so descritos como
c1, c2 e c3.
7
Isso no quer dizer que no possa ser feito uma anlise de varincia de forma no-paramtrica.
Para tanto, iremos fazer uso de trs estatsticas que representam a variabilidade
dos dados, seja dentro do grupo ou entre grupos: (i) SQT Soma ao quadrado total; (ii)
SQE Soma ao quadrado do erro; (iii) SQG Soma ao quadrado dos grupos.
De uma forma geral, uma tabela de teste ANOVA apresentada da seguinte
forma, onde n representa o nmero total de dados, m o nmero de grupos.
SQT=25,62+10,82=36,44
Note que a variabilidade total pode ser dividida em duas partes, uma (SQE) que
representa as caractersticas de cada grupo, ou seja, representa a diferena dos grupos,
cada qual com seu tratamento e, a segunda (SQG), as diferenas entre os grupos, a
partir de um tratamento comum, que seria considerando a mdia global. Portanto, a
origem da variabilidade total pode estar ligada a cada uma dessas duas causas.
No nosso exemplo, cada grupo tem 10 dados. Dessa forma, no h problema em
usar a medida de variabilidade. Porm, pode ocorrer de compararmos grupos que
possuem uma quantidade diferente de dados. Nesse caso, o grupo com maior nmero de
dados ir ter, naturalmente, um maior valor para a variabilidade. Aqui que entra um
ponto importante no uso da ANOVA, devemos computar os graus de liberdade.
Para o conjunto total de dados, usamos n-1, onde n o nmero de dados. Sendo
assim, com 30 dados, os graus de liberdade de SQT 29. No caso do SQE usamos n-m,
onde n o nmero de dados e m o nmero de grupos. No nosso exemplo, n-3=30-3=27.
Sendo assim, SQE (within group) tem 27 graus de liberdade. Por fim, para SQG temos a
diferena entre os graus de liberdade de SQT e SQE, ou seja, SQG tem 2 graus de
liberdade.
De posse dos valores referentes aos graus de liberdade, podemos agora fazer a
respectiva ponderao nas variabilidades, chegando a uma medida mais prxima da
varincia. Isso feito simplesmente dividindo os valores pelos seus graus de liberdade.
Em livros de estatstica essa medida denominada de MS Mean Square. Assim, temos
MST, para representar a estatstica SQT ponderada pelos graus de liberdade,
MSE=0,949 relativa a SQE e MSG=5,411 que se relaciona com SQG.
Por fim, encontramos a estatstica F, que dada por:
{ EMBED Equation.3 }
Claro, se essa razo for igual a 1, ento, a parcela de variao explicada entre os
grupos e a explicada pelo respectivo grupo igual, ou seja, as mdias so iguais. Porm,
podemos chegar a essa mesma concluso para valores diferentes de 1. Lembre-se, isso
estatstica e, nesse caso, podemos ter um resultado que seja estatsticamente
significante.
Porque estamos usando a estatstica F para esse teste? Na discusso sobre
funes de distribuies, ilustramos que a distribuio F dada a partir da razo de
varincias sob a hiptese nula. Portanto, a curva F ir ter todos os resultados possveis
para as razes de varincia. A seguir, calculamos o Fratio e identificamos se seu valor
pode ser considerado estatisticamente significante comparando o mesmo com a
distribuio F.
No nosso exemplo, temos uma distribuio F(2,27), ou seja, com 2 graus de
liberdade no numerador e 27 no denominador. Podemos encontrar seu desenho a partir
de um conjunto de 1000000 de dados aleatrios para ver como seria essa distribuio.
Programao
Para encontrar a forma como os dados de uma distribuio F se comportam,
com 1000000 de dados aleatrios, 2 graus de liberdade no numerador e 27 no
denominador, podemos usar:
Para fazer essa estimativa no se esquea de usar uma planilha que tenha uma
dimenso de 1000000 de dados, como a usada no exemplo distribuio.
Note que, como temos 27 graus de liberdade no denominador, a curva tem sua
rea um pouco menos concentrada perto do valor zero. O prximo passo seria
determinar qual o p-valor associado a estatstica Fratio=5,7 que foi encontrada no nosso
teste. Para tanto, podemos fazer uso da funo cumulativa @cfdist().
Programao
Para encontrar o p-valor associado ao valor do teste F, devemos ter em mente
que a funo cumulativa fornece a rea at determinado valor. Sendo assim, devemos
subtrair de 1, a partir de:
N Mdia Varincia
Estagirio 23 29,1 18,3
Graduado 21 28,1 16,9
Ps-graduado 16 21,3 15,2
Programao
Diante de dados como o apontado no exemplo da qualificao, podemos usar de
programao para produzir os resultados do teste ANOVA de maneira direta.
Exerccios:
1. Teste ANOVA.
Bibliografia