cAP 1

ECONOMETRIA
Aplicada ao Eviews com exemplos e

exerccios
Igor Alexandre Clemente de Morais
Verso agosto de 2014
{PAGE \* MERGEFORMAT}
Econometria Aplicada no Eviews
Sumrio
1 Como abrir dados no Eviews
2 Grficos
3 Funes de distribuio
A Curva Normal
A curva Qui-quadrado e testes
Curva F
Distribuio de Poisson
4 Estatsticas descritivas, testes de hiptese e ANOVA
Histograma e Estatsticas
Teste de hiptese
Estatstica por Classificao
Teste da Distribuio Emprica
ANOVA
5 Caractersticas dos dados de sries de tempo
Ajustamento Sazonal
Alisamento Exponencial
Ciclos
Filtro HP
Filtros de frequncia
Autocorrelao (Correlograma)
Varincia de Longo Prazo
Teste de Razo de Varincia
Teste de Independncia BDS
6 Regresso Simples
Diagnstico dos coeficientes
Scaled Coefficients
Intervalo de Confiana
Variveis Omitidas
Diagnstico dos resduos
Teste de Normalidade
Teste de Independncia (BDS)
Correlograma Q-stat
Correlograma dos Resduos ao Quadrado
Teste de Autocorrelao LM
Testes de Heteroscedasticidade
Breusch-Pagan-Godfrey
Harvey
Glejser
ARCH
Diagnstico de estabilidade
Teste de Chow
Teste de Quandt-Andrews
Teste de Previso de Chow
Teste de Ramsey
Igor Morais igoracmorais@gmail.com igoracmorais.blogspot.com.br

Estimativas Recursivas
Recursive Residual
Teste CUSUM
Teste CUSUM ao Quadrado
Teste de Previso one-step
Teste de Previso N-step
Coeficientes Recursivos
Leverage Plots
Estatsticas de Influncia
Previso - Forecast
Anexo estatstico
7 Regresso Mltipla
Diagnstico de estabilidade
Previso
Stepwise
8 Raiz Unitria
Teste de Dickey-Fuller
Dickey-Fuller Aumentado
Teste ERS
Phillips-Perron
O teste KPSS
Teste NgPerron
Raiz Unitria Sazonal
9 Modelos ARIMA
Modelo AR
Modelo MA
ARMA
10 Modelos univariados da famlia ARCH
ARCH
GARCH
EGARCH
11 Modelos de Fator

1. Como abrir dados no Eviews

H vrias formas de abrir dados no eviews e cada uma delas ir depender do tipo
de informao que ser utilizado e dos objetivos de pesquisa. As opes para criar um
banco de dados so muitas, mas, para os propsitos desse livro, precisaremos apenas
aprender como abrir ou criar os chamados workfiles.
Para tanto, iremos dividir essa anlise em duas partes. Primeiro abordando sobre
a criao de um conjunto de dados no Excel que, posteriormente, so lidos no eviews. A
seguir, criando um workfile e copiando e colando dados. Qual das duas alternativas
escolher fica a seu critrio.
1. Do Excel para o Eviews

Vamos supor que se tenha um conjunto de sries de tempo de periodicidade
trimestral, com incio em 1992Q1 e trmino em 2006Q4. Essas podem ser vistas no
arquivo em Excel de nome dados_parte1.
Como primeiro passo, abra o eviews. Note que, por hora, no h nada
disponvel, nem dados, informao sobre a periodicidade e etc. A seguir, v em
file/open/foreign data as workfile. E selecione o arquivo em Excel (v at a pasta onde o
mesmo foi salvo). Depois clique em ok.
Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Abrindo dados do excel
A janela de opes que se abre a seguir consiste de trs passos. muito comum
que no se mudem as informaes no primeiro e no segundo passos. Nesse caso,
podemos clicar em avanar nesses dois primeiros passos. Porm, no terceiro passo,
caso no se modifique algumas opes, pode ser que o arquivo final no fique tal como
desejado. Em especial se no especificarmos a periodicidade e as datas.
Sendo assim, no passo trs, selecione dated regular frequency, que sempre
ser utilizado quando tivermos uma srie de tempo e, depois, a periodicidade trimestral
quarterly. Por fim, digite a data inicial como 1992Q1 e clique em finish.
Pronto, agora temos um workfile de 60 trimestres contendo cinco sries de
tempo com os respectivos nomes que estavam no Excel: pr, pw, px, qx, y.

Um ltimo ponto importante para salientar nesse ponto sobre a forma que as
datas so inseridas no eviews. Como pode ser visto no exemplo acima, especificamos
primeiro o ano, seguido da letra que compem a periodicidade, no caso de trimestre Q
e, no caso de meses m para ento, colocar o perodo. Como os dados comeam no
primeiro trimestre, colocamos 1. Se os dados tivessem como incio maro de 1996,
especificaramos 1996m1.
2. Criando um workfile
Tambm podemos copiar os dados que esto no Excel e colar os mesmos no

eviews. Nesse caso precisamos criar, como primeiro passo, um workfile. Assim, abra
um novo arquivo do eviews que no contenha informaes. A seguir, v em
file/new/workfile. Dentre as diversas opes disponveis, selecione dated regular
frequency, a seguir quarterly e especifique o intervalo dos dados, escrevendo a data
inicial e final.
Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Criando um workfile
O arquivo que est sendo criado ainda no possui os dados. O que fizemos foi
apenas criar o chamado workfile. Para inserir os dados temos que, primeiro, criar um
objeto. V em Object/new object e selecione group. Do lado direito escolha um
nome para o grupo (evite acentos, espaos e etc, seja bem simples nessas escolhas). A
seguir, depois de clicar em ok, o eviews ir abrir uma janela que bem semelhante com
planilhas do Excel. V no Excel, selecione apenas os dados, no pegando as datas nem
os nomes das sries, copie e cole no eviews. A seguir feche o mesmo.

Note que agora temos um workfile e os dados, mas, as sries ficaram com nomes
diferentes. Isso pode ser resolvido clicando com o boto direito na srie e renomeando a
mesma.
Aps ter os dados no eviews, h diversas outras formas de trabalhar com eles de
forma a tornar a pesquisa mais fcil, em especial quando se trabalha com uma grande
quantidade de informao e diversos testes e estimativas.
Uma opo interessante do eviews o uso de diversas planilhas ao mesmo
tempo, sendo possvel preservar o vnculo entre as variveis. Tal recurso permite
trabalhar com diversos modelos, separados por planilhas, sem poluir o workfile
principal. Selecione as variveis { EMBED Equation.3 }, { EMBED Equation.3 }, {
EMBED Equation.3 }, { EMBED Equation.3 } e { EMBED Equation.3 }. A seguir,
clique com o boto direito do mouse na planilha de nome New Page, selecione
Copy/Extract from Current Page e depois By Link to New Page.
Na janela que ser aberta, ao escrever @all, o eviews ir copiar todo o perodo
amostral. Em objects to copy, selecione Listed Series, como mostrado na figura xx, e
deixe a opo include links selecionada. Caso queira dar um nome para a nova planilha,
clique em Page Destination e, em Page: escreva o nome que quiser.
Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Criando planilhas com vnculo
Note que ser criada uma nova planilha com os dados selecionados com cores
diferentes. Agora, sempre que os dados nas sries da planilha original forem
modificados, o mesmo ir ocorrer com essas sries na nova planilha.
Abrindo os dados do FRED

Uma das funcionalidades interessantes do eviews poder abrir diversos
formatos de dados, em especial o FRED que uma base de dados disponibilizada pelo

Federal Reserve of Saint Louis1. Como esse um banco de dados disponibilizado na

internet, sua leitura s possvel se houver conexo.
O primeiro passo descobrir o nome da srie que se quer abrir. Nesse caso, v
no site do Federal Reserve Board of Saint Louis e descubra o cdigo da srie que se
busca. Como exemplo, vamos usar o PIB Real em dlares dde 2005, cujo cdigo
GDPC1.
Agora, abra um arquivo do eviews, v em file/open/database e selecione FRED
database e clique e ok. A janela que ir ser aberta a que permite fazer a conexo com o
banco de dados. A seguir, v em EasyQuery e, na caixa de dilogo name MATCHES,
escreva o nome da srie. No nosso caso, GDPC1 e clique em ok. A seguir, d dois
cliques na srie e exporte a mesma para um banco de dados.
1
Se voc ainda no conhece esse recurso, vale a pena ver em: { HYPERLINK
"http://research.stlouisfed.org/fred2/" }.

2. Grficos
O recurso de grficos em econometria muito til para uma deteco prvia das
caractersticas de um conjunto de dados como, por exemplo, sua distribuio, a
existncia de tendncia, movimentos cclicos, sazonalidade, outliers, quebra estrutural,
clusters dentre outras. No eviews possvel personalizar a construo de grficos,
escolhendo cores, tamanho e estilo de letra, linhas de tendncia, combinar diferentes
tipos de grficos, vincular os mesmos aos dados e demais aspectos. H outras opes
que ficam disponveis em options/graphics default. Deixamos para o leitor explorar
esse ponto consultando o manual que acompanha o software.
Nesse captulo iremos utilizar o arquivo do eviews de nome borracha.wk1. Abra
o mesmo. Ali ir ver cinco sries de dados qx, y, px, pr, pw, mais frente discutimos
a origem dessas. Inicialmente, d dois cliques na srie de nome qx. O eviews ir abrir
uma janela que se parece com as planilhas do Excel. A sequncia de dados que vemos
denominada de srie de tempo. Note que, na primeira coluna, temos as respectivas datas
que, para esse exemplo, trimestral, com incio no primeiro trimestre de 1992 e
terminando no ltimo trimestre de 2006. Porm, note que h uma sequencia de clulas
que esto vazias, com o termo NA. Isso ir facilitar quando quisermos prever o
comportamento dos dados no futuro. Veremos isso no captulo de regresso simples.
A seguir, a partir do menu view/graph. Note que h vrias opes de grficos. O
mais comum, e que ser mais explorado aqui, fazer um grfico de linha. Selecione
esse e o resultado como aparece na figura xx. Alternativamente, podemos fazer um
grfico de barras para esse conjunto de dados. Clique com o boto direito do mouse
sobre o grfico e depois options e selecione bar. O mesmo pode ser aplicado a cada
uma das outras opes. Outra alternativa usar o menu opes, localizado logo acima
do grfico.
Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Opes de grficos

5.2
5.0
QX
4.8
4.6
4.4
4.2
4.0
92 93 94 95 96 97 98 99 00 01 02 03 04 05 06
O eviews permite que se escolha entre diferentes maneiras de apresentar os

grficos, mudando o fundo para cor branca, tornando as linhas mais ntidas, mudando a
cor das linhas e etc. Para verificar todas essas opes, com o grfico aberto clique com o
boto direito do mouse e selecione templates. A seguir, escolha cada um dos modelos e,
antes de clicar em ok, clique em apply para ver se te agrada.
Programao
Para fazer um grfico, usamos o objeto graph. Para o exemplo de um grfico
de linha, aplicado srie qx colocamos o termo abaixo criando um grfico de nome

gqx. A seguir, especificamos que a linha tem cor vermelha, dado pelo RGB(255,0,0).
graph gqx.line qx
gqx.setelem linecolor(255,0,0)
Dentre as vrias opes a serem utilizadas em um grfico de linha, uma das mais
teis para a econometria a normalizao dos dados. Nesse caso, o que fazemos criar
um grfico onde cada informao subtrada da mdia e depois dividida pelo desvio-
padro. Assim, o resultado final uma nova sequencia de dados onde a mdia zero e
o desvio-padro 1. Para essa opo use :
graph gqx.line(n) qx
Aps criar o grfico de linha com uma opo do tipo (n), como mostrado no box
de programao, o produto final um grfico no estilo freeze. Esse uma espcie de
grfico desvinculado dos dados. O inconveniente dessa opo que toda vez que os
dados originais forem atualizados isso no ser feito no nosso grfico.
Para contornar esse problema devemos voltar a vincular os dados ao grfico. D
dois cliques no grfico gqx. A seguir selecione Graph Updating e, do lado direito as
opes automatic e, mais abaixo, update when data or the workfile sample changes.
Programao
Podemos montar um programa que faa automaticamente a atualizao dos
nossos grficos. Primeiro criamos um grfico de nome gqx e depois especificamos,
pelo comando setupdate e, entre parnteses a, que o mesmo seja atualizado sempre
que o conjunto de dados mudar. Ao fazer isso note que a cor da caixa que especifica o
grfico no workfile muda da cor verde para alaranjado.
graph gqx.line(n) qx
gqx.setupdate(a)
Vimos anteriormente que tambm temos a opo de criar um grfico de barra.

Porm, essa no muito interessante quando h uma srie de dados com muitas
informaes, isso porque as barras acabam ficando muito finas, fazendo com que o
grfico de barras se aproxime de um grfico de rea. Para o exemplo da srie qx,
selecione a opo de grfico de barra e veja como fica. Caso a sua escolha seja para um
grfico de barra h vrias opes interessantes. Clique duas vezes no grfico e selecione
Graph Elements/Bar-Area-Pie. Ali ser possvel escolher entre grficos com efeito de
cores, 3D, colocar os respectivos valores em cada barra e diversas outras opes.
Outra possibilidade de uso dos grficos no eviews combinar diferentes
informaes. Por exemplo, vamos ver como fazer um grfico que mostre
simultaneamente a evoluo dos dados no tempo e a distribuio dos mesmos.
Com a srie qx aberta, v em view/graph, selecione line&symbol e depois, na
opo axis borders, escolha histogram. Tambm h a opo de usar a densidade de
kernel. Note que a srie mostrada considerando as datas no eixo horizontal e as escalas
no vertical. A distribuio de frequncia dos dados colocada nesse eixo.

Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Grfico de qx com a distribuio de

frequncia
5.2
5.0
4.8
4.6
4.4
4.2
4.0
92 93 94 95 96 97 98 99 00 01 02 03 04 05 06
Programao
Esse grfico tambm pode ser feito a partir da opo ab=hist no comando line,
como mostrado a seguir:
graph gqx.line(ab=hist) qx
Alternativamente, se quisermos especificar ma distribuio de kernel ao invs da

distribuio de frequncia, podemos usar o comando:
graph gqx.line(ab=k) qx
Alm disso, podemos adicionar um texto para identificar nosso grfico. No

exemplo abaixo colocamos um ttulo srie de dados qx, entre aspas, com uma fonte de
tamanho 12, do tipo ubuntu light. Por fim, o comando t especifica que o texto
centralizado.
gqx.addtext(pt=12, face= "ubuntu light ", t) "Serie de dados qx"
Algumas opes para grficos no eviews somente se tornam disponveis depois

de usar a funo Freeze. Faa um grfico da srie qx e, no menu superior, poder ver
essa funo. Uma das funes interessantes do eviews marcar perodos especficos de
dados com uma rea escura, muito til quando estamos avaliando ciclo dos negcios e
gostaramos de sinalizar os perodos em que uma economia estava em recesso.
Para usar essa funo, clique com o boto direito do mouse no grfico e, a
seguir, selecione Add lines & Shading. Note que esse recurso no est disponvel para
grficos comuns. Como dito anteriormente, para habilitar essa funo devemos
selecionar antes o Freeze. A seguir, clique com o boto direito do mouse, selecione Add
lines & Shading, marque Shaded Area, deixe em Vertical bottom axis e mude o
perodo para 1999Q1 at 1999Q4. Caso no esteja satisfeito com esse intervalo, clique
duas vezes sobre a rea cinza e modifique o intervalo.
Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Grfico de qx com area

5.2
5.0
4.8
4.6
4.4
4.2
4.0
92 93 94 95 96 97 98 99 00 01 02 03 04 05 06
Lembre que a opo Freeze tem a desvantagem de no ser atualizada sempre que
os dados forem atualizados. Podemos contornar isso. Com o grfico aberto d dois
cliques e depois selecione Graph Updating. A seguir, selecione a opo Automatic e
Update when data or the workfile sample changes. Isso ir permitir que o grfico seja
atualizado sempre que os dados forem modificados no workfile.
Programao
Uma opo interessante a ser utilizada em grficos especificar uma rea em um
determinado perodo. Isso pode ser feito a partir do comando draw. Dentre as opes,
escolhemos que a rea segue as datas na parte horizontal (bottom), a cor cinza (gray) e
o perodo compreendido.
gqx.draw(shade, bottom, color(gray)) 1999Q1 1999Q4
Outra opo que pode ser utilizada quando se tem mais de uma srie de dados,
em especial quando as mesmas possuem escalas diferentes. Nesse caso, se fizermos esse
grfico com apenas um eixo vertical, visualmente podemos ter uma informao de baixa
qualidade. O eviews permite que se faa um grfico com dois eixos.
Isso pode ser feito depois de se criar um grupo com as sries que se quer ilustrar.
Selecione primeiro a srie qx. Com o boto Ctrl do teclado pressionado, selecione a
srie px. A seguir, clique com o boto direito do mouse e open as Group. O eviews ir
abrir as duas sries em conjunto, uma em cada coluna. A seguir, clique em view/graph e
depois em ok.
Note que temos uma nica escala do lado esquerdo do grfico. Agora, clique
com o boto direito do mouse, v em Axes & Scaling e, depois Data scaling. A seguir,
do lado direito da tela, para cada srie selecionada, escolha a escala que quer coloc-la,
se esquerda ou direita. Nesse exemplo, escolhemos deixar a srie qx no eixo esquerdo e
a px no direito. Como exerccio, veja se consegue tambm inserir a informao da
distribuio de freqncia para cada conjunto de dados como mostrado na figura xx.
Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Grfico de qx e px

5.0
4.9
4.8
5.2 4.7
5.0 QX
4.6
PX
4.8
4.5
4.6
4.4
4.2
4.0
92 93 94 95 96 97 98 99 00 01 02 03 04 05 06
Programao
Um grfico com duas linhas em duas colunas com escalas diferentes pode ser
obtido a partir de uma das opes do comando line. Nesse caso, usamos d, que
permite criar um grfico com duas colunas. No se esquea de especificar qual a
segunda srie de dados que se quer colocar junto. No exemplo abaixo usamos a srie
px. Note que tambm especificamos a opo de histograma.
graph gqx.line(ab=hist, d) qx px
Outra forma de usar os recursos grficos para identificar caractersticas

estatsticas dos dados, uma possvel relao entre diferentes variveis dentre outras
opes. Vamos iniciar essa discusso mostrando como so as funes de distribuio.
Selecione a srie qx. A seguir, v em view/graph e, em graph type, selecione
distribution. Do lado direito, em details, poder ver que h diversas opes de grfico.
Selecionando histogram, o eviews ir retornar a distribuio dos dados de acordo com
intervalos pr determinados.
Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } -Grfico de Distribuio de Freqncia

9
8 QX
6
Frequency
0
4.0 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 5.0 5.1 5.2
Essa anlise pode ser complementada com um grfico que tem o mesmo
formato, mas que, ao invs de ser uma distribuio de frequncia, seja uma funo de
densidade ou ento uma funo de frequncia relativa. Essas trs opes podem ser
selecionadas ao lado da opo histograma na caixa de opes. V em scaling e
selecione density. O desenho no ir mudar, mas, note que a escala vertical sim. Isso
porque, no caso da frequncia temos, no eixo vertical, a informao do nmero de dados
encontrados para cada intervalo. No caso da densidade estamos falando da rea, o que
tambm ser diferente para o caso de se selecionar relative frequency.
Vamos agora adicionar uma estimativa da funo de distribuio utilizando uma
funo de Kernel. Com o grfico aberto, clique em options. A seguir, na caixa details,

selecione options e depois em Add. Escolha kernel Density e clique em ok. A figura xx
mostra o resultado.
Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Adicionando uma densidade de

Kernel
2.8
2.4
Histogram
2.0 Kernel
1.6
Density
1.2
0.8
0.4
0.0
3.6 3.8 4.0 4.2 4.4 4.6 4.8 5.0 5.2 5.4
Programao
Para fazer um grfico de distribuio conjugado com uma estimativa via
densidade de Kernel, podemos usar o seguinte comando.
qx.distplot hist kernel
Alternativamente, com o grfico aberto, clique em proc/Make Distribution plot

Data. Como pode ser visto, h vrias opes de distribuio que podemos investigar.
Uma interessante, e que o leitor deve estar familiarizado, com a Theorical
distribution, que ir reportar a distribuio normal.
Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } - Grfico de Distribuio de Freqncia

INV 07/08
.5
.4
.3
Density
.2
.1
.0
-12 -10 -8 -6 -4 -2 0 2 4 6 8 10 12
Podemos investigar se os nossos dados possuem uma distribuio que parecida

com a normal. Como se sabe, a funo de distribuio cumulativa de dados que
possuem uma distribuio normal, tem o formato de um S. Para investigar se os
nossos dados possuem essa caracterstica, com o grfico aberto, clique com o boto
direito do mouse e selecione options. A seguir, do lado direito da tela, em
distribution:, selecione a opo Empirical CDF. Alm disso, dados que possuem uma
distribuio normal so simtricos em relao a uma reta de 45.
Para verificar isso, na tela graph options, em specific, clique em quantile-
quantile e depois, em Q-Q graph, e selecione theorical. A figura xx mostra esses dois
resultados para os dados. Note que, em ambos, no h evidncias de uma distribuio

normal. Porm, para confirmar tal resultado necessrio que se faa um teste especfico
que ser explicado no prximo captulo.
Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Grfico de teste de normalidade

INV 07/08 3
1.0
2
0.8
Quantiles of Normal
0.6
Probability
0.4
0
0.2
0.0 -1
-1 0 1 2 3 4 5 6 7 8 9 10
-2
-2 0 2 4 6 8 10
Quantiles of INV_07_08
Fazer a terica com os dados da
distribuio de frequncia
Ver como possvel adicionar uma linha de tendncia
Nesse caso, selecione a varivel y e depois qx e clique com o boto direito do

mouse abrindo como grupo. A seguir, em view/graph selecione o grfico tipo scatter e
em detalhes, escolha Regression line e em Axis borders selecione Kernel Density. O
grfico resultante ir indicar a relao positiva entre os dois conjuntos de dados e, em
cada eixo, a estimativa da distribuio de kernel para cada um desses conjuntos.
Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Scatter e linha de regresso entre qx e
y

5.2
5.0
4.8
QX
4.6
4.4
4.2
4.0
7.0 7.2 7.4 7.6 7.8 8.0 8.2

Y
Alternativamente, pode-se estar interessado em ver a relao de todas as

variveis em pares. Nesse caso, selecione todas as sries { EMBED Equation.3 } e abra
como grupo. A seguir, em view/graph escolha scatter, em fit lines selecione regression
line, e em multiple series selecione lower triangular matrix ( uma matriz simtrica). O
eviews ir retornar a relao em par de todas as variveis.
Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Scatter e linha de regresso entre
todas as variveis
4.9
4.8
PW
4.7
4.6
4.5
5.0
4.9
4.8
PX
4.7
4.6
4.5
5.2
4.8
QX
4.4
4.0
8.2
8.0
7.8
7.6
Y
7.4
7.2
7.0
4.0 4.2 4.4 4.6 4.8 4.5 4.6 4.7 4.8 4.9 4.5 4.6 4.7 4.8 4.9 5.0 4.0 4.4 4.8 5.2
PR PW PX QX

3. Funes de Distribuio
O eviews permite a construo de diversas curvas de distribuio, que podem
tanto serem discretas quanto contnuas. As mais utilizadas em testes de econometria2
so as funes normal, t-student, log-normal, F e qui-quadrado.
Ao trabalhar com funes de distribuio, devemos compreender dois pontos
importantes. O primeiro se a varivel em questo categrica ou numrica e, o
segundo, as diferenas que existem entre uma funo de probabilidade, ou densidade,
uma distribuio cumulativa e uma distribuio inversa, que a inversa da funo
cumulativa.
As variveis categricas so fceis de identificar. Ao aplicar um questionrio
com perguntas que contenham respostas como do tipo, sexo, nacionalidade e etc,
obtemos como resposta caractersticas e no nmeros. Essa classificao ser
importante para definir que tipo de teste ir usar para avaliar os resultados. Por exemplo,
se perguntarmos o sexo dos entrevistados, temos respostas categricas como homem ou
mulher. Por outro lado, se perguntarmos a idade teremos respostas numricas. Essas
podem tanto serem discretas, ou seja, 25 anos, 35 anos, ou contnuas, expressando a
idade inclusive em minutos, 13.140.325 minutos de vida.
A funo de densidade representa a distribuio de probabilidade de uma
varivel aleatria. como a probabilidade ir se comportar de acordo com os valores
que essa varivel aleatria ir assumir. Por exemplo, suponha uma varivel que possui
uma distribuio de probabilidade normal. Nesse caso, toda a rea abaixo da curva alm
de somar o valor 1, que a probabilidade da varivel assumir qualquer valor, ir se
comportar de acordo com a curva normal.
A distribuio cumulativa ir determinar o quanto da curva, ou de
probabilidade, existe at determinado valor que se queira avaliar. Para o exemplo de
uma curva normal, podemos encontrar qual a probabilidade de se ter um valor menor
que x. Esse dado por toda a rea abaixo da curva inferior a x. O conceito de
distribuio cumulativa muito importante para os propsitos do entendimento da
econometria e em testes de hiptese. Nesse caso, especificamos o ponto e encontramos
a rea (probabilidade) at esse ponto.
Por fim, a distribuio inversa ir representar a rea da curva que
complementar funo de distribuio cumulativa. Agora fazemos o procedimento
inverso da cumulativa, especificamos a rea desejada e, com isso, obtemos o ponto na
curva que representa essa rea.
Todas essas trs formas de avaliar uma funo de distribuio esto disponveis
no eviews e sero aplicadas a diferentes formas de distribuio a seguir. Nesse caso,
para cada uma das opes de uma distribuio o eviews fornece cdigos diferentes. Por
exemplo, para uma funo de distribuio cumulativa, tambm denominada de CDF,
usa-se o comando @c. Para uma funo de probabilidade (densidade), usa-se @d e, por
fim, para uma funo inversa, @q. Tambm possvel criar funes de distribuio
aleatrias a partir do comando @r, que gera nmeros aleatrios.
2
H diversas outras distribuies contnuas em estatstica como a Beta, de Cauchy, Exponencial, Gamma,
Gumbel, Logstica, Uniforme e de Weibull. Dentre as distribuies contnuas, destaque para a Binomial,
Geomtrica, Hipergeomtrica, Multinomial e de Poisson.

A CURVA NORMAL
Essa uma das mais importantes e tambm mais usadas funes de distribuio
de probabilidade, tambm denominada de curva de Gauss. Suponha uma varivel
aleatria X com n dados. Se estamos assumindo que essa varivel tem uma distribuio
normal, podemos determinar cada ponto dessa curva a partir da equao:
{ EMBED Equation.3 }
Onde a mdia da varivel aleatria X, o seu respectivo desvio-padro e x
o ponto a ser avaliado. Um caso particular da curva normal e que muito til a normal
padro. Nesse caso, a mdia zero e o desvio-padro 1. Destaca-se que mesmo que
nossa varivel X no tenha mdia igual a zero e desvio-padro 1 podemos converter os
mesmos para essas medidas, no que se denomina de padronizao.
Como forma de ilustrar o uso de funes de distribuio, abra o arquivo do
eviews de nome distribuio. Esse foi criado originalmente para receber um mximo
de 1 milho de dados que no so estruturados, ou seja, no seguem uma srie de tempo
com datas. Voc pode modificar a qualquer momento o tamanho desse banco de dados,
basta clicar duas vezes em Range e aumentar ou diminuir o intervalo.
Nesse momento, note que no h nenhuma informao, ou seja, nenhum dado
associado. Como primeiro passo, vamos simular uma varivel aleatria com 1 milho
de dados. Para tanto, precisamos definir que tipo de distribuio que iremos usar. Como
a curva normal a mais utilizada, vamos iniciar com ela.
Programao
Podemos gerar nmeros aleatrios no eviews de vrias formas. Para criar um
arquivo do eviews com dados inteiros no total de 1 milho, ou seja, uma serie com
1000000 linhas, usamos o comando abaixo no arquivo:
series z=@rnorm
Dica : Muitas vezes melhor usar o conceito de series do que vector.
Ao iniciar os comandos descritos no Box programao, criamos 1 milho de

dados aleatrios. Claro, se repetir esse procedimento, a sequencia de dados ir diferir a
cada momento. Porm, como especificamos que os dados seguem uma distribuio
normal padro a partir de norm, sempre que simular um novo conjunto de
informaes, ela ter a mesma distribuio.
Para confirmar, faa um grfico de distribuio dos nossos dados. Abra a srie z,
v em view/graph, em tipo de grfico selecione distribution e depois clique em ok. A
seguir, adicione uma estimativa da curva a partir da densidade de kernel. Dica: com a
opo grfico aberta v em details e crie um grfico personalizado custom.
Uma curva normal

Distribuio Com a Densidade de Kernel

100,000 .5
80,000 .4
Histogram
Kernel
60,000
Frequency
.3
Density
40,000
.2
20,000
.1
0
-5 -4 -3 -2 -1 0 1 2 3 4 5 .0
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5
Com base em qualquer conjunto de dados, podemos gerar uma densidade a partir
do uso da funo de kernel. Para o nosso exemplo, simulamos 1 milho de dados que
seguem uma distribuio normal. Sendo assim, ao usar a funo de kernel para
encontrar a densidade que descreve esses dados, ela mostra exatamente o desenho da
curva normal. A opo densidade de kernel pode ser usada em diversos outros
conjuntos de dados, nos fornecendo uma boa viso de como a distribuio dos
mesmos.
Outra contribuio interessante para visualizar comparar nosso conjunto de
dados com uma distribuio normal terica, ou seja, uma curva normal que seja criada a
partir da funo. Com o grfico aberto clique em options, a seguir, do lado direito, em
options novamente. Depois em add e theoretical density. Vamos escolher primeiro uma
curva normal e clique em ok. Note que a mesma fica praticamente imperceptvel, uma
vez que a curva terica se mistura com a curva estimada pela densidade de kernel.
Podemos mudar os parmetros dessa densidade terica para que ela fique mais
ntida. Repita os passos a seguir e, em theoretical density especifique mdia 1 e desvio
padro 1. Note que agora a curva de cor verde se desloca para a direita.
Uma curva normal

.5
Histogram
Kernel
.4 Normal
.3
Density
.2
.1
.0
Esse procedimento -6 pode
-5 -4ser-3repetido
-2 -1 para
0 1diferentes
2 3 4valores
5 6 de7 mdia
8 e desvio
padro e, dessa forma, podemos encontrar diferentes formatos para a curva normal. Para
exemplificar isso, com o grfico aberto clique em options. A seguir, em options
novamente e, do lado esquerdo, apague os grficos histogram e kernel. Acrescente mais
duas curvas normais tericas. No total, teremos trs curvas. Agora, deixe todas com
mdia igual a zero e faa para a primeira curva desvio padro igual a 1, depois para a
segunda um desvio padro igual a 2 e, para a terceira curva, desvio padro igual a 3.
Clique em ok e voc ir gerar um grfico como a seguir.
Diversos formatos de curva normal

.5
Normal
.4 Normal
Normal
.3
Density
.2
.1
.0
-8 -6 -4 -2 0 2 4 6 8
Essa caracterstica da curva normal denominada de curtose. Note que, para a

curva azul, temos uma maior concentrao de dados em torno da mdia e, na curva
verde, mais achatada, os dados so mais espalhados. Iremos ver como obter o resultado
estatstico da curtose a partir da mdia e do desvio padro no prximo captulo. Mas, o
leitor j pode ir se familiarizando com o formato de uma distribuio de dados com
diferentes desvios em torno da mdia.
Programao
Para avaliar a funo de densidade em um ponto qualquer da nossa funo de

distribuio podemos usar o comando d antes da distribuio que est sendo
avaliada. Para o caso de uma distribuio normal, com mdia 0 e desvio-padro 1,
usamos:
scalar r=@dnorm(0)
Aqui, o comando scalar cria a caixa de nome r para receber o valor da

distribuio. A seguir, especificamos d, para determinar que queremos a funo de
densidade, seguido de norm, que a curva normal com mdia 0 e desvio-padro 1 e,
por fim, o valor 0 entre parnteses especifica que estamos avaliando a densidade
naquele valor.
Agora que j sabemos como gerar uma curva normal aleatoriamente, vamos
testar outras opes. Suponha que se queira um conjunto de dados que segue
determinados parmetros, por exemplo, mdia igual a 0 e desvio-padro igual a 1. Nesse
caso, podemos criar a srie x usando apenas o comando nrnd.
Por outro lado, se queremos especificar uma mdia diferente, como por
exemplo, 100 e varincia igual a 22 o melhor usar uma equao. Nesse caso, criamos
a srie y e o comando @sqr representa a raiz de 22, que seria o desvio-padro. A seguir,
multiplicamos esse por uma srie gerada aleatoriamente com distribuio normal.
Programao
Tambm podemos gerar uma srie de dados que segue uma distribuio normal
com mdia zero e desvio-padro igual a 1 usando o comando nrnd:
Series x=nrnd
Alternativamente, para gerar uma srie de dados que tem mdia igual a 100 e

varincia igual a 22, usa-se:
Series y=100+@sqr(22)*nrnd
O comando que especifica uma distribuio inversa tambm pode ser utilizado
para gerar uma sequncia de nmeros aleatrios porm, partindo de probabilidades.
Vamos escolher a distribuio normal para exemplificar, criando uma srie de nome t, e
usando o comando q.
Programao
Por fim, podemos gerar dados com distribuio, como, por exemplo, uma normal,
com mdia zero e varincia igual 1 usando uma funo inversa. Para tanto, usamos o
termo q que representa que estamos construindo uma funo quantlica, ou seja, a
inversa da funo de distribuio cumulativa. O termo rnd especificado para o
parmetro de probabilidade. Esse tem que ser entre 0 e 1. Nesse caso, ao colocar rnd
construmos a curva normal a partir de diversos valores aleatrios para a probabilidade.
Series t=@qnorm(rnd)
O comando q antes da especificao da curva tambm til para determinar o

ponto da curva que associado a uma determinada rea. Para o exemplo de uma curva
normal padro sabemos que o ponto 0, que representa a mdia dos dados, divide a rea
em duas partes iguais, 50% antes e 50% depois. Se usarmos scalar a=@qnorm(0.5)
encontraremos o valor 0.
O que est dizendo esse comando? Primeiro que a funo utilizada qnorm(.)
ir retornar um valor. Sendo assim, especificamos a como um escalar, exatamente
porque ir receber um nmero. Em segundo lugar, o valor 0.5 representa uma
probabilidade de 50% que ser aplicada funo normal. Nesse caso, queremos saber
qual o valor na curva normal que ir resultar em uma rea de 50%. Essa rea
especificada como toda a rea esquerda do valor.
Agora, se estamos interessados em saber qual o valor associado a uma curva
normal padro que ir determinar 95% da rea, como podemos proceder? Usamos
scalar a=@qnorm(0.95) o que ir retornar o valor 1,644854.
A informao sobre a funo inversa similar ao que obtemos ao usar a funo
cumulativa. Porm, enquanto que na funo inversa usando o comando @q
especificamos a rea e obtemos o ponto, com a funo cumulativa a partir de @c
especificamos o ponto e obtemos a rea.
Continuando com o nosso exemplo da distribuio normal, podemos especificar
um grfico que ir representar essa distribuio. Para tanto, abra a srie z, a seguir em
view/graph selecione distribution e depois empirical CDF.
Distribuio Cumulativa com dados normais (CDF)

Em estatstica, a distribuio cumulativa representa a probabilidade de se

observar um valor de uma srie de dados que no excede determinado valor especfico.
Esse clculo pode ser representado a partir de:
Onde { EMBED Equation.3 } a rea da curva acumulada at o ponto r, ou
sejas, para a estatstica { EMBED Equation.3 } representa a funo cumulativa. No
exemplo da curva normal, temos que 50% dos dados se encontram abaixo da mdia e
50% acima. Como a mdia zero ento, a probabilidade acumulada at o valor 0
50% ou ento, expresso de outra forma:
Programao
Usando como exemplo a nossa curva normal com mdia 0 e varincia unitria,
sabemos que o valor 0 divide ao meio a funo de distribuio, colocando 50% da rea
para cada lado da distribuio. Nesse caso, isso pode ser verificado a partir de um
comando do eviews que usa o valor para encontrar a rea a partir de:
Scalar r=@cnorm(0)
Aqui primeiro criamos um scalar de nome r e que ir receber o valor da funo.

A seguir, o comando c usando antes da especificao da curva normal norm serve
para determinar que estamos avaliando a funo CDF cumulativa. Por fim, o valor
0 entre parnteses significa que queremos avaliar a probabilidade de um valor no
exceder o valor 0. Isso ir retornar o valor 0,5. Ou seja, o total da distribuio
acumulada at o valor 0 de 50%.
Tambm podemos determinar a probabilidade associada a um valor mnimo

especificado. Para tanto usamos a chamada empirical survivor. Com a srie de dados
z aberta, v em view/graph e depois selecione distribution e, do lado esquerdo,
empirical survivor. Note que o grfico representa exatamente o inverso do grfico da
distribuio cumulativa. Sendo assim, a probabilidade de que um valor seja maior que -
5, por exemplo, quase de 100%. Por outro lado, a probabilidade de que um valor seja
maior que 0, que a mdia dos dados, de 50%. Expresso de outra forma, como a
rea total da curva 100% e a funo cumulativa nos fornece a rea at certo ponto,
podemos usar o comando abaixo para especificar a rea direita de um ponto:

Sabemos que uma curva normal padro tem muito bem definida a rea entre seus
pontos. Ou seja, entre -1 desvio-padro e 1 desvio-padro, a rea de 68,27%. J entre -
2 e 2 desvios-padro, a rea de 95,45% e, entre -3 e 3 desvios-padro, temos 99,73%.
Podemos usar os comandos da funo cumulativa para encontrar essa rea.
Programao
Para conseguir determinar a rea entre dois pontos da curva, podemos combinar
duas funes cumulativas. Primeiro determinamos a rea at o ponto maior e, depois,
retiramos a rea at o ponto menor.
Considerando uma curva normal padro, vamos avaliar a rea entre -1 e 1 desvio-
padro usando o comando a seguir:
Scalar rea=@cnorm(1)-@cnorm(-1)
Esse ir retornar o valor de 0,682, que o mesmo que dizer que 68,2% dos dados
esto entre -1 e 1 desvio-padro. Alm desse, um intervalo muito utilizado de +-2
desvios e tambm -+3. Esses podem ser encontrados apenas mudando o valor entre
parnteses do comando acima.
No incio desse tpico aprendemos a gerar uma srie de nmeros aleatrios

usando o comando vector e dando o nome z para esse vetor. Porm, muitas vezes
til que se tenha uma matriz de nmeros aleatrios, ou seja, diversos vetores. Isso pode
ser gerado no eviews de forma simples usando o comando m e, ao invs de criar um
scalar, especificando matrix.
Programao
A seguir, podemos criar uma matriz de nmeros aleatrios que seguem uma
distribuio normal, usando os comandos mostrados abaixo. Para uma matriz de
1000000 linhas e 30 colunas, usamos:
matrix b=@mnrnd(1000000,30)
Muitas vezes os dados que estamos trabalhando no possuem mdia 0 e desvio

padro 1. Alis, quase sempre. Mas, isso fcil de ser contornado a partir da
padronizao dos dados. Nesse caso, transformamos a distribuio de nossos dados que
podem ter qualquer mdia e desvio padro, em uma distribuio que tenha mdia 0 e
desvio padro 1. Isso feito facilmente a partir de:

Onde Z o novo valor, x o valor da srie original, { EMBED Equation.3 } a

mdia dos dados e o desvio padro dos dados. Isso pode ser feito no eviews
especificando um comando.
Programao
Suponha que tenhamos um conjunto de dados com mdia 35 e varincia de 3,5.
Podemos gerar esses dados utilizando:
Series n=35+@sqrt(3.5)*nrnd
Podemos transformar essa distribuio em mdia 0 e desvio padro 1 usando o

seguinte comando:
series y=(x-@mean(x))/@stdev(x)
Para o nosso exemplo, onde a srie n tem mdia 35 e desvio-padro de @sqrt(3.5),

fazemos:
Series n1=(n-35)/@sqrt(3.5)
Agora que aprendemos os comandos que especificam a densidade, a funo

cumulativa e a inversa de uma curva normal, podemos explorar um pouco o
comportamento de outras funes que so muito teis em econometria.
Exerccios:
1. Probabilidade. Considerando uma curva normal padronizada, encontre a
probabilidade de se ter um valor tal como:
{ EMBED Equation.3 } = 38,10%
{ EMBED Equation.3 }= 97,72%
{ EMBED Equation.3 }=99,96%
2. Probabilidade. Supondo que a renda da populao do Brasil (r) de R$ 6.200
por ms com um desvio padro de R$ 954. Imagine que a distribuio dessa
renda seja normal. Responda aos itens a seguir. Dica: note que no temos uma
distribuio normal padro. Padronize os dados primeiro usando:
A CURVA QUI-QUADRADO E TESTES

A curva qui-quadrado possui um formato diferente da normal. Enquanto aquela
tinha uma distribuio bi-caudal, essa unicaudal. Isso interessante, pois vrios testes
a serem feitos posteriormente iro considerar esse tipo de anlise3, alm de ser til na
3
Agradea a Karl Pearson pelo desenvolvimento da distribuio qui-quadrado.

construo de intervalos de confiana e diversas outras aplicaes, principalmente em

finanas4.
A sua funo densidade dada por:
Onde v so os graus de liberdade, x uma varivel aleatria no intervalo {
EMBED Equation.3 } e { EMBED Equation.3 } uma funo Gamma. Assim,
podemos construir a curva a partir da definio do valor de v e, de posse da varivel
aleatria x, encontrar seus diversos resultados.
Por exemplo, para uma funo com 2 graus de liberdade, v=2 e teremos:
Um ponto a destacar aqui que quanto maior forem os graus de liberdade da
qui-quadrado mais sua distribuio vai se aproximando da normal.
No caso do uso do teste qui-quadrado tambm h uma particularidade a
considerar. De uma forma geral esse teste utilizado para identificar a existncia ou no
de diferenas em variveis categricas, como por exemplo, religio, sexo, raa, grupos
de idade, ocorrncia de evento e etc. Seu uso pode se dar para dois tipos de situaes: (i)
para comparar se o valor observado diferente do valor esperado, ou ento, se uma
distribuio observada diferente de uma esperada, fazendo comparao de
frequncias; (ii) identificar se duas variveis aleatrias so independentes, usando
tabelas de contingncias.
Em ambas a aplicao poder ver que o teste no usar as estatsticas de mdia e
desvio padro, ou seja, um teste no paramtrico. Nesse caso, o que iremos fazer
comparar propores. Como regra, ao definir as hipteses a serem testadas seguimos
que a hiptese nula aquela onde as frequncias observadas no so diferentes das
frequncias esperadas e, por consequncia, a hiptese alternativa onde as frequncias
so diferentes.
Por exemplo, suponha que a razo de peso entre os estudantes homens e
mulheres na universidade seja de 2:1, ou seja, os homens tem o dobro do peso das
mulheres. Porm, essa relao tem sido de 1:1 em turmas de um curso especfico por
vrios semestres. Essa relao seria estatsticamente diferente da esperada? O teste qui-
quadrado til nesse caso.
Como forma de ilustrar como o teste qui-quadrado utilizado, vamos usar um
exemplo simples, que descobrir se uma moeda honesta. Esse teste tambm pode ser
chamado de teste de Goodness of fit. Nesse caso, o nosso resultado esperado que, em
50% das vezes, se tenha cara e 50% coroa. Agora vamos ao experimento lanando uma
moeda 200 vezes e anotando os resultados. Suponha que em 108 vezes se observe cara e
92 vezes coroa. Esse resultado estaria dentro do esperado?
O primeiro passo aqui determinar a hiptese nula que, para ns, ter uma
distribuio igual entre cara e coroa, ou seja, em 200 tentativas, esperamos que 100
dessas seja cara. A seguir, podemos montar a seguinte tabela pra encontrar o valor da
estatstica qui-quadrado:
Cara Coroa Total

Observado 108 92 200
Esperado 100 100 200
Diferena (O-E) 8 -8 0
(O-E)2 64 64 128
2=(O-E)2/E 0,64 0,64 1,28
4
Duas outras distribuies so prximas qui-quadrado, a Poisson e a Weibull.

Como pode ser visto, temos duas categorias, cara e coroa. Nesse caso, a
estatstica qui-quadrado dada pela soma da diferena das duas possibilidades em
relao ao valor esperado, ou seja, 2=1,28. O passo seguinte determinar a
probabilidade associada a esse valor. Mas, antes de fazer isso, vamos entender como a
distribuio qui-quadrado.
No eviews, essa funo de distribuio encontrada a partir de chisq. Com o
arquivo de antes aberto, vamos gerar uma distribuio aleatria com 1000000 de dados
usando o comando @qchisq(). Um ponto importante a destacar que o teste 2 s pode
ser aplicado a nmeros, no sendo aplicvel a propores, percentuais, mdias e etc.
Programao
A curva qui-quadrado tem um formato diferente. Usando o mesmo arquivo de
antes, com 1000000 de dados vamos construir uma curva qui-quadrado com 1 grau de
liberdade a partir do comando q, que fornece a inversa da curva:
series q=@qchisq(rnd,1)
Aqui, o termo rnd utilizado para gerar nmeros aleatrios entre 0 e 1 e, nesse
caso, representa diferentes valores para a probabilidade. Note que a probabilidade deve
ficar entre 0 e 1.
Um exerccio interessante identificar o valor que representa determinado

percentual de uma rea. Por exemplo, determine o valor que representa 96% de uma
amostra com distribuio 2 e 10 graus de liberdade. Para encontrar esse valor,
denomine o mesmo de x e podemos usar o comando scalar { HYPERLINK
"mailto:x=@qchisq(0.96,10)" } que ir retornar x=19,02074. Sendo assim, para os
parmetros especificados devemos esperar observar valores maiores que 19,02 em
apenas 4% das vezes.
Aps gerar os nmeros aleatrios que iro seguir uma distribuio qui-quadrado,
faa um grfico combinando um histograma e uma densidade de kernel. Para tanto, abra
a srie q, v em view/graph, selecione distribution e depois, do lado esquerdo, aps
escolher histogram, v em options e escolha kernel density.
Note que essa distribuio unicaudal. Como forma de mostrar as mudanas na

curva de acordo com os graus de liberdade, estimamos mais duas curvas qui-quadrado,
uma com 2 graus de liberdade e outra com 5.
Curva qui-quadrado

1 grau de liberdade Diferentes graus de liberdade
Agora que conhecemos como a distribuio qui-quadrado podemos retornar ao

nosso exemplo das moedas e descobrir a probabilidade associada ao nosso teste. Pelos
clculos, obtemos 2=1,28. Esse o valor que tem que ser colocado na curva para
avaliar a probabilidade associada. Assim, o total da curva entre 0 e 1,28 pode ser
encontrado fazendo uso da opo de distribuio cumulativa CDF at o ponto 1,28.
Programao
Para encontrar a rea da curva entre o valor 0 e um ponto especificado,
podemos usar o comando @cchisq(). Para o nosso exemplo, temos o valor de 1,28
com 1 grau de liberdade. Sendo assim, usamos:
scalar qq=@cchisq(1.28,1)
Fazendo isso, encontramos o valor de 0,7421, que representa 74,21% da curva

entre 0 e 1,28. Ou seja, h uma probabilidade de 74% de nossa moeda ser viciada. O
famoso p-valor associado a esse teste, que ir determinar se aceitamos ou rejeitamos a
hiptese nula, obtido a partir de 1- 0,7421 = 0,2579. Ou seja, p-valor=0,25 e,
dependendo do nosso critrio de significncia podemos aceitar ou rejeitar a hiptese
nula. Com um critrio de 0,05 (ou 5%), ento aceitamos a hiptese nula. Recorde-se que
a nossa hiptese nula de que o valor observado fosse igual ao esperado, ou seja, que a
moeda era honesta. Portanto, podemos aceitar essa hiptese.
Aqui deve surgir a dvida: porque 1 grau de liberdade? No nosso exemplo,
estamos trabalhando com duas classes, cara e coroa. Nesse teste, sempre subtramos o
valor do total de classes de 1 e, nesse caso, temos 1 grau de liberdade.
Vejamos outra aplicao de um teste qui-quadrado do tipo Goodness of fit
onde comparamos frequncias. Nesse caso, vamos ver se um dado honesto. Como se
sabe, h a possibilidade de sair seis diferentes nmeros e, nesse caso, a expectativa
que cada um tenha uma probabilidade igual. Ou seja, a probabilidade de sair o nmero 1
de 1/6, a mesma para sair o nmero 4 e assim por diante. Definimos as nossas
hipteses de teste como:
H0: o dado honesto (as propores so iguais)

Ha: o dado no honesto (as propores so diferentes)
Agora, vamos lanar um dado 120 vezes e anotar os resultados observados junto
com o esperado em uma tabela como mostrado abaixo.
resultado esperado =(O-E)2/E

1 30 20 5
2 12 20 3,2
3 27 20 2,45
4 18 20 0,20
5 17 20 0,45
6 16 20 0,80
Total 120 120 12,10
Note que o resultado para alguns nmeros supera em muito o valor que se
esperava. Um indcio de que o dado pode ser viciado. Para verificar isso, podemos
usar o teste qui-quadrado comparando o valor observado com o esperado a partir da
frmula:
2=(O-E)2/E
que aplicada para cada um dos resultados. Ao final, somamos todos os seis. Essa a
estatstica qui-quadrado. Para o nosso exemplo, 2=12,1.
Para testar se esse valor corresponde ou no a aceitar ou rejeitar a hiptese nula,
precisamos ter o nmero de graus de liberdade. Temos um procedimento com seis
termos que foram utilizados para calcular a estatstica, ou seja, nosso nmero de linhas.
Sabemos que o nmero de graus de liberdade desse tipo de teste dado por esse valor
menos 1 (N de linhas -1). Sendo assim, nosso experimento tem 5 graus de liberdade,
2(5) =12,1.
A seguir, devemos encontrar o p-valor. Esse pode ser dado no eviews usando o
comando scalar qq=1-@cchisq(12.1,5) e que retorna como resultado 0,0334, ou ento,
3,34%. Com esse resultado no possvel aceitar a hiptese nula, caso o nvel de
significncia seja de 5%. O que nos leva a crer que existe uma chance pequena do dado
ser honesto.
Vimos acima duas aplicaes do teste qui-quadrado para o que se conhece como
Goodness of fit. Esses testes so aplicados quando temos uma situao onde possvel
determinar um valor esperado, ou seja, a nossa hiptese baseada em uma teoria.
Outra possibilidade de aplicao desse teste para exerccios do tipo teste de
independncia, ou ento, como conhecido, via tabela de contingncia. Nesse caso
queremos ver se duas variveis so independentes e, para tanto, tambm fazemos uso do
valor esperado. Mas, nesse tipo de teste, no conhecemos o valor esperado e, para tanto,
devemos construir o mesmo utilizando os dados observados.
Como regra de formulao das hipteses a serem testadas, definimos como
hiptese nula o fato de que no h associao entre os grupos, ou distribuies, que
esto sendo testadas, ou seja, as variveis so independentes. Dessa forma, na hiptese
alternativa teremos que as variveis so dependentes, ou seja, h relao entre elas.
Vejamos um exemplo de teste de independncia usando a funo de
distribuio qui-quadrado. Considere que se tenha um experimento e que se queira
verificar se h relao de dependncia do resultado encontrado entre as diferentes
categorias.
Nesse caso, suponha que, em determinado ano, tenha-se verificado a incidncia
de trs diferentes tipos de pragas (onde praga uma varivel) em vrias fazendas
distribudas em trs estados (onde estado tambm uma varivel). Podemos afirmar que
existe uma relao entre uma determinada praga e a localizao da fazenda? Ou seja,
possvel afirmar que quando h um problema em uma regio podemos esperar que o
mesmo ir ocorrer em outra regio? Nesse caso queremos ver se existe uma relao
entre duas variveis, praga e estado.
Como primeiro passo, formulamos a hiptese nula e alternativa:

H0: No h relao entre regio e diferentes tipos de praga (variveis so

independentes)
Ha: H relao entre regio e diferentes tipos de praga (variveis so
dependentes)
Como dito acima, a hiptese nula se refere ao caso de independncia entre as duas
variveis. A seguir, fomos literalmente a campo e pesquisamos, nas trs regies, as
fazendas que apresentaram cada uma dessas pragas. No total foram 510 fazendas que
apresentaram problemas e que foram distribudas de acordo com a tabela:
Incidncia de praga em fazendas em trs estados

Estado 1 Estado 2 Estado 3 Total
Praga 1 54 45 87 186
Praga 2 6 76 89 171
Praga 3 87 34 32 153
Total 147 155 208 510
Note que temos os resultados observados, e no temos os valores esperados.

Dessa forma, precisamos determinar qual o valor esperado para esse tipo de teste.
Como regra geral para um teste de independncia, podemos determinar os valores
esperados para cada uma das clulas usando uma formula especfica. No caso de uma
matriz 3x3, no geral temos:
Tipo 1 Tipo 2 Tipo 3 Total

Categoria 1 a b c a+b+c
Categoria 2 d e f d+e+f
Categoria 3 g h i g+h+i
Total a+d+g b+e+h c+f+i N
Isso nos remete que, para encontrar o valor esperado da clula i, devemos
usar:
Onde N dado por (a+b+c+d+e+f+g+h+i). Usando esse procedimento, podemos
produzir a matriz de valores esperados dos nossos resultados:
Valores Esperados
Estado 1 Estado 2 Estado 3
Praga 1 53,61 56,52 75,85
Praga 2 49,28 51,97 69,74
Praga 3 44,10 46,50 62,40
Depois de encontrar esses valores esperados o procedimento seguinte

encontrar a estatstica qui-quadrado, que ir seguir exatamente os passos dados
anteriormente quando do clculo da moeda honesta. Primeiro encontra-se a diferena
entre cada valor observado e o esperado. A seguir, eleva-se ao quadrado e divide pelo
valor esperado da clula para, ao final, somar todos os resultados. Esse ltimo valor a
estatstica qui-quadrado. Esses resultados so mostrados na tabela a seguir, onde o
resultado de cada clula dado por:

Encontrando a estatstica qui-quadrado

Estado 1 Estado 2 Estado 3 Total
Praga 1 0,0028 2,35 1,63 3,99
Praga 2 38,01 11,11 5,31 54,44
Praga 3 41,73 3,36 14,81 59,90
Total 16,82 16,82 21,76 118,34
Onde { EMBED Equation.3 }. Agora falta determinar o nmero de graus de

liberdade. A regra para testes do tipo tabela de contingncia usar:
(N de colunas 1)(N de linhas 1)
(3-1)(3-1)=4
O que ir nos gerar um total de 4 graus de liberdade. Portanto, o nosso teste
envolve uma estatstica da forma { EMBED Equation.3 }. Usando a mesma funo de
antes para encontrar o p-valor no eviews, ou seja, scalar { HYPERLINK "mailto:qq=1-
@cchisq(118.34,4)" }, teremos p-valor=0,000. Para um critrio de 5%, podemos
concluir pela rejeio de H0. Ou seja, no possvel aceitar H0 e, portanto, podemos
afirmar que existe uma relao entre os trs diferentes estados e as pragas que foram
observadas em determinado ano.
Vejamos outro exemplo. Suponha que resolvemos testar um mtodo novo de
emagrecimento aplicando o mesmo a um grupo de pessoas. Nesse caso, temos dois
grupos, o que usaram o mtodo e os que no usaram e duas categorias para os
resultados, aqueles que emagreceram e os que no emagreceram, gerando uma tabela de
quatro possveis resultados, tambm conhecida como tabela de contingncia 2x2.
emagreceu No emagreceu Total

Usou o mtodo 36 14 50
No usou o mtodo 30 25 55
Total 66 39 105
Queremos saber se o mtodo eficaz, ou seja, definimos a hiptese nula:
H0: o mtodo no eficaz (variveis so independentes)

Ha:o mtodo eficaz (variveis so dependentes)
De uma maneira mais direta queremos saber se o resultado de 36 pessoas que

emagreceram usando o mtodo estatsticamente significativo para um universo de 105
pessoas pesquisadas. Note que esse exemplo diferente do que usamos para testar se
uma moeda honesta ou no, uma vez que no conhecemos os valores esperados. L
tnhamos apenas dois possveis resultados, cara ou coroa. Aqui, temos quatro possveis
combinados entre duas categorias e dois resultados para cada categoria gerando usou,
emagreceu, no usou, emagreceu, usou, no emagreceu, no usou, no
emagreceu.
Como vimos no exemplo anterior o primeiro passo encontrar o valor esperado para
cada clula usando:
Fazendo isso para os dados da tabela acima encontramos:
emagreceu No emagreceu Total

Usou o mtodo 0,6649 1,1252 1,7902

No usou o mtodo 0,6044 1,0229 1,6274
Total 1,2694 2,1482 3,4176
Onde, { EMBED Equation.3 }. Esse procedimento pode ser utilizado para

qualquer tamanho de tabela, porm, h um aspecto interessante quando temos uma
tabela de contingncia 2x2. Nesse caso, no necessrio calcular o valor esperado e
fazer a diferena do observado. Esse resultado pode ser encontrado de maneira direta
usando a seguinte regra de clculo da estatstica qui-quadrado:
Resultado 1 Resultado 2 Total

Categoria 1 a b a+b
Categoria 2 c d c+d
Total a+c b+d a+b+c+d
Onde o teste qui-quadrado dado por:

Assim, substituindo os valores da nossa tabela inicial, encontramos que {
EMBED Equation.3 }. Mas, lembre-se que essa regra vlida para uma tabela 2x2.
Nosso teste no est completo ainda porque falta definir o nmero de graus de
liberdade. Note que, o que estamos fazendo comparar uma amostra com outra, ou seja,
um grupo que usou o mtodo com outro que no usou. Nesse caso a regra para
encontrar o nmero de graus de liberdade de um teste desse tipo usar:
(N colunas 1)(N de linhas -1)
(2-1)(2-1)=1
Para o nosso exemplo temos ento 1 grau de liberdade e, portanto, nosso teste,
da forma: { EMBED Equation.3 }.
O prximo passo encontrar o p-valor desse teste. No eviews isso pode ser feito
usando a funo de distribuio cumulativa (ver Box abaixo), e encontramos p-
valor=0,0644, ou seja, 6,44%. Se o nosso critrio para aceitar ou no a hiptese nula for
de 5% ento, pelo nosso resultado, aceitamos a hiptese nula (ou como os estatsticos
gostam de falar, no possvel rejeitar a hiptese nula). Nesse caso, no h diferena
entre usar o mtodo de emagrecimento ou no usar, voc ir emagrecer do mesmo jeito.
Programao
Para encontrar o p-valor de um teste qui-quadrado usamos a funo de
distribuio cumulativa, dada pelo comando @cchisq(). Para o nosso exemplo, temos
o valor de 3,418 com 1 grau de liberdade. Sendo assim, usamos:
scalar qq=1-@cchisq(3.418,1)
Vejamos outro exemplo desse tipo de teste. Muito se escuta falar que o fator
jogar em casa costuma ser determinante para uma equipe de futebol no decorrer de
um campeonato. Para comprovar esse fato, vamos testar essa hiptese para a equipe do
Grmio durante o campeonato brasileiro de 2003 a 2012. A tabela a seguir traz a diviso
dos resultados, separados entre jogos em casa e fora e resultados de vitria ou no-
vitria, que pode tanto ser derrota quanto empate.

vitria no ganhou total

casa 103 76 179
fora 42 137 179
total 145 213 358
Tal como estruturado, as nossas hipteses so assim dadas:
H0: O fator joga em casa no faz diferena (variveis so independentes)

Ha: Jogar em casa faz diferena (variveis so dependentes)
Como temos uma tabela 2x2, para encontrar o valor do teste qui-quadrado usamos:
O que resulta em { EMBED Equation.3 }. Como temos uma tabela 2x2, h 1
grau de liberdade. Assim, usamos o comando scalar qq=1-@cchisq(43.13,1) para
encontrar o p-valor no eviews, que d qq=0,0000. Ou seja, o p-valor dado por 0,00%.
Nesse caso, podemos optar pela rejeio da hiptese nula se estivermos satisfeitos com
um nvel de significncia de 5% ou at um nvel de significncia menor. Sendo assim,
podemos concluir que, pelo menos para o campeonato brasileiro, entre 2003 e 2012,
para a equipe do Grmio, jogar em casa ou no foi determinante.
O ltimo ponto de discusso sobre a aplicao do teste qui-quadrado sobre
amostras e valores esperados pequenos. Em algumas situaes comum nos
depararmos com um experimento onde o nmero de resultados menor do que 40.
Nesse caso, claramente teremos um problema no teste. Alm disso, tambm podemos
ter uma situao onde o valor esperado de um evento, uma das clulas da tabela
encontrada, tem um resultado menor do que 5.
Apesar de ser um problema, mesmo assim, podemos fazer o teste, basta que se
faa uma correo que, na literatura de estatstica, denominada de Correo de Yates.
E isso simples. Quando for calcular o valor esperado de cada uma das clulas, ao invs
de utilizar a frmula:
Usamos a seguinte expresso:
Exerccios:
3. Teste de independncia. Em uma pesquisa foram entrevistados 340 alunos de
uma escola. Os entrevistados, separados por faixa de idade, deveriam apontar a
preferncia por uma cor. Sendo assim, estamos interessados em testar se existe
uma relao entre idade e preferncia por cor. Use como critrio de significncia
5%. Passos:
Escolha a hiptese nula
Encontre a estatstica qui-quadrado
Encontre o p-valor
conclua
Idade Branco Verde Preto Total

10-12 anos 35 76 65 176
13-16 anos 65 54 45 164
Total 100 130 110 340

4. Teste de independncia. Nas eleies para prefeito de 2012 tivemos vrios

votos nulos e brancos. Esses podem ser interpretados como uma forma de
protesto. Com dados das eleies de 2012 no 1 turno para prefeito em todo o
Brasil, separamos os mesmos entre capital e interior. A pergunta : possvel
afirmar que os eleitores das capitais esto mais revoltados do que os eleitores
do interior?
Encontre o p-valor
conclua
Votou Branco + nulo Total

Capital 22.632.144 2.842.987 25.475.131
Interior 80.624.103 9.708.280 90.332.383
Total 103.256.247 12.551.267 115.807.514
5. Teste de independncia. Suponha que se queira testar se a faixa etria

realmente faz diferena em relao a forma de dirigir. Nesse caso, com dados de
jovens, adultos e idosos, separados entre nmeros de acidentes e sem acidentes
em um determinado ano, teste se h relao entre idade e conduo ao volante.
Encontre o p-valor
conclua
Acidente Sem acidente Total

Jovens 25 45 70
Adultos 15 25 40
Idosos 10 30 40
Total 50 100 150
6. Teste de independncia. Na tabela abaixo foram coletados dados sobre

casamentos no Brasil no ano de 2011. Naquele ano ocorreram pouco mais de 1
milho de casamentos divididos no estado civil do homem e da mulher na data
do casamento. Por exemplo, 818.300 casamentos ocorreram entre homens e
mulheres solteiros.
Mulher
Solteira Viva Divorciada Total
Solteiro 818.300 5.876 50.696 874.872
Homem
Vivo 8.557 2.925 5.297 16.779

Divorciado 88.805 4.806 38.221 131.832
Total 915662 13607 94214 1.023.483

Encontre o p-valor
conclua

CURVA F
Outra funo de distribuio muito til a F, comumente conhecida como
distribuio de Fisher, onde seu uso mais comum na anlise de varincia, tambm
conhecido como teste ANOVA. A distribuio F uma distribuio encontrada a partir
da razo da varincia de duas populaes independentes. Nesse caso, como estamos
com duas populaes, ou amostras, temos dois graus de liberdade. Por isso que a funo
F aparece sempre com F(v1,v2) onde v1 so os graus de liberdade dados pelo nmero de
amostras menos 1 e, v2, o nmero de tipos de medidas.
A funo densidade de probabilidade de uma varivel aleatria que tem
distribuio F, com n graus de liberdade no numerador e m no denominador, dada por:
Onde o valor de x dado no intervalo { EMBED Equation.3 }, ou seja, assume valores
positivos.
Dentre as suas principais propriedades, temos que ela assimtrica direita, ou
seja, seus valores sempre sero positivos. Dentre seus principais usos podemos destacar
o teste para identificar se duas amostras independentes foram geradas por uma
populao com distribuio normal com a mesma varincia e tambm se duas amostras
independentes possuem mesma varincia. Como hiptese principal tem o fato de que a
distribuio da populao no qual se est gerando a amostra normal e que as duas
populaes so independentes.
Vejamos como podemos gerar 1.000.000 nmeros aleatrios que descrevem uma
distribuio F. Nesse caso, usamos, no eviews, o comando @qfdist(), onde o termo q
representa a distribuio inversa, usada para gerar a curva procurada.
Programao
A curva F tambm muito til para testes em estatstica e econometria. Para
simular essa curva no eviews podemos usar os comandos a seguir:
series f=@qfdist(rnd,10,10)
Para essa funo temos 3 parmetros a determinar dentro dos parnteses. O

primeiro a probabilidade associada. Como queremos 1.000.000 de nmeros, usamos
o termo rnd, que utilizado para gerar nmeros aleatrios entre 0 e 1 e, nesse caso,
representa diferentes valores para a probabilidade. A seguir temos o nmero de graus
de liberdade do numerador e o nmero de graus de liberdade do denominador. O
mesmo grfico pode ser gerado a partir de:
Series f=@rfdist(10,10)
Note que, ao especificar valores pequenos para os graus de liberdade, temos uma
curva mais assimtrica. Na medida em que vamos aumentando os graus de liberdade, a
curva F vai tendo outro formato, at que, ao ter um nmero grande de graus de
liberdade, ir se aproximar da distribuio normal.
Uma curva F(10,10) Uma curva F(1000000,1000000)

Da mesma forma que para as demais curvas aqui avaliadas, para se encontrar a
rea abaixo da curva F podemos usar a funo de distribuio cumulativa CDF. Por
exemplo, para uma curva F(50,10) qual seria a rea acumulada at o valor 2?
Programao
Para encontrar a rea da curva acumulada at determinado valor usamos a
funo abaixo:
scalar f4=@cfdist(x,v1,v2)
Onde x o valor a determinar o ponto na curva, v1 so os graus de liberdade do

numerador e v2 os graus de liberdade do denominador. Para o nosso exemplo, usamos:
Series f4=@cfdist(2,50,10)
Que ir resultar em 0,8818, ou seja, 88,18% da rea.
DISTRIBUIO DE POISSON
Se estamos diante da possibilidade de ocorrncia de um nmero muito grande de
eventos e, que a probabilidade de ocorrncia de um desses eventos seja bem pequena
ento, podemos usar a distribuio de Poisson. Seria como tentar medir a possibilidade
de ocorrncia de um evento raro, como um atropelamento em uma determinada rua de
baixo movimento, o nascimento de quadrigmeos dentre outros.
Para medir essa chance de ocorrncia de um evento, fazemos uso de trs
parmetros. O primeiro, que se refere ao espao de medida, pode tanto ser hora, minuto,
segundo, dias, espao, rea, volume, peso ou qualquer outro campo contnuo. Na
frmula da distribuio a varivel t. Esse sempre vem acompanhado do parmetro ,
que utilizado para medir a frequncia de ocorrncia do evento. O ltimo parmetro, x,
utilizado para definir a possibilidade do nmero de ocorrncias.
A frmula do teste de Poisson dada por:
A maneira mais fcil de entender o teste de Poisson aplicando o mesmo.
Imagine que se queira medir a probabilidade de que uma pessoa entre no
restaurante a qualquer momento. Sabemos que o fluxo de clientes medido por hora e
que esse de 3 por hora. Sendo assim, t=1 hora e =3. Qual seria a probabilidade de no
chegar nenhum cliente em 1 hora?

Assim, a probabilidade de que em 1 hora no chegue nenhum cliente de 4,9%.

Outra pergunta interessante seria se, ao invs de querer saber o nmero exato,
trabalharmos com um valor mnimo. Sendo assim, qual a probabilidade de que chegue
pelo menos um cliente? Nesse caso, podemos estimar via diferena de no chegar
nenhum com o total da curva. O total de 100% e ento:
Ou seja, a probabilidade de que chegue pelo menos um cliente de 95,02%.
Programao
Para aplicar o teste de Poisson no eviews podemos usar a frmula da
distribuio cumulativa. Nesse caso, necessrio especificar dois parmetros, o m e o
x. Nesse caso m=t e x tal como definido anteriormente.
scalar p=@cpoisson(x,m)
Para o nosso exemplo acima usamos, para medir a probabilidade de no chegar

nenhum cliente:
Scalar p=@cpoisson(0,3)
E, para medir a probabilidade de chegar ao menos 1 cliente:

Scalar p=1-@cpoisson(0,3)
Vimos nesse captulo sobre curvas de distribuio e aplicao de testes, sejam

esses paramtricos ou no paramtricos. Nesse ponto importante para o leitor entender
a diferena entre esses dois tipos de testes. Quando fazemos uso de estatsticas dos
dados da amostra e da distribuio dos mesmos em algum teste como, por exemplo, o
teste t, teste F dentre outros, dizemos que o teste em questo paramtrico. Ou ento,
denominados de testes clssicos. Nesse tipo de teste assumimos que a distribuio dos
dados conhecida.
Porm, h tambm os testes no paramtricos, onde no feita nenhuma
hiptese sobre o tipo de distribuio de probabilidade dos dados que estamos usando.
Ou seja, nesse tipo de teste dizemos que estamos livres de especificar o tipo de
distribuio. Portanto, usamos os testes no paramtricos quando desconhecemos essa
distribuio ou, ento, os dados no satisfazem s suposies que so assumidas pelas
tcnicas tradicionais.
Sugesto de exerccios
1) Encontre a rea entre dois pontos de curva normal padro que preencha entre +-
2,05 desvios padro.
2) Determine o formato de diferentes curvas normais variando apenas o desvio
padro. Para uma mdia igual a zero, use os seguintes valores para os desvios
padro: curva 1: 1,3; curva 2: 2,1; curva 3: 2,9
3) Sua namorada te liga, em mdia, 2 vezes por dia, considerando 24 horas. Qual
a probabilidade de ela no te ligar em 1 dia? Qual a probabilidade dela te ligar
pelo menos 1 vez por dia?

Bibliografia
Hodrick,
Sites teis
{ HYPERLINK "http://www.portalaction.com.br/" }
{ HYPERLINK "http://www.statistics.com/" }

4. Estatsticas descritivas, testes de

hiptese e ANOVA
Fazer uma avaliao prvia de como um conjunto de dados se comporta um
dos procedimentos mais comuns em estatstica e econometria, e deve ser feito antes de
qualquer outra ao, pois ir permitir ter informaes importantes sobre os passos a
serem dados posteriormente.
Nesse caso, h diversas formas de se avaliar os dados, e que depende de como os
mesmos so compostos, e que so classificadas tanto em estatsticas descritivas como de
inferncia. No primeiro caso, h estatsticas que podem ser utilizadas para qualquer
formato de conjunto de dados, como, por exemplo, a mdia, a moda e a mediana,
referidas como medidas de tendncia central. Por outro lado, quantis, varincia e o
desvio-padro, por exemplo, so classificadas como medidas de disperso. Como o
nome diz, no procedimento de estatstica descritiva o que temos apenas uma descrio
do comportamento dos dados. No geral, os resultados gerados pela estatstica descritiva
aparecem no formato de grficos ou de tabelas.
Por outro lado, a inferncia estatstica envolve o conceito de amostragem. O
mais comum em estatstica e econometria termos um conjunto de dados que
representa uma amostra da populao, uma vez que muito difcil ter a informao da
populao. Nesse caso, estamos assumindo que a nossa amostra possa representar de
maneira fiel o comportamento da populao. Porm, nem sempre isso verdade, o que
acaba por resultar em erros de medida. Nesse caso, trabalhamos com diversos
parmetros como mdia, desvio padro e etc, mas, os mesmos so estimados e so feitos
testes de hiptese para confirmar a consistncia dos mesmos. Em resumo, essa a ideia
da inferncia estatstica5.
Portanto, enquanto que na estatstica descritiva estamos apenas preocupados
com a descrio dos dados, na inferncia estatstica estamos preocupados com a
consistncia dos mesmos.
Como exemplo, vamos usar a srie x gerada anteriormente no capitulo que
tratamos de funes de distribuies. Recorde-se que a mesma foi gerada para ter uma
distribuio normal com mdia zero e varincia unitria. A seguir, v em
view/descriptive statistics & tests e poder ver que h diversas opes para se aplicar s
sries de dados. A seguir, mostraremos como interpretar cada uma dessas.
5
Como a proposta desse livro no aprofundar nos conceitos de estatsticas, caso o leitor tenha interesse
em ver mais detalhes sobre esses pontos sugere-se um livro de estatstica.

Histograma e Estatsticas
Selecionando a alternativa de Histogram and Stats, o eviews ir retornar um
resumo do que podemos entender como estatstica descritiva. Para o exemplo da srie x
podemos ver que os dados so bem distribudos em torno da mdia, como mostra o
grfico esquerda, que conhecido como histograma.
A seguir, do lado direito, h uma srie de estatsticas que so reportadas. As duas
primeiras so medidas de tendncia central, como a mdia que, tal como esperado,
prxima de zero. E, a seguir est a mediana, que representa o ponto onde a funo de
distribuio dividida exatamente ao meio. Para o nosso exemplo ela tambm
prxima de zero. Essa uma caracterstica de um conjunto de dados que tem uma
distribuio normal padro, onde a mdia zero.
Depois so reportados o valor mximo e o valor mnimo do nosso conjunto de
dados. Note que ambos so muito prximos. Isso ocorre pois geramos uma funo com
distribuio normal e, nesse caso, os valores extremos, tanto para a esquerda quanto
para a direita, conhecidos como caudas, devem ser prximos em mdulo. Se, por
exemplo, o valor mximo fosse bem diferente, em mdulo, do valor mnimo, teramos
uma assimetria. A seguir est o desvio-padro que, tal como especificado, esperava-se
ter um valor unitrio.
Por fim, duas outras estatsticas so importantes para avaliar os nossos dados, a
assimetria e a curtose. Ambas so estatsticas derivadas a partir da mdia e do desvio-
padro e teis para caracterizar o tipo de distribuio dos dados.
Como vimos acima, o valor mximo e mnimo dos dados so muito prximos
em mdulo, o que acaba no gerando caudas para a nossa distribuio. Sendo assim,
podemos esperar que os nossos dados tivessem uma distribuio simtrica, tal como
sinalizado, por exemplo, pela igualdade entre a mdia e a mediana. Para comprovar
isso, calculamos a assimetria. No eviews utilizada a seguinte frmula:
Onde N o nmero de observaes que, no nosso caso 1 milho, { EMBED
Equation.3 } cada uma das i observaes, { EMBED Equation.3 } a mdia dessas
observaes e { EMBED Equation.3 } o desvio-padro amostral. Para o nosso
exemplo, a assimetria muito prxima do valor zero, o que esperado para uma curva
com distribuio normal.
A curtose, por outro lado, uma medida relacionada concentrao dos dados,
influenciando no desenho da curva verticalmente. Para o nosso exemplo, encontramos
curtose com valor 2,991. Esse tambm apresenta um valor muito prximo ao que se
espera de uma curva normal, que 3. O clculo da curtose pode ser feito a partir de:
Note que, tambm para esse clculo, usamos apenas as estatsticas de mdia e
desvio-padro.
Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Histograma e estatsticas descritivas

As duas ltimas informaes esto relacionadas a um teste de funo de

distribuio. At ento, fizemos uma avaliao na forma de estatstica descritiva.
Porm, somente a assimetria e curtose no so suficientes para confirmar que os dados
possuem ou no uma distribuio normal.
H diversas formas de se testar se um conjunto de dados possui uma distribuio
normal ou no. Alm disso, h testes que so aplicados para conjunto de dados
multivariados, e tambm podemos testar outras distribuies. Nesse resumo de
estatstica descritiva o eviews retorna o resultado para o teste e normalidade de Jarque-
Bera. Esse valor encontrado usando a frmula:
Onde N o nmero de observaes, S o valor da assimetria e k a curtose.
Substituindo os valores que vimos acima, encontraremos:
Esse teste aplicado sob a hiptese nula de existncia de distribuio normal
e, a hiptese alternativa seria que os dados no so distribudos normalmente. Note que
apenas estamos testando se a curva normal, no estamos testando uma funo de
distribuio alternativa. Portanto, podemos apenas concluir se os dados so distribudos
normalmente ou no. Ou seja, o teste no permite inferir se a distribuio qui-
quadrado, F ou qualquer outra funo.
No capitulo sobre funes de distribuio, aprendemos que a funo qui-
quadrado utilizada em testes para verificar diferenas de distribuio entre duas
amostras. Pois bem, no caso do teste de Jarque-Bera ocorre exatamente isso, temos um
teste que tem uma estatstica que usa a funo qui-quadrado para testar a hiptese nula
possuindo 2 graus de liberdade. Sendo assim, o mesmo representado a partir de {
EMBED Equation.3 }.
Para o nosso exemplo temos que { EMBED Equation.3 } e usamos essa
informao para encontrar o chamado p-valor, que no eviews o mesmo que
probability. essa estatstica que ir dizer se aceitamos ou rejeitamos a hiptese nula.
O nmero 3,213 em uma distribuio { EMBED Equation.3 } - qui-quadrado com 2
graus de liberdade, produz p-valor=0,20. Isso pode ser encontrado no eviews a partir do
comando scalar { HYPERLINK "mailto:qq=1-@cchisq(3.213,2)" }.
Sendo assim, no possvel rejeitar a hiptese nula de distribuio normal. As
mesmas informaes podem ser obtidas a partir da funo view/descriptive estatistics &
tests/stats table, por isso no h necessidade de comentar seu uso. No box de

programao mostramos como podemos montar um teste de Jarque-Bera usando os

comandos que retornam o resultado para a assimetria e a curtose.
Programao
Para fazer o histograma com a estatstica dos dados podemos usar o comando
hist para a srie x a partir de:
x.hist
No comando anterior podemos encontrar todas as estatsticas. Se estivermos

interessados em ver apenas o resultado do teste de normalidade de Jarque-Bera,
devemos construir o teste. Nesse caso, o primeiro passo determinar um escalar e
escolher um nome, suponha jb e depois aplicar seu resultado na curva qui-quadrado:
Scalar jb=((@obs(x))/6)*((@skew(x))^2+((@kurt(x)-3)^2)/4)
Scalar testejb=@chisq(jb,2)
Na primeira parte construmos a estatstica de Jarque-Bera usando os comandos

@obs() parar retornar o nmero de dados, @skew() para encontrar a estatstica de
assimetria e @kurt() para determinar a curtose. A seguir, encontramos o p-valor a partir
da distribuio qui-quadrado, com 2 graus de liberdade.
Estatsticas por classificao (Statistics by Classification)

Quando estamos trabalhando com dados que podem ser separados por diferentes
categorias ou mesmo se quisermos compreender melhor um determinado subconjunto
de dados dentro do conjunto maior ou, ento, comparar diferentes conjuntos de dados,
podemos recorrer s estatsticas por classificao.
Com a srie de dados aberta, clique em view/descriptiveStatistics/Statistics by
classification. Do lado esquerdo, selecione apenas o nmero de observaes. Depois,
escreva o nome de duas sries, separadas por espao. Vamos usar, para esse exemplo, a
srie aleatria x, com distribuio normal e a srie t, que tem distribuio t-student.
Na opo Group into bins if, deixe marcado apenas para valores >100 e um
nmero mximo de bins de 3 (isso representa o nmero de classes de distribuio dos
dados), a seguir, clique em ok. O resultado que o eviews mostra uma contagem dos
dados dos dois grupos. Na linha esto aqueles referentes a x, com trs intervalos e, na
coluna, para a srie t tambm com trs intervalos. A ltima linha e coluna so dos totais.
Note que feita a contagem de dados considerando a interseco entre os dois
conjuntos de dados. Por exemplo, no intervalo [-5,0) temos 250.610 dados. Porm, se
avaliarmos apenas a linha do intervalo [-5,0) para x teremos um total de 500.318 dados.
Por fim, o total de dados reportados tem que ser igual ao total de cada srie. Do total de
1 milho de dados, h 500.318 na srie x que esto no intervalo [-5,0) e outros 499.682
que esto no intervalo [0,5).
Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Estatsticas por classificao

O mesmo tipo de anlise pode ser feito para obter informaes conjuntas sobre
outras estatsticas, como mediana, desvio-padro e etc. Vejamos como exemplo
considerar o mesmo conjunto de dados e selecionar tanto a estatstica de mdia (Mean)
quanto a de assimetria (skewness). A tabela de resultado como segue.
Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Estatsticas por classificao: Mdia e
Assimetria
Mantemos o nmero mximo de classes em trs. A ltima linha e a ltima

coluna so os totais para cada subgrupo e o total de dados. Por exemplo, o valor -
0,000430 na ltima clula da tabela refere-se mdia do conjunto de dados x e, logo
abaixo, o valor 0,000837 a assimetria dos dados x. Isso acontece pois pedimos essa
estatstica a partir da abertura do conjunto de dados x. Se, ao invs disso tivssemos
aberto o conjunto de dados t e feito a estatstica por classificao, essa ltima clula
revelaria a mdia e assimetria para a srie t.
Testes de Hiptese
Essa uma importante ferramenta estatstica para testar hipteses em sries de
dados individuais ou em conjunto. Vimos que a mdia da srie de dados x -0,000430 e
que seu desvio padro 1. Vamos testar a hiptese que a mdia igual a 0,01. V em
view/descriptive statistics & tests/simple hypothesis tests e, na caixa de dilogo que
aparece especifique o valor da mdia a ser testado. No nosso exemplo 0.01. Podemos
deixar em branco a informao do desvio padro que pedida direita em mean test
assumption
Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Teste de Hiptese

Assim, na caixa que descreve mean digite o valor 0.01. E, na parte Enter s.d. if
known, que corresponde ao desvio-padro da nossa srie de dados, no especifique
nada. A seguir, clique em ok. Para esse exemplo possvel ver como resultado apenas,
com a estatstica t, que segue uma distribuio t-student. Destaca-se que esse um teste
bi-caudal, pois estamos testando:
O resultado mostrado para o p-valor nos leva a rejeitar a hiptese nula de igualdade
tanto a inclusive menos de 1% de significncia. Ou seja, a mdia de x estatsticamente
diferente de 0,01. Segue-se o mesmo procedimento para testar a igualdade da varincia
ou da mediana.
Agora podemos refazer o teste especificando o desvio-padro. Nesse caso so
reportados dois resultados, um para a estatstica Z, que segue uma distribuio normal, e
outro para uma estatstica t.
Teste de Igualdade por Classificao

Esse teste muito utilizado no caso de dados categricos e para verificar a
relao entre sub-conjunto de dados.
Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Teste de igualdade da mdia
Teste da Distribuio Emprica

De posse de um conjunto de dados, muito comum no conhecermos como os
mesmos so distribudos. Para tanto, podemos aplicar um teste de distribuio para
comprovar se possuem uma distribuio normal, por exemplo, como vimos no teste de
Jarque-Bera, ou ento, podemos estar interessados em saber se a distribuio de nossos
dados igual a alguma outra distribuio terica. Nesse caso, h vrias outras opes
que podem ser verificadas no eviews, conhecidas como EDF test.
Por exemplo, usando o arquivo de nome distribuio.wf1, pode-se investigar se
a distribuio da srie de dados x pode ser aproximada por uma normal. Nesse caso,
com a srie x aberta, clique em view/Descriptive statistics & tests/Empirical
distribution tests. A seguir, dentre as opes que existem selecione uma distribuio
qualquer. Como primeiro exemplo, vamos testar se a srie de dados x tem uma
distribuio normal. Deixe a opo para escolha dos parmetros vazia. Isso far com
que o eviews estime os mesmos.
Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Teste do tipo de distribuio

Note que h vrios resultados de testes, e que so mostrados em duas partes. Na

primeira, esto diversos testes estatsticos para verificar a hiptese nula de igualdade
entre a distribuio emprica e a terica que, nesse caso, a curva normal. Assim, temos
o teste de Lilliefors, Cramer-von Mises, Watson e Anderson-Darling. Na primeira
coluna temos o valor do teste e, na ltima, o p-valor. Pelo resultado do p-valor,
aceitamos a hiptese nula em todos os quatro testes propostos. Ou seja, os dados em x
possuem distribuio normal6.
A segunda parte mostra os parmetros estimados da nossa distribuio terica. A
mdia -0,000430 e o desvio-padro de 0,001. Note que esses dois resultados para a
mdia e desvio-padro, so iguais aos obtidos quando pedimos o histogram & statistics.
A seguir, em Prob temos o teste para identificar se esses valores so estatsticamente
iguais a zero. No primeiro caso, o p-valor=0,66 sinaliza que o valor da mdia
estatisticamente igual a zero. Logo abaixo temos p-valor=0,000 que significa que o
valor de SIGMA, ou seja, o desvio-padro, estatisticamente diferente de zero, o que
era esperado. Lembre-se que simulamos um conjunto de dados com desvio-padro igual
a 1. Se tentar testar outras distribuies tericas, ir perceber que muitas no so
possveis, pois temos valores negativos.
Agora, faa o mesmo teste para identificar se a srie de dados q possui uma
distribuio normal. O resultado como mostrado abaixo. Note que, agora, rejeitamos
fortemente a hiptese nula de igualdade da distribuio emprica e a terica. Nesse caso,
pela segunda tabela de resultados, podemos ver que os parmetros de mdia estimados
para a distribuio terica, nesse caso a normal, so mdia igual a 5 e desvio padro
igual a 3,1. Resultados bem diferentes do verificado no nosso conjunto de dados (a srie
q), que foi gerada de acordo com uma distribuio qui-quadrado.
De fato, como a srie q foi gerada de acordo com uma distribuio qui-quadrado,
podemos testar se isso se verifica. Refazendo o teste EDF s que, agora, especificando
como funo terica a curva qui-quadrado (deixe o eviews estimar o nmero de graus
de liberdade), teremos um resultado diferente.
Nesse caso, pelo p-valor, todos >0,25 aceitamos a hiptese nula de igualdade das
distribuies. Mais abaixo, na segunda tabela, podemos ver a estimativa dos graus de
liberdade v=4,999. Idntico ao utilizado para gerar a curva q.
Teste de normalidade na srie q Teste qui-quadrado na srie q
6
Anteriormente confirmamos isso com o teste de Jarque-Bera.

Programao
Para fazer o teste de distribuio emprica no eviews via programao podemos
usar o comando abaixo. Nesse caso, o default testar se a srie de dados em questo
possui uma distribuio normal onde os parmetros de mdia e desvio padro so
estimados.
x.edftest
Alternativamente, podemos testar se a srie q possui uma distribuio qui-

quadrado usando:
q.edftest(dist=chisq)
Teste de igualdade (Test of Equality)

comum querer testar se dois grupos de dados, sejam eles categricos ou ento
sries de tempo, possuem mdia ou varincia iguais. Para fazer isso no eviews devemos
primeiro criar um grupo. Esse procedimento conhecido como ANOVA, e pode ser
melhor entendido na prxima seo.
Grficos Analticos Fazendo a distribuio dos dados

Anteriormente, no captulo sobre grficos, aprendemos a fazer alguns tipos
diferentes de grficos misturando curvas tericas com estimativas de kernel e
histograma. Porm, naquele momento, o resultado conhecido era apenas de um grfico,
o que inviabilizava usar os dados gerados para outra anlise.
Felizmente o eviews permite salvar os resultados desses grficos em uma matriz.
Assim, o objetivo dessa funo poder salvar os resultados que so teis para avaliar a
distribuio dos dados criando os intervalos. Vejamos um exemplo. Abra a srie de
dados x e, a seguir em proc/make distribution plot data. Note que, na janela que vai
abrir, h vrias opes que podem ser testadas e customizadas, do lado esquerdo,
juntamente com mais alternativas do lado direito que iro se modificar de acordo com a
seleo do tipo de distribuio que for feita.
Para iniciar, imagine que se queira salvar os dados que podem ser utilizados para
construir o histograma da srie x. Nesse caso, selecione a opo hitogram. Mais abaixo
escolha um nome (para poder diferenciar das demais estimativas, escolhemos como

nome para essa matriz histograma_x) e, do lado direito, vamos pedir que sejam salvos
os dados de frequncia. A seguir, clique em ok.
A matriz histograma_x que salva contm trs colunas. As duas primeiras, C1 e
C2, so os diversos intervalos do histograma. A ltima coluna, a C3, a quantidade de
dados, ou seja, a frequncia dos mesmos, que aparece naquele intervalo. Por exemplo,
entre -4 e -3,75 temos 49 dados. As outras duas opes para dados de histograma so
densidade e frequncia relativa.
Ainda na parte de Specification, possvel ver a opo Bin Width. Esse se refere
ao tamanho do intervalo que ser utilizado para gerar o histograma. Nesse caso,
podemos escolher entre um default do eviews ou diversas outras opes.
Uma alternativa interessante para ver como o formato da distribuio dos

dados via Densidade de Kernel. Para a srie de dados x, v em proc/make distribution
plot data e depois selecione Kernel Density. Nas demais opes, deixe em bandwidt
selecionado eviews e 100 grids points. Para esse exemplo o eviews retorna duas
colunas. Na primeira o intervalo superior da classe e, na segunda coluna, sua
respectiva densidade. Faa o grfico da coluna 2 (C2) e ver que temos uma distribuio
prxima da curva normal.
A ltima opo interessante usar em Data Type a funo de densidade terica,
selecionando Theoretical Density. Do lado esquerdo h diversas funes que podem ser
selecionadas e que iro retornar os resultados para a estimativa de uma funo.
Programao
Para obter os resultados de um histograma ou de uma funo de densidade
qualquer, podemos usar alguns comandos especficos. Para fazer um histograma da
serie x e depois salvando o resultado com o nome de histograma_x, usamos:
x.distdata(dtype=hist) histograma_x
Para fazer uma estimativa usando a densidade de kernel, usamos:
x.distdata(dtype=kernel) kernel_x

ANOVA
A anlise de varincia, conhecida como ANOVA, uma tcnica de teste de
hiptese usada para testar a igualdade de duas ou mais mdias amostrais de uma
populao, tambm denominadas de tratamento. Para tanto, a anlise feita via
varincia amostral. Com essa tcnica possvel determinar se a diferena entre duas
amostras causada por um erro aleatrio ou ento uma diferena estrutural.
Para o uso da anlise de varincia, temos que assumir trs hipteses: (i) todas as
populaes que esto sendo usadas devem seguir uma distribuio normal, o que acaba
por caracterizar o teste como sendo paramtrico7; (ii) todas as populaes devem ter a
mesma varincia; (iii) as amostras devem ser selecionadas de forma aleatria, ou seja,
devem ser independentes.
Ao fazer o teste temos que ter em mente que a hiptese nula assumida sempre
ser de que a mdia das amostras selecionadas igual. Alm disso, como estamos
trabalhando com a razo de varincia nos dados, usamos a distribuio F para o teste.
H basicamente quatro tipos de teste ANOVA. O primeiro o teste one-way
between groups. Esse o teste ANOVA mais simples, e o objetivo testar se existe
diferena entre os grupos. O segundo o one-way repeated, usado para ver, por
exemplo, diferenas em um experimento repetido ou, ento, para ver mudanas ao
longo do tempo. Os dois testes seguintes so mais complexos, o two-way between
group e two-way repeated. Nesses feita uma investigao iterativa entre os diferentes
grupos.
Vamos ver um exemplo simples para fixar o conceito, e que se encontra no
arquivo de nome distribuio na planilha ANOVA. Suponha que uma empresa aplicou
trs diferentes mtodos para a produo de um produto e, para cada um desses mtodos,
coletou os resultados encontrados de forma aleatria durante um ms. Ou seja, pro
mtodo 1, temos 10 informaes de produtividade, para o mtodo 2 e 3 de forma
similar. Ou seja, temos um universo de 30 resultados. Esses mtodos so descritos como
c1, c2 e c3.
O natural nessa avaliao responder se a mdia de produo difere entre os trs

mtodos. Em uma avaliao prvia, podemos ver que o mtodo 1 tem uma mdia de
produtividade de 5,44, ao passo que para o segundo mtodo 3,99 e o terceiro mtodo
4,48. Para ver as estatsticas dos dados, selecione as trs sries, clique com o boto
direito, abra como grupo. A seguir, v em stats, na barra de ferramentas.
Mas, ser que essa mdia estatsticamente diferente entre c1, c2 e c3? Qual o
melhor mtodo e qual o pior? Ou, reformulando a pergunta, ser que o mtodo de
produo utilizado influencia na produo? Para responder a esses pontos vamos usar o
mtodo ANOVA.
7
Isso no quer dizer que no possa ser feito uma anlise de varincia de forma no-paramtrica.

Para tanto, iremos fazer uso de trs estatsticas que representam a variabilidade
dos dados, seja dentro do grupo ou entre grupos: (i) SQT Soma ao quadrado total; (ii)
SQE Soma ao quadrado do erro; (iii) SQG Soma ao quadrado dos grupos.
De uma forma geral, uma tabela de teste ANOVA apresentada da seguinte
forma, onde n representa o nmero total de dados, m o nmero de grupos.
Origem da Soma dos quadrados Graus de Varincia do Razo F

variabilidade liberdade quadrado mdio
Entre mdias { EMBED Equation.3 m-1 { EMBED { EMBED
} Equation.3 } Equation.3 }
Dentro dos { EMBED Equation.3 n-m { EMBED
grupos } Equation.3 }
(within group)
Total SQT=SQE+SQG n-1
Para encontrar a primeira estatstica, SQT, devemos calcular a mdia de todos os

30 dados, denominada mdia total. Para o nosso exemplo, essa 4,643. A seguir,
encontrar o desvio de cada dado em relao a essa mdia, elevar ao quadrado e somar.
a medida de variabilidade total de todo o conjunto de dados. Assim, SQT=36,44.
Dizer o que o xj, x mdia
A segunda estatstica, SQE, uma medida de variabilidade que deve ser
encontrada para cada grupo (within group). Nesse caso, para o primeiro mtodo, temos
a mdia dos 10 dados que o integram e, encontramos o desvio de cada dado em relao
a essa mdia, elevamos ao quadrado e, depois, somamos. Sendo assim, para o nosso
exemplo, teremos trs valores de SQE, um para cada um dos mtodos que estamos
usando. Para o mtodo 1 temos um SQE de 8,57, para o mtodo 2 um SQE de 8,49 e,
para o mtodo 3 um SQE de 8,55. A seguir, ao somar os trs resultados, encontramos
que SQE=25,62.
Origem da Soma dos quadrados Graus de Varincia do Razo F

variabilidade liberdade quadrado mdio
Entre mdias 10,82 2 5,41 5,70
Dentro dos 25,62 27 0,95
grupos
(within group)
Total 36,44 29
Por fim, a terceira estatstica, SQG, uma medida de variabilidade entre os

diferentes grupos (between group), e que tambm referida como entre mdias. Nesse
caso, ela representa a soma do quadrado dos desvios da mdia de cada grupo em relao
a mdia total. Ou seja, encontramos a variabilidade da mdia do grupo que
representa o mtodo 1 em relao a mdia total, elevado ao quadrado. Isso feito
para cada uma das informaes. Assim, no nosso exemplo teremos um resultado que se
repete por 10 vezes no grupo 1. Depois fazemos o mesmo para o mtodo 2 e para o
mtodo 3. Sendo assim, teremos 30 resultados para SQG. Ao fim, somamos todos e
obtemos SQG=10,82.
De forma geral, essas trs estatsticas so encontradas sempre que se vai fazer o
teste ANOVA, independente de quantos grupos se est trabalhando. Outro ponto
interessante a relao que existe entre elas, dada a partir de:
SQT=SQE+SQG

SQT=25,62+10,82=36,44
Note que a variabilidade total pode ser dividida em duas partes, uma (SQE) que
representa as caractersticas de cada grupo, ou seja, representa a diferena dos grupos,
cada qual com seu tratamento e, a segunda (SQG), as diferenas entre os grupos, a
partir de um tratamento comum, que seria considerando a mdia global. Portanto, a
origem da variabilidade total pode estar ligada a cada uma dessas duas causas.
No nosso exemplo, cada grupo tem 10 dados. Dessa forma, no h problema em
usar a medida de variabilidade. Porm, pode ocorrer de compararmos grupos que
possuem uma quantidade diferente de dados. Nesse caso, o grupo com maior nmero de
dados ir ter, naturalmente, um maior valor para a variabilidade. Aqui que entra um
ponto importante no uso da ANOVA, devemos computar os graus de liberdade.
Para o conjunto total de dados, usamos n-1, onde n o nmero de dados. Sendo
assim, com 30 dados, os graus de liberdade de SQT 29. No caso do SQE usamos n-m,
onde n o nmero de dados e m o nmero de grupos. No nosso exemplo, n-3=30-3=27.
Sendo assim, SQE (within group) tem 27 graus de liberdade. Por fim, para SQG temos a
diferena entre os graus de liberdade de SQT e SQE, ou seja, SQG tem 2 graus de
liberdade.
De posse dos valores referentes aos graus de liberdade, podemos agora fazer a
respectiva ponderao nas variabilidades, chegando a uma medida mais prxima da
varincia. Isso feito simplesmente dividindo os valores pelos seus graus de liberdade.
Em livros de estatstica essa medida denominada de MS Mean Square. Assim, temos
MST, para representar a estatstica SQT ponderada pelos graus de liberdade,
MSE=0,949 relativa a SQE e MSG=5,411 que se relaciona com SQG.
Por fim, encontramos a estatstica F, que dada por:
Claro, se essa razo for igual a 1, ento, a parcela de variao explicada entre os
grupos e a explicada pelo respectivo grupo igual, ou seja, as mdias so iguais. Porm,
podemos chegar a essa mesma concluso para valores diferentes de 1. Lembre-se, isso
estatstica e, nesse caso, podemos ter um resultado que seja estatsticamente
significante.
Porque estamos usando a estatstica F para esse teste? Na discusso sobre
funes de distribuies, ilustramos que a distribuio F dada a partir da razo de
varincias sob a hiptese nula. Portanto, a curva F ir ter todos os resultados possveis
para as razes de varincia. A seguir, calculamos o Fratio e identificamos se seu valor
pode ser considerado estatisticamente significante comparando o mesmo com a
distribuio F.
No nosso exemplo, temos uma distribuio F(2,27), ou seja, com 2 graus de
liberdade no numerador e 27 no denominador. Podemos encontrar seu desenho a partir
de um conjunto de 1000000 de dados aleatrios para ver como seria essa distribuio.
Programao
Para encontrar a forma como os dados de uma distribuio F se comportam,
com 1000000 de dados aleatrios, 2 graus de liberdade no numerador e 27 no
denominador, podemos usar:
series f5=@qfdist(rnd, 2,27)
Para fazer essa estimativa no se esquea de usar uma planilha que tenha uma
dimenso de 1000000 de dados, como a usada no exemplo distribuio.

Note que, como temos 27 graus de liberdade no denominador, a curva tem sua
rea um pouco menos concentrada perto do valor zero. O prximo passo seria
determinar qual o p-valor associado a estatstica Fratio=5,7 que foi encontrada no nosso
teste. Para tanto, podemos fazer uso da funo cumulativa @cfdist().
Uma curva F(2,27)
Esse ir produzir como resultado p-valor=0,008, que a rea da curva direita

do valor F=5,7. Sendo assim, podemos concluir que os trs mtodos apresentam
diferena no resultado final, ou seja, rejeitamos a hiptese nula a 0,8%.
Programao
Para encontrar o p-valor associado ao valor do teste F, devemos ter em mente
que a funo cumulativa fornece a rea at determinado valor. Sendo assim, devemos
subtrair de 1, a partir de:
scalar f=1-@cfdist(5.70, 2,27)
Esse procedimento pode ser facilmente feito no eviews, sem a necessidade de

todos esses clculos. Na planilha de nome ANOVA, temos as nossas trs sries de
dados referentes aos nossos trs mtodos. Como primeiro passo, crie um grupo com
essas trs sries. A seguir, v em view/tests of equality e selecione mean e clique em ok.
Os resultados so apresentados em trs partes. Na primeira est o resultado final, que
aponta o teste F e tambm o teste de Welch.
Teste de igualdade de mdias ANOVA
A seguir, est o bloco com o resultado da anlise de varincia, com suas

respectivas estatsticas SQG, SQE e SQT, alm das MSG, MSE e MST, que so
ponderadas pelos graus de liberdade.

Por fim, no terceiro bloco, so mostradas as estatsticas referentes s sries de

dados que foram avaliadas, suas respectivas mdias, desvio padro e erro padro, tanto
por grupo quanto no conjunto.
Vale destacar que apenas concluir que as mdias so diferentes, como

identificado pelo teste acima, no o suficiente. Muitas vezes estamos interessados em
saber a origem dessa diferena, e isso pode ser verificado a partir do intervalo de
confiana.
O primeiro passo determinar o tamanho do intervalo. Vamos supor 95% para
uma estatstica t. Nesse caso, com 27 graus de liberdade, o valor de t 95%=2,05 e, o
intervalo para cada grupo construdo a partir de:
Aplicando isso para os nossos valores da tabela anterior, podemos encontrar:
Intervalo de confiana para a mdia 95%

Mnimo Mdia Mximo
C1 4,81 5,44 6,07
C2 3,36 3,99 4,62
C3 3,85 4,48 5,11
Tambm h outra forma de fazer o teste ANOVA conhecendo apenas o nmero

de observaes, a mdia e a varincia dos dados em questo. Suponha, por exemplo,
que se queira verificar se o nvel de qualificao de um trabalhador em determinada
empresa influencia na sua produtividade. Nesse caso, selecionamos trs tipos de
trabalhadores: estagirios, formado, ps-graduado para serem avaliados. Os resultados
so mostrados na tabela.
N Mdia Varincia
Estagirio 23 29,1 18,3
Graduado 21 28,1 16,9
Ps-graduado 16 21,3 15,2

Como primeiro passo, definimos as hipteses:

H0: no h diferena entre os nveis de qualificao e produtividade
Ha: Existe diferena de produtividade entre os nveis de qualificao
No total foram 60 dados distribudos em 23 estagirios, 21 trabalhadores

graduados e 16 com ps-graduao. A seguir temos as respectivas mdias de tempo
gasto para executar uma tarefa e a varincia. Note que aqui no temos os dados da
pesquisa, apenas os resultados de mdia e varincia. Mas, podemos fazer o teste
ANOVA mesmo assim.
O primeiro passo determinar a mdia total entre os trs grupos. No nosso
exemplo essa dada por 21,16. A seguir, fazemos a soma do quadrado total, que
consiste em fazer a diferena entre a mdia de cada grupo e a mdia total:
A seguir encontramos a estatstica SQE, que uma medida de variabilidade de
cada grupo (within group) usando:
Onde { EMBED Equation.3 } a varincia do grupo i. Assim, de acordo com os nossos
dados:
Agora, devemos fazer o ajuste para cada uma das estatsticas pelos graus de
liberdade. No caso da SQG, os graus de liberdade so dados pela diferena entre o
nmero de argumentos menos um. Como temos trs diferentes argumentos, estagirio,
graduado e ps-graduado ento, h 2 graus de liberdade para SQG. No caso de SQE, os
graus de liberdade so dados pela diferena entre o total de dados utilizados e o nmero
de argumentos. Como temos um total de 60 dados ento, os graus de liberdade de SQE
sero 57.
Agora podemos encontrar a estatstica F:
Com esse resultado rejeitamos fortemente a hiptese nula, basta ver em scalar
f=1-@cfdist(19.2828, 2,57) no eviews, que produz um p-valor=0,000. Sendo assim, o
nvel de qualificao importante para determinar diferenas na produtividade.
Descobrimos que existe diferena, mas, no de onde vem essa diferena. Para
responder a esse ponto, aplicamos um teste de diferena de mdia que usa a curva t.
Como temos trs argumentos, para descobrir a origem da diferena temos que testar aos
pares. Nesse tipo de teste temos que determinar apenas qual o nvel de significncia
procurado para que se construa o intervalo de confiana.
Como regra geral, ao avaliar a diferena entre a mdia do grupo 1 com a mdia
do grupo 2, usamos:
Onde { EMBED Equation.3 } a mdia do grupo 1, { EMBED Equation.3 } a
estatstica t avaliada em um ponto, { EMBED Equation.3 } o nvel de significncia,
SQE dado anteriormente, (m-n) o nmero de graus de liberdade { EMBED
Equation.3 } o total de dados do grupo 1 e c dado por:
Como regra de deciso, se o intervalo de confiana no contiver o valor 0 ento,
rejeitamos a hiptese nula.

Primeiro vamos descobrir se tem diferena entre o resultado para estagirio e

graduado:
H0: { EMBED Equation.3 }
Ha: As mdias so diferentes
Nesse caso temos:
E, para um { EMBED Equation.3 }temos que encontrar o valor de { EMBED
Equation.3 }. Isso pode ser feito no eviews utilizando scalar { HYPERLINK
"mailto:t=@qtdist(0.0083,57)" }. Com isso, temos um valor de 2,46. Agora s
determinar o intervalo:
E, dessa forma, no rejeitamos a hiptese nula. Ou seja, a mdia entre estagirios
e graduados estatisticamente igual.
Faa a mesma conta para verificar a diferena de mdia entre estagirio e ps-
graduado. O resultado ser:
Fazendo com que se rejeita a hiptese nula, ou seja, h diferena de mdia entre
estagirios e ps-graduados. E, por fim, podemos fazer para verificar a diferena entre
graduado e ps-graduado, o que ir resultar em:
Tambm apontando para a rejeio da hiptese nula, ou seja, temos diferena
entre as mdias.
Programao
Diante de dados como o apontado no exemplo da qualificao, podemos usar de
programao para produzir os resultados do teste ANOVA de maneira direta.
'programa para calcular o intervalo de confiana em um teste ANOVA

'os parametros abaixo podem ser modificados
'n representa o total de dados por grupos
'm representa a media do grupo
scalar n1=23
scalar n2=21
scalar n3=16
scalar total=n1+n2+n3
scalar m1=29.1
scalar m2=28.1
scalar m3=21.3
scalar sqe1=968.60/(total-3)
'parametros de escolha para o intervalo
scalar alfa=0.05
'resultado para a estatistica t
scalar t=-@qtdist(alfa/6,total-3)
'testando a diferena entre m1 e m2
scalar minimo=m1-m2-t*@sqrt(sqe1*((1/n1)+(1/n2)))
scalar maximo=m1-m2+t*@sqrt(sqe1*((1/n1)+(1/n2)))

Exerccios:
1. Teste ANOVA.
Bibliografia

cAP 1

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

cAP 1

Uploaded by

Copyright:

Available Formats

ECONOMETRIA

Aplicada ao Eviews com exemplos e

Igor Morais igoracmorais@gmail.com igoracmorais.blogspot.com.br

Igor Morais igoracmorais@gmail.com igoracmorais.blogspot.com.br

1. Como abrir dados no Eviews

1. Do Excel para o Eviews

Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Abrindo dados do excel

Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Abrindo dados do excel

Igor Morais igoracmorais@gmail.com igoracmorais.blogspot.com.br

Tambm podemos copiar os dados que esto no Excel e colar os mesmos no

Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Criando um workfile

Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Abrindo dados do excel

Igor Morais igoracmorais@gmail.com igoracmorais.blogspot.com.br

Abrindo os dados do FRED

Igor Morais igoracmorais@gmail.com igoracmorais.blogspot.com.br

Federal Reserve of Saint Louis1. Como esse um banco de dados disponibilizado na

Igor Morais igoracmorais@gmail.com igoracmorais.blogspot.com.br

Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Opes de grficos

O eviews permite que se escolha entre diferentes maneiras de apresentar os

Igor Morais igoracmorais@gmail.com igoracmorais.blogspot.com.br

Vimos anteriormente que tambm temos a opo de criar um grfico de barra.

Igor Morais igoracmorais@gmail.com igoracmorais.blogspot.com.br

Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Grfico de qx com a distribuio de

Alternativamente, se quisermos especificar ma distribuio de kernel ao invs da

Alm disso, podemos adicionar um texto para identificar nosso grfico. No

gqx.addtext(pt=12, face= "ubuntu light ", t) "Serie de dados qx"

Algumas opes para grficos no eviews somente se tornam disponveis depois

Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Grfico de qx com area

Igor Morais igoracmorais@gmail.com igoracmorais.blogspot.com.br

gqx.draw(shade, bottom, color(gray)) 1999Q1 1999Q4

Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Grfico de qx e px

Igor Morais igoracmorais@gmail.com igoracmorais.blogspot.com.br

Outra forma de usar os recursos grficos para identificar caractersticas

Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } -Grfico de Distribuio de Freqncia

Igor Morais igoracmorais@gmail.com igoracmorais.blogspot.com.br

Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Adicionando uma densidade de

qx.distplot hist kernel

Alternativamente, com o grfico aberto, clique em proc/Make Distribution plot

Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } - Grfico de Distribuio de Freqncia

Podemos investigar se os nossos dados possuem uma distribuio que parecida

Igor Morais igoracmorais@gmail.com igoracmorais.blogspot.com.br

Figura { STYLEREF 1 \s }-{ SEQ Figura \* ARABIC \s 1 } Grfico de teste de normalidade

Ver como possvel adicionar uma linha de tendncia

Nesse caso, selecione a varivel y e depois qx e clique com o boto direito do

Igor Morais igoracmorais@gmail.com igoracmorais.blogspot.com.br

7.0 7.2 7.4 7.6 7.8 8.0 8.2

Alternativamente, pode-se estar interessado em ver a relao de todas as

Igor Morais igoracmorais@gmail.com igoracmorais.blogspot.com.br

Igor Morais igoracmorais@gmail.com igoracmorais.blogspot.com.br

Dica : Muitas vezes melhor usar o conceito de series do que vector.

Ao iniciar os comandos descritos no Box programao, criamos 1 milho de

Uma curva normal

Igor Morais igoracmorais@gmail.com igoracmorais.blogspot.com.br

Uma curva normal

Diversos formatos de curva normal

Igor Morais igoracmorais@gmail.com igoracmorais.blogspot.com.br

Essa caracterstica da curva normal denominada de curtose. Note que, para a

Para avaliar a funo de densidade em um ponto qualquer da nossa funo de

Aqui, o comando scalar cria a caixa de nome r para receber o valor da

Igor Morais igoracmorais@gmail.com igoracmorais.blogspot.com.br

varincia igual a 22, usa-se:

O comando q antes da especificao da curva tambm til para determinar o

Distribuio Cumulativa com dados normais (CDF)

Igor Morais igoracmorais@gmail.com igoracmorais.blogspot.com.br