You are on page 1of 15

GOVERNO DO ESTADO DO CEAR SECRETARIA DO PLANEJAMENTO E GESTO - SEPLAG INSTITUTO DE PESQUISA E ESTRATGIA ECONMICA DO CEAR - IPECE

NOTA TCNICA N 37

UMA BREVE DISCUSSO SOBRE OS MODELOS COM DADOS EM PAINEL

Andr Oliveira Ferreira Loureiro1 Leandro Oliveira Costa2

Fortaleza CE Maro 2009

1 2

Mestre em Economia CAEN/UFC. Analista de Polticas Pblicas do IPECE. Doutorando em Economia CAEN/UFC. Analista de Polticas Pblicas do IPECE.

Notas Tcnicas do Instituto de Pesquisa e Estratgia Econmica do Cear (IPECE) GOVERNO DO ESTADO DO CEAR Cid Ferreira Gomes Governador SECRETARIA DO PLANEJAMENTO E GESTO (SEPLAN) Silvana Maria Parente Neiva Santos Secretria INSTITUTO DE PESQUISA E ESTRATGIA ECONMICA DO CEAR (IPECE) Marcos Costa Holanda Diretor-Geral Marcelo Ponte Barbosa Diretor de Estudos Econmicos Eveline Barbosa Silva Carvalho Diretora de Estudos Sociais

A Srie Notas Tcnicas do Instituto de Pesquisa e Estratgia Econmica do Cear (IPECE) tem como objetivo a divulgao de metodologias e trabalhos elaborados pelos servidores do rgo, que possam contribuir para a discusso de diversos temas de interesse do Estado do Cear.

Instituto de Pesquisa e Estratgia Econmica do Cear (IPECE) End.: Centro Administrativo do Estado Governador Virglio Tvora Av. General Afonso Albuquerque Lima, S/N Edifcio SEPLAN 2 andar 60830-120 Fortaleza-CE Telefones: (85) 3101-3521 / 3101-3496 Fax: (85) 3101-3500 www.ipece.ce.gov.br ipece@ipece.ce.gov.br

SUMRIO

Apresentao 1 1. Pressupostos relacionados metodologia de Dados em Painel 2 2. Heterogeneidade No-observada 4 3. Efeitos Fixos 5 4. Efeitos Aleatrios 6 5. Exogeneidade Estrita e Variveis Instrumentais 7 Anexo: Testes frequentemente utilizados em modelos com dados em painel 9 Referncias Bibliogrficas 11

IPECE Nota Tcnica N 37

Apresentao
Em funo de vrios trabalhos do IPECE utilizarem a metodologia de dados em painel na realizao de avaliaes sobre diversos aspectos socioeconmicos cearenses1, o presente trabalho busca ampliar a acessibilidade dos nossos trabalhos a essa metodologia amplamente utilizada nos artigos cientficos das cincias sociais aplicadas e, principalmente, na economia. Dessa forma, a presente nota tcnica apresenta um breve resumo sobre a metodologia economtrica utilizada no contexto de Dados em Painel, bem como um breve guia de como aplic-la utilizando o software Stata2. Dados em Painel ou dados longitudinais so caracterizados por possurem observaes em duas dimenses que em geral so o tempo e o espao. Este tipo de dados contm informaes que possibilitam uma melhor investigao sobre a dinmica das mudanas nas variveis, tornando possvel considerar o efeito das variveis no-observadas. Outra vantagem a melhoria na inferncia dos parmetros estudados, pois eles propiciam mais graus de liberdade e maior variabilidade na amostra em comparao com dados em cross-section ou em sries temporais, o que refina a eficincia dos estimadores economtricos. Hsiao (2006) expe um maior detalhamento das vantagens propiciadas pela anlise de Dados em Painel. Aps uma introduo que discute o modelo de dados em painel, apresentado o conceito de heterogeneidade no-observada. So discutidos os principais modelos utilizados neste contexto: Efeitos Fixos, Primeiras Diferenas e Efeitos Aleatrios. Finalmente, discutido o caso em que a hiptese de Exogeneidade Estrita no valida e a utilizao de variveis instrumentais.

Entre os trabalhos do IPECE que se utilizam da metodologia de dados em painel, podemos citar os artigos de Irffi, Oliveira & Barbosa (2008), Irffi et al. (2008) e Loureiro (2008). 2 A escolha do software STATA 10.0 se deve a sua ampla utilizao nas cincias sociais aplicadas.

IPECE Nota Tcnica N 37

1. Pressupostos relacionados metodologia de Dados em Painel


Um modelo de regresso com dados em painel, com n observaes em T perodos e K variveis, pode ser representado da seguinte forma:

yit = xit + it ,
onde

i = 1, 2, ... , n; t = 1, 2, ... , T

(1)

yit

a varivel dependente,

xit

um vetor 1

contendo as variveis

explicativas,

um vetor K 1 de parmetros a serem estimados e

it

so os erros

aleatrios. Os sub-ndices i e t denotam a unidade observacional e o perodo de cada varivel, respectivamente. Desta forma, em uma base de dados com dados em painel, o nmero total de observaes corresponde a n T. Se o modelo seguir todas as hipteses clssicas de regresso3, pode-se estim-lo por Mnimos Quadrados Ordinrios MQO, obtendo as estimativas desejadas. As principais se referem ao erro , que se supe homoscedstico e no-correlacionado no tempo e no espao. Neste caso, ter-se-ia uma matriz de varincia V da seguinte forma:

V = ( 2 I n ) I T , onde 2 a varincia da regresso, denota o produto de kronecker


e I n e I T denotam matrizes identidade de ordem n e T, respectivamente. Assim, V uma matriz de ordem nT nT. No caso de dados em painel, os problemas de

heteroscedasticidade e autocorrelao podem ocorrer tanto dentro dos grupos, quanto entre os grupos, ou as duas situaes simultaneamente. O problema de heteroscedasticidade, se detectado, torna necessria a utilizao do mtodo de Mnimos Quadrados Generalizados MQG. Segundo Greene (2003), se fosse utilizado o estimador de Mnimos Quadrados Ordinrios MQO, no levando em considerao a no-homoscedasticidade dos distrbios, as estimativas ainda seriam no-viesadas e consistentes, mas no seriam mais eficientes. Desta forma, os testes de significncia das estimativas seriam enviesados se MQO fosse utilizado. O mesmo argumento vlido na presena de autocorrelao dos erros.

Para maiores detalhes dessas hipteses, ver Greene (2003) e Davidson & MacKinnon (2004).

IPECE Nota Tcnica N 37

Se algum desses dois problemas, ou ambos, estiverem presentes no modelo, a matriz de varincia do modelo deixa de ser diagonal e passa a ser da seguinte forma:

V = ( 2 ) ,

onde

representam matrizes cujos elementos podem assumir

quaisquer valores. Em funo de no se conhecer a matriz de varincia V do modelo, no possvel realizar estimativas dos parmetros por MQG diretamente, sendo ento necessrio estimar

Mas a estimao de todos os parmetros dessas matrizes

sem estabelecer qualquer padro para as mesmas tambm invivel, visto que neste caso teremos mais parmetros a serem estimados do que observaes disponveis. Mais precisamente, em um modelo com nT observaes, teremos mais nT(nT+1)/2 parmetros na matriz de varincia V para serem estimados, alm dos parmetros usuais, tornando qualquer estimativa impossvel. Assim, para que se possa obter as estimativas, faz-se necessria a estimao por Mnimos Quadrados Generalizados Factveis MQGF, onde o padro dessa matriz predeterminado.4 Outro problema que pode surgir em dados em painel, e que inviabilizaria a utilizao de MQO, a endogeneidade. Esta ocorre quando a correlao entre alguma varivel explicativa

xj

e o erro diferente de zero, isto :

Cov ( x j , it ) 0 .

Wooldridge (2002) destaca as trs principais fontes de endogeneidade: omisso de variveis do modelo (heterogeneidade no-observada), erros de medio das variveis e simultaneidade entre as variveis.

Para maiores detalhes sobre esse mtodo, ver Greene (2003) e Wooldridge (2002).

IPECE Nota Tcnica N 37

2. Heterogeneidade No-observada
O problema mais frequente em dados em painel a questo da

heterogeneidade no-observada. Neste caso, haveria fatores que determinam a varivel dependente, mas no esto sendo considerados na equao dentro do conjunto de variveis explicativas, por no serem diretamente observveis ou mensurveis. Levando em considerao a heterogeneidade no-observada, o modelo acima pode ser reescrito da seguinte forma:

yit = xit + ci + it ,

i = 1, 2, ... , n; t = 1, 2, ... , T (2)

onde ci representa a heterogeneidade no-observada em cada unidade observacional (no presente caso, estado) constante ao longo do tempo.

Segundo Wooldridge (2002), se ci for correlacionado com qualquer varivel em

xit

e tentarmos aplicar MQO neste caso, as estimativas sero no s viesadas como

inconsistentes.5 As mesmas consequncias ocorrem no modelo no caso em que a hiptese clssica que no haja correlao entre alguma varivel explicativa

xj

e o erro,

Cov ( x j , it ) = 0 ,

no seja vlida. Assim, neste caso, somente podemos utilizar MQO se

tivermos justificativas para assumir que Cov (ci , x j ) = 0 . Se essa hiptese for vlida podemos considerar um novo termo composto, vit ci + it , e estimar o modelo por MQO, visto que teramos Cov(vit , x j ) = 0 . Esse mtodo com dados em painel conhecido como Mnimos Quadrados Ordinrios Agrupados.

Para uma discusso mais detalhada das implicaes da existncia da heterogeneidade no-observada nos modelos economtricos, ver Worrall & Pratt (2004).

IPECE Nota Tcnica N 37

3. Efeitos Fixos
No caso em que Cov (ci , x j ) 0 , para que possamos estimar essa equao consistentemente, a abordagem mais usual no contexto de dados longitudinais a de Efeitos Fixos. Neste mtodo de estimao, mesmo permitindo que Cov (ci , x j ) 0 , a idia eliminar o efeito no-observado ci , baseado na seguinte suposio: onde

E ( it x i , ci ) = 0 ,

xi ( xi1 , xi 2 , ..., xiT ) ,

conhecida como condio de exogeneidade estrita. A

transformao de efeitos fixos (ou transformao within) obtida em dois passos. Tirando-se a mdia da equao (2) no tempo obtemos:

y i = x i + ci + i

(3)

e subtraindo (3) de (2) para cada t, obtemos a equao transformada de efeitos fixos:

yit yi = ( x it x i ) + it i
ou

(4)

&it + &&it , & &it = & y x


removendo assim a heterogeneidade no-observada

i = 1, 2, ... , n; t = 1, 2, ... , T (5)

ci .

O estimador de Efeitos Fixos obtido ao se aplicar MQO agrupados na equao (5) e sob a hiptese de exogeneidade estrita, esse estimador consistente. Este estimador tambm conhecido como estimador within, por usar a variao do tempo dentro de cada unidade observacional. Outro estimador bastante utilizado a partir das transformaes anteriores o estimador between, que obtido ao se aplicar MQO agrupados na equao (3), e leva em considerao somente a variao entre as unidades observacionais.

IPECE Nota Tcnica N 37

4. Efeitos Aleatrios
Outro mtodo de estimao bastante utilizado com dados em painel o de Efeitos Aleatrios. Assim como nos MQO agrupados, em uma anlise de efeitos aleatrios, o efeito no-observado ci colocado junto com o termo aleatrio Entretanto, impe trs suposies adicionais6: a) e c)

it .

E ( it x i , ci ) = 0 , b) E (ci x i ) = E (ci ) = 0

Var (ci2 x i ) = c2 .

A primeira a mesma do modelo de efeitos fixos, a de

exogeneidade estrita. A segunda diz respeito ortogonalidade entre ci e cada mdia de ci ser nula. A terceira se refere homoscedasticidade de ci .

xi

O modelo de efeitos fixos permite a existncia de correlao entre os efeitos individuais no-observados com as variveis includas. Entretanto, se esses efeitos forem estritamente no-correlacionados com as variveis explicativas, pode ser mais apropriado modelar esses efeitos como aleatoriamente distribudos entre as unidades observacionais, utilizando o modelo de efeitos aleatrios. Em funo das especificidades desse modelo, o problema de autocorrelao uma constante, fazendo com que seja necessria a utilizao de MQG factveis. Assim, o ponto crucial na deciso de que modelo deve ser utilizado, se efeitos fixos ou aleatrios, reside na questo se ci e

xi

so correlacionados ou no. Esse

questionamento deve ser feito de acordo com os dados que se est trabalhando, examinando suas especificidades. Um teste mais formal pode ser realizado, o Teste de Hausman, baseado nas diferenas das estimativas de efeitos fixos e aleatrios. Este teste descrito na ltima seo. Haveria ainda a possibilidade de simplesmente no haver heterogeneidade noobservada no modelo que estamos estimando. Se isso for verdade a estimativa por MQO agrupado eficiente e vlida. A ausncia de efeitos no-observados equivalente a testar a hiptese de a varincia de ci ser nula. Um teste para verificar a existncia de efeitos no-observados o de Breusch e Pagan, baseado no multiplicador de Lagrange, que descrito em Greene (2003) e Wooldridge (2002).
6

Alm das suposies usuais de posto e dos erros.

IPECE Nota Tcnica N 37

5. Exogeneidade Estrita e Variveis Instrumentais


Um ponto importante a se destacar dos trs modelos discutidos acima que tratam da heterogeneidade no-observada a hiptese comum a todos eles: a de exogeneidade estrita. Embora essa suposio seja crucial para a consistncia de todos esses estimadores, tambm uma das mais provveis de no ser vlida. Assim, precisamos saber que procedimento deve-se utilizar se a suposio de exogeneidade estrita no for vlida. Wooldridge (2002) sugere algumas solues para esse problema, destacando a utilizao de variveis instrumentais e eliminao do efeito noobservado para que os estimadores sejam consistentes mesmo quanto hiptese de exogeneidade estrita no for vlida. Para que possamos utilizar variveis instrumentais, necessria a utilizao de mtodos especficos para quando estas precisam ser utilizadas no modelo. O mtodo mais utilizado nesse contexto o mtodo de Mnimos Quadrados em Dois Estgios MQ2E. O objetivo principal de se utilizar esse tipo de estimao com variveis instrumentais resolver o problema de endogeneidade. Uma discusso mais detalhada do mtodo de M2QE fugiria do escopo do presente trabalho.7 Entretanto, faz-se necessrio definir o que caracteriza uma varivel instrumental. Reescrevendo um modelo de regresso como o descrito na equao (1) destacando uma das variveis contidas em

xit

que seja endgena (isto ,

Cov ( wit , it ) 0 ), e a denotando por wit , teremos: yit = x it + wit + it ,


i = 1, 2, ... , n; t = 1, 2, ... , T (7)

Sabemos que a estimao de (7) por MQO resultar em estimativas inconsistentes no s para

como para todos os parmetros contidos no vetor

O mtodo de

variveis instrumentais IV possibilita uma soluo geral pra o caso em que existe alguma varivel endgena no modelo. Para utilizar essa abordagem, necessria uma

Para maiores detalhes sobre estimadores com variveis instrumentais, ver Greene (2003), Davidson & MacKinnon (2004) e Wooldridge (2002).

IPECE Nota Tcnica N 37

varivel observvel na equao (7).

zit

que sirva como instrumento (varivel instrumental) e no esteja

Esta varivel precisa satisfazer duas condies. Primeiro, correlacionada com o erro demais variveis em

zit deve

ser no

it ,

isto :

Cov ( zit , it ) = 0 .

Desta forma, assim como as

xit , z it z it

exgena na equao (7). A segunda condio diz

respeito relao entre

e a varivel endgena

wit . Em uma projeo linear de wit

em todas as variveis exgenas:

wit = xit + zit + it


o coeficiente de

(8)

z it

deve ser no-nulo, isto :

0 . Essa condio pode ser entendida

de uma forma no to rigorosa como:

Cov( wit , zit ) 0 . Ou seja, a varivel instrumental

deve ser correlacionada com a varivel endgena. Como j foi mencionado e ser discutido com mais detalhes mais a frente, no presente trabalho, a varivel no modelo a ser estimado que se acredita que seja endgena, a varivel de gastos em segurana pblica. Assim, devemos utilizar pelo menos uma varivel instrumental no somente para corrigir esse problema, como na prpria determinao se a varivel de gastos pblicos em segurana endgena no modelo que iremos estimar.8 Assim, com uma varivel instrumental que satisfaa essas condies, podemos implementar o mtodo apropriado para corrigir o problema de endogeneidade no modelo que queremos estimar, seja este problema causado pela hiptese de exogeneidade estrita no ser vlida, ou haver simultaneidade entre alguma varivel explicativa e a varivel independente. Isto , alguma varivel explicativa, alm de determinar a varivel dependente, ao mesmo tempo, ser influenciada pela varivel dependente.

Somente com a varivel instrumental em mos, podemos testar se uma varivel endgena ou no em um modelo. O teste mais difundido para este fim o teste de Hausman de endogeneidade.

IPECE Nota Tcnica N 37

Anexo: Testes frequentemente utilizados em modelos com dados em painel

A - Teste F para Heterogeneidade No-Observada

H 0 : ci = c
F (n 1, nT n K ) =
2 2 ( RLDSV RMQOA ) /(n 1) 2 (1 RLSDV ) /(nT n K )

(A.1)

onde LSDV indica o estimador com varivel dummy onde ci levado em considerao. Se esta estatstica exceder o valor tabelado, a hiptese de heterogeneidade noobservada vlida. B - Teste de Breusch e Pagan

H 0 : c2i = 0
2 2 T n n i it T nT i =1 t =1 nT i 1 = LM = 1 = 1 T 2 2 n T 2 ( 1 ) 2(T 1) n T i =1 t =1 it i =1 t =1 it

( )

(A.2)

it onde

resduo da regresso de MQO agrupados e sob a hiptese nula, LM ~ 2

com 1 grau de liberdade. Se esta estatstica exceder o valor tabelado, a hiptese de heterogeneidade no-observada vlida.

IPECE Nota Tcnica N 37

C - Teste de Hausman para testar Efeitos Fixos contra Efeitos Aleatrios

o vetor de estimativas de efeitos fixos e o vetor de estimativas de Seja EF EA


efeitos aleatrios, sob a hiptese nula de:

: EF EA = 0 (i.e. efeitos aleatrios vlido), a estatstica:


' V ( ) V ( ) 1 H= EF EA EF EA EF EA

][

][

(A.3)

possui distribuio 2 com K-1 graus de liberdade. Se esta estatstica exceder o valor tabelado, devemos utilizar efeitos fixos.

10

IPECE Nota Tcnica N 37

Referncias Bibliogrficas
DAVIDSON, R. and MACKINNON, J. G., Econometric Theory and Methods, Oxford University Press, 2004.

GREENE, William H. Econometric Analysis 5th ed. Prentice-hall. 2003.

IRFFI, G. D.; OLIVEIRA, J.; BARBOSA, E. Anlise dos Determinantes Socioeconmicos da Taxa de Mortalidade Infantil (TMI) no Cear. Texto para Discusso IPECE N 48, 2008.

IRFFI, G. D.; TROMPIERI, N.; OLIVEIRA, J.; NOGUEIRA, C. A.; BARBOSA, M.; HOLANDA, M. Determinantes do Crescimento Econmico dos Municpios Cearenses. Texto para Discusso IPECE N 39, 2008.

HSIAO, Cheng, Analysis of panel data: Second Edition, Cambridge University Press, 2003.

HSIAO, Cheng, Panel Data Analysis - Advantages and Challenges, IEPR Working Papers, Institute of Economic Policy Research (IEPR), 2006.

LOUREIRO, A. O. F. Avaliando o Impacto do Policiamento sobre a Criminalidade no Cear. Texto para Discusso IPECE N 53, 2008.

NERLOVE, M. Essays in Panel Data Econometrics. Cambridge University Press, 2002.

WOOLDRIDGE, Jeffrey M., Econometric Analysis of Cross Section and Panel Data. The MIT Press, Cambridge, MA, 2002.

11

IPECE Nota Tcnica N 37

WORRALL J. L.; PRATT T. C., On the Consequences of Ignoring Unobserved Heterogeneity when Estimating Macro-Level Models of Crime. Social Science Research, v. 33, p. 79-105, 2004.

12

You might also like