Multicolinearidade: natureza, diagnóstico e medidas corretivas

Multicolinearidade
Multicolinearidade
Uma das hipteses do MCRL que no h multicolinearidade entre os regressores includos no
modelo de regresso.
1.
2.
3.
4.
5.
Qual a natureza da Multicolinearidade?

A multicolinearidade realmente um problema?
Quais as suas consequncias prticas?
Como a detectamos?
Que medidas correctivas podemos adoptar para aliviar o problema da multicolinearidade?
Natureza da Multicolinearidade
O termo multicolinearidae foi cunhado por Ragnar Frisch (1934) e significava originalmente a
existncia de uma perfeita! (ou exacta) relao linear entre algumas ou todas as variveis
explicativas de um modelo de regresso. Hoje o termo multicolinearidade usado em um sentido
mais amplo, para incluir o caso da perfeita multicolinearidade, bem como o caso em que as
variveis X so intercorrelacionados, mas no perfeitamente.
Quando variveis independentes em uma anlise de regresso mltipla se encontram altamente
correlacionadas umas com as outras, os coeficientes de regresso parcial perdem a sua
confiabilidade em termos de significado. De modo similar, o significado prtico dos coeficientes
de correlao parcial pode ser questionado. possvel que o coeficiente de correlao parcial
para uma dada varivel independente se apresenta como gradativamente negativo, muito embora
a correlao simples seja altamente positive. Em geral, deve se ter cuidado ao interpretar
coeficientes de regresso parcial e de correlao parcial, quando existirem duas variveis
independentes que estejam altamente correlacionadas, positive ou negativamente, uma com a
outra.
Em modelos de regresso mltipla, quando as variveis preditoras no esto correlacionadas, o
efeito atribudo a cada uma delas o mesmo, independentemente do nmero de variveis que o
modelo apresente.
A contribuio marginal para a reduo da soma dos quadrados da regresso de uma das
preditoras quando a outra est no modelo a mesma quando ela aparece sozinha no modelo.
Em modelos de regresso com duas ou mais variveis explicativas usual que tais variveis
apresentem algum tipo de interdependncia. Essa relao de interdependncia chamada de
multicolinearidade.
A regresso mltipla visa entre outras coisas estabelecer a importncia relativa e a magnitude do
efeito das variveis preditoras sobre a varivel dependente, identificar preditoras que deveriam
ser eliminadas do modelo e apontar a necessidade de incluso de variveis preditoras ainda no
participantes do modelo. Na ausncia de multicolinearidade esses objectivos podem ser
alcanados.
O ponto de de partida:
Quando existe a multicolinearidade severa?
1. O conjunto de variveis independentes for totalmente independente os coeficientes da
regresso no podero ser estimados
Quando isso acontece, podemos afirmar que a multicolinearidade severa e o modelo deve ser
revisto.
A multicolinearidade implica que as variveis preditoras esto linearmente relacionadas, o
problema implica que a alta correlao entre as variveis preditoras, mas isso nem sempre
ocorre.
A presena de multicolinearidade severa faz com os coeficientes no reflictam nenhum efeito
particular da varivel explicativa na regressora, pois o coeficiente estar contaminado pelo efeito
de outras variveis e somente um efeito parcial lhe poder ser atribudo.
A variabilidade amostral dos coeficientes grande gerando grandes mudanas na magnitude de
1 por conta de pequenas mudanas nos dados, {} ter valores elevados e crescer na medida
em que novos preditores forem includos.
Quanto ao exame da estatstica:
Diagnstico da Multicolinearidade:
1 - Quando um conjunto referente s variveis preditoras significante, ao passo que
individualmente no.
Ex:
1) Quanto ao exame da estatstica F da regresso altamente significante, mas o valor
da estatstica t no.
Como sabemos F mede a relao de regresso do conjunto de regressores contra a
varivel dependente, enquanto que t mede a contribuio de uma nica varivel
explicativa.
Alm disso, um R2 alto tambm favorece esse diagnstico.
2) Quanto ao factor de inflao da varincia (VIF) tambm utilizado para medir a
multicolinearidade:
n 1 2k 5 ln_ det
6
Sensibilidade dos estimadores de MQO e de seus erros padro a pequenas

variaes nos dados
Contanto que a multicolinearidade no seja perfeita, possvel
Dados hipotticos
Modelo 1
Modelo 2
X2
X3
X2
X3
12
12
16
16
SUMMARY OUTPUT
(Modelo 1)
Regression Statistics
Multiple R
R Square
Adjusted R Square
Standard Error
0.900067748
0.810121951
0.620243902
0.974366586
Observations
ANOVA
df
Regression
Residual
2
2
SS
8.101219512
1.898780488
Total
10
Coefficients
1.193902439
0.446341463
Standard Error
0.773678855
0.184810424
t Stat
1.543149889
2.415131425
P-value
0.262764835
0.137060016
0.00304878
0.085065893
0.035840222
0.97466527
Intercept
x2
x3
SUMMARY OUTPUT
(Modelo 2)
MS
4.050609756
0.949390244
F
4.266538215
Multiple R
R Square
Adjusted R Square
Standard Error
0.902399205
0.814324324
0.628648649
0.963523938
Observations
ANOVA
df
Regression
Residual
2
2
SS
8.143243243
1.856756757
MS
4.071621622
0.928378378
F
4.38573508
Total
10
Intercept
X2
Coefficients
1.210810811
0.401351351
Standard
Error
0.748021496
0.272064987
t Stat
1.618684514
1.475203978
P-value
0.246931182
0.278128264
X3
0.027027027
0.125228061
0.215822451
0.849137143
No modelo 1 nenhum dos coeficientes de regresso , individualmente, significativo em nveis

de significncia convencionais de 1% ou 5%, embora 2 estimado seja significativo com base no
teste t unicaudal. No modelo 2, 2 estimado j no significativo mesmo ao nvel de 10%.
Regression Statistics (Modelo 1)
Multiple R
0.552344771
R Square
0.305084746
Adjusted R Square
0.073446328
Standard Error
3.043934415
Observations
ANOVA
df
Regression
Residual
1
3
SS
12.20338983
27.79661017
MS
12.20338983
9.265536723
F
1.317073171
Total
40
Intercept
Coefficients
2.271186441
Standard
Error
2.030364161
t Stat
1.118610387
P-value
0.344803701
X3
0.254237288
0.221530892
1.147638084
0.334339092
Regression Statistics (Modelo 2)

Multiple R
0.828517156
R Square
0.686440678
Adjusted R
Square
0.581920904
Standard Error
2.044698257
Observations
ANOVA
df
Regression
Residual
1
3
SS
27.45762712
12.54237288
MS
27.457627
4.180791
F
6.567567568
Total
40
Intercept
Coefficients
1.406779661
Standard
Error
1.363853978
t Stat
1.0314738
P-value
0.378191608
X3
0.381355932
0.148808669
2.5627266
0.083016775
O aumento do R Mltiplo no modelo 2 revela um aumento da multicolinearidade. Os erros

padres de 2 e 3 aumentam entre as duas regresses, um sintoma comum de colinearidade.
Note-se que na presena de alta colinearidade, no podemos estimar os coeficientes
individuais de regresso precisamente, mas as suas combinaes lineares podem ser estimadas
mais precisamente.
No modelo 1, os erros padro so praticamente iguais, 0,1550 contra 0,1823 do Modelo 2.
Exemplo Ilustrativo: Consumo, Renda e Riqueza
Y, US$
70
65
90
95
110
115
120
140
155
150
X2,
US$
80
100
120
140
160
180
200
220
240
260
X3,
US$
810
1009
1273
1425
1633
1876
2052
2201
2435
2686
Os resultados do modelo de Regresso constam da tabela abaixo:

SUMMARY OUTPUT
Multiple R
0.981582597
R Square
0.963504395
Adjusted R
Square
0.95307708
Standard Error
6.80804069
Observations
10
ANOVA
Regression
Residual
df
2
7
SS
8565.554074
324.4459263
Total
8890
MS
4282.777
46.349418
F
92.401959
Intercept
X2, US$
Coefficients
24.77473327
0.941537342
Standard
Error
6.7524996
0.822898263
t Stat
3.6689722
1.1441722
P-value
0.0079751
0.2901647
X3, US$
-0.04243453
0.080664483
-0.5260621
0.6150945
A regresso mostra que a renda e riqueza, juntas explicam cerca de 96,35% da variao no
consumo, no entanto, nenhum dos coeficientes de inclinao , individualmente, estatisticamente
significativo. Alm disso, a varivel riqueza no s estatisticamente insignificante, como
tambm tem um sinal errado. A priori, esperaramos uma relao positiva entre consumo e
riqueza. Embora 2 e 3 estimado individualmente sejam estatisticamente insignificantes, se
testarmos a hiptese 2 = 3 = 0 simultaneamente, essa hiptese pode ser rejeitada como mostra o
quadro acima. O F observado igual a 92,4019. Este valor altamente significativo.
Alm desta abordagem podemos construir os intervalos de confiana para 2 e 3. Cada intervalo
individual de estimado contm o valor zero. Podemos no rejeitar a hiptese ( 2 = 3 = 0). As
duas inclinaes parciais so zero.
O exemplo dado evidencia uma amostra dramtica da presena de multicolinearidade. O facto do

teste F ser significativo, porm os valores t de X2 e X3 serem individualmente insignificantes,
indica que as duas variveis so to altamente correlacionadas que impossvel isolar o efeito
sobre o consumo tanto da renda quanto da riqueza.
Agora podemos calcular as regresses parciais de X3 sobre X2 e obtm-se:
SUMMARY OUTPUT
Multiple R
0.998962392
R Square
0.99792586
Adjusted R
Square
0.997666593
Standard Error
29.83972337
Observations
10
ANOVA
Regression
Residual
df
1
8
SS
3427202.727
7123.272727
MS
3427202.727
890.4090909
F
3849.0204
Total
3434326
Intercept
Coefficients
7.545454545
Standard
Error
29.47581069
t Stat
0.255988024
P-value
0.8044195
X2, US$
10.19090909
0.164262271
62.04047363
5.065E-12
De acordo com a tabela, existe uma quase perfeita colinearidade entre X 3 e X2. Se calcularmos Y
sobre X2 obtm-se os seguintes resultados:
SUMMARY OUTPUT
Multiple R
0.980847369
R Square
0.96206156
Adjusted R
Square
0.957319256
Standard Error
6.493003227
Observations
10
ANOVA
Regression
Residual
df
1
8
SS
8552.727273
337.2727273
MS
8552.727273
42.15909091
F
202.8679245
Total
8890
Intercept
Coefficients
24.45454545
Standard
Error
6.413817299
t Stat
3.812791091
P-value
0.005142172
X2, US$
0.509090909
0.035742806
14.24317115
5.75275E-07
A varivel renda era estatisticamente insignificante, enquanto agora altamente significativa. Se,
em vez de calcularmos a regresso de Y sobre X2, regredimos sobre X3, obteremos:
SUMMARY OUTPUT
Multiple R
0.978099708
R Square
0.956679039
Adjusted R
Square
0.951263919
Standard Error
6.93832963
Observations
10
ANOVA
df
Regression
Residual
1
8
SS
8504.876656
385.1233444
MS
8504.876656
48.14041805
F
176.66811
Total
8890
Intercept
Coefficients
24.41104485
Standard
Error
6.87409684
t Stat
3.551163944
P-value
0.0074967
X3, US$
0.049763767
0.003743986
13.29165564
9.802E-07
Note que nas duas tabelas sobre regresses de Y sobre os X`s mostram claramente que, em
situaes de multicolinearidade extrema, omitir uma varivel altamente colinear muitas vezes
tornar a outra varivel X estatisticamente significativa. Este resultado sugeriria que uma sada
para a colinearidade extrema omitir a varivel colinear.
Deteco da Multicolinearidade
Existem regras prticas, algumas formais e outras informais:
1. Alto R2, porm poucas razes t significativas (em excesso de 0,8). Embora este
diagnstico seja sensato, sua desvantagem que ele muito forte por que a
multicolinearidade considerada prejudicial somente quando todas as influncias das
variveis explicativas sobre Y no podem ser separadas.
2. Altas correlaes dois a dois entre os regressores (em excesso de 0,8), ento a
multicolinearidade se constituem um srio problema. altas correlaes de ordem zero
so condio suficiente, mas no necessria, para existncia da multicolinaridade, pois
ela pode existir mesmo que as correlaes simples ou de ordem zero sejam relativamente
baixas (digamos, menores que 0,5).
Em modelos que envolvam mais de duas variveis explicativas, a correlao simples ou
de ordem no nos dar um indcio infalvel da presena de multicolinearidade.
Naturalmente, se houver somente duas variveis explicativas, as correlaes de ordem
zero sero suficientes.
3. Exames das correlaes parciais.
4. Regresses auxiliares como a multicolinearidade se manifesta porque um ou mais
regressores so combinaes lineares exactas ou aproximadas de outros regressores, um
meio de descobrir qual varivel X se relaciona com outras variveis X regredir cada X i
sobre as demais variveis e calcular o R2 correspondente, que designaremos por Ri2.
em vez de testar formalmente todos os R2 auxiliares, podemos adoptar a regra prtica de
Klein, que sugere que a multicolineraidade pode ser um problema incmodo somente se
o R2 obtido de uma regresso auxiliar for maior que o R2 Global, ou seja, o obtido de uma
regresso de Y sobre todos os regressores.
5. Autovalores e ndice de Condio
AutovalorMaximo
AutovalorMnimo
O ndice de Condio definido pela relao:

IC
AutovalorMximo
AutovalorMnimo
Regra prtica:
Se K estiver entre 100 e 1000, h multicolinearidade de moderada a forte; se exceder 100,
h multicolinearidade grave. Alternativamente se IC se situar entre 10 e 30, h
multicolinearidade de moderada a forte; se exceder 30, h multicolinearidade grave.
6. Tolerncia (TOL) e Factor Inflao da Varincia (FIV)
Var(j) =
2
1
*
2
x j 1 R2
2
* FIV j
Var(j) =
x 2j
Onde j o coeficiente de regresso (parcial) do X j, Rj2 R2 na regresso (auxiliares) de

Xj sobre os demais (k-2) regressores FIV o factor inflao da varincia. Regra prtica:
se o FIV de uma varivel exceder 10 (isto ocorrer se R 2j exceder 0,90), diz-se que essa
varivel altamente colinear.
Medida de Tolerncia (TOL)
TOLj = (1 R2j)
=(1/FIVj)
Claramente TOL = 1 se Xj no tem correlao com os outros regressores, enquanto ser
zero se Xj se relacionar perfeitamente co outros regressores.
Medidas Correctivas
Existem algumas regras prticas cujo sucesso depende da gravidade da colinearidade

existente:
1. Informao Priori
2. Combinando dados de corte e sries temporais. Exerccio 10.25
3. Eliminao de uma varivel (ou variveis) e vis de especificao: quando nos
deparamos com multicolinearidade grave, umas das coisas simples a fazer eliminar uma
das variveis colineares. Assim no exemplo de consumo-renda-riqueza, quando
suprimimos a varivel riqueza, obtemos uma regresso que mostra que, enquanto no
modelo original a varivel renda era estatisticamente insignificante, agora altamente
significativa.
Enquanto a multicolinearidade pode impedir a estimativa precisa dos parmetros do
modelo, omitir uma varivel pode nos enganar seriamente no que diz respeito aos
verdadeiros valores dos parmetros. Lembre-se que os estimadores de MQO so
BLUE apesar da quase-colinearidade.
4. Transformao das variveis
Se a relao Yt 1 2 X 2t 3 X 3t u t , for vlida no instante t, deve ser vlida tambm
no instante t-1, porque de qualquer forma a origem do tempo arbitrria. Logo temos:
Yt 1 1 2 X 2,t 1 3 X 3,t 1 u t 1 , se subtrairmos as duas equaes, obteremos:
Yt Yt 1 2 ( X 2 t X 2,t 1 ) 3 ( X 3t X 3,t 1 ) vt em que = ut ut-1. Esta equao
conhecida como forma de primeira diferena, porque rodamos a regresso no sobre as

variveis originais, mas sobre as diferenas dos sucessivos valores das variveis. Este
modelo pode no ser vivel em dados de corte.
5. Dados adicionais ou novos
A multicolinearidade uma caracterstica da amostra. Esporadicamente, simplesmente
aumentando-se o tamanho da amostra (se for possvel) pode-se atenuar o problema da
colinearidade.
Por
exemplo,
no
modelo
de
trs
variveis,
vimos
que
var( 2 )
2
, assim, conforme aumenta o tamanho da amostra, x 22i,
2
2
x
(
1
r
)
2i
23
geralmente aumentar.
Como exemplo considere a seguinte regresso de consumo Y sobre a renda X 2 e a riqueza
X3 com base em 10 observaes:
Yi 24,377 0,8716 X 2i 0,0349 X 3i
(3,875) (2,7726)
(-1,1595)
R2 = 0,9682
O coeficiente da riqueza nessa regresso no somente tem o sinal errado, como tambm
estatisticamente insignificante ao nvel de 5%. Mas quando aumenta-se o tamanho da
amostra para 40 observaes obtm-se os seguintes dados:
Yi 2,0907 0,7299 X 2i 0,0605 X 3i
T (0,8713) (6,0014)
(2,0014)
R2 = 0,9672
Agora o coeficiente de riqueza no somente tem o sinal correcto, como tambm

estatisticamente significativo em nvel de 5%.
6. Reduzindo a colinearidade nas regresses polinomiais
7. Tcnicas estatsticas multivariadas, como anlise factorial e componentes principais
Exerccios: Multicolinearidade
1. Em dados envolvendo sries temporais econmicas, como PNB, oferta Monetria,
preos,
renda,
desemprego,
etc,
geralmente
suspeitamos
da
presena
da
multicolinearidade. Por qu?

2. Suponha que no modelo Yt 1 2 X 2i 3 X 3i u i
R23, o coeficiente de correlao entre X2 e X3, seja zero. Por isso, algum sugere que voc
rode as seguintes regresses:
Yi 1 2 X 2i u1i
Yi 1 3 X 3i u 2i
a) 2 2 e 2 3 ? Por qu?
b) 1 igual a 1 ou 1 ou alguma combinao disso?

c)

var 2 var( 2 ) ou var 3 var( 3 )
3. Veja o exemplo ilustrativo do exerccio em que ajustamos a funo de Cobb-Douglas ao

sector industrial de Taiwan. Os resultados da regresso mostram que os coeficientes de
trabalho e de capital so, individualmente, estatisticamente significativos.
a. Verifique se as variveis trabalho e capital so altamente correlacionadas.
b. Caso a sua resposta em (a) seja afirmativa, voc suprimiria do modelo, digamos, a
varivel trabalho e regrediria a varivel produto somente sobre o capital?
c. Se voc fizer isso, que tipo de vis de especificao est cometendo? Descubra a
natureza deste vis.
4. Diga, expondo a razo, se os enunciados a seguir so verdadeiros, falsos, ou incertos:

a. Apesar da perfeita multicolinearidade, os estimadores de MQO so MELNV
(BLUE).
b. Nos casos de alta multicolinearidade, no possvel avaliar a significncia
individual de um ou mais coeficientes de regresso parcial
c. Se uma regresso auxiliar mostra que um determinado R2 alto, h uma clara
evidncia de alta colinearidade.
d. Correlao par a par alta no sugere que haja multicolinearidade alta
e. A multicolinearidade no prejudicial se o objectivo da anlise for somente a
previso do modelo.
f. Tudo o mais constante, quanto mais alto o FIV, maiores as varincias dos
estimadores de MQO.
g. A tolerncia (TOL) mede melhor a multicolinearidade do que o FIV.
h. Voc no obter um valor alto de R 2 em uma regresso mltipla se todos os
coeficientes de inclinao parcial forem, individualmente, estatisticamente
insignificantes segundo o teste t usual.
i. Na regresso de Y sobre X 2 e X3; suponha que haja pouca variabilidade nos
valores de X3: Isto aumenta a var (3).
5. Considere o seguinte modelo:
PNBt 1 2 M 3 M t 1 4 ( M t M t 1 ) u t
Em que PNBt = PNB no instante t, Mt = oferta monetria no instante t, Mt-1 = oferta

monetria no instante t-1 e (Mt - Mt-1) = variao na oferta monetria entre os instantes t e
t-1. Este modelo postula assim que o nvel do PNB na poca t uma da funo da oferta
monetria nos instantes t e t-1, bem como da variao na oferta monetria entre estes
perodos.
a) Supondo que voc tenha os dados para estimar o modelo anterior, voc
conseguiria estimar todos os coeficientes desse modelo? Justifique.
b) Em caso negativo, quais coeficientes podem ser estimados?
c) Suponha que o termo 3Mt-1 esteja ausente do Modelo. Sua resposta em a) seria a
mesma?
d) Repita c), supondo que o termo 2Mt, esteja ausente do modelo.
6. Com base nos dados anuais do sector industrial dos EUA no perodo 1899-1922,
Dougherty obteve os seguintes resultados de regresso:
log Y 2.81 0.53 log K 0.91 log L 0.047t
ep
(1.38) (0.34)
(0.14)
(0.021)
R2 = 0.97 F = 189.9
com Y = ndice do produto real, K = ndice do capital, L = ndice do trabalho real e t =

tempo ou tendncia.
Usando os mesmos dados, ele obteve tambm a seguinte regresso:
log Y / L 0.11 0.11 log( K / L) 0.06t
ep
(0.03) (0.15)
(0.006)
R2 = 0.65 F = 19.5
a) H multicolinearidade na regresso1)? Como voc sabe?

b) Na regresso 1), qual de principio o sinal do logK? Os resultados esto de acordo
com suas expectativas? Justifique
c) Como voc justificaria a forma funcional da regresso 1)?
d) Interprete a regresso 1. Qual o papel da varivel de tendncia nesta regresso?
e) Qual a lgica por trs da estimativa da regresso 2?
f) Se havia multicolinearidade na regresso 1, ela foi reduzida pela regresso 2?
Justifique.
7. Diga se as seguintes afirmaes so verdadeiras, falsas ou incertas, expondo

resumidamente o motivo:
a. Na presena de heteroscedasticidade, os estimadores de MQO so viesados e
ineficiente?
b. Se a heteroscedasticidade estiver presente, os testes F e t convencionais no tm
validade.
c. Na presena de heteroscedasticidade, o mtodo usual de MQO sempre
superestima os erros-padres dos estimadores;
d. No h um teste geral para heteroscedasticidade

Multicolinearidade: natureza, diagnóstico e medidas corretivas

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Multicolinearidade: natureza, diagnóstico e medidas corretivas

Uploaded by

Copyright:

Available Formats

Multicolinearidade

Qual a natureza da Multicolinearidade?

Sensibilidade dos estimadores de MQO e de seus erros padro a pequenas

No modelo 1 nenhum dos coeficientes de regresso , individualmente, significativo em nveis

Regression Statistics (Modelo 2)

O aumento do R Mltiplo no modelo 2 revela um aumento da multicolinearidade. Os erros

Os resultados do modelo de Regresso constam da tabela abaixo:

O exemplo dado evidencia uma amostra dramtica da presena de multicolinearidade. O facto do

O ndice de Condio definido pela relao:

Onde j o coeficiente de regresso (parcial) do X j, Rj2 R2 na regresso (auxiliares) de

Existem algumas regras prticas cujo sucesso depende da gravidade da colinearidade

Yt Yt 1 2 ( X 2 t X 2,t 1 ) 3 ( X 3t X 3,t 1 ) vt em que = ut ut-1. Esta equao

conhecida como forma de primeira diferena, porque rodamos a regresso no sobre as

Yi 24,377 0,8716 X 2i 0,0349 X 3i

Yi 2,0907 0,7299 X 2i 0,0605 X 3i

Agora o coeficiente de riqueza no somente tem o sinal correcto, como tambm

multicolinearidade. Por qu?

b) 1 igual a 1 ou 1 ou alguma combinao disso?

3. Veja o exemplo ilustrativo do exerccio em que ajustamos a funo de Cobb-Douglas ao

4. Diga, expondo a razo, se os enunciados a seguir so verdadeiros, falsos, ou incertos:

Em que PNBt = PNB no instante t, Mt = oferta monetria no instante t, Mt-1 = oferta

log Y 2.81 0.53 log K 0.91 log L 0.047t

com Y = ndice do produto real, K = ndice do capital, L = ndice do trabalho real e t =

log Y / L 0.11 0.11 log( K / L) 0.06t

a) H multicolinearidade na regresso1)? Como voc sabe?

7. Diga se as seguintes afirmaes so verdadeiras, falsas ou incertas, expondo

You might also like