Professional Documents
Culture Documents
Multicolinearidade
Uma das hipteses do MCRL que no h multicolinearidade entre os regressores includos no
modelo de regresso.
1.
2.
3.
4.
5.
Natureza da Multicolinearidade
O termo multicolinearidae foi cunhado por Ragnar Frisch (1934) e significava originalmente a
existncia de uma perfeita! (ou exacta) relao linear entre algumas ou todas as variveis
explicativas de um modelo de regresso. Hoje o termo multicolinearidade usado em um sentido
mais amplo, para incluir o caso da perfeita multicolinearidade, bem como o caso em que as
variveis X so intercorrelacionados, mas no perfeitamente.
Quando variveis independentes em uma anlise de regresso mltipla se encontram altamente
correlacionadas umas com as outras, os coeficientes de regresso parcial perdem a sua
confiabilidade em termos de significado. De modo similar, o significado prtico dos coeficientes
de correlao parcial pode ser questionado. possvel que o coeficiente de correlao parcial
para uma dada varivel independente se apresenta como gradativamente negativo, muito embora
a correlao simples seja altamente positive. Em geral, deve se ter cuidado ao interpretar
coeficientes de regresso parcial e de correlao parcial, quando existirem duas variveis
independentes que estejam altamente correlacionadas, positive ou negativamente, uma com a
outra.
Em modelos de regresso mltipla, quando as variveis preditoras no esto correlacionadas, o
efeito atribudo a cada uma delas o mesmo, independentemente do nmero de variveis que o
modelo apresente.
A contribuio marginal para a reduo da soma dos quadrados da regresso de uma das
preditoras quando a outra est no modelo a mesma quando ela aparece sozinha no modelo.
Em modelos de regresso com duas ou mais variveis explicativas usual que tais variveis
apresentem algum tipo de interdependncia. Essa relao de interdependncia chamada de
multicolinearidade.
A regresso mltipla visa entre outras coisas estabelecer a importncia relativa e a magnitude do
efeito das variveis preditoras sobre a varivel dependente, identificar preditoras que deveriam
ser eliminadas do modelo e apontar a necessidade de incluso de variveis preditoras ainda no
participantes do modelo. Na ausncia de multicolinearidade esses objectivos podem ser
alcanados.
O ponto de de partida:
Quando existe a multicolinearidade severa?
1. O conjunto de variveis independentes for totalmente independente os coeficientes da
regresso no podero ser estimados
Quando isso acontece, podemos afirmar que a multicolinearidade severa e o modelo deve ser
revisto.
A multicolinearidade implica que as variveis preditoras esto linearmente relacionadas, o
problema implica que a alta correlao entre as variveis preditoras, mas isso nem sempre
ocorre.
A presena de multicolinearidade severa faz com os coeficientes no reflictam nenhum efeito
particular da varivel explicativa na regressora, pois o coeficiente estar contaminado pelo efeito
de outras variveis e somente um efeito parcial lhe poder ser atribudo.
A variabilidade amostral dos coeficientes grande gerando grandes mudanas na magnitude de
1 por conta de pequenas mudanas nos dados, {} ter valores elevados e crescer na medida
em que novos preditores forem includos.
Quanto ao exame da estatstica:
Diagnstico da Multicolinearidade:
1 - Quando um conjunto referente s variveis preditoras significante, ao passo que
individualmente no.
Ex:
1) Quanto ao exame da estatstica F da regresso altamente significante, mas o valor
da estatstica t no.
Como sabemos F mede a relao de regresso do conjunto de regressores contra a
varivel dependente, enquanto que t mede a contribuio de uma nica varivel
explicativa.
Alm disso, um R2 alto tambm favorece esse diagnstico.
2) Quanto ao factor de inflao da varincia (VIF) tambm utilizado para medir a
multicolinearidade:
n 1 2k 5 ln_ det
6
Modelo 2
X2
X3
X2
X3
12
12
16
16
SUMMARY OUTPUT
(Modelo 1)
Regression Statistics
Multiple R
R Square
Adjusted R Square
Standard Error
0.900067748
0.810121951
0.620243902
0.974366586
Observations
ANOVA
df
Regression
Residual
2
2
SS
8.101219512
1.898780488
Total
10
Coefficients
1.193902439
0.446341463
Standard Error
0.773678855
0.184810424
t Stat
1.543149889
2.415131425
P-value
0.262764835
0.137060016
0.00304878
0.085065893
0.035840222
0.97466527
Intercept
x2
x3
SUMMARY OUTPUT
(Modelo 2)
Regression Statistics
MS
4.050609756
0.949390244
F
4.266538215
Multiple R
R Square
Adjusted R Square
Standard Error
0.902399205
0.814324324
0.628648649
0.963523938
Observations
ANOVA
df
Regression
Residual
2
2
SS
8.143243243
1.856756757
MS
4.071621622
0.928378378
F
4.38573508
Total
10
Intercept
X2
Coefficients
1.210810811
0.401351351
Standard
Error
0.748021496
0.272064987
t Stat
1.618684514
1.475203978
P-value
0.246931182
0.278128264
X3
0.027027027
0.125228061
0.215822451
0.849137143
ANOVA
df
Regression
Residual
1
3
SS
12.20338983
27.79661017
MS
12.20338983
9.265536723
F
1.317073171
Total
40
Intercept
Coefficients
2.271186441
Standard
Error
2.030364161
t Stat
1.118610387
P-value
0.344803701
X3
0.254237288
0.221530892
1.147638084
0.334339092
ANOVA
df
Regression
Residual
1
3
SS
27.45762712
12.54237288
MS
27.457627
4.180791
F
6.567567568
Total
40
Intercept
Coefficients
1.406779661
Standard
Error
1.363853978
t Stat
1.0314738
P-value
0.378191608
X3
0.381355932
0.148808669
2.5627266
0.083016775
X2,
US$
80
100
120
140
160
180
200
220
240
260
X3,
US$
810
1009
1273
1425
1633
1876
2052
2201
2435
2686
10
ANOVA
Regression
Residual
df
2
7
SS
8565.554074
324.4459263
Total
8890
MS
4282.777
46.349418
F
92.401959
Intercept
X2, US$
Coefficients
24.77473327
0.941537342
Standard
Error
6.7524996
0.822898263
t Stat
3.6689722
1.1441722
P-value
0.0079751
0.2901647
X3, US$
-0.04243453
0.080664483
-0.5260621
0.6150945
A regresso mostra que a renda e riqueza, juntas explicam cerca de 96,35% da variao no
consumo, no entanto, nenhum dos coeficientes de inclinao , individualmente, estatisticamente
significativo. Alm disso, a varivel riqueza no s estatisticamente insignificante, como
tambm tem um sinal errado. A priori, esperaramos uma relao positiva entre consumo e
riqueza. Embora 2 e 3 estimado individualmente sejam estatisticamente insignificantes, se
testarmos a hiptese 2 = 3 = 0 simultaneamente, essa hiptese pode ser rejeitada como mostra o
quadro acima. O F observado igual a 92,4019. Este valor altamente significativo.
Alm desta abordagem podemos construir os intervalos de confiana para 2 e 3. Cada intervalo
individual de estimado contm o valor zero. Podemos no rejeitar a hiptese ( 2 = 3 = 0). As
duas inclinaes parciais so zero.
10
ANOVA
Regression
Residual
df
1
8
SS
3427202.727
7123.272727
MS
3427202.727
890.4090909
F
3849.0204
Total
3434326
Intercept
Coefficients
7.545454545
Standard
Error
29.47581069
t Stat
0.255988024
P-value
0.8044195
X2, US$
10.19090909
0.164262271
62.04047363
5.065E-12
De acordo com a tabela, existe uma quase perfeita colinearidade entre X 3 e X2. Se calcularmos Y
sobre X2 obtm-se os seguintes resultados:
SUMMARY OUTPUT
Regression Statistics
Multiple R
0.980847369
R Square
0.96206156
Adjusted R
Square
0.957319256
Standard Error
6.493003227
Observations
10
ANOVA
Regression
Residual
df
1
8
SS
8552.727273
337.2727273
MS
8552.727273
42.15909091
F
202.8679245
Total
8890
Intercept
Coefficients
24.45454545
Standard
Error
6.413817299
t Stat
3.812791091
P-value
0.005142172
X2, US$
0.509090909
0.035742806
14.24317115
5.75275E-07
A varivel renda era estatisticamente insignificante, enquanto agora altamente significativa. Se,
em vez de calcularmos a regresso de Y sobre X2, regredimos sobre X3, obteremos:
SUMMARY OUTPUT
Regression Statistics
Multiple R
0.978099708
R Square
0.956679039
Adjusted R
Square
0.951263919
Standard Error
6.93832963
Observations
10
ANOVA
df
Regression
Residual
1
8
SS
8504.876656
385.1233444
MS
8504.876656
48.14041805
F
176.66811
Total
8890
Intercept
Coefficients
24.41104485
Standard
Error
6.87409684
t Stat
3.551163944
P-value
0.0074967
X3, US$
0.049763767
0.003743986
13.29165564
9.802E-07
Note que nas duas tabelas sobre regresses de Y sobre os X`s mostram claramente que, em
situaes de multicolinearidade extrema, omitir uma varivel altamente colinear muitas vezes
tornar a outra varivel X estatisticamente significativa. Este resultado sugeriria que uma sada
para a colinearidade extrema omitir a varivel colinear.
Deteco da Multicolinearidade
Existem regras prticas, algumas formais e outras informais:
1. Alto R2, porm poucas razes t significativas (em excesso de 0,8). Embora este
diagnstico seja sensato, sua desvantagem que ele muito forte por que a
multicolinearidade considerada prejudicial somente quando todas as influncias das
variveis explicativas sobre Y no podem ser separadas.
2. Altas correlaes dois a dois entre os regressores (em excesso de 0,8), ento a
multicolinearidade se constituem um srio problema. altas correlaes de ordem zero
so condio suficiente, mas no necessria, para existncia da multicolinaridade, pois
ela pode existir mesmo que as correlaes simples ou de ordem zero sejam relativamente
baixas (digamos, menores que 0,5).
Em modelos que envolvam mais de duas variveis explicativas, a correlao simples ou
de ordem no nos dar um indcio infalvel da presena de multicolinearidade.
Naturalmente, se houver somente duas variveis explicativas, as correlaes de ordem
zero sero suficientes.
3. Exames das correlaes parciais.
4. Regresses auxiliares como a multicolinearidade se manifesta porque um ou mais
regressores so combinaes lineares exactas ou aproximadas de outros regressores, um
meio de descobrir qual varivel X se relaciona com outras variveis X regredir cada X i
sobre as demais variveis e calcular o R2 correspondente, que designaremos por Ri2.
em vez de testar formalmente todos os R2 auxiliares, podemos adoptar a regra prtica de
Klein, que sugere que a multicolineraidade pode ser um problema incmodo somente se
o R2 obtido de uma regresso auxiliar for maior que o R2 Global, ou seja, o obtido de uma
regresso de Y sobre todos os regressores.
5. Autovalores e ndice de Condio
AutovalorMaximo
AutovalorMnimo
AutovalorMximo
AutovalorMnimo
Regra prtica:
Se K estiver entre 100 e 1000, h multicolinearidade de moderada a forte; se exceder 100,
h multicolinearidade grave. Alternativamente se IC se situar entre 10 e 30, h
multicolinearidade de moderada a forte; se exceder 30, h multicolinearidade grave.
6. Tolerncia (TOL) e Factor Inflao da Varincia (FIV)
Var(j) =
2
1
*
2
x j 1 R2
2
* FIV j
Var(j) =
x 2j
Por
exemplo,
no
modelo
de
trs
variveis,
vimos
que
var( 2 )
2
, assim, conforme aumenta o tamanho da amostra, x 22i,
2
2
x
(
1
r
)
2i
23
geralmente aumentar.
Como exemplo considere a seguinte regresso de consumo Y sobre a renda X 2 e a riqueza
X3 com base em 10 observaes:
(3,875) (2,7726)
(-1,1595)
R2 = 0,9682
O coeficiente da riqueza nessa regresso no somente tem o sinal errado, como tambm
estatisticamente insignificante ao nvel de 5%. Mas quando aumenta-se o tamanho da
amostra para 40 observaes obtm-se os seguintes dados:
T (0,8713) (6,0014)
(2,0014)
R2 = 0,9672
Exerccios: Multicolinearidade
1. Em dados envolvendo sries temporais econmicas, como PNB, oferta Monetria,
preos,
renda,
desemprego,
etc,
geralmente
suspeitamos
da
presena
da
a) 2 2 e 2 3 ? Por qu?
var 2 var( 2 ) ou var 3 var( 3 )
a) Supondo que voc tenha os dados para estimar o modelo anterior, voc
conseguiria estimar todos os coeficientes desse modelo? Justifique.
b) Em caso negativo, quais coeficientes podem ser estimados?
c) Suponha que o termo 3Mt-1 esteja ausente do Modelo. Sua resposta em a) seria a
mesma?
d) Repita c), supondo que o termo 2Mt, esteja ausente do modelo.
6. Com base nos dados anuais do sector industrial dos EUA no perodo 1899-1922,
Dougherty obteve os seguintes resultados de regresso:
ep
(1.38) (0.34)
(0.14)
(0.021)
R2 = 0.97 F = 189.9
ep
(0.03) (0.15)
(0.006)
R2 = 0.65 F = 19.5