You are on page 1of 18

REGRESSO LINEAR SIMPLES exemplo usando o SPSS

O sucesso de um programa de investimento em papis de outros pases depende, em grande parte, do controle do risco soberano dos pases constantes no portflio. Um meio de se avaliar o risco atravs da taxa de juros praticada pelo pas. Uma amostra de 40 pases forneceu os valores anualizados das taxas de risco e de juros praticadas em 1997. Analise os dados atravs de um modelo de regresso linear simples construdo para se estimar o risco soberano esperado do pas em funo da taxa de juros por ele praticada.

Soluo Neste caso voc deve fazer a regresso linear, pois se deseja explicar uma varivel quantitativa (taxa de risco) por meio de outra varivel quantitativa (taxa de juros). A varivel que voc quer explicar chama-se varivel dependente, ou varivel explicada (tambm chamada de resposta ou endgena) - Y. A outra conhecida como varivel independente, ou explicativa (ou exgena) - X. Ento, a primeira coisa a ser feita nesse tipo de problema identificar quem a varivel Y (dependente - aquela que voc quer prever, estimar) e quem a varivel X (aquela que ir ajudar voc a estimar a varivel Y).

Aps digitar os dados, ou abrir o arquivo que contm os dados, no SPSS, deve-se rodar a regresso.

www.alphaquant.com.br
contato@alphaquant.com.br

COMO RODAR A REGRESSO LINEAR SIMPLES NO SPSS

Primeiramente deve-se selecionar ANALYZE REGRESSION LINEAR

Como temos apenas uma varivel independente (X), a regresso linear simples. Na prxima tela selecionamos a varivel dependente (Y = taxa de risco) e a varivel independente (X = taxa de juros).

O mtodo selecionado ser o Enter.

www.alphaquant.com.br
contato@alphaquant.com.br

Aps isto, seleciona-se STATISTICS. Como a regresso SIMPLES, seleciona-se apenas os itens: "estimates","confidence intervals", "model fit", "descriptives" e "casewise diagnostics". Obs.: quando o "casewise diagnostics" for selecionado, aparecer: "Outliers outside 3 standards deviations". Deixe assim. Isso quer dizer que os resduos que estiverem acima ou abaixo de 3 desvios padres sero considerados outliers.

Aps isto selecione CONTINUE. Selecione ento a tecla PLOTS. Aqui sero feitos os grficos utilizados para verificar a existncia de outlier (ou valor influente), e tambm verificar as premissas do modelo.

www.alphaquant.com.br
contato@alphaquant.com.br

Selecione para Y o "ZRESID". Ele corresponde ao resduo padronizado. Para a varivel X selecione "ZPRED". Este o valor de Y estimado padronizado. Selecione NORMAL PROBABILITY PLOT. Este grfico tambm conhecido como PPPlot e ser utilizado para testar a premissa da Normalidade. Aps isto, selecione CONTINUE. Selecione ento a tecla SAVE. Quando selecionamos qualquer item no SAVE, o SPSS ir salvar na base de dados (Data view) os valores correspondentes aos itens que forem selecionados.

www.alphaquant.com.br
contato@alphaquant.com.br

O "Cook's" a distncia de Cook e ser utilizada para se verificar a existncia de valores influentes. Caso seja prximo ou maior do que 1, ser um valor influente. Isso significa dizer que existe uma (ou mais) observao que influencia o modelo. Caso essa observao seja retirada, os valores dos coeficientes sero alterados, o modelo ser todo alterado. O "Leverage value" funciona da mesma forma. O "Studentized delected" ir sinalizar a existncia de um outlier. Para isso seria necessrio ter a tabela t de Student. Aps isto selecione CONTINUE e depois OK. Obs.: no mexa no boto OPTIONS. A regresso linear simples ser realizada. O prximo passo analisar o seu resultado.

www.alphaquant.com.br
contato@alphaquant.com.br

COMO ANALISAR O RESULTADO DA REGRESSO LINEAR SIMPLES Sero apresentados aqui todos os quadros que foram gerados pelo SPSS. Aps cada quadro mencionada a utilidade dele. E, em itlico e azul, feita a anlise estatstica. Regression
Descriptive Statistics Mean 32,4700 63,2750 St d. Dev iation 15,3355 22,1824 N 40 40

Taxa de Risco Taxa de Juros

Este quadro apresenta a mdia e o desvio padro de cada varivel. Quanto maior for o desvio padro em relao mdia, mais dispersa ser a distribuio da varivel, dificultando a sua estimao (varivel Y). E tambm, caso a varivel X possua disperso alta, isto ir resultar em uma regresso com estimativas no to boas, se compararmos com uma regresso na qual a varivel X possui baixa disperso. Devemos, ento, calcular o CV (coeficiente de variao). O CV calculado dividindo-se o desvio padro pela mdia. Caso o CV seja maior do que 50%, sugerimos alterao na varivel. Essa alterao pode ser o logartimo ou a raiz quadrada da varivel. Com isso, a varivel ficar menos dispersa e o resultado da regresso ser melhor, ou seja, estaremos estimando Y mais eficientemente. Para este nosso exemplo, teremos: Varivel Y - taxa de risco CV = 15,3 / 32,4 = 0,47 Varivel X - taxa de juros CV = 22,1 / 63,2 = 0,34 Como os coeficientes de variao da varivel Y e da varivel X so menores do que 50%, considera-se que ambas as variveis no possuem disperso alta. Dessa forma, no se sugere transformao nas variveis.
www.alphaquant.com.br
contato@alphaquant.com.br

Correlati ons Taxa de Risco 1,000 -,578 , ,000 40 40 Taxa de Juros -,578 1,000 ,000 , 40 40

Pearson Correlation Sig. (1-tailed) N

Taxa de Risco Taxa de Juros Taxa de Risco Taxa de Juros Taxa de Risco Taxa de Juros

Esta tabela apresenta as correlaes (de Pearson) entre as variveis. Como se trata de uma regresso simples, s apresentado o coeficiente de correlao entre X e Y. O valor do coeficiente de correlao mede a fora da relao entre duas variveis. O sinal indica se essa relao diretamente proporcional (sinal positivo) ou inversamente proporcional (sinal negativo). Quanto mais prximo de 1 (ou de -1), maior ser a relao linear entre duas variveis. Costuma-se considerar que a relao alta, quando o coeficiente de correlao est acima de 0,7 ou 0,8, (ou abaixo de -0,7 ou -0,8). Quando queremos avaliar se o coeficiente de correlao e alto ou baixo, desconsideramos o sinal. Neste caso, temos: O coeficiente de correlao entre as variveis Taxa de Risco e Taxa de Juros igual a -0,578. Isso indica que a relao entre essas duas variveis inversa, uma vez que o sinal negativo. Com isso, se a Taxa de Juros subir, a Taxa de Risco ir cair e vice-versa. Alm disso, considera-se uma relao linear fraca entre as variveis Taxa de Risco e Taxa de Juros, pois o valor de 0,578 (o mdulo de -0,578) bem inferior a 0,7.

www.alphaquant.com.br
contato@alphaquant.com.br

b Variabl es Entered/Removed

Model 1

Variables Entered Taxa de a Juros

Variables Remov ed ,

Method Enter

a. All requested v ariables entered. b. Dependent Variable: Taxa de Risco

Este quadro apresenta o mtodo que foi utilizado para a seleo das variveis no modelo. Como a regresso simples, o mtodo foi o Enter (o que o SPSS coloca como padro). Com isso, a Variables Entered, apenas a Taxa de Juros (X). No fazemos anlises deste quadro.

Model Summaryb Adjusted R Square ,317 St d. Error of the Estimate 12,6777

Model 1

R ,578a

R Square ,334

a. Predictors: (Constant), Taxa de Juros b. Dependent Variable: Taxa de Risco

Este quadro aparece quando voc seleciona Model Fit no quadro Statistics. Ele apresenta o coeficiente de correlao (R), em mdulo (ou seja, desconsidera o sinal). A anlise desse coeficiente j foi feita acima, no quadro Correlations.

Na segunda coluna apresentado o R Square. R Square = R2 coeficiente de determinao. Ele fornece a capacidade preditiva do modelo. Diz qual a proporo da variao total que explicada pela relao entre X e Y.

0 R2 1
O valor do R2 uma das medidas para se escolher o melhor modelo (na regresso simples).
www.alphaquant.com.br
contato@alphaquant.com.br

Quanto mais prximo de 1 melhor. Acima de 0,70 j est bom. No nosso exemplo Pode-se dizer que 33,4% da variao total explicada pela relao entre Taxa de Juros e Taxa de Risco. Esse coeficiente de determinao de 33,4% indica que o modelo possui uma baixa capacidade preditiva.

A terceira coluna apresenta do R ajustado. Neste caso no iremos analis-lo, pois ele s til na Regresso Linear Mltipla (quando temos mais de um X).

A quarta coluna apresenta o Std Error of the Estimate. Ele o desvio padro do modelo, e usado para compararmos diversos modelos e escolhermos o melhor (o que possuir menor desvio padro). O desvio padro do modelo a raiz quadrada da varincia residual do modelo (Mean Square Residual). A unidade dele a mesma unidade de Y. No nosso exemplo O desvio padro do modelo igual a 12,67 %. Obs.: a unidade das variveis X e Y % (taxa em %).

www.alphaquant.com.br
contato@alphaquant.com.br

ANOVAb Sum of Squares 3064,405 6107,519 9171,924

Model 1

df 1 38 39

Regression Residual Total

Mean Square 3064,405 160,724

F 19,066

Sig. ,000a

a. Predictors: (Const ant), Taxa de Juros b. Dependent Variable: Taxa de Risco

Neste quadro iremos fazer o teste F. o teste do modelo. Com ele vamos testar se o modelo completo (com a varivel X) melhor do que o modelo reduzido (s com beta zero). O teste F tenta avaliar a importncia relativa dos resduos devido entrada da nova varivel, sobre os resduos da regresso sem esta varivel. Este teste mais til no caso de regresso mltipla, quando se pretende escolher as variveis que no conjunto melhoram o modelo. Quanto maior for o valor de F, maior ser a evidncia da incluso da varivel X no modelo.

Procedimento para o teste F (na regresso simples): H0: Y = 0 + H1: Y = 0 + 1X + Testamos aqui o modelo reduzido (H0) contra o modelo completo (H1). O alpha no ser divido por dois, pois a curva do F s tem uma cauda, ele ser sempre positivo. Compara-se o Sig. (valor-p) com o valor de alpha. Caso o Sig seja menor do que alpha, rejeita-se H0 e conclui-se que o modelo completo (com a varivel independente) melhor do que o modelo reduzido (que s contm a mdia). Caso contrrio, no se rejeita H0, com de significncia, e diz-se que o modelo reduzido melhor do que o modelo completo.

www.alphaquant.com.br
contato@alphaquant.com.br

10

No nosso exemplo Teste F - teste do modelo H0: Y = 0 + H1: Y = 0 + 1X + Nvel de significncia (alpha) = 5% Sig = 0,000 Como Sig menor que o nvel de significncia (alpha), rejeita-se H0 e conclui-se que o modelo completo (o que contm a varivel independente, a varivel Taxa de Juros) melhor do que o modelo reduzido (o que no contm a varivel Taxa de Juros (X)). Em outras palavras: existe relao linear entre X e Y. Outra informao: A varincia residual do modelo igual a 160,72%2.

a Coeffi ci ents

Model 1

(Constant) Taxa de Juros

Unstandardized Coef f icients B St d. Error 57,755 6,128 -,400 ,092

St andardi zed Coef f icien ts Beta -,578

t 9,425 -4,366

Sig. ,000 ,000

95% Conf idence Interv al f or B Lower Bound Upper Bound 45,350 70,160 -,585 -,214

a. Dependent Variable: Taxa de Risco

Esse quadro fornece os coeficientes (beta zero e beta1), com isso, podemos montar o modelo. Temos que olhar para os "Unstandardized Coefficients". So apresentados, tambm, os intervalos de confiana. No podemos esquecer-nos de fazer o teste t (teste do coeficiente).

www.alphaquant.com.br
contato@alphaquant.com.br

11

Faremos, ento: Varivel X - Taxa de Juros Teste t para Beta 1 - teste do coeficiente H0: 1 = 0 H1: 1 0

= 0,05
Como Sig (da varivel Taxa de Juros, referente ao coeficiente beta 1) igual a 0,000, ou seja, menor do que alpha (0,05), rejeita-se H0 e conclui-se que h evidncia de relao linear entre a Taxa de Juros (X) e a Taxa de Risco (Y).

O modelo linear ser: = 57,75 - 0,4 (X)

Interpretao do modelo: Beta zero = 57,75 Se a Taxa de Juros (X) for igual a zero, a Taxa de Risco ser igual a 57,75 %. Beta 1 = -0,4 A cada unidade adicional na varivel Taxa de Juros (X), a varivel Taxa de Risco (Y) diminui em 0,4. (Mesmo no fazendo sentido economicamente falando, uma vez que a relao est inversa, o modelo este. Talvez o problema esteja no conjunto de pases da amostra).

Quanto ao intervalo de confiana, podemos dizer que existe 95% de confiana verdadeiro beta 1 (o beta 1 da populao) pertencer ao intervalo [-0,58 ; -0,21].

www.alphaquant.com.br
contato@alphaquant.com.br

12

a Casewi se Di agnostics

Case Number 1

St d. Residual 3,309

Taxa de Risco 87,00

Predicted Value 45,0476

Residual 41,9524

a. Dependent Variable: Taxa de Risco

Este quadro aparecer quando for diagnosticado algum caso de possvel outlier (ou valor influente). Se o resduo padronizado estiver acima de 3 desvios (tanto positivo quanto negativo), a observao ser uma candidata a outlier. Ela poder ser outlier ou valor influente. No exemplo O primeiro pas (case 1) possui o resduo padronizado acima de 3. Portanto, ele um candidato a outlier.

a Residual s Stati stics

Predicted Value St d. Predicted Value St andard Error of Predicted Value Adjusted Predict ed Value Residual St d. Residual St ud. Residual Delet ed Residual St ud. Deleted Residual Mahal. Distance Cook's Distance Centered Lev erage Value

Minimum 19,9124 -1,417 2,0069 19,5241 -26,7283 -2,108 -2,187 -28,7676 -2,308 ,002 ,000 ,000

Maximum 47,9647 1,748 4,0756 49,6233 41,9524 3,309 3,444 45,4337 4,097 3,056 ,492 ,078

Mean 32,4700 ,000 2,7719 32,4840 -1,20E-15 ,000 -,001 -1,40E-02 ,020 ,975 ,037 ,025

St d. Dev iation 8,8642 1,000 ,6013 8,9571 12,5141 ,987 1,022 13,4149 1,107 ,850 ,092 ,022

N 40 40 40 40 40 40 40 40 40 40 40 40

a. Dependent Variable: Taxa de Risco

Neste quadro olharemos para o "Std Residual". Se este for menor que -3 ou maior do que 3, existem candidatos a outlier ou valor influente. Para isso vamos ver a Cook's Distance, se o Maximum estiver maior de 1 porque existe alguma (ou algumas) observaes que so valores influentes. Neste caso iremos

www.alphaquant.com.br
contato@alphaquant.com.br

13

at a base de dados (Data view), e na coluna "Coo_1" iremos procurar quem (ou quem so) essa observao. No caso estudado as observaes so pases. Se caso o Maximun estiver menor do que 1 porque no existem valores influentes. Logo, a observao que estiver excedendo 3 desvios padres ser considerada outlier.

No exemplo Como a distncia de Cook (Cook's Distance) mxima menor do que 1, o pas Argentina, que possui resduo padronizado acima de 3 desvios, no considerado valor influente, mas sim um outlier. Sugere-se que essa observao seja retirada do banco de dados e que a regresso linear seja rodada novamente. Com isso, iremos comparar os resultados das duas regresses (com esta observao e sem ela) e ser muito provvel que os resultados melhorem (desvio padro do modelo diminua e o R2 aumente).

Resta-nos verificarmos as premissas do modelo!!! So cinco as premissas a serem verificadas e faremos isso com o auxlio dos grficos abaixo.

Charts
Norm P Plot of Regression Standardized Residual al -P Dependent Variable: Taxa de Risco
1, 00

, 75

Expected Cum Prob

, 50

, 25

0, 00 0, 00 , 25 , 50 , 75 1, 00

Observ ed Cum Prob

www.alphaquant.com.br
contato@alphaquant.com.br

14

Scatterplot Dependent Variable: Taxa de Risco


4

Regression Standardized Residual

3 2 1 0 -1 -2 -3 -1,5 -1,0 -,5 0,0 ,5 1,0 1,5 2,0

Regression Standardized Predicted Value

Premissas bsicas do modelo: Devem ser verificadas para assegurar a adequabilidade do modelo. So elas: 1. Linearidade 2. i ~ Normal - Normalidade 3. E(i) = 0 4. 2(i) constante Homocedasticidade 5. cov(i, j) = 0 Independncia

www.alphaquant.com.br
contato@alphaquant.com.br

15

A primeira a premissa de linearidade. Pode ser verificada pelo teste F. Se rejeitar H0 porque existe relao linear, ento, a premissa foi satisfeita. Outra forma de verificar usando o grfico dos resduos (Regression Standardized Residuals) versus valores ajustados, no qual os pontos devem estar distribudos de forma aleatria (totalmente sem formas definidas). Caso eles estejam em forma de parbola, a premissa estaria sendo violada, ento, deve-se incluir uma varivel quadrtica (X2) no modelo, ou buscar novas formas de relao. A segunda premissa a da normalidade (distribuio Normal). Deve-se observar o grfico chamado P-P Plot. Caso as observaes estejam na reta ou prximas da reta diagonal, aceitamos a normalidade. Essa premissa fundamental, pois toda inferncia feita com base nas distribuies (t, F) que vm da Normal. Se a Normal for violada, os testes que sero feitos no iro servir pra nada. Se no tiver normalidade, no pode-se testar os parmetros, realizar o modelo. A quarta premissa a de homocedasticidade, que o mesmo que dizer que a varincia dos erros constante. Caso no seja, deve-se usar o mtodo dos mnimos quadrados ponderados. Essa premissa ser observada no grfico dos resduos (na vertical) versus valores ajustados (na horizontal). Se os pontos estiverem em forma de buzina porque existe problema e essa premissa est sendo violada. A premissa da independncia dos erros pode ser observada no mesmo grfico dos resduos versus valores ajustados. Se os pontos estiverem distribudos aleatoriamente (sem formas) porque no h problema. Mas caso eles estejam distribudos como retas paralelas, a premissa estar sendo violada. Esse problema ocorre mais em sries temporais.

www.alphaquant.com.br
contato@alphaquant.com.br

16

No nosso exemplo: Premissas bsicas: 1. 2. 3. 4. 5. Linearidade Normalidade E(i) = 0 Homocedasticidade Independncia

A premissa da linearidade foi verificada por meio do teste F. Como rejeitou-se H0, concluiu-se que existe relao linear entre X e Y; Por meio do grfico P-P Plot, verificou-se a premissa da Normalidade. Como os pontos esto bem prximos da linha diagonal (de probabilidade acumulada), a premissa da Normalidade foi satisfeita. A homocedasticidade (varincia dos erros constante) foi verificada atravs do Scattreplot (Valores preditos X Resduos padronizados). Como os pontos no formaram a figura de um gramofone (buzina), a premissa da homocedasticidade foi satisfeita. A independncia dos erros foi verificada atravs do Scatterplot (Valores preditos X Resduos padronizados). Como os pontos no formaram linhas paralelas, a premissa da independncia foi satisfeita.

................

Ao realizar a regresso linear, constatou-se que existe uma relao linear significativa entre as variveis Y (Taxa de Risco) e X (Taxa de Juros), para a amostra estudada. Dessa forma, podemos estimar a Taxa de Risco a partir da Taxa de Juros, atravs do modelo de regresso linear = 57,75 - 0,4 X ou = 57,75 - 0,4 (Taxa de Juros)
www.alphaquant.com.br
contato@alphaquant.com.br

17

Base de dados
Pas
Argentina Turquia Brasil Taiwan Portugal Mxico Venezuela Nigria Grcia Filipinas Zimbbue Hong Kong Chile Colmbia Korea ndia Norway Itlia Tailndia Austrlia Malsia Singapura ustria Nova Zelndia Finlndia Japo Espanha Sucia Paquisto Frana Ireland Alemanha Blgica Reino Unido Dinamarca Suia Canad Netherlands Jordan EUA

Taxa de Risco (%)


87,0 74,1 64,8 53,7 47,5 46,3 46,0 41,4 39,6 38,4 35,6 34,3 31,6 31,5 30,7 30,0 28,3 28,0 27,0 26,9 26,7 26,4 26,3 26,3 26,1 25,7 24,8 24,5 24,4 23,8 23,4 23,0 22,0 21,8 20,6 19,6 19,2 18,5 17,6 15,4

Taxa de Juros (%)


31,8 32,6 36,2 72,9 56,7 43,3 45,0 30,6 51,9 29,6 24,5 69,6 38,6 44,4 62,2 46,6 83,0 75,5 55,8 78,2 64,4 77,6 83,8 68,9 76,0 94,5 70,8 79,5 26,4 85,3 66,4 93,4 78,4 87,6 72,6 94,7 87,1 87,6 33,6 93,4

www.alphaquant.com.br
contato@alphaquant.com.br

18

You might also like