You are on page 1of 32

Regresso Linear Simples

Prof. Carlos Amorim


Introduo
Uma das preocupaes estatsticas ao analisar
dados, a de criar modelos que explicitem
estruturas do fenmeno em observao.
O modelo de regresso um dos mtodos O modelo de regresso um dos mtodos
estatsticos mais usados para investigar a relao
entre variveis.
Anlise de regresso: metodologia estatstica que
estuda (modela) a relao entre duas ou mais
variveis.
Modelo de Regresso
Procurar estabelecer uma relao matemtica para
determinar o comportamento de uma varivel Y em
funo do comportamento de outras variveis X
1
, X
2
, X
3
,
... , X
n
, ou seja:
) ,..., , , (
3 2 1 n
X X X X f Y =
3 2 1 n
Varivel dependente
(explicada)
Variveis independentes
(explicativas)
Estabelecida essa equao matemtica, poderemos:
-Estimar os valores de Y para diferentes valores de X
1
, X
2
,..., X
n
;
-Explicarmos as oscilaes verificadas na varivel dependente em funo
das oscilaes verificadas na varivel independente.
Tipos de Modelos de Regresso
MODELO
DE
REGRESSO
REGRESSO
SIMPLES
REGRESSO
MLTIPLA
LINEAR LINEAR
NO
LINEAR
NO
LINEAR
Relao linear
A presena ou ausncia de relao linear pode
ser investigada sob dois pontos de vista:
Quantificando a fora dessa relao: Correlao.
Explicitando a forma dessa relao: Regresso.
Coeficiente de correlao
Y X
Y X
Y X COV

) , (
,
= 1 1
,
+
Y X

O coeficiente de correlao pode variar entre 1 (correlao O coeficiente de correlao pode variar entre 1 (correlao
negativa perfeita) e +1 (correlao positiva perfeita).
Valores negativos do coeficiente de correlao indicam
uma correlao do tipo inversa, isto , quando x aumenta y
diminui.
Valores positivos do coeficiente de correlao ocorrem
quando x e y variam no mesmo sentido, isto , quando x
aumenta y aumenta ou quando x diminui y tambm diminui.
Exemplo
Nota na prova de estatstica e Tempo de estudo.
Y: Nota na prova.
X: Tempo de estudo (horas por dia).
752038 , 0 =
Grfico de disperso
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6
Horas de estudo (X)
N
o
t
a

(
Y
)
752038 , 0
,
=
X Y

O objetivo encontrar
a relao que melhor
represente o
comportamento dos
pontos do diagrama de
disperso.
X Y
1 0
+ =
Modelo de Regresso Linear
Simples
i i i
e X Y + + =
1 0

Inclinao
populacional
Intercepto
populacional
Erro Aleatrio
Varivel Varivel
= Y
Estimado por X,
segundo uma funo
+
Efeito aleatrio
X
Y

1
Coeficiente
angular

0
+
1
X
Varivel
Independente
Varivel
Dependente
i
e
Modelo de Regresso Linear
Simples
i i i
e X Y + + =
1 0

Populao
i i i
e X Y


1 0
+ + =
Amostra aleatria
i i i 1 0
Objetivo:
Fazer inferncia sobre a funo de regresso populacional:
Com base na funo de regresso amostral:
i i i
e X Y + + =
1 0

i i i
e X Y

1 0
+ + =
Estimao dos parmetros
Y
Y

e
2

e
3

e
4

e
5

e
i i i
Y Y e

=
X
1 0

+
(erros ou resduos)
X
Y

e
Encontrar a melhor reta que se adapta ao diagrama de disperso. Isso
significa determinar os valores de e de , tal que os resduos ou
erros encontrados sejam os menores possveis.
0

( ) e
Para determinar os valores de e com essas caractersticas utilizado
o Mtodo dos Mnimos Quadrados Ordinrios (MQO).
0

Mtodo dos Mnimos Quadrados


Ordinrios (MQO)
O MQO escolhe e de tal forma que, para
uma dada amostra, o o menor possvel.
0

=
n
i
i
e
1
2

n
i
e
2

Min
i i i
X Y e
1 0

=
= i
i
e
1

1 0

,


Min
i i i
X Y e
1 0

=
0

0
1
2
=

n
i
i
e
0

1
1
2
=

n
i
i
e
,
X Y
1 0

=
( )

=
=

=
n
i
i
n
i
i i
X X
Y X n Y X
1
2
1
1

ou

=
=
=
n
i
i
n
i
i i
x
y x
1
2
1
1

( ) X X x
i i
=
( ) Y Y y
i i
=
,
Interpretao dos parmetros
Intercepto - valor esperado para a varivel
dependente quando igual a zero;
0

i
Y
i
X
Coeficiente angular - variao esperada na
varivel dependente, quando a varivel
independente aumenta uma unidade.
1

Estimao dos parmetros


EX:
Y (Consumo) X (Renda)
70 80
65 100
90 120
Diagrama de dispero
150
200
C
o
n
s
u
m
o
X Y
1 0

+ =
a) Calcule e
90 120
95 140
110 160
115 180
120 200
140 220
155 240
150 260
0
50
100
0 50 100 150 200 250 300
Renda
C
o
n
s
u
m
o
0

b) Qual a previso de consumo de uma


famlia que tem renda de 170 ?
Estimao dos parmetros
EX1:
Diagrama de dispero
100
150
200
C
o
n
s
u
m
o
X Y 509 , 0 47 , 24

+ =
0
50
100
0 50 100 150 200 250 300
Renda
C
o
n
s
u
m
o
47 , 24

0
=
509 , 0

1
=
Um aumento de um
real na renda provoca
um aumento, em
mdia, de 0,50
centavos no consumo.
a)
b)
X Y 509 , 0 47 , 24

+ =
( ) 170 509 , 0 47 , 24

+ = Y
111

= Y
Propriedades dos estimadores
Hipteses:
i. Para cada valor de , o erro , tem mdia zero e
varincia constante
ii. Se , , isto , para duas
i
X
i
e
.
2
e

j i
0 ) , ( =
j i
e e COV ii. Se , , isto , para duas
observaes distintas, os erros so no
correlacionados.
iii. Os erros so v.a. com distribuio normal:
0 ) , ( =
j i
e e COV
i
e
). , 0 ( ~
2
e i
N e
Propriedades dos estimadores
Valor esperado e varincia:
)

( = E

=
=
n
i
i
X
V
1
2
2
)

(
Para o estimador :

1 1
)

( = E
0 0
)

( = E
( )

=

=
n
i
i
e
X X
V
1
2
2
1
)

( )

=
=

=
n
i
i
i
e
X X n
V
1
2
1
2
0
)

(
Para o estimador :

Propriedades dos estimadores


Distribuies Amostrais dos Estimadores dos
Parmetros:
) , 0 ( ~
2
e i
N e
i i i
e X Y + + =
1 0

onde:
) , ( ~
2
1 0 e i i
X N Y +

=
=
=
n
i
i
n
i
i i
x
y x
1
2
1
1

=
=
=
n
i
i
n
i
i i
x
Y x
1
2
1
,
1

=
=
n
i
i i
Y k

=
=
n
i
i
i
i
x
x
k
1
2
Como uma funo linear de
1

i
Y tem distribuio normal.
1

Como uma funo linear de


0

tem distribuio normal.


0

Propriedades dos estimadores


Distribuies Amostrais dos Estimadores dos
Parmetros:
( )
|
|
|
|

|
n
e
N
2
1 1
, ~



( )
|
|
|
|

=
n
n
i
i e
X
N
1
2 2
0 0
, ~


e
( )
|
|
|

=
n
i
i
X X
N
1
2
1 1
, ~


( )
|
|
|

=
n
i
i
X X n
N
1
2
0 0
, ~

e
Os resultados acima permitem concluir que:
( ) ( ) 1 , 0 ~

2
1 1
N X X
i
e

( )
( ) 1 , 0 ~

2
2
0 0
N
X
X X n
i
i
e


e
Intervalo de Confiana
Dado que desconhecido. Utilizaremos o estimador
2
e
.
2
e

k n
e
i
e

=

2
2

onde:
: k n
: k
Nmero de parmetros estimados.
k n
: k n

2
i
e
Nmero de graus de liberdade.
Soma do quadrado dos resduos (SQR).
( ) ~

2
1 1

X X
i
e


) 2 ( n
t
: 2 = k Para
( )
( ) 2
2
2
0 0
~

n
i
i
e
t
X
X X n


Intervalo de Confiana
:

Para
1
(nvel de confiana)
( )


=
(

2
1 1
b X X b P
i
e
( ) ( )


=
(
(
(

1 1
b b
P
inf
L
sup
L
( ) ( )

=
(
(
(

2
1 1
2
X X X X
P
i
e
i
( ) ( )

=
(
(
(

2
1 1
2
1
X X
b
X X
b P
i
e
i
e
( )

2
1

X X
b
i
e

( )
(
(
(

2
1

X X
b
i
e

,
: IC
( ) ) 1 (
) 2 (
=

b t b P
n
onde:
Intervalo de Confiana
Ex2:
Para os dados do exemplo 1 construir um intervalo de
confiana para (propenso marginal a consumir) com nvel
de confiana de 95%.
( )

2
1

X X
b
i
e

( )
(
(
(

2
1

X X
b
i
e

,
: IC
1

( )

X X
i
( )
(

X X
i
( ) ) 1 (
) 2 (
=

b t b P
n
onde:
509 , 0

1
=
k n
e
i
e

=

2
2


k n
X Y
i i


=

2
2 1
)

(
2 10
273 , 337

= 1591 , 42 = = = 1591 , 42
e
493006 , 6


33000
493006 , 6
306 , 2 509 , 0
(

(
+
33000
493006 , 6
306 , 2 509 , 0 ,
: IC
( ) % 95
) 8 (
= b t b P 306 , 2 = b
| 42657 , 0 | 59142 , 0
,
: IC
Teste de hipteses
1) Estabelecer as hipteses:
*
1 1 0
: = H
*
1 1 1
: H
2) Fixar o nvel de significncia e identificar a varivel do
teste:
. Nvel de significncia =
( )
~

1
1 1

( ) 2 n
t
Estatstica teste:
( )

=

=
n
i
i
e
X X
V
1
2
2
1

)


onde:
Considerando k = 2.
Teste de hipteses
3) Determinar a regio crtica (RC) com o auxlio da
tabela t.
2 /
2 /
( ) 2 n
t
4) Calcular o valor da varivel do teste:
Regio Crtica
c
t
t
0
2 /
2 /
c
t
,
( )
1
1 1


V
t
cal

=
( )

=

=
n
i
i
e
X X
V
1
2
2
1

)

Teste de hipteses
5) Concluses:
c cal c
t t t Se , no se pode rejeitar
.
0
H
c cal
t t < Se ou , rejeita-se
.
0
H
c cal
t t >
c cal
0
c cal
Teste de hipteses
Ex3:
Considerando os dados do exemplo 1, teste, ao
nvel de significncia de 5%, a hiptese de que a
propenso marginal a consumir da populao 0,3,
contra a hiptese alternativa de que diferente de 0,3. contra a hiptese alternativa de que diferente de 0,3.
Teste de hipteses
Ex3:
1)
2)
% 5 =
4)
33000
1591 , 42
3 , 0 509 , 0
=
cal
t
8473 , 5 =
3 , 0 :
1 0
= H
3 , 0 :
1 1
H
3)
% 5 =
Estatstica teste:
c
t
t 0
% 5 , 2 % 5 , 2
c
t
% 95 ) ( = < <
c c
t t t P 306 , 2 =
c
t
33000
5)
Como ento rejeitamos, ao
nvel de significncia de 5%, a hiptese
nula, em favor da hiptese alternativa.
Isso significa que a propenso marginal
a consumir da populao diferente de
0,3.
306 , 2 8473 , 5 >
( )
( ) 2
1
1 1
~

n
t
V

( ) 8
t
( )

=

=
n
i
i
e
X X
V
1
2
2
1

)

33000
1591 , 42
=
Coeficiente de determinao (R
2
)
uma medida resumida que diz quanto a linha
de regresso amostral se ajusta aos dados.
Mede a proporo da variao na varivel Mede a proporo da variao na varivel
dependente que explicada pela regresso.
Assume valores entre: 1 0
2
R
Coeficiente de determinao (R
2
)
Y
i
e

X Y
1 0

+ =
FRA
Y
i
i
Y

Y
( ) Y Y
i

Variao
total
( ) Y Y
i

Variao devido a
regresso
X
X
i
Y
Variao
total
Variao devido
a regresso
= +
Variao devido a
foras aleatrias
Coeficiente de determinao (R
2
)
A variao total dos valores observados de Y
dada pela soma dos desvios ao quadrado:
( )
2

=
n
i
Y Y SQT (Soma dos quadrados total)
A soma dos quadrados devido a regresso
(devido (s) varivel(is) explicativa(s)):
( )
1

=
=
i
i
Y Y SQT
( )
2
1

=
=
n
i
i
Y Y SQE
(Soma dos quadrados explicados)
Coeficiente de determinao (R
2
)
A soma dos quadrados dos resduos (ou no
explicada):

=
n
i
e SQR
2

= i
i
1
SQR SQE SQT + =
Portanto:
Coeficiente de determinao (R
2
)
SQT
SQE
R =
2
ou
( )
( )

=
2
2

Y Y
Y Y
i
i

SQT
SQR
R =1
2
( )

=
2
2

1
Y Y
e
i
i
Mede a proporo ou percentual da variao total de Y
explicada pelo modelo de regresso.
Coeficiente de determinao (R
2
)
Ex4:
Considerando os dados do exemplo 1,
calcule o coeficiente de determinao.
SQR
273 , 337
SQT
SQR
R =1
2

=
=
n
i
i
e SQR
1
2

273 , 337 =
( )
2
1

=
=
n
i
i
Y Y SQT
8890 =
8890
273 , 337
1 = 962 , 0 =
Cerca de 96% da variao nas
despesas de consumo so
explicadas pela renda.
Obs: O coeficiente de correlao , pode
ser calculado por:
Y X ,

2
,
R
Y X
=
962 , 0
,
=
Y X
9808 , 0 =
As duas variveis tem uma alta correlao
positiva.

You might also like