You are on page 1of 36

E

s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/1
2011 Verlag Dashfer
CAPTULO 14
Regresso
Introduo
Regresso linear simples
Regresso linear mltipla
Regresso no-linear
Problemas

E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/2
2011 Verlag Dashfer
A REGRESSO uma das tcnicas estatsticas mais potentes
e de utilizao mais frequente.

Existem diversos tipos de regresso:

Regresso linear simples
Regresso linear mltipla
Regresso no linear

E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/3
2011 Verlag Dashfer
REGRESSO LINEAR SIMPLES

Um modelo de regresso linear simples descreve uma relao linear entre
duas variveis quantitativas: X, independente e Y, dependente.
( ) ' ( ' )
n n n n n n
Y X X E Y X E X o | o | o o | = + + = + + =
( ) ( ) , sima observao de , ( 1, , )
, Parmetros fixos a estimar
Erro aleatrio associado
n n
n n
X Y n X Y n N
E A Y
o |
=

Aos valores observados X


n
no esto associados quaisquer erros,
devendo ser encarados como constantes.

Os erros considerados no modelo de regresso linear simples incidem
sobre os valores observados de Y.
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/4
2011 Verlag Dashfer
Na teoria da regresso admitem-se as seguintes hipteses sobre os erros:
) , 0 (
2
o IN E
n
1. Valor esperado nulo e varincia constante
2. Erros mutuamente independentes
3. Erros normalmente distribudos
ou seja,
Se as hipteses se verificarem, os valores de Y
n
so independentes e seguem
distribuies normais:
( )
2
,o
n
Y n
IN Y
( ) X X
n Y
n
+ = | o com
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/5
2011 Verlag Dashfer
Uma vez que os valores X
n
so constantes, ento,
X
e X = | o o'
so tambm constantes.
A figura seguinte ilustra o significado de e ' o o
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/6
2011 Verlag Dashfer
Os parmetros do modelo podem ser estimados pelo MTODO DOS
MNIMOS QUADRADOS.

Os ESTIMADORES vm dados por:
( ) { }
2
2
1 1
N N
n n n
n n
MIN SEQ E Y X X o |
= =
( = = +

( ) ( )
( )
1
1
2
1
1
N
n
n
N
n n
n XY
N
XX
n
n
A Y Y
N
X X Y Y
S
B
S
X X
=
=
=

= =

= =

1
1

N
n
n
XY
XX
a y y
N
s
b
s
o
|
=
= = =
= =

A partir de um conjunto particular de observaes (x


n
, y
n
) podem obter-se
as ESTIMATIVAS seguintes:
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/7
2011 Verlag Dashfer
Note-se que, como se ilustra na figura seguinte, a recta estimada passa
sempre pelo ponto
) , ( Y X
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/8
2011 Verlag Dashfer
Se a relao entre X
n
e
Yn
for efectivamente linear e os erros forem
independentes, tiverem valor esperado nulo e varincia constante, podem
demonstrar-se trs importantes resultados:
( ) ( )
( ) ( )
2
2
, 0
, 0
XX
Var A Cov A B N
Cov B A Var B S
o
o
( (
=
( (

De Cov(A,B)= 0, conclui-se que A e B no so correlacionados, o que no
acontece com A e B, uma vez que o funo de |.
Deste facto resulta a vantagem do modelo
( )
n n n
E X X Y + + = | o sobre
n n n
E X Y + + = | o
'
1. A e B so estimadores no-enviesados, eficientes e consistentes

2. A matriz de varincia-covarincia dos estimadores
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/9
2011 Verlag Dashfer
( ) | |
2
1 1
2 2
2
1

2
1

= =

=
N
n
N
n
n n n
X X B A Y
N
E
N
S
3. Um estimador no-enviesado de o
2
dado por
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/10
2011 Verlag Dashfer
82 ) ( ) (
40 ) (
30
10
5
2

= =
= =
=
=
=
n
n n XY
n
n XX
y y x x s
x x s
y
x
N
EXEMPLO (p. 351, livro de texto)

Admitindo que a relao entre as variveis X e Y linear, pretende-se
estimar os parmetros do modelo de regresso correspondente.
n x
n
y
n

1 12 33
2 8 24
3 14 39
4 10 31
5 6 23

05 . 2
30
= =
= =
XX XY
s s b
y a
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/11
2011 Verlag Dashfer
n y
n
) ( x x b a
n Y
n
+ =
n
y n n
y e =
1 33 30 + 2.052 = 34.1 33 34.1 =1.1
2 24 30 + 2.05(2) = 25.9 24 25.9 =1.9
3 39 30 + 2.054 = 38.2 39 38.2 = 0.8
4 31 30 + 2.050 = 30.0 31 30.0 = 1.0
5 23 30 + 2.05(4) = 21.8 23 21.8 = 1.2

2 2
2 2
0.527
0.0658
A
B XX
s N
s s
o
o
= =
= =

=
=

= =
N
n
n
e
N
s
1
2 2 2
63 . 2
2
1
o
EXEMPLO (continuao)
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/12
2011 Verlag Dashfer
Se E
n
IN(0,o
2
), possvel especificar as distribuies dos
estimadores de o, | e o
2
:
( )
2
2
,

N
t
N S
A
N N A
o
o o
( ) B X A A t
S
X
N
S
A
S
X
N
N A
N
XX
XX
=
+

|
|
.
|

\
|

|
|
.
|

\
|
+

'
1
' ' 1
, ' '
2
2
2
2
o
o o

( )
2
2
,

N
XX
XX
t
S S
B
S N B
|
o |
( )
2
2 2
2
2


N
S
N _
o

A partir destas expresses possvel definir INTERVALOS DE
CONFIANA e TESTES DE HIPTESES.
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/13
2011 Verlag Dashfer
INTERVALOS DE CONFIANA PARA OS PARMETROS DE REGRESSO
( ) 18 . 3 2 05 . 0
3
= t
EXEMPLO (continuao, p. 352. livro de texto)
( ) N S t A
N
1 2 :
2


o
( ) ( )
XX N
S X N S t B X A
2
2
1 2 : ' +

o
( )
XX N
S S t B 1 2 :
2


|
| | 87 . 2 , 23 . 1 40 1 63 . 2 18 . 3 05 . 2 : |
( ) | | 95 . 17 , 05 . 1 40 10 5 1 63 . 2 18 . 3 05 . 2 10 30 : '
2
+ o
| | 31 . 32 , 69 . 27 5 1 63 . 2 18 . 3 30 : o
Os INTERVALOS DE CONFIANA BILATERAIS a (1- ) . 100% vm
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/14
2011 Verlag Dashfer
TESTES DE HIPTESES PARA OS PARMETROS DE REGRESSO
Os testes de hipteses relativos aos parmetros podem ser realizados
recorrendo aos intervalos de confiana. Alternativamente, os testes podem
ser efectuados pelo mtodo clssico:
0 0
0
0 2
2
1 0 0 0
: ' '
'
Verdadeira :
: ' ' , ' ' , ' '
1
N
XX
H
A X B
H ET t
H
X
S
N S
o o
o
o o o o o o

=

=
`
= > <
)
+
0 0
0
0 2
1 0 0 0
:
Verdadeira:
: , ,
N
XX
H
B
H ET t
H S S
| |
|
| | | | | |

=

=
`
= > <
)
0 0
0
0 2
1 0 0 0
:
Verdadeira:
: , ,
N
H
A
H ET t
H S N
o o
o
o o o o o o

=

=
`
= > <
)
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/15
2011 Verlag Dashfer
Quando se pretende realizar um TESTE BILATERAL hiptese nula H
0
: | = 0,
pode recorrer-se a um procedimento baseado na ANOVA:
( ) ( ) { } ( ) { }
2 2
2 2
2
. Total . Devido regresso . Residual
YY
XX YY XX
n n n n
n n n
V V V
VT S
VDR B S VR S B S
Y Y A B X X Y Y A B X X
=
= =
( ( = + + +


E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/16
2011 Verlag Dashfer
TABELA ANOVA PARA O MODELO DE REGRESSO LINEAR SIMPLES
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/17
2011 Verlag Dashfer
0
0 1, 2
1
: 0
Verdadeira:
: 0
N
H
DQMDR
H ET F
H DQMR
|
|

=

=
`
=
)
O procedimento de teste ANOVA tem a seguinte estrutura:
EXEMPLO (continuao)
Retomando o exemplo que vem sendo acompanhado e admitindo que a
relao entre as variveis X e Y linear, pretende-se efectuar um teste
bilateral sobre a hiptese nula de que | = 0.
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/18
2011 Verlag Dashfer
EXEMPLO (continuao)
0
1
: 0
: 0
H
H
|
|
=
=
Estrutura do teste (a conduzir com o = 5%)
| |
0
Intervalo de confiana para : 2.05 3.18 2.63 1 40 1.23, 2.87
Intervalo exclui o valor zero Rejeitada H
|

Teste a conduzir RECORRENDO AO INTERVALO DE CONFIANA


bilateral a 95% para |
( ) ( )
3 0
2.05
7.99 0.05 2 3.18 Rejeitada 0.41%
1.62 40
ET t H p = = > = =
Teste conduzido segundo o MTODO CLSSICO
0
0 2
Verdadeira:
N
XX
B
H ET t
S S
|

=
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/19
2011 Verlag Dashfer
EXEMPLO (continuao)
Teste ANOVA
( ) ( )
1,3 0
168.1
63.84 0.05 10.13 Rejeitada 0.41%
2.633
ET F H p = = > = =
0 1, 2
Verdadeira:
N
DQMDR
H ET F
DQMR

=
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/20
2011 Verlag Dashfer
PREVISES COM BASE NO MODELO DE REGRESSO
LINEAR SIMPLES
( ) X X B A Y
Y
+ = =

( ) | | ( ) | | X X B A E X X Y Y + + + = = | o o

( )
( )
2
2
1

( ) ( ) 1
XX
X X
Var Var Y Var Y
N S
o o
(

( = + = + +
(

O erro que se comete na previso vem
X X E , , | o Dado que cada novo valor de Y se admite independente dos anteriores,
so constantes e A e B so independentes, a varincia do erro de previso vem:
Para cada valor de X, a melhor previso
de Y dada por
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/21
2011 Verlag Dashfer
( )
( )
XX
N
S
X X
N
S t Y
2
2
1
1 2


+ +


Admitindo a normalidade dos erros, E
n
, ento seguem tambm
distribuies normais.

Assim, o INTERVALO DE PREVISO A (1 )
.
100% dado por

, e Y Y o
Para o valor particular t
N-2
(/2)=1, a banda vem definida por:
Quando se consideram todos os valores possveis de X, os intervalos
formam uma BANDA DE PREVISO.
( )
XX
S
X X
N
S Y
2
1
1


+ + (banda C)
Note-se que, para outro valor de , ou seja, da qualidade desejvel das
previses, a banda teria uma forma global idntica quela que acabou de
ser definida (designada por C), a menos de uma constante, t(/2)
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/22
2011 Verlag Dashfer
1

Banda : 1 B Y S
N
+
Banda A Tem apenas a ver com a estimativa do desvio-padro do erro E

Banda B Acrescenta, relativamente banda A, o termo correspondente ao
erro de estimao de o
Banda C Acrescenta, relativamente banda B, o termo correspondente ao
erro de estimao de |

Banda : 1 A Y S
( )
2
1

Banda : 1
XX
X X
C Y S
N S

+ +
Para interpretar o significado desta banda de previso, definir-se-o
duas outras bandas A e B:
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/23
2011 Verlag Dashfer
Uma relao que parea linear dentro da gama de valores observados X
n
,
pode ter um comportamento no-linear numa gama mais alargada.

Apesar de a banda de previso definida alargar medida que as
observaes se afastam da mdia de X, esta no contempla esse tipo de
situaes, assentando no pressuposto de que a relao
efectivamente linear.
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/24
2011 Verlag Dashfer
REGRESSO LINEAR SIMPLES E CORRELAO ENTRE VARIVEIS


Embora a ANLISE DE CORRELAO seja uma tcnica menos potente do
que a REGRESSO LINEAR SIMPLES, pois apenas revela o grau de
relacionamento linear entre variveis sem especificar a forma que ele assume,
ambas ESTO INTIMAMENTE LIGADAS.


Na REGRESSO LINEAR SIMPLES, os valores observados de X so
encarados como constantes, podendo no ser representativos de uma qualquer
distribuio populacional.


Na ANLISE DE CORRELAO, para que a partir do coeficiente de correlao
amostral se possam fazer inferncias relativas ao coeficiente de correlao
populacional, preciso que as observaes (X
n
,Y
n
) sejam representativas da
populao conjunta de X E Y.
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/25
2011 Verlag Dashfer
Se os valores X
n
no forem obrigatoriamente representativos da populao de X,
podem situar-se numa zona restrita dessa populao, podendo provocar
ENVIESAMENTO DO COEFICIENTE DE CORRELAO AMOSTRAL.
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/26
2011 Verlag Dashfer
Na ANLISE DE CORRELAO no se faz qualquer distino
entre varivel dependente e varivel independente.

A existncia de correlao implica que:

X causa de Y, ou

Y causa de X, ou ainda

Uma outra varivel causa simultnea de X e Y
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/27
2011 Verlag Dashfer
NO CONTEXTO DA REGRESSO, pode calcular-se a questo do
sentido que far, calcular o coeficiente de correlao amostral R
XY
Se X for claramente assumida como VARIVEL PR-DETERMINADA,
o clculo do quadrado do coeficiente de correlao amostral, o
COEFICIENTE DE DETERMINAO, representa a proporo da
variao de Y que explicada pela regresso.
( )
( )
2
2
2
2
2
Variao de explicada pela regresso
Variao total de
n
n XX
XY
YY
n
n
B X X
B S Y
R
S Y
Y Y

= = =

E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/28
2011 Verlag Dashfer
O MODELO DE REGRESSO LINEAR MLTIPLA descreve uma relao entre um
conjunto de variveis quantitativas independentes X
j
(j = 1,2,...,J), e uma
varivel, Y, quantitativa dependente.
n J Jn J n n
E X X X X Y + + + + = ) ( ) (
1 1 1
| | o
) , , , (
1 n Jn n
Y X X n-sima observao das variveis X
1
,...,X
J
E Y
j
X Mdia das observaes da varivel X
j

J
| | o , , ,
1
Parmetros fixos a estimar
n
E Erro aleatrio associado a Y
n
REGRESSO LINEAR MLTIPLA
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/29
2011 Verlag Dashfer
E
n
IN (0,o
2
)
A este modelo esto subjacentes as seguintes hipteses:

1. Os valores X
jn
so encarados como constantes pr-
determinadas, sem erro

2. Os erros E
n
so mutuamente independentes, tm valor
esperado nulo, varincia constante e so normalmente
distribudos.
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/30
2011 Verlag Dashfer
Os parmetros podem ser estimados recorrendo ao
MTODO DOS MNIMOS QUADRADOS minimizando a seguinte
funo:
J
| | o , , ,
1

| | { }
2
1 1 1
2
) ( ) (

+ + + = =
n
J Jn J n n
n
n
X X X X Y E SEQ | | o
0 )] ( ) ( [ ) 2 (
1 1 1
= =
J Jn J n
n
n
X X X X Y
SEQ
| | o
co
c
0 )] ( ) ( [ ) ( ) 2 ( } {
1 1 1 1 1
1
= =
J Jn J n
n
n n
X X X X Y X X
SEQ
| | o
c|
c
0 )] ( ) ( [ ) ( ) 2 ( } {
1 1 1
= =
J Jn J n
n
n J Jn
J
X X X X Y X X
SEQ
| | o
c|
c
(...)
Sendo o mnimo atingido para:
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/31
2011 Verlag Dashfer
A primeira equao permite obter o ESTIMADOR DE o, que idntico ao que foi
definido para o modelo de regresso linear simples:
Y Y
N
A
n
n
= =

1
Desenvolvendo as restantes equaes, obtm-se o seguinte sistema cuja
resoluo permite obter os ESTIMADORES DE |
1
,..., |
J
.
Y X X X J X X X X
Y X X X J X X X X
Y X X X J X X X X
J J J J J
J
J
S S B S B S B
S S B S B S B
S S B S B S B
= + + +
= + + +
= + + +

2 1
2 2 2 2 1 2
1 1 2 1 1 1
2 1
2 1
2 1
) (
) ( ) (
2 2 1 1
2 1
j n j j n j
n
X X
X X X X S
j j
=

onde
) ( ) ( Y Y X X S
n j jn
n
Y X
j
=

E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/32
2011 Verlag Dashfer
1
2
1
1 1 1
1
1
1 1 1
0
0
0 0
) ( ) , ( ) , (
) , ( ) ( ) , (
) , ( ) , ( ) (

(
(
(
(
(

=
(
(
(
(

J J J
J
X X X X
X X X X
J J J
J
J
S S
S S
N
B Var B B Cov A B Cov
B B Cov B Var A B Cov
B A Cov B A Cov A Var

o
1. Os estimadores A e B
1
,...,B
J
so no-enviesados e, eficientes e
consistentes

2. A matriz de varincia-covarincia dos estimadores A e B
1
,...B
J

dada por
Se a relao entre as variveis X
j
e
Y
for linear e se os erros E
n
forem
independentes, tiverem valor esperado nulo e varincia constante, podem
demonstrar-se os seguintes resultados:
3. Um estimador no-enviesado de o
2
definido pela expresso:
2
1 1 1
2 2
)] .( ) .( [
1
1

1
1
J Jn J
n
n n
n
X X B X X B A Y
J N
E
J N
S


=
=

=

E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/33
2011 Verlag Dashfer
EXEMPLO (p. 364, livro de texto)

Considerem-se as observaes das variveis X
1
, X
2
e Y que constam da tabela
e, admitindo que o valor esperado de Y uma funo linear de X
1
e X
2
,
estimem-se os parmetros do modelo de regresso correspondente.
n
x
1n
x
2n
y
n

1 5.0 7.2 51.7
2 5.8 7.8 56.4
3 4.2 8.1 49.3
4 6.0 8.7 60.7
5 4.8 6.6 48.9
6 5.6 7.5 54.1
7 4.4 9.0 54.9
8 5.2 6.3 49.8
9 5.4 8.4 57.9
10 4.6 6.9 50.4

E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/34
2011 Verlag Dashfer
EXEMPLO (continuao)
45 . 0 ) 65 . 7 9 . 6 ( ) 1 . 5 6 . 4 ( ) 65 . 7 2 . 7 ( ) 1 . 5 0 . 5 ( ) ( ) (
2 2 1 1
1 2 2 1
= + + = = =

i
i i x x x x
x x x x S S
67 . 15 ) 41 . 53 4 . 50 ( ) 1 . 5 6 . 4 ( ) 41 . 53 7 . 51 ( ) 1 . 5 0 . 5 ( ) ( ) (
1 1
1
= + + = =

i
i i y x
y y x x S
16 . 24 ) 41 . 53 4 . 50 ( ) 65 . 7 9 . 6 ( ) 41 . 53 7 . 51 ( ) 65 . 7 2 . 7 ( ) ( ) (
2 2
2
= + + = =

i
i i y x
y y x x S
19 . 147 ) 41 . 53 4 . 50 ( ) 41 . 53 7 . 51 ( ) (
2 2 2
= + + = =

i
i y y
y y S
10 . 5 ) 6 . 4 8 . 5 0 . 5 (
10
1
1
= + + + = x
10 = N
65 . 7 ) 9 . 6 8 . 7 2 . 7 (
10
1
2
= + + + = x
41 . 53 ) 4 . 50 4 . 56 7 . 51 (
10
1
= + + + = y
3 . 3 ) 1 . 5 6 . 4 ( ) 1 . 5 0 . 5 ( ) (
2 2 2
1 1
1 1
= + + = =

i
i x x
x x S
42 . 7 ) 65 . 7 9 . 6 ( ) 65 . 7 2 . 7 ( ) (
2 2 2
2 2
2 2
= + + = =

i
i x x
x x S
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/35
2011 Verlag Dashfer
As estimativas dos parmetros de regresso podem ento obter-se
nos seguintes termos:
41 . 53 = = = y a o

= +
= +

16 . 24 42 . 7 45 . 0
67 . 15 45 . 0 3 . 3
2 1
2 1
b b
b b

= =
= =

99 . 2

34 . 4

2 2
1 1
|
|
b
b

= +
= +
Y X X X X X
Y X X X X X
S S b S b
S S b S b
2 2 2 1 2
1 2 1 1 1
2 1
2 1
EXEMPLO (continuao)
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/36
2011 Verlag Dashfer
) ( ) (
2 2 2 1 1 1
x x b x x b a
i i Y
i
+ + = A partir de
pode calcular-se
n
yn
Yn


Yn i i
y e =

1 51.7 51.630 0.070
2 56.4 56.897 -0.497
3 49.3 50.850 -1.550
4 60.7 60.458 0.242
5 48.9 48.967 -0.067
6 54.1 55.132 -1.032
7 54.9 54.410 0.490
8 49.8 49.306 -0.006
9 57.9 56.956 0.944
10 50.4 48.996 1.404

EXEMPLO (continuao)
983 . 0 ] 404 . 1 07 . 0 [
1 2 10
1

1
1

2 2 2 2 2
= + +

=

= =

n
n
e
J N
s o
1
2 2 1 2
2 1 1 1 2
2
^
1 2
^
2 1
^
1
^

) ( ) , (
) , ( ) (

(

=
(
(

x x x x
x x x x
S S
S S
B Var B B Cov
B B Cov B Var
o
(

=
133 . 0 018 . 0
018 . 0 300 . 0
1
42 . 7 45 . 0
45 . 0 30 . 3
983 . 0
548 . 0 300 . 0 ) (
1
1
^
= =
B
B Var o 365 . 0 133 . 0 ) (
2
2
^
= =
B
B Var o
090 . 0
365 . 0 548 . 0
018 . 0
018 . 0 ) , (
2 1
, 2 1
^
=

= =
B B
B B Cov
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/37
2011 Verlag Dashfer
onde Var(B
1
),...,Var(B
J
) so definidos a partir da matriz varincia-covarincia.
Se , possvel especificar as distribuies dos
estimadores A e B
1
,...,B
J

) , 0 (
2
o IN E
n
..............
A N (o, o
2
/N)
B
1
N [|
1
,Var(B
1
)]
B
J
N [|
J
,Var(B
J
)]
Por outro lado, tambm pode demonstrar-se que:
2
1 2
2
) 1 (


J N
S
J N _
o
1
/

J N
t
N S
A o
1
) (

J N
J
J J
t
B r a V
B |
1
1
1 1
) (

J N
t
B r a V
B |
Nestas condies, registam-se as seguintes distribuies:
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/38
2011 Verlag Dashfer
A partir das expresses anteriores possvel definir INTERVALOS DE
CONFIANA e TESTES DE HIPTESES envolvendo os parmetros de
regresso.
INTERVALOS DE CONFIANA:
N S t A
J N
/ 1 ) 2 / ( :
1


o
) ( ) 2 / ( :
1 j J N j j
B r a V t B

|
Note que, os intervalos assim definidos esto correctamente especificados
quando considerados individualmente. No entanto, o nvel de confiana
para o conjunto dos intervalos definidos para A e B
j
(j =1,..., J) , de
facto, diferente do considerado.
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/39
2011 Verlag Dashfer
TESTE DE HIPTESES:
O teste relativo ao parmetro o ser:
H
0
: o = o
0

H
1
: o = o
0
, o < o
0
ou

o > o
0
N S
A
ET
/
0
o
=
H
0
verdadeira
ET
1 J N
t
Relativamente aos parmetros |
j
dever primeiro ser testada a hiptese de
que todos eles so nulos contra a hiptese de que pelo menos um deles
diferente de zero.

Tal teste ser realizado recorrendo tcnica de anlise de varincia que se
fundamente na seguinte decomposio:

) (
2
1 1 1
2
1 1 1
2
1
1
1
1
)] .( ) .( [
] ) .( ) .( [ ) (
Y
J
X J Y X YY
Y
J
X J Y X YY
S B S B S VR
J Jn J
n
n n
S B S B VDR
J Jn J
n
n
S VT
n
n
X X B X X B A Y
Y X X B X X B A Y Y
+ + =
+ + = =
+
+ + + + =


E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/40
2011 Verlag Dashfer
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/38
Na TABELA ANOVA referente regresso linear mltipla adopta-se esta
decomposio.
Dela decorre a estrutura do TESTE ANOVA:
H
0
: |
1
= |
2
=....= |
J
=0
H
1
: algum |
j
= 0
DQMR
DQMDR
ET =
H
0
verdadeira
ET
1 , J N J
F
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/41
2011 Verlag Dashfer
Utilizando os dados do exemplo anterior, testem-se as hipteses

H
0
: B
1
= B
2
= ... = B
J
= 0
H
1
: algum B
J
0.
EXEMPLO (continuao)
>
2, 7
70.15
71.34 ( 0.05) 4.74
0.983
ET F o = = = =
H
0
rejeitada ao nvel de significncia de 5% (com um valor de
prova quase nulo)
A tabela correspondente vem:
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/42
2011 Verlag Dashfer
Quando a hiptese nula rejeitada necessrio verificar quais os |
j
que so
diferentes de zero. Uma via possvel consiste na realizao dos seguintes testes
individuais aos parmetros.
H
0
: |
j
=0
H
1
: |
j
= 0, |
j
> 0 ou |
j
< 0,
) (
j
j
B r a V
ET
|
=
O problema associado realizao destes testes reside no facto de o nvel de
significncia do conjunto dos testes ser diferente daquele que foi especificado
(para cada um).
H
0
verdadeira
1 J N
t
ET
Das expresses anteriores relativas aos estimadores de |
j
decorre a seguinte
estrutura de testes:
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/43
2011 Verlag Dashfer
EXEMPLO (continuao)
1
7
^
1
0
4.34
7.92 (0.025) 2.365
0.548
( )
Rejeitada (com valor de prova quase nulo)
b
ET t
Var B
H
= = = > =
2
7
^
2
0
2.99
8.19 (0.025) 2.365
0.365
( )
Rejeitada (com valor de prova quase nulo)
b
ET t
Var B
H
= = = > =
H
0
: |
1
= 0
H
1
: |
1
0
H
0
: |
1
= 0
H
1
: |
1
0
Dado que b
1
= 4.34 e , para o = 5% vem 548 . 0
1
=
B
o
Dado que b
2
= 2.99 e , para o = 5% vem
1
0.365
B
o =
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/44
2011 Verlag Dashfer
No modelo de regresso mltipla admitiu-se que as variveis
independentes (os regressores) eram designadas partida.

Na maioria das situaes prticas no possvel especificar partida,
com segurana, o conjunto ideal de regressores.

Num cenrio real, pode existir uma multiplicidade de regressores
potencialmente teis na explicao do comportamento da varivel
dependente, havendo que seleccionar de entre eles aqueles que
devem figurar no modelo.

Seguidamente sero discutidos diferentes MTODOS DE SELECO
DE REGRESSORES.
SELECO DE REGRESSORES
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/45
2011 Verlag Dashfer
1. Construi os modelos de regresso que combinem de todas as maneiras
possveis os regressores potenciais.
2. Ordenar os modelos de regresso de acordo com um critrio de qualidade
(por exemplo, minimizar os DQMR).
3. Avaliar em detalhe um nmero restrito de modelos considerados melhores,
de acordo com o critrio fixado em (2).
MTODO EXAUSTIVO
O ponto (3) est associado incapacidade de definir um critrio nico que, em
todas as circunstncias, permita comparar objectivamente a qualidade dos
modelos.

Se o nmero de regressores potencias for J, o nmero de modelos alternativos
a construir 2
J
-1.
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/46
2011 Verlag Dashfer
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

MTODO PROGRESSIVO
1. Ajustar tantos modelos de regresso linear simples quantos os regressores
potenciais e incluir no modelo aquele que explica a maior proporo da
variao da dependente (se nenhum regressor explicar uma proporo
significativa da variao o mtodo termina).

2. Construir modelos de regresso dupla que associem o regressor seleccionado
em (1) e cada um dos restantes regressores potenciais. De entre os novos
regressores que explicam uma proporo adicional significativa da variao
total, incluir no modelo aquele que explica a maior proporo.

3. Prosseguir a tentativa de construo de modelos de ordem superior adoptando
um procedimento idntico ao descrito.
O mtodo termina quando nenhum dos regressores potenciais explica
uma proporo adicional significativa da variao total ou quando todos
os regressores forem includos no modelo.

O mtodo NO GARANTE a seleco do melhor conjunto de
regressores.
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/47
2011 Verlag Dashfer
Considere-se o problema da seleco de regressores admitindo que se dispe de
20 observaes de uma varivel dependente (Y) e de trs variveis candidatas a
figurarem como regressores num modelo de regresso mltipla (X
1
, X
2
E X
3
).
EXEMPLO (p. 373, livro de texto)
PASSO (1)
Constroem-se os trs modelos
de regresso linear simples
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/48
2011 Verlag Dashfer
O regressor que explica a maior proporo da variao total X
2
.
O teste ANOVA permite verificar que a proporo da variao explicada
significativa.
0 2 1,18 0
110
: 0 22.0 (0.05) 4.41 rejeitada.
90/18
H ET F H |
(
= = = > =
(

EXEMPLO (continuao)
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/49
2011 Verlag Dashfer
EXEMPLO (continuao)
PASSO (2)
Constroem-se os dois modelos de regresso linear dupla Y = Y(X
2
, X
1
)
e Y = Y(X
2
, X
3
).
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/50
2011 Verlag Dashfer
O regressor que explica uma proporo adicional maior da variao total X
3
.
Teste-se agora se o contributo adicional de X
3
para a explicao da variao
de Y significativo.
Para tal tem de se alterar a tabela ANOVA correspondente efectuando a
decomposio
VDR(X
2
, X
3
) = VDR(X
2
) + VDR(X
3
|X
2
).
EXEMPLO (continuao)
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/51
2011 Verlag Dashfer
O teste ANOVA a realizar tem a seguinte estrutura:
H
0
: |
3
= 0
H
1
: |
3
= 0
DQMDR
X X DQMDR
ET
) | (
2 3
=
H
0
Verdadeira ET F
1,N-3.

45 . 4 ) 05 . 0 ( 54 . 6
17 / 65
25 ) | (
17 , 1
2 3
= > = = = F
DQMR
X X DQMDR
ET
Nestas condies, o regressor X
3
includo no modelo, juntando-se assim
ao regressor X
2
.
EXEMPLO (continuao)
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/52
2011 Verlag Dashfer
PASSO (3)
Constri-se o modelo de regresso linear tripla Y = Y(X
2
, X
3
, X
1
)
1 2 3
1,16 0
( | , ) 5
1.33 (0.05) 4.50 no rejeitada .
60/16
DQMDR X X X
ET F H
DQMR
(
= = = < =
(

Neste caso, o teste ANOVA permite verificar que, a proporo adicional da
variao total que explicada por X
1
no significativa.
EXEMPLO (continuao)
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/53
2011 Verlag Dashfer
1. Incluir no modelo todos os regressores potenciais
2. Retirar do modelo, um a um, regressores cuja presena no contribua para
explicar uma proporo significativa da variao total
3. Prosseguir a tentativa de construo de modelos de ordem inferior
adoptando um procedimento idntico ao descrito
MTODO REGRESSIVO
MTODO REGRESSO PASSO A PASSO
Consistem em verses dos mtodos progressivo e regressivo nas
quais os regressores que tenham sido incorporados no modelo ou
dele excludos em passos anteriores so reexaminados.
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/54
2011 Verlag Dashfer
O termo COLINEARIDADE utiliza-se para designar a existncia de elevada
correlao entre dois ou mais regressores.

Se dois regressores, X
1
e X
2
, apresentam elevada colinearidade:
A proporo da varivel dependente que explicada por X
1
semelhante
explicada por X
2
.
Se um dos regressores foi includo no modelo a incluso do outro no
acarreta uma explicao adicional significativa da variao total.

Logo, em geral, so perfeitamente relacionadas, o sistema de equaes
utilizado na estimao dos regressores indeterminado.
Alm disso,
Se X
1
e X
2
so perfeitamente relacionadas, o sistema de equaes
utilizado na estimao dos regressores indeterminado
Se a relao no perfeita mas apresenta uma elevada correlao, o
sistema admite uma soluo nica mas a sua resoluo acarreta
problemas de instabilidade numrica.
COLINEARIDADE
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/55
2011 Verlag Dashfer
Para cada conjunto de novos valores de X
j
(j = 1,2,...,J) a melhor
previso de Y ser:
PREVISES COM BASE EM MODELOS DE REGRESSO LINEAR MLTIPLA
O erro de previso dado pela diferena:
)] ( ) ( [
] ) ( ) ( [

1 1 1
1 1 1
J J J
J J J
X X B X X B A
E X X X X Y Y
+ + +
+ + + + = =

| | o o
Pode verificar-se que:
)} ( )] ( [ ) {( ) / 1 1 ( )

( ) ( ) (
0 ) (
2
X X B V X X N Y Var Y Var Var
E
T
+ + = + =
=
o o
o
sendo [V(B)] a matriz de varincia-covarincia dos estimadores B
1
,...,B
J
e
o vector das variveis independentes centradas nas respectivas mdias.
) ( X X
) ( ) ( ) (

1 1 1 J J J
X X B X X B A Y E Y + + + = =
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/56
2011 Verlag Dashfer
) ( )] (

[ ) {( ) / 1 1 ( ) 2 / (

2
1
X X B V X X S N t Y
T
J N
+ +


Y

EXEMPLO (p. 381, livro de texto)


Efectue-se a previso de Y para (X
1
, X
2
)= (6.1, 8.0).
. 02 . 57 ) 65 . 7 0 . 8 ( 99 . 2 ) 51 . 5 1 . 6 ( 34 . 4 41 . 53 ) ( ) (
2 2 2 1 1 1
= + + = + + = x x b x x b a y
Previso pontual:
Admitindo como vlida a hiptese da normalidade dos erros, ento tanto Y
como , portanto, o erro de previso, seguem distribuies normais.

Para cada conjunto de valores de X
j
(j = 1,2,...,J) o intervalo de previso a
(1-) 100% vem assim dado por:

Y

E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/57
2011 Verlag Dashfer
Previso por intervalo (a 95%):
983 . 0
2 2
= =o s
| |
1 1 2 1 1
1 1 2 2
2 1 2 2 2
2 2
1 1 1 1 1 2 2 1 2 2 2 2
( ) ( , )

( ) [ ( )] ( )
( , ) ( )
( ) ( ) 2 ( ) ( ) ( ) ( ) ( )
0.133
T
Var B Cov B B x x
x x V B x x x x x x
Cov B B Var B x x
x x Var B x x x x Cov B , B x x Var B
( (
=
( (


= + +
=
] 60 . 59 , 44 . 54 [ 58 . 2 0 . 57 113 . 0 983 . 0 ) 10 / 1 1 ( 365 . 2 0 . 57 = = + +
EXEMPLO (continuao)
1 7
(0.025) (0.025) 2.365
N J
t t

= =
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/58
2011 Verlag Dashfer
INCORPORAO DE REGRESSORES QUALITATIVOS:
Com o objectivo de representar nos modelos de regresso o efeito de factores
qualitativos, VARIVEIS MUDAS so incorporadas em tais modelos.

Considere-se o exemplo que se apresenta em seguida.
EXEMPLO (p. 381, livro de texto)
Numa determinada empresa de artes grficas existe uma seco dedicada ao
fabrico de um tipo de cartes. Na figura representam-se, para essa seco,
observaes das variveis:
X: Dimenses de diferentes encomendas de cartes
Y: Custos de produo associados satisfao das encomendas.
As observaes foram
classificadas em encomendas
satisfeitas em regime normal e
encomendas satisfeitas com
urgncia.
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/59
2011 Verlag Dashfer
n n n n n n N
E Z X E Z Z X X Y + + + = + + + = | o | o ' ) ( ) (
Com base na figura parece razovel adoptar o seguinte modelo:
onde Z
n
representa uma varivel muda que toma os seguintes valores:
0, para o regime normal
1, para o regime urgente
n
Z

=

Neste exemplo, representa o valor esperado do custo adicional


associado ao regime urgente.
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/60
2011 Verlag Dashfer
Para representar adequadamente um factor com K nveis devem ser
includas no modelo de regresso K - 1 variveis mudas; por exemplo,
para considerar trs regimes de satisfao de encomendas, vir
n n n n n
E Z Z X Y + + + + =
2 2 1 1
' | o
regime normal: Z
1
= 0, Z
2
= 1
regime urgente: Z
1
= 1, Z
2
= 0
regime muito urgente: Z
1
= 1, Z
2
= 1.
vindo
1
0, se o regime for normal
1, se o regime no for normal
Z

=

2
0, se o regime for urgente
1, se o regime no for urgente
Z

=

com
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/61
2011 Verlag Dashfer
EXEMPLO
Suspeita-se que um certo medicamento tem o efeito de aumentar a tenso
arterial das mulheres.
Para testar o efeito, 10 mulheres foram seleccionadas ao acaso, tendo o
medicamento sido administrado uma vez por dia a 4 delas, ficando as 6
restantes sem o tomar.
Na tabela indica-se a idade (X) e a tenso arterial (Y) para cada uma das 10
mulheres no final da experincia.
A varivel (D) indica o nmero de vezes que o medicamento foi tomado por
dia. Usando o modelo de regresso, estude o efeito do medicamento.
X D Y
30 0 85
40 1 95
40 1 90
20 0 75
60 1 100
40 0 90
50 0 90
30 1 90
60 1 100
30 1 85
70
75
80
85
90
95
100
105
15 25 35 45 55 65
D=0
D=1
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/62
2011 Verlag Dashfer
EXEMPLO (continuao)
40 = x
10 = N
90 = y
6 . 0 = d
1600 =
xx
S
20 =
xd
S
4 . 2 =
dd
S
20 =
dy
S
800 =
xy
S

=
=

= +
= +

= +
= +
651 . 4
442 . 0
20 4 . 2 20
800 20 1600
2
1
2 1
2 1
2 1
2 1
b
b
b b
b b
S S b S b
S S b S b
dy dd dx
xy xd xx
90 = = = y a o
) 6 . 0 ( 651 . 4 ) 40 ( 442 . 0 90 + + = d x
i
Y

70
75
80
85
90
95
100
105
15 25 35 45 55 65
D=0
D=1
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/63
2011 Verlag Dashfer
REGRESSO LINEAR MLTIPLA E CORRELAO
A anlise de correlao permite avaliar o grau de relacionamento linear entre
variveis. O modelo utilizado na anlise de correlao mltipla basicamente o
mesmo que o utilizado na anlise de regresso mltipla:

+ + =
j
n j jn j n
E X X Y ) ( | o
i) Coeficiente de correlao simples entre os valores observados de Y e os
valores estimados


ii) Raiz quadrada do coeficiente de determinao mltipla, que, por sua vez,
Y Y
X X YX
R R
J

2 1
=

VT
VDR
R
J
X X YX
=
2
2 1

O coeficiente de correlao mltipla entre Y e X
1
,...,X
J
pode ser definido de
duas formas:
Em ambos os casos, o coeficiente mede o grau de relacionamento linear de Y
com o conjunto de variveis X
1
,...,X
J
.

E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/64
2011 Verlag Dashfer
A tcnica de regresso linear simples pode ser utilizada em modelos
no-lineares desde que estes sejam convertveis em modelos lineares
por aplicao de transformaes s variveis.

Consideram-se seguidamente alguns casos de aplicao frequente.
REGRESSO LINEAR SIMPLES COM TRANSFORMAO DE VARIVEIS
REGRESSO NO-LINEAR
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/65
2011 Verlag Dashfer
CASO 1
Uma relao deste tipo pode ser linearizada recorrendo seguinte transformao
inversa da varivel independente:
n
n
X
U
1
=
Modelo assimpttico: '
n n
n
Y E
X
|
o = + +
Modelo linearizado: '
n n n
Y U E o | = + +
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/66
2011 Verlag Dashfer
Modelo linearizado: '
n n n
Z X E o | = + +
'
Modelo exponencial:
n n
X E
n
Y e
o | + +
=
CASO 2
Linearizao atravs de uma transformao logartmica da varivel dependente:
) ln(
n n
Y Z =
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/67
2011 Verlag Dashfer
Modelo linearizado: '
n n n
Z U E o | = + +
Linearizao atravs da transformao simultnea das variveis
independentes e dependente:
) ln(
n n
Y Z =
n
n
X
U
1
=
' /
Modelo "curva S": (com ' 0 e 0)
n n
X E
n
Y e
o |
o |
+ +
= > <
CASO 3
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/68
2011 Verlag Dashfer
Entre uma varivel dependente Y e uma varivel independente X pode
existir uma relao polinomial de grau J, que pode ser representada
por um modelo do tipo:
REGRESSO POLINOMIAL

=
n
n
X
N
X
1

=
n
n
X
N
X
2 2
1

=
n
J
n
J
X
N
X
1
...
n
J J
n J n n n
E X X X X X X Y + + + + + = ) ( ) ( ) (
2 2
2 1
| | | o
onde
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/69
2011 Verlag Dashfer
Este modelo designa-se por MODELO DE REGRESSO POLINOMIAL SIMPLES
e pode ser convertido num MODELO DE REGRESSO LINEAR MLTIPLA
fazendo corresponder a cada potncia uma nova varivel:
para 1, ,
j
n jn
X X j J = =
obtendo-se o modelo linearizado:
n J Jn J n n
E X X X X Y + + + + = ) ( ) (
1 1 1
| | o
O problema da escolha do grau do polinmio equivalente ao problema da
seleco de regressores anteriormente abordado.
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/70
2011 Verlag Dashfer
EXEMPLO
Admita-se que entre uma varivel independente X e uma varivel
dependente Y pode existir uma relao polinomial de grau 2.
Pretende verificar-se se tal relao existe e, no caso afirmativo, testar
tal relao.
X Y
1 55
2 70
3 75
4 65
5 60
2
Modelo polinomial de grau 2:
1 2
Y X X
n n n
o | | = + +
40
45
50
55
60
65
70
75
80
0 1 2 3 4 5 6
X
Y
E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/71
2011 Verlag Dashfer
EXEMPLO (continuao)
1 1 2 2
Modelo linearizado:
n n
n
Y X X o | | = + +
X
1
= X X
2
= X
2
Y
1 1 55
2 4 70
3 9 75
4 16 65
1
3 x =
5 N =
65 y =
2
11 x =
1 1
10
x x
S =
2 2
374
x x
S =
1 2
60
x x
S =
1
5
x y
S =
2
25
x y
S =
1
2
2
Definio de variveis:
X X
X X

E
s
t
a
t

s
t
i
c
a


2
.


e
d
i

o

C14/72
2011 Verlag Dashfer

=
=

= +
= +

= +
= +
9 . 3
1 . 24
25 374 60
5 60 10
2
1
2 1
2 1
2 1
2 1
2 2 2 1 2
1 2 1 1 1
b
b
b b
b b
S S b S b
S S b S b
y x x x x x
y x x x x x
0 . 36 11 9 . 3 3 1 . 24 65 '
2 2 1 1
= + = = = X X a | | o o
2 1
9 . 3 1 . 24 0 . 36 x x
n
Y
+ + =
40
45
50
55
60
65
70
75
80
0 1 2 3 4 5 6
X
Y
EXEMPLO (continuao)

You might also like