You are on page 1of 118

II.2.

Regresso Linear Mltipla

Por vezes, necessrio mais do que uma varivel preditiva para


modelar a varivel resposta de interesse.

Exemplo: Num estudo sobre uma populao experimental de clones


da casta Tinta Francisca, realizado no Tabuao em 2003, foram
medidos os valores das seguintes variveis para 24 videiras:
teor de antocianas (varivel antoci, em mg/dm3 );
fenis totais (varivel fentot);
pH (varivel pH).

H interesse em estudar a relao entre o teor de antocianas (varivel


resposta) e o teor de fenis totais e pH.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 187 / 479


A nuvem de pontos - uma perspectiva
As n = 24 observaes em trs variveis descrevem agora uma
nuvem de 24 pontos em R3 .

Neste ngulo de viso, a nuvem de pontos em R3 nada tem de


especial.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 188 / 479


A nuvem de pontos - outra perspectiva

Noutro ngulo de viso percebe-se que os pontos se dispersam


aproximadamente em torno de um plano.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 189 / 479


Plano em R3
Qualquer plano em R3 , no sistema x0y0z, tem equao

Ax + By + Cz + D = 0 .

No nosso contexto, e colocando:


no eixo vertical (z) a varivel resposta Y ;
noutro eixo (x) um preditor X1 ;
no terceiro eixo (y) o outro preditor X2 ,
A equao fica (no caso geral, com C 6= 0):

D A B
Ax1 + Bx2 + Cy + D = 0 y = x1 x2
C C C
y = b0 + b1 x1 + b2 x2

Esta equao generaliza a equao da recta, para o caso de haver


dois preditores.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 190 / 479


Regresso Mltipla - representao grfica (p = 2)
y

11111111111111111111111
00000000000000000000000
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
Y = b0 + b1 x1 + b2 x2
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111x1
00000000000000000000000
11111111111111111111111

x2

Y = b0 + b1x1 + b2 x2 a equao dum plano em R3 (x1 0x2 0y).


Pode ser ajustado pelo mesmo critrio que na RLS: minimizar a Soma
de Quadrados Residual.
J. Cadima (ISA) Estatstica e Delineamento 2014-15 191 / 479
O caso geral: p preditores

Caso se pretenda modelar uma varivel resposta, Y , com base em p


variveis preditoras, x1 , x2 , ..., xp , uma generalizao da equao de
regresso linear simples admite que os valores de Y oscilam em torno
duma combinao linear (afim) das p variveis preditivas:

y = b0 + b1 x1 + b2 x2 + ... + bp xp .

Tal como na Regresso Linear


 Simples, admite-se  n que dispomos de n
conjuntos de observaes x1(i) , x2(i) , ...xp(i) , yi i=1 , para estudar
este hiperplano em Rp+1 que define a relao de fundo entre Y e os p
preditores.

Comeamos por considerar o problema meramente descritivo.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 192 / 479


O hiperplano ajustado
O critrio utilizado para ajustar um hiperplano nuvem de n pontos
em Rp+1 o mesmo que na RLS: minimizar a Soma de Quadrados
dos Resduos, ou seja, escolher os valores dos p + 1 parmetros
p
{bj }j=0 de tal forma que minimizem

n n
SQRE = ei2 = (yi yi )2
i= i=

onde os yi so os valores observados da varivel resposta e


yi = b0 + b1 x1(i) + b2 x2(i) + ... + bp xp(i) os valores ajustados,
resultantes dos valores correspondentes dos p preditores e da
equao do hiperplano.

Infelizmente, no existem frmulas simples, como no caso da RLS,


para cada um dos parmetros bj isoladamente. Mas possvel indicar
uma frmula nica matricial para o conjunto dos p + 1 parmetros.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 193 / 479


As dificuldades na representao grfica
A representao grfica usual da nuvem de n pontos observados
exige p + 1 eixos: um para Y e um para cada um dos p preditores.

Para p > 2, seriam necessrios mais de trs eixos e a visualizao


torna-se impossvel.

As caractersticas fundamentais dessas representaes seriam:


Existem p + 1 eixos um para cada varivel em questo.
Existem n pontos um para cada indivduo (unidade
experimental) observado.
Tem-se uma nuvem de n pontos num espao (p + 1)-dimensional.

Na regresso linear mltipla admite-se que os pontos se dispem em


torno de um hiperplano em Rp+1 , de equao

y = b0 + b1 x1 + b2 x2 + ... + bp xp .

J. Cadima (ISA) Estatstica e Delineamento 2014-15 194 / 479


Visualizaes parciais da nuvem de pontos
A impossibilidade de visualizar as nuvens de n pontos em Rp+1
sugere a considerao de vises parciais, como sejam as nuvens de
pontos definidas por cada par de variveis, que so as projeces
ortogonais da nuvem em cada plano coordenado de Rp+1 .
E.g., para as n = 150 observaes de lrios em 4 variveis:
2.0 3.0 4.0 0.5 1.5 2.5

7.5
Sepal.Length

6.0
4.5
4.0

Sepal.Width
3.0
2.0

7
5
Petal.Length

3
1
2.5
1.5

Petal.Width
0.5

4.5 5.5 6.5 7.5 1 2 3 4 5 6 7

J. Cadima (ISA) Estatstica e Delineamento 2014-15 195 / 479


Advertncia

A projeco da nuvem de n pontos nos planos coordenados no


uma soluo ideal.

Em particular, nem sempre permite verificar a hiptese bsica de


linearidade, isto , a hiptese de que os pontos se dispersam em
torno de um hiperplano.

Tal hiptese pode ser vlida, mesmo que no se verifique linearidade


em qualquer das nuvens de pontos de y vs. um preditor individual, xj .

J. Cadima (ISA) Estatstica e Delineamento 2014-15 196 / 479


Outra representao grfica
A representao grfica em Rp+1 das n observaes de Y e das p
variveis preditivas no a nica possvel.

H outra representao possvel dos dados, que casa conceitos


geomtricos e conceitos estatsticos e til na determinao dos
parmetros ajustados.

As n observaes de Y definem um vector em Rn :

y = (y1 , y2 , y3 , ..., yn ) .

Da mesma forma, as n observaes de cada varivel preditora


definem um vector de Rn .

xj = (xj(1) , xj(2) , xj(3) , ..., xj(n) ) (j = 1, 2, ..., p).

Podemos representar todas as variveis por vectores em Rn .

J. Cadima (ISA) Estatstica e Delineamento 2014-15 197 / 479


A representao em Rn , o espao das variveis
cada eixo corresponde a um indivduo observado;
cada vector corresponde a uma varivel.
O vector de n uns, representado por 1n , tambm til.

x1

Ind. 1
1n
Rn
y
x2
Ind. 2

x3
Ind. 3

...
Ind n
Ind. 4

J. Cadima (ISA) Estatstica e Delineamento 2014-15 198 / 479


Vantagens da representao grfica alternativa
Os n valores ajustados yi tambm definem um vector de Rn , y
, que
uma combinao linear dos vectores 1n , x1 , x2 , ..., xp :

1 x1(1) xp(1)
1
x1(2)


xp(2)


b0 1n + b1 x1 + b2 x2 + ... + bp xp =

b0 1
+ b1 x1(3) + ... + bp xp(3)
..
..



..

. . .
1 x1(n) xp(n)

b0 + b1 x1(1) + b2 x2(1) + ... + bp xp(1) y1

b0 + b1 x1(2) + b2 x2(2) + ... + bp xp(2)


y2

=

b0 + b1 x1(3) + b2 x2(3) + ... + bp xp(3)

= y3

..
... .
b0 + b1 x1(n) + b2 x2(n) + ... + bp xp(n) yn

=
y

J. Cadima (ISA) Estatstica e Delineamento 2014-15 199 / 479


A matriz X e o seu subespao de colunas
Recordemos alguns conceitos dados na UC lgebra Linear dos 1os.
ciclos do ISA.

O conjunto de todas as combinaes lineares dos p+1 vectores


1n , x1 , ..., xp chama-se o subespao gerado por esses vectores.
Colocando os vectores 1n , x1 , ..., xp nas colunas duma matriz X,
de dimenso n (p + 1), podemos chamar a este subespao o
subespao das colunas da matriz X, C (X) Rn .
um subespao de dimenso p + 1 (se os vectores forem
linearmente independentes, isto , nenhum se pode escrever
como combinao linear dos restantes).
Qualquer combinao linear dos vectores coluna da matriz X
dada por Xa, onde a = (a0 , a1 , a2 , ..., ap ) o vector dos
coeficientes que define a combinao linear.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 200 / 479


Um produto matricial Xa
O produto da matriz X por um vector a Rp+1 uma combinao
linear das colunas de X:

1 x1(1) x2(1) xp(1) a0

1 x1(2) x2(2) xp(2)
a1

Xa = 1 x1(3) x2(3) xp(3) a2


.. .. .. .. ..

..
. . . . . .
1 x1(n) x2(n) xp(n) ap

a0 + a1 x1(1) + a2 x2(1) + ... + ap xp(1)

a0 + a1 x1(2) + a2 x2(2) + ... + ap xp(2)


= a0 + a1 x1(3) + a2 x2(3) + ... + ap xp(3)

...
a0 + a1 x1(n) + a2 x2(n) + ... + ap xp(n)

= a0 1n + a1 x1 + a2 x2 + ... + ap xp

J. Cadima (ISA) Estatstica e Delineamento 2014-15 201 / 479


Os parmetros

Cada escolha possvel de coeficientes a = (a0 , a1 , a2 , ..., ap )


corresponde a um ponto/vector no subespao C (X).
Essa escolha de coeficientes nica caso as colunas de X sejam
linearmente independentes, isto , se no houver
multicolinearidade entre as variveis x1 , ..., xp , 1n .
Um dos pontos/vectores do subespao a combinao linear
dada pelo vector de coeficientes b = (b0 , b1 , ..., bp ) que minimiza
SQRE . a combinao linear que desejamos determinar.

Como identificar esse ponto/vector?

J. Cadima (ISA) Estatstica e Delineamento 2014-15 202 / 479


Geometria

Vamos usar argumentos geomtricos.

Dispomos de um vector de n observaes de y que est em Rn


mas, em geral, no est no subespao C (X).
Queremos aproximar esse vector por outro vector,
= b0 1n + b1 x1 + ... + bp xp , que est no subespao C (X).
y
Vamos aproximar o vector de observaes y pelo vector y do
subespao C (X) que est mais prximo de y.

= Hy.
SOLUO: Tomar a projeco ortogonal de y sobre C (X) : y

J. Cadima (ISA) Estatstica e Delineamento 2014-15 203 / 479


O conceito geomtrico subjacente identificao de b

Rn y

= Hy
y

C (X)

O vector de C (X) Rn mais prximo dum vector y Rn o vector y



que resulta de projectar ortogonalmente y sobre C (X).

J. Cadima (ISA) Estatstica e Delineamento 2014-15 204 / 479


O critrio minimiza SQRE

tal que minimize a distncia ao vector de


O critrio de escolher y
observaes y significa que minimizamos o quadrado dessa distncia,
que dado por:
n
dist 2 (y, y k2 =
) = ky y (yi yi )2 = SQRE ,
i=1

ou seja, que minimizamos a soma de quadrados dos resduos.


Trata-se do critrio que foi usado na Regresso Linear Simples.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 205 / 479


O conceito geomtrico subjacente obteno de b

Rn y


k
SQRE = ky y

= Hy
y

C (X)

SQRE , a soma dos quadrados


O quadrado da distncia de y a y
dos resduos.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 206 / 479


A projeco ortogonal
A projeco ortogonal de um vector y Rn sobre o subespao C (X)
gerado pelas colunas (linearmente independentes) de X faz-se
pr-multiplicando y pela matriz de projeco ortogonal sobre C (X):
1
H = X Xt X Xt .

Logo, temos:

= Hy
y
= X (Xt X)1 Xt y
y
| {z }
=b

A combinao linear dos vectores 1n , x1 , ..., xp que gera o vector mais


prximo de y tem coeficientes dados pelos elementos do vector b:

Os parmetros ajustados na RL Mltipla


b = (Xt X)1 Xt y .
J. Cadima (ISA) Estatstica e Delineamento 2014-15 207 / 479
As trs Somas de Quadrados
Na Regresso Linear Mltipla definem-se trs Somas de Quadrados,
de forma idntica ao que se fez na Regresso Linear Simples:
SQRE Soma de Quadrados dos Resduos (j definida):
n
SQRE = (yi yi )2 .
i=1

SQT Soma de Quadrados Total:


n n
SQT = (yi y)2 = yi2 ny 2 .
i=1 i=1

SQR Soma de Quadrados associada Regresso:


n n
SQR = (yi y)2 = yi2 ny 2 .
i=1 i=1

Nota: Tambm aqui os y observados (yi ) e os y ajustados (yi ) tm a


mesma mdia (ver Exerccio 4 da RLM).
J. Cadima (ISA) Estatstica e Delineamento 2014-15 208 / 479
Pitgoras e a Regresso
O Teorema de Pitgoras aplica-se em qualquer espao euclideano Rn .

Aplicado ao tringulo rectngulo do acetato 206 produz a seguinte


relao:

kyk2 = ky
k2 + ky y
k2
n n n
yi2 = yi2 + (yi yi )2
i=1 i=1 i=1
| {z }
= SQRE
n n
yi2 ny 2 = yi2 ny 2 + SQRE
i=1 i=1
SQT = SQR + SQRE

J. Cadima (ISA) Estatstica e Delineamento 2014-15 209 / 479


Revisitando Pitgoras
Vimos que a relao fundamental da Regresso Linear
(SQT = SQR + SQRE ) resulta duma aplicao do Teorema de
Pitgoras. Mas foi necessrio introduzir a subtraco de ny 2 .
Um outro tringulo rectngulo estatisticamente mais interessante.

Considere-se o vector centrado das observaes da varivel resposta,


isto , o vector cujo elemento genrico yi y. Este vector, que ser
designado yc , obtm-se subtrando a y o vector que repete n vezes y :

yc = y y 1n = (y1 y, y2 y, ..., yn y)t .

s
n
A norma deste vector kyc k = (yi y)2 = SQT .
i=1

J. Cadima (ISA) Estatstica e Delineamento 2014-15 210 / 479


Revisitando Pitgoras (cont.)
A projeco ortogonal do vector yc sobre o subespao C (X) gera o
vector:

Hyc = H (y y 1n )
Hyc = Hy y H1n
Hyc = y
y 1n

j que H1n = 1n , pois o vector 1n j pertence ao subespao C (X),


logo fica invariante quando projectado nesse mesmo subespao.

O vector Hyc tem elemento genrico yi y, e a sua norma


s
n
kHy k = (yi y)2 = SQR .
c

i=1

J. Cadima (ISA) Estatstica e Delineamento 2014-15 211 / 479


Revisitando Pitgoras (cont.)

c
o vector y e a sua projeco ortogonal sobre C (X)
A distncia entre
continua a ser SQRE:

yc Hyc = (y 
y 1 
n ) (y y 1
n)
c c
y Hy = y y

pelo que
s
n
kyc Hyc k = ky y
k = (yi yi )2 = SQRE .
i=1

J. Cadima (ISA) Estatstica e Delineamento 2014-15 212 / 479


Revisitando Pitgoras (cont.)
Rn
yc

SQT = kyc k
SQRE = kyc Hyc k = ky Hyk

Hyc
C (X)

SQR = kHyc k

A frmula fundamental da Regresso Linear, SQT = SQR + SQRE ,


uma aplicao directa do Teorema de Pitgoras ao tringulo definido
por yc e a sua projeco ortogonal sobre C (X).

J. Cadima (ISA) Estatstica e Delineamento 2014-15 213 / 479


Pitgoras e o Coeficiente de Determinao

O acetato 213 torna evidente outra relao importante entre a


geometria e a estatstica da Regresso Linear:

Definindo o coeficiente de determinao da forma usual, R 2 = SQR


SQT ,
este resulta ser o cosseno ao quadrado do ngulo entre o vector
centrado das observaes da varivel resposta, yc , e a sua projeco
ortogonal sobre o subespao C (X):

SQR
cos2 ( ) = = R2 ,
SQT
onde o ngulo entre os vectores yc e Hyc .

J. Cadima (ISA) Estatstica e Delineamento 2014-15 214 / 479


Pitgoras e o Coeficiente de Determinao (cont.)

Rn
yc

SQT = kyc k

SQRE = ky Hyk

Hyc
C (X)

SQR = kHyc k

SQR
O Coeficiente de Determinao na Regresso Linear, R 2 = SQT ,
o cosseno ao quadrado do ngulo entre yc e Hyc .

J. Cadima (ISA) Estatstica e Delineamento 2014-15 215 / 479


Propriedades do Coeficiente de Determinao

A abordagem geomtrica confirma que, tambm na Regresso Linear


Mltipla, so vlidas as propriedades (j conhecidas da Regresso
Linear Simples) do Coeficiente de Determinao:

R 2 toma valores entre 0 e 1.


Quanto mais prximo de 1 estiver R 2 , menor o ngulo , e
portanto melhor ser a correspondncia entre o vector (centrado)
das observaes, yc , e o seu ajustamento em C (X).
Se R 2 0, o vector yc quase perpendicular ao subespao C (X)
onde se pretende aproxim-lo, e a projeco vai quase anular
todas os elementos do vector projectado. O resultado ser de m
qualidade.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 216 / 479


A Regresso Mltipla no
Uma Regresso Mltipla no estuda-se atravs do mesmo
comando lm usado para a regresso linear simples. A indicao de
qual a varivel resposta y e quais as variveis preditivas x1 , ..., xp
faz-se de forma semelhante da RLS.

Por exemplo, se a varivel resposta se chama y e existirem trs


preditores de nome x1, x2 e x3, a frmula que indica a relao ser:

y x1 + x2 + x3

O comando correspondente no R ser:

> lm ( y x1 + x2 + x3 , data=dados)

O resultado produzido por este comando ser o vector das estimativas


dos p + 1 parmetros do modelo, b0 , b1 , ..., bp .

J. Cadima (ISA) Estatstica e Delineamento 2014-15 217 / 479


A Regresso Mltipla no (cont.)
Exemplifique-se de novo com os dados dos lrios.
Pretende-se prever a varivel resposta largura da ptala, no apenas
a partir do comprimento da ptala, mas tambm das duas medies
(largura e comprimento) das spalas.

> iris2.lm <- lm(Petal.Width ~ Petal.Length + Sepal.Length +


+ Sepal.Width , data=iris)
> iris2.lm
(...)
Coefficients:
(Intercept) Petal.Length Sepal.Length Sepal.Width
-0.2403 0.5241 -0.2073 0.2228

O hiperplano ajustado :

PW = 0.2403 + 0.5241 PL 0.2073 SL + 0.2228 SW

O coeficiente de determinao R 2 = 0.9379, s ligeiramente maior


que o valor R 2 = 0.9271 do modelo RLS (acetato 163).
J. Cadima (ISA) Estatstica e Delineamento 2014-15 218 / 479
O contexto inferencial

At aqui, apenas se considerou o problema descritivo:


dados n conjuntos de observaes {(x1(i) , x2(i) , ..., xp(i) , y(i) )}ni=1 ,
determinar os p + 1 coeficientes b = (b0 , b1 , b2 , ..., bp ) que
minimizam a soma de quadrados de resduos
n n
SQRE = (yi yi )2 = [yi (b0 + b1x1(i) + b2x2(i) + ... + bp xp(i) )]2
i=1 i=1

1
SQRE minimo se b = Xt X Xt y.
Mas, tal como na Regresso Linear Simples, coloca-se o problema
inferencial quando as n observaes representam uma amostra
aleatria de uma populao mais vasta. a relao populacional
entre Y e as p variveis preditoras que se pretende conhecer. Para
esse fim, ser necessrio admitir alguns pressupostos adicionais.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 219 / 479


O Modelo RLM
Na Regresso Linear Mltipla admite-se que as n observaes da
varivel resposta Y so aleatrias e podem ser modeladas como

Yi = 0 + 1 x1(i) + 2 x2(i) + ... + p xp(i) + i , i = 1, ..., n

Admitem-se vlidos pressupostos semelhantes aos do modelo RLS:

Definio (O Modelo da Regresso Linear Mltipla - RLM)


1 Yi = 0 + 1 x1(i) + 2 x2(i) + ... + p xp(i) + i , i = 1, ..., n.
2 i N (0 , 2 ),
i = 1, ..., n.
3 {i }ni=1 v.a. independentes.

A constante j (j = 1, 2, ..., p) que multiplica a varivel Xj pode ser


interpretada como a variao esperada em Y , associada a aumentar
Xj em uma unidade, mantendo as restantes variveis constantes.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 220 / 479


A notao matricial/vectorial

As n equaes do modelo, vlidas para as n observaes, podem ser


escritas como uma nica equao, utilizando notao
vectorial/matricial:

Y1 = 0 + 1 x1(1) + 2 x2(1) + + p xp(1) + 1


Y2 = 0 + 1 x1(2) + 2 x2(2) + + p xp(2) + 2
Y3 = 0 + 1 x1(3) + 2 x2(3) + + p xp(3) + 3
.. .. .. .. ..
. . . . .
Yn = 0 + 1 x1(n) + 2 x2(n) + + p xp(n) + n

J. Cadima (ISA) Estatstica e Delineamento 2014-15 221 / 479


A notao matricial (cont.)

As n equaes correspondem a uma nica equao matricial:

Y = X + ,

onde

Y1 1 x1(1) x2(1) xp(1) 0 1

Y2


1 x1(2) x2(2) xp(2)

1


2


Y= Y3
, X = 1 x1(3) x2(3) xp(3)

, =
2 , =
3

..
.. .. .. .. ..

.. ..
. . . . . . . .
Yn 1 x1(n) x2(n) xp(n) p n

Nesta equao, Y e so vectores aleatrios (de dimenso n 1),


X uma matriz no aleatria (dimenso n (p+1)) e um vector
no-aleatrio (dimenso (p+1) 1).

J. Cadima (ISA) Estatstica e Delineamento 2014-15 222 / 479


A notao matricial (cont.)

Na equao matricial Y = X + , tem-se:


Y vector aleatrio das n variveis aleatrias resposta;
X matriz do modelo (no aleatria) de dimenses
n (p + 1) cujas colunas so dadas pelas observaes
de cada varivel preditora (e por uma coluna de uns,
associada a constante aditiva do modelo);
vector (no aleatrio) dos p + 1 parmetros do modelo;
vector aleatrio dos n erros aleatrios.
Representa-se um vector de n observaes de Y por y.

Com alguns conceitos adicionais podemos escrever tambm os


pressupostos relativos aos erros aleatrios em notao
vectorial/matricial.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 223 / 479


Ferramentas para vectores aleatrios

O conjunto das n observaes de Y, tal como o conjunto dos n erros


aleatrios, , constituem vectores aleatrios.

Para qualquer vector aleatrio W = (W1 , W2 , ..., Wk ), define-se:


O vector esperado de W, constitudo pelos valores esperados de
cada componente:

E [W1 ]
E [W2 ]

E [W] = .. .
.
E [Wk ]

J. Cadima (ISA) Estatstica e Delineamento 2014-15 224 / 479


Ferramentas para vectores aleatrios (cont.)

a matriz de varincias-covarincias de W constituda pelas


(co)varincias de cada par de componentes:

V [W1 ] C[W1 , W2 ] C[W1 , W3 ] ... C[W1 , Wk ]


C[W2 , W1 ] V [W2 ] C[W2 , W3 ] ... C[W2 , Wk ]



V [W] = C[W3 , W1 ] C[W3 , W2 ] V [W3 ] ... C[W3 , Wk ]




.. .. .. .. ..

. . . . .


C[Wk , W1 ] C[Wk , W2 ] C[Wk , W3 ] ... V [Wk ]

J. Cadima (ISA) Estatstica e Delineamento 2014-15 225 / 479


Propriedades do vector esperado

Tal como para o caso de variveis aleatrias, tambm o vector


esperado de um vector aleatrio Wk 1 tem propriedades simples:

Se b um escalar no aleatrio, E [bW] = b E [W].


Se ak 1 um vector no aleatrio, E [W + a] = E [W] + a.
Se ak 1 um vector no aleatrio, E [at W] = at E [W].
Se Bmk uma matriz no aleatria, E [BW] = B E [W].

Tambm o vector esperado da soma de dois vectors aleatrios tem


uma propriedade operatria simples:
Se Wk 1 , Uk 1 so vectores aleatrios, E [W + U] = E [W] + E [U].

J. Cadima (ISA) Estatstica e Delineamento 2014-15 226 / 479


Propriedades da matriz de (co)varincias

Se b um escalar no aleatrio, V [bW] = b 2 V [W].


Se ak 1 um vector no aleatrio, V [W + a] = V [W].
Se ak 1 um vector no aleatrio, V [at W] = at V [W] a.
Se Bmk uma matriz no aleatria, V [BW] = B V [W] Bt .
A matriz de varincias-covarincias da soma de dois vectors
aleatrios tem uma propriedade operatria simples se os vectores
aleatrios forem independentes:
Se Wk 1 e Uk 1 forem vectores aleatrios independentes,
V [W + U] = V [W] + V [U].

J. Cadima (ISA) Estatstica e Delineamento 2014-15 227 / 479


A distribuio Normal Multivariada

Vectores aleatrios tm tambm distribuies (multivariadas) de


probabilidades. A mais frequente distribuio multivariada para
vectores aleatrios a Multinormal:

Definio (Distribuio Normal Multivariada)


O vector aleatrio k-dimensional W tem distribuio Multinormal, com
parmetros dados pelo vector e a matriz se a sua funo
densidade conjunta fr:

1 1
e 2 (w ) (w )
1 t
f (w) = p , w Rk . (3)
(2 )k /2 )
det(

Notao: W Nk ( ,
).

J. Cadima (ISA) Estatstica e Delineamento 2014-15 228 / 479


A densidade Binormal (Multinormal com k = 2)

y
x

J. Cadima (ISA) Estatstica e Delineamento 2014-15 229 / 479


Algumas propriedades da distribuio Multinormal
Teorema (Propriedades da Multinormal)
Se W Nk ( ,
):
1 O vector esperado de W E [W] = .
2 A matriz de (co)varincias de W V [W] = .
3 Se duas componentes de W tm covarincia nula, so
independentes: Cov(Wi , Wj ) = 0 Wi , Wj independentes.

Nota: Nas disciplinas introdutrias de Estatstica d-se que


X , Y independentes cov(X , Y ) = 0. Agora sabemos que, quando a
distribuio conjunta de X e Y Multinormal, tem-se tambm a
implicao contrria.

Nota: Qualquer elemento nulo numa matriz de (co)varincias duma


Multinormal indica que as componentes correspondentes so
independentes.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 230 / 479


Propriedades da Multinormal (cont.)

Teorema (Propriedades da Multinormal)


Se W Nk ( ,
):
4 Todas as distribuies marginais de W so (multi)normais.
Em particular, cada componente Wi normal com mdia i e
varincia (i,i) : Wi N (i ,
(i,i) ).
5 Se a um vector (no-aleatrio) k 1, ento W + a Nk ( + a,
).
6 Combinaes lineares das componentes dum vector multinormal
so Normais: at W = a1 W1 + a2 W2 + ... + ak Wk N (at , at a).
7 Se B matriz m k (no aleatria, de caracterstica m k),
ento BW Nm (B , BBt ).

J. Cadima (ISA) Estatstica e Delineamento 2014-15 231 / 479


Modelo Regresso Linear Mltipla - verso matricial

Definio (O Modelo em notao matricial)


1 Y = X + .
2 Nn (0 , 2 In ).

Na segunda destas hipteses so feitas quatro afirmaes (tendo em


conta as propriedades da Multinormal, referidas atrs):
Cada erro aleatrio individual i tem distribuio Normal.
Cada erro aleatrio individual tem mdia zero: E [i ] = 0.
Cada erro aleatrio individual tem varincia igual: V [i ] = 2 .
Erros aleatrios diferentes so independentes, porque
Cov[i , j ] = 0 se i 6= j e, numa Multinormal, isso implica a
independncia.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 232 / 479


A distribuio das observaes Y da varivel resposta
O seguinte Teorema consequncia directa de aplicar as
propriedades dos acetatos 230 e 231 ao Teorema do acetato 232.

Teorema (Primeiras Consequncias do Modelo)


Dado o Modelo de Regresso Linear Mltipla, tem-se:

Y Nn (X , 2 In ).

Tendo em conta as propriedades da Multinormal:


Cada observao individual Yi tem distribuio Normal.
Cada observao individual Yi tem mdia
E [Yi ] = 0 + 1 x1(i) + 2 x2(i) + ... + p xp(i) .
Cada observao individual tem varincia igual: V [Yi ] = 2 .
Observaes diferentes de Y so independentes, porque
Cov[Yi , Yj ] = 0 se i 6= j e, numa Multinormal, isso implica a
independncia.
J. Cadima (ISA) Estatstica e Delineamento 2014-15 233 / 479
O estimador dos parmetros do Modelo

Tal como na Regresso Linear Simples, os estimadores dos


parmetros j do modelo (j = 0, 1, 2, ..., p) obtm-se adaptando a
expresso matricial resultante de minimizar SQRE (acetato 207).

O vector que estima o vector dos parmetros populacionais :

Definio (Estimador dos parmetros populacionais)


1 t
= Xt X XY,
onde X e Y so a matriz e o vector definidos no acetato 222.

O vector de dimenso p + 1. O seu primeiro elemento o


estimador de 0 , o seu segundo elemento o estimador de 1 , etc..
Em geral, o estimador de j est na posio j + 1 do vector .

J. Cadima (ISA) Estatstica e Delineamento 2014-15 234 / 479


A distribuio do vector de estimadores
Teorema (Distribuio do estimador )
Dado o Modelo de Regresso Linear Mltipla, tem-se:

Np+1 ( , 2 (Xt X)1 ) .

Tendo em conta as propriedades da Multinormal (acetatos 230 e 231):


E [ ] = e V [ ] = 2 (Xt X)1 .
Cada estimador individual j tem distribuio Normal.
Cada estimador individual tem mdia E [j ] = j (logo, centrado).
1
Cada estimador individual tem varincia V [j ] = 2 Xt X .
(j+1,j+1)
(Note-se o desfasamento nos ndices resultantes de a contagem
dos s comear em 0).
Estimadores individuais diferentes no so (em geral)
independentes, porque a matriz (Xt X)1 no , em geral, uma
1
matriz diagonal. Cov[i , j ] = 2 Xt X (i+1,j+1) .
J. Cadima (ISA) Estatstica e Delineamento 2014-15 235 / 479
A distribuio dum estimador individual

Como se viu no acetato anterior, tem-se, j = 0, 1, ..., p:

 
j N j , 2 (Xt X)1
(j+1,j+1)

j j
N (0, 1) ,

j

q
onde = 2 (Xt X)1
(j+1,j+1) .
j

Este resultado generaliza os relativos Regresso Linear Simples.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 236 / 479


O problema de 2 desconhecido

O resultado distribucional indicado no acetato anterior permitiria


construir intervalos de confiana ou fazer testes a hipteses sobre os
parmetros , no fosse a existncia de um problema j familiar: o
desconhecimento da varincia 2 dos erros aleatrios.

Procedemos de forma anloga ao que se fez na Regresso Linear


Simples:
obter um estimador para 2 ; e
ver o que acontece distribuio do acetato anterior quando 2
substitudo pelo seu estimador.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 237 / 479


SQRE na Regresso Mltipla

Teorema (Resultados distribucionais de SQRE)


Dado o Modelo de Regresso Linear Mltipla (RLM), tem-se:
SQRE
2
n(p+1)
2

SQRE independente de .

NOTA: Omite-se a demonstrao

Corolrio
h i
Dado o Modelo de RLM, E SQRE
n(p+1) = 2.

NOTA: Os graus de liberdade associados a SQRE so o nmero de


observaes (n) menos o nmero de parmetros do modelo (p+1).

J. Cadima (ISA) Estatstica e Delineamento 2014-15 238 / 479


O Quadrado Mdio Residual na Regresso Mltipla

Definio (Quadrado Mdio Residual)


Define-se o Quadrado Mdio Residual (QMRE ) numa Regresso
Linear Mltipla como

SQRE
QMRE =
n (p + 1)

O QMRE habitualmente usado na Regresso como estimador


da varincia dos erros aleatrios, isto , toma-se

2 = QMRE .

Como se viu no acetato anterior, QMRE um estimador centrado.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 239 / 479


Revisitando o estimador de j
Vimos (acetato 236) que cada estimador j verifica:

j j
Z = q N (0, 1) .
2 (Xt X)1
(j+1,j+1)

Temos ainda:
SQRE
W = n(p+1)
2
e Z , W v.a. independentes .
2

Logo (ver tambm o acetato 127):

Z j j
p = q tn(p+1) .
W /(n(p+1)) QMRE (Xt X)1
(j+1,j+1)

J. Cadima (ISA) Estatstica e Delineamento 2014-15 240 / 479


Quantidades fulcrais para a inferncia sobre j
Teorema (Distribuies para a inferncia sobre j (j = 0, 1, ..., p))
Dado o Modelo de Regresso Linear Mltipla, tem-se

j j
tn(p+1) ,

j

q
com = QMRE (Xt X)1
(j +1,j +1) .
j

Este Teorema d-nos os resultados que servem de base construo


de intervalos de confiana e testes de hipteses para os parmetros
j do modelo populacional.

NOTA: O resultado acima totalmente anlogo aos resultados


correspondentes na RLS. Assim, os ICs e testes de hipteses a
parmetros individuais, na RLM, sero anlogos aos da RLS.
J. Cadima (ISA) Estatstica e Delineamento 2014-15 241 / 479
Intervalo de confiana para j

Teorema (Intervalo de Confiana a (1 ) 100% para j )


Dado o Modelo de Regresso Linear Mltipla, um intervalo a
(1 ) 100% de confiana para o parmetro j do modelo :
i h
bj t /2 [n(p+1)] , bj + t /2 [n(p+1)] ,
j j

q
com j = QMRE (Xt X)1(j +1,j +1) , e sendo t /2[n(p+1)] o valor que na
distribuio tn(p+1) deixa direita uma regio de probabilidade /2.
O valor bj o elemento j +1 do vector das estimativas b (acetato 207).

NOTA: A amplitude do IC aumenta com QMRE e o valor diagonal da


matriz (Xt X)1 associado ao parmetro j em questo.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 242 / 479


Intervalos de confiana para i no
A informao bsica para a construo de intervalos de confiana
para cada parmetro j obtm-se, no R, a partir das tabelas
produzidas pela funo summary. No exemplo do acetato 218:

> summary(iris2.lm)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.24031 0.17837 -1.347 0.18
Petal.Length 0.52408 0.02449 21.399 < 2e-16 ***
Sepal.Length -0.20727 0.04751 -4.363 2.41e-05 ***
Sepal.Width 0.22283 0.04894 4.553 1.10e-05 ***

Assim, estima-se que em mdia a largura da ptala diminui 0.20727cm por


cada aumento de 1cm no comprimento da spala (mantendo-se as outras
medies constantes). Como t0.025(146) = 1.976346, o IC a 95% para 2
] (0.20727) (1.976346)(0.04751) , (0.20727) + (1.976346)(0.04751) [

] 0.3012 , 0.1134 [

J. Cadima (ISA) Estatstica e Delineamento 2014-15 243 / 479


Intervalos de confiana para j no (cont.)
Alternativamente, possvel usar a funo confint no objecto
resultante de ajustar a regresso para obter os intervalos de confiana
para cada j individual:

> confint(iris2.lm)
2.5 % 97.5 %
(Intercept) -0.5928277 0.1122129
Petal.Length 0.4756798 0.5724865
Sepal.Length -0.3011547 -0.1133775
Sepal.Width 0.1261101 0.3195470

> confint(iris2.lm,level=0.99)
0.5 % 99.5 %
(Intercept) -0.70583864 0.22522386
Petal.Length 0.46016260 0.58800363
Sepal.Length -0.33125352 -0.08327863
Sepal.Width 0.09510404 0.35055304

J. Cadima (ISA) Estatstica e Delineamento 2014-15 244 / 479


Testes de Hipteses sobre os parmetros
O mesmo resultado (acetato 241) usado para construir intervalos de
confiana serve para construir testes a hipteses para cada j
individual. Dado o Modelo de Regresso Linear Mltipla,

Testes de Hipteses a j (Regresso Linear Mltipla)


<
Hipteses: H0 : j = c vs. H1 : j 6= c
>
=c
z}|{
j j |H0
Estatstica do Teste: T = tn(p+1)
j

Nvel de significncia do teste:


Regio Crtica (Regio de Rejeio): Rejeitar H0 se
Tcalc < t [n(p+1)] (Unilateral esquerdo)
|Tcalc | > t /2[n(p+1)] (Bilateral)
Tcalc > t [n(p+1)] (Unilateral direito)

J. Cadima (ISA) Estatstica e Delineamento 2014-15 245 / 479


Combinaes lineares dos parmetros
Seja a = (a0 , a1 , ..., ap )t um vector no aleatrio em Rp+1 . O produto
interno at define uma combinao linear dos parmetros do modelo:

at = a0 0 + a1 1 + a2 2 + ... + ap p .

Casos particulares importantes nas aplicaes so:

Se a tem um nico elemento no-nulo, na posio j + 1, at = j .


Se a tem apenas dois elementos no-nulos, 1 na posio i + 1 e
1 na posio j + 1, at = i j .
Se a = (1, x1 , x2 , ..., xp ), onde xj indica um qualquer valor da
varivel preditora Xj , ento at representa o valor esperado de Y
associado aos valores indicados das variveis preditoras:

at = 0 + 1 x1 + 2 x2 + ... + p xp
= E [Y | X1 = x1 , X2 = x2 , ..., Xp = xp ] .

J. Cadima (ISA) Estatstica e Delineamento 2014-15 246 / 479


Inferncia sobre combinaes lineares dos j s

A multinormalidade do vector de estimadores implica a normalidade


de qualquer vector que seja combinao linear das suas componentes
(acetato 231, ponto 4). Mais concretamente,
 
Sabemos que N , 2 (Xt X)1 (acetato 235);
p+1

Logo, at N ( at , 2 at (Xt X)1 a ) (acetato 231, ponto 4);


at at
Ou seja, Z = N (0, 1);
2 at (Xt X)1 a
Por um raciocnio anlogo ao usado aquando dos s individuais,
tem-se ento

at at
p tn(p+1) .
QMRE at (Xt X)1 a

J. Cadima (ISA) Estatstica e Delineamento 2014-15 247 / 479


Quantidade fulcral para a inferncia sobre at

Teorema (Distribuies para combinaes lineares dos s)


Dado o Modelo de Regresso Linear Mltipla, tem-se

at at
tn(p+1) ,
at
p
com at = QMRE at (Xt X)1 a.

Neste Teorema temos o resultado que serve de base construo de


intervalos de confiana e testes de hipteses para quaisquer
combinaes lineares dos parmetros j do modelo.

NOTA: Repare-se na analogia da estrutura desta quantidade fulcral


com os resultados anteriores, relativos a j s individuais (acetato 241).

J. Cadima (ISA) Estatstica e Delineamento 2014-15 248 / 479


Intervalo de confiana para at

Teorema (Intervalo de Confiana a (1 ) 100% para at )


Dado o Modelo de Regresso Linear Mltipla, um intervalo a
(1 ) 100% de confiana para a combinao linear dos
parmetros, at = a0 0 + a1 1 + ... + ap p , :
i h
at b t /2 [n(p+1)] at , at b + t /2 [n(p+1)] at ,
p
com at b = a0 b0 + a1 b1 + ... + ap bp e at = QMRE at (Xt X)1 a.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 249 / 479


Testes de Hipteses sobre os parmetros
Dado o Modelo de Regresso Linear Mltipla,

Testes de Hipteses a at (Regresso Linear Mltipla)


<
Hipteses: H0 : at = c vs. H1 : at 6= c
>
=c
z }| {
at at |H0
Estatstica do Teste: T = at tn(p+1) .
Nvel de significncia do teste:
Regio Crtica (Regio de Rejeio): Rejeitar H0 se
Tcalc < t [n(p+1)] (Unilateral esquerdo)
|Tcalc | > t /2[n(p+1)] (Bilateral)
Tcalc > t [n(p+1)] (Unilateral direito)

J. Cadima (ISA) Estatstica e Delineamento 2014-15 250 / 479


De novo os casos particulares
No acetato (246) viram-se trs casos particulares importantes de
combinaes lineares dos parmetros.
No caso de at = j , os intervalos e testes acabados de ver so
idnticos aos dados nos acetatos (242) e (245).
No caso de at = j j , tem-se at = , com:
i j
q q
= V [i j ] = V [j ] 2 Cov[
[i ] + V i , j ]
i j
q  
= QMRE (Xt X)1
(i+1,i+1)
+(Xt X)1
(j+1,j+1)
2(Xt X)1
(i+1,j+1)

No caso de a conter os valores das variveis preditoras usados


na i-sima observao, a ser a linha i da matrix X. Nesse caso,
q p
at = QMRE at (Xt X)1 a = QMRE hii ,

onde hii indica o i-simo elemento diagonal da matriz de


projeces ortogonal H = X(Xt X)1 Xt .
J. Cadima (ISA) Estatstica e Delineamento 2014-15 251 / 479
ICs para combinaes lineares no
Para construir um intervalo de confiana para at , ser necessrio
conhecer a matriz das (co)varincias estimadas dos estimadores ,
[ ] = QMRE (Xt X)1 .
V

No , esta matriz obtm-se atravs da funo vcov.

E.g., a matriz das (co)varincias estimadas no exemplo dos lrios :


> vcov(iris2.lm)
(Intercept) Petal.Length Sepal.Length Sepal.Width
(Intercept) 0.031815766 0.0015144174 -0.005075942 -0.002486105
Petal.Length 0.001514417 0.0005998259 -0.001065046 0.000802941
Sepal.Length -0.005075942 -0.0010650465 0.002256837 -0.001344002
Sepal.Width -0.002486105 0.0008029410 -0.001344002 0.002394932

O erro padro estimado de 2 + 3 :


p
= 0.002256837 + 0.002394932 + 2(0.001344002) = 0.04431439 .
2 +3

J. Cadima (ISA) Estatstica e Delineamento 2014-15 252 / 479


Intervalos de confiana para E[Y ] no
Se a combinao linear dos s que se deseja corresponde ao valor
esperado de Y , dado um conjunto de valores X1 = x1 , ..., Xp = xp das
variveis preditoras, possvel obter o intervalo de confiana referido
no acetato 249 atravs do comando predict, tal como na RLS.

No exemplo dos lrios, um IC a 95% para a largura esperada de


ptalas de flores com Petal.Length=2, Sepal.Length=5 e
Sepal.Width=3.1 pedido assim:

> predict(iris2.lm, data.frame(Petal.Length=c(2), Sepal.Length=c(5),


+ Sepal.Width=c(3.1)), int="conf")

fit lwr upr


[1,] 0.462297 0.4169203 0.5076736

O IC para E [Y |X1 = 2, X2 = 5, X3 = 3.1] : ] 0.4169 , 0.5077 [.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 253 / 479


Intervalos de predio para Y
Podem tambm obter-se, de forma anloga ao que foi visto na RLS,
intervalos de predio para uma observao individual de Y ,
associada aos valores X1 = x1 , ..., Xp = xp das variveis preditoras.

Nestes intervalos, a estimativa da varincia associada a uma


observao individual de Y acrescida em QMRE unidades:

 
Y |x t /2 [n(p+1)] indiv , Y |x + t /2 [n(p+1)] indiv

onde x = (x1 , x2 , ..., xp )t indica o vector dos valores dos preditores e


Y |x = b0 + b1 x1 + b2 x2 + ... + bp xp

e
q  
indiv = QMRE 1 + at (Xt X)1 a com a = (1, x1 , x2 , ..., xp ).

J. Cadima (ISA) Estatstica e Delineamento 2014-15 254 / 479


Intervalos de predio para Y no R

No , possvel obter um intervalo de predio atravs do comando


predict com o argumento int=pred, tal como na RLS.

Eis, na RLM dos lrios, o intervalo de predio para a largura da


ptala, num lrio cujo comprimento de ptala seja 2 e com spala de
comprimento 5 e largura 3.1:

> predict(iris2.lm, data.frame(Petal.Length=c(2), Sepal.Length=c(5),


+ Sepal.Width=c(3.1)), int="pred")

fit lwr upr


[1,] 0.462297 0.08019972 0.8443942

O intervalo de predio pedido : ] 0.0802 , 0.8444 [.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 255 / 479


Avaliando a qualidade do ajustamento global
Numa Regresso Linear Simples, se 1 = 0, a equao do modelo
apenas Y = 0 + . Neste caso, o conhecimento do preditor X em
nada contribui para o conhecimento de Y (o Modelo Nulo no tira
partido da informao dos preditores).

Numa Regresso Linear Mltipla, o modelo Nulo Yi = 0 + i ,


corresponde a admitir que todas as variveis preditoras tm
coeficiente nulo. As hipteses que queremos confrontar so:

H0 : 1 = 2 = ... = p = 0
[MODELO INTIL]
vs.
H1 : j = 1, ..., p t.q. j 6= 0
[MODELO NO INTIL]

NOTA: repare que 0 no intervm nas hipteses.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 256 / 479


Distribuio associada a SQR

De novo, o ponto de partida para uma estatstica de teste ser a Soma


n
de Quadrados associada Regresso, SQR = (Y i Y )2 .
i=1

Tem-se (sem demonstrao):

Teorema
Dado o Modelo de Regresso Linear Mltipla,
SQR
2
p2 , se 1 = 2 = ... = p = 0.
SQR e SQRE so variveis aleatrias independentes.

SQR
Defina-se o Quadrado Mdio associado Regresso, QMR = p .

J. Cadima (ISA) Estatstica e Delineamento 2014-15 257 / 479


A estatstica do teste de ajustamento global

Temos (veja tambm o acetato 159), se j = 0 , i = 1 : p


W = SQR
2
p2




W /p QMR
V = SQRE
2
n(p+1)
2 = Fp,n(p+1) .

V /n(p+1) QMRE




W , V independentes

SQR SQRE
sendo QMR = p e QMRE = n(p+1) .

J. Cadima (ISA) Estatstica e Delineamento 2014-15 258 / 479


O Teste F de ajustamento global do Modelo
Sendo vlido o Modelo RLM, pode efectuar-se o seguinte

Teste F de ajustamento global do modelo RLM


Hipteses: H0 : 1 = 2 = ... = p = 0
vs.
H1 : j = 1, ..., p tal que j =
6 0.
QMR
Estatstica do Teste: F = QMRE Fp,n(p+1) se H0 .
Nvel de significncia do teste:
Regio Crtica (Regio de Rejeio): Unilateral direita

0.7
0.6
0.5
df(x, 4, 16)
Rejeitar H0 se Fcalc > f [p,n(p+1)]

0.4
0.3
0.2
0.1
0.0
0 1 2 3 4

J. Cadima (ISA) Estatstica e Delineamento 2014-15 259 / 479


Expresses alternativas no teste F global
A estatstica do teste F de ajustamento global do modelo numa
Regresso Linear Mltipla pode ser escrita na forma alternativa:

n (p + 1) R2
F = .
p 1 R2

Tal como na Regresso Linear Simples, a estatstica F uma


funo crescente do Coeficiente de Determinao, R 2 .

As hipteses do teste tambm se podem escrever como

H0 : R 2 = 0 vs. H1 : R 2 > 0 .

A hiptese H0 : R 2 = 0 indica ausncia de relao linear entre Y e o


conjunto dos preditores. Corresponde a um ajustamento pssimo do
modelo. A sua rejeio no garante um bom ajustamento, mas
apenas a capacidade de o distinguir do Modelo Nulo.
J. Cadima (ISA) Estatstica e Delineamento 2014-15 260 / 479
Outra formulao do Teste F de ajustamento global

Teste F de ajustamento global do modelo RLM (alternativa)


Hipteses: H0 : R 2 = 0 vs. H1 : R 2 > 0.
n(p+1) R 2
Estatstica do Teste: F = p 1R 2 F(p,n(p+1)) se H0 .
Nvel de significncia do teste:
Regio Crtica (Regio de Rejeio): Unilateral direita
Rejeitar H0 se Fcalc > f (p,n(p+1))

A estatstica F uma funo crescente do coeficiente de


determinao amostral, R 2 .
A hiptese nula H0 : R 2 = 0 afirma que, na populao, o
coeficiente de determinao nulo.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 261 / 479


O Quadro-resumo do ajustamento global

Frequentemente, sintetiza-se a informao usada num teste de


ajustamento global num quadro-resumo da regresso:

Fonte g.l. SQ QM fcalc

Regresso p ni=1 (yi y )2 SQR


p
QMR
QMRE

Resduos n (p + 1) ni=1 (yi yi )2 SQRE


np1

Total n1 ni=1 (yi y )2

J. Cadima (ISA) Estatstica e Delineamento 2014-15 262 / 479


O princpio da parcimnia na RLM

Recordemos o princpio da parcimnia na modelao: queremos um


modelo que descreva adequadamente a relao entre as variveis,
mas que seja o mais simples (parcimonioso) possvel.

Caso se disponha de um modelo de Regresso Linear Mltipla com


um ajustamento considerado adequado, a aplicao deste princpio
traduz-se em saber se ser possvel obter um modelo com menos
variveis preditoras, sem perder significativamente em termos de
qualidade de ajustamento.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 263 / 479


Modelo e Submodelos
Se dispomos de um modelo de Regresso Linear Mltipla, com
relao de base

Y = 0 + 1 x1 + 2 x2 + 3 x3 + 4 x4 + 5 x5 ,

chamamos submodelo a um modelo de regresso linear mltipla


contendo apenas algumas das variveis preditoras, e.g.,

Y = 0 + 2 x2 + 5 x5 ,

Podemos identificar o submodelo pelo conjunto S das variveis


preditoras que pertencem ao submodelo. No exemplo, S = {2, 5}.
O modelo e o submodelo so idnticos se j = 0 para qualquer
varivel xj cujo ndice no pertena a S .

J. Cadima (ISA) Estatstica e Delineamento 2014-15 264 / 479


Comparando modelo e submodelos

Para avaliar se um dado modelo difere significativamente dum seu


submodelo (identificado pelo conjunto S dos ndices das suas
variveis), precisamos de optar entre as hipteses:
H 0 : j = 0 , j
/S vs. H1 : j
/S tal que j 6= 0.

[SUBMODELO OK] [SUBMODELO PIOR]

NOTA: Esta discusso s envolve coeficientes j de variveis


preditoras. O coeficiente 0 faz sempre parte dos submodelos.
Este coeficiente 0 no relevante do ponto de vista da parcimnia: a
sua presena no implica trabalho adicional de recolha de dados, nem
de interpretao do modelo (ao mesmo tempo que permite um melhor
ajustamento do modelo).

J. Cadima (ISA) Estatstica e Delineamento 2014-15 265 / 479


Uma estatstica de teste para a comparao
modelo/submodelo

A estatstica de teste envolve a comparao das Somas de


Quadrados Residuais do:
modelo completo (referenciado pelo ndice C); e do
submodelo (referenciado pelo ndice S)

Vamos admitir que o submodelo tem k preditores (k + 1 parmetros):

(SQRES SQREC )/(p k)


F = Fpk ,n(p+1) ,
SQREC /[n (p + 1)]

caso j = 0, para todas as variveis xj que no pertenam ao


submodelo.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 266 / 479


O teste a um submodelo (teste F parcial)

Teste F de comparao dum modelo com um seu submodelo


Dado o Modelo de Regresso Linear Mltipla,
Hipteses:
H 0 : j = 0 , j
/S vs. H1 : j
/S tal que j 6= 0.
Estatstica do Teste:
F = (SQRE S SQREC )/(pk )
SQRE /[n(p+1)] Fpk ,n(p+1) , sob H0 .
C

Nvel de significncia do teste:


Regio Crtica (Regio de Rejeio): Unilateral direita

0.7
0.6
0.5
df(x, 4, 16)
Rejeitar H0 se Fcalc > f [pk , n(p+1)]

0.4
0.3
0.2
0.1
0.0
0 1 2 3 4

J. Cadima (ISA) Estatstica e Delineamento 2014-15 267 / 479


Expresso alternativa para a estatstica do teste

A estatstica do teste F de comparao de um modelo completo com


p preditores, e um seu submodelo com apenas k preditores pode ser
escrita na forma alternativa:

n (p + 1) RC2 RS2
F = .
pk 1 RC2

NOTA: Assinale-se que a Soma de Quadrados Total, SQT , apenas


depende dos valores observados da varivel resposta Y , e no de
qual o modelo ajustado. Assim, SQT igual no modelo completo e no
submodelo.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 268 / 479


Expresso alternativa para as hipteses do teste

As hipteses do teste tambm se podem escrever como

H0 : RC2 = RS2 vs. H1 : RC2 > RS2 ,

A hiptese H0 indica que o grau de relacionamento linear entre Y e o


conjunto dos preditores idntico no modelo e no submodelo.

Caso no se rejeite H0 , opta-se pelo submodelo (mais parcimonioso).


Caso se rejeite H0 , opta-se pelo modelo completo (ajusta-se
significativamente melhor).

J. Cadima (ISA) Estatstica e Delineamento 2014-15 269 / 479


Teste F parcial: formulao alternativa

Teste F de comparao dum modelo com um seu submodelo


Dado o Modelo de Regresso Linear Mltipla,
Hipteses:
H0 : RC2 = RS2 vs. H1 : RC2 > RS2 .
Estatstica do Teste:
RC2 RS2
F = n(p+1)
pk 1R 2 Fpk ,n(p+1) , sob H0 .
C

Nvel de significncia do teste:


Regio Crtica (Regio de Rejeio): Unilateral direita

0.7
0.6
0.5
df(x, 4, 16)
Rejeitar H0 se Fcalc > f [pk , n(p+1)]

0.4
0.3
0.2
0.1
0.0
0 1 2 3 4

J. Cadima (ISA) Estatstica e Delineamento 2014-15 270 / 479


O teste a submodelos no

A informao necessria para um teste F parcial obtem-se no ,


atravs da funo anova, com dois argumentos: os objectos lm
resultantes de ajustar o modelo completo e o submodelo sob
comparao.

Nos exemplos dos lrios (acetatos 131 e 243), temos:


> anova(iris.lm, iris2.lm)
Analysis of Variance Table
Model 1: Petal.Width ~ Petal.Length
Model 2: Petal.Width ~ Petal.Length + Sepal.Length + Sepal.Width
Res.Df RSS Df Sum of Sq F Pr(>F)
1 148 6.3101
2 146 5.3803 2 0.9298 12.616 8.836e-06 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

J. Cadima (ISA) Estatstica e Delineamento 2014-15 271 / 479


Relao entre os testes-t e o teste F parcial

Caso o modelo e submodelo difiram num nico preditor, Xj , o teste F


parcial descrito nos acetatos anteriores equivalente ao teste t
(acetato 245) com as hipteses H0 : j = 0 vs. H1 : j 6= 0.

Nesse caso, no apenas as hipteses dos dois testes so iguais,


como a estatstica do teste F parcial o quadrado da estatstica do
teste t referido. Tem-se p k = 1, e como sabido (ver os
apontamentos da disciplina de Estatstica dos primeiros ciclos do ISA),
se uma varivel aleatria T tem distribuio t , ento o seu quadrado,
T 2 tem distribuio F1, .

J. Cadima (ISA) Estatstica e Delineamento 2014-15 272 / 479


Como escolher um submodelo?

O teste F parcial (teste aos modelos encaixados) permite-nos optar


entre um modelo e um seu submodelo. Por vezes, um submodelo
pode ser sugerido por:
razes de ndole terica, sugerindo que determinadas variveis
preditoras no sejam, na realidade, importantes para influenciar
os valores de Y .
razes de ndole prtica, como a dificuldade, custo ou volume de
trabalho associado recolha de observaes para determinadas
variveis preditoras.
Nestes casos, pode ser claro que submodelo(s) se deseja testar.
Nota: Veja-sa o Exerccio RLM 9e) para um exemplo.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 273 / 479


Como escolher um submodelo? (cont.)
Mas em muitas situaes no , partida, evidente qual o
subconjunto de variveis preditoras que se deseja considerar no
submodelo. Pretende-se apenas ver se o modelo simplificvel.
Nestes casos, a opo por um submodelo no um problema fcil.

Dadas p variveis preditoras, o nmero de subconjuntos, de qualquer


cardinalidade, excepto 0 (conjunto vazio) e p (o modelo completo) que
possvel escolher dado por 2p 2. A tabela seguinte indica o
nmero desses subconjuntos para p = 5, 10, 15, 20.
p 2p 2
5 30
10 1 022
15 32 766
20 1 048 574

J. Cadima (ISA) Estatstica e Delineamento 2014-15 274 / 479


Cuidado com excluses simultneas de preditores

Para valores de p pequenos, possvel analisar todos os possveis


subconjuntos. Mas para p mdio ou grande, essa anlise completa
invivel.

Tambm no legtimo olhar para o ajustamento do modelo completo


e, com base nos testes t significncia de cada coeficiente j , optar
pela excluso de vrias variveis preditoras em simultneo.

De facto, os testes t aos coeficientes j so feitos partindo do princpio


que todas as restantes variveis pertencem ao modelo. A excluso de
um qualquer preditor altera o ajustamento: altera os valores estimados
bj e os respectivos erros padro das variveis que permanecem no
submodelo. Pode acontecer que um preditor seja dispensvel num
modelo completo, mas deixe de o ser num submodelo, ou viceversa.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 275 / 479


Um exemplo
Nos dados relativos ao Exerccio 2 (RLM) das aulas prticas, a tabela
associada regresso da varivel Brix sobre todas as restantes :
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.08878 1.00252 6.073 0.000298 ***
Diametro 1.27093 0.51219 2.481 0.038030 *
Altura -0.70967 0.41098 -1.727 0.122478
Peso -0.20453 0.14096 -1.451 0.184841
pH 0.51557 0.33733 1.528 0.164942
Acucar 0.08971 0.03611 2.484 0.037866 *

Mas no legtimo concluir que Altura, Peso e pH so dispensveis.

> anova(brix2.lm,brix.lm)
Analysis of Variance Table
Model 1: Brix ~ Diametro + Acucar
Model 2: Brix ~ Diametro + Altura + Peso + pH + Acucar
Res.Df RSS Df Sum of Sq F Pr(>F)
1 11 0.42743
2 8 0.14925 3 0.27818 4.97 0.03104 *

J. Cadima (ISA) Estatstica e Delineamento 2014-15 276 / 479


Algoritmos de pesquisa sequenciais

Vamos considerar algoritmos de pesquisa que permitam simplificar um


modelo de regresso linear mltipla, sem precisar de analisar todo os
possveis submodelos. Em particular, vamos considerar um algoritmo
que, em cada passo, exclui uma varivel preditora, at alcanar uma
condio de paragem considerada adequada. Trata-se do

algoritmo de excluso sequencial (backward elimination).

Existem variantes deste algoritmo, no estudadas aqui:


algoritmo de incluso sequencial (forward selection).
algoritmos de excluso/incluso alternada (stepwise selection).

J. Cadima (ISA) Estatstica e Delineamento 2014-15 277 / 479


O algoritmo de excluso sequencial

1 ajustar o modelo completo, com os p preditores;


2 existem variveis para as quais no se rejeita a hiptese j = 0?
Em caso negativo, passar ao ponto seguinte. Em caso afirmativo,
qualquer dessas variveis candidata a sair do modelo.
1 se apenas existe uma candidata a sair, excluir essa varivel;
2 se existir mais do que uma varivel candidata a sair, excluir a
varivel associada ao maior p-value (isto , ao valor da estatstica t
mais prxima de zero)
Em qualquer caso, reajustar o modelo aps a excluso da
varivel e repetir este ponto
3 Quando no existirem variveis candidatas a sair, ou quando
sobrar um nico preditor, o algoritmo pra. Tem-se ento o
modelo final.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 278 / 479


Um exemplo Exerccio 2 (RLM)
Usando o nvel de significncia = 0.05:
> summary(lm(Brix ~ Diametro + Altura + Peso + pH + Acucar, data=brix))
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.08878 1.00252 6.073 0.000298 ***
Diametro 1.27093 0.51219 2.481 0.038030 *
Altura -0.70967 0.41098 -1.727 0.122478
Peso -0.20453 0.14096 -1.451 0.184841
pH 0.51557 0.33733 1.528 0.164942
Acucar 0.08971 0.03611 2.484 0.037866 *

> summary(lm(Brix ~ Diametro + Altura + pH + Acucar, data=brix))


Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.25964 1.05494 5.934 0.000220 ***
Diametro 1.40573 0.53373 2.634 0.027189 *
Altura -1.06413 0.35021 -3.039 0.014050 * < Passou a ser significativo (0.05)
pH 0.33844 0.33322 1.016 0.336316
Acucar 0.08481 0.03810 2.226 0.053031 . < Deixou de ser significativo (0.05)

> summary(lm(Brix ~ Diametro + Altura + Acucar, data=brix))


Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.97183 0.78941 8.832 4.9e-06 ***
Diametro 1.57932 0.50642 3.119 0.01090 *
Altura -1.11589 0.34702 -3.216 0.00924 **
Acucar 0.09039 0.03776 2.394 0.03771 * < Voltou a ser significativo (0.05)

O algoritmo pra aqui. Pode comparar-se o submodelo final com o


modelo completo, atravs dum teste F parcial.
J. Cadima (ISA) Estatstica e Delineamento 2014-15 279 / 479
Algoritmos sequenciais com base no AIC

O disponibiliza funes para automatizar pesquisas sequenciais


de submodelos, semelhantes que aqui foi enunciada, mas em que o
critrio de excluso duma varivel em cada passo se baseia no
Critrio de Informao de Akaike (AIC).

O AIC uma medida geral da qualidade de ajustamento de modelos.


No contexto duma Regresso Linear Mltipla com k variveis
preditoras, define-se como
 
SQREk
AIC = n ln + 2(k + 1) .
n

Nota: O AIC pode tomar valores negativos.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 280 / 479


Interpretando o AIC

 
SQREk
AIC = n ln + 2(k + 1)
n

a primeira parcela funo crescente de SQREk , i.e., quanto


melhor o ajustamento, mais pequena a primeira parcela;
a segunda parcela mede a complexidade do modelo (k +1 o
nmero de parmetros), pelo que quanto mais parcimonioso o
modelo, mais pequena a segunda parcela.
Assim, o AIC mede simultaneamente a qualidade do ajustamento e a
simplicidade do modelo.

Um modelo para a varivel resposta Y considerado melhor que


outro se tiver um AIC menor.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 281 / 479


Algoritmos sequenciais com base no AIC (cont.)

Pode definir-se um algoritmo de excluso sequencial, com base no


critrio AIC:
ajustar o modelo completo e calcular o respectivo AIC.
ajustar cada submodelo com menos uma varivel e calcular o
respectivo AIC.
Se nenhum dos AICs dos submodelos considerados fr inferior
ao AIC do modelo anterior, o algoritmo termina sendo o modelo
anterior o modelo final.
Caso alguma das excluses reduza o AIC, efectua-se a excluso
que maior reduo no AIC provoca e regressa-se ao ponto
anterior.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 282 / 479


Algoritmos sequenciais com base no AIC (cont.)

Em cada passo de excluso, o submodelo com menor AIC ser


aquele que provocar menor aumento no SQRE , ou seja, aquele que
tiver excludo a varivel cujo teste a j = 0 tem maior p-value.

Assim, o procedimento de excluso sequencial baseado nos testes t


ou no AIC coincidem na ordem das variveis a excluir, podendo diferir
apenas no critrio de paragem.

Em geral, um algoritmo de excluso sequencial baseado no AIC


mais cauteloso quanto a excluses do que um algoritmo baseado nos
testes t, sobretudo se o valor de usado nos testes fr baixo.
aconselhvel usar valores mais elevados de , como = 0.10, nos
algoritmos de excluso baseados nos testes t.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 283 / 479


Algoritmos de excluso sequencial no
A funo step corre o algoritmo de excluso sequencial, com base no
AIC. Considere ainda o exemplo dos dados brix (Exerccio 2 RLM):
> brix.lm <- lm(Brix ~ Diametro+Altura+Peso+pH+Acucar, data = brix)
> step(brix.lm, dir="backward")
Start: AIC=-51.58
Brix ~ Diametro + Altura + Peso + pH + Acucar
Df Sum of Sq RSS AIC
<none> 0.14925 -51.576
- Peso 1 0.039279 0.18853 -50.306
- pH 1 0.043581 0.19284 -49.990
- Altura 1 0.055631 0.20489 -49.141
- Diametro 1 0.114874 0.26413 -45.585
- Acucar 1 0.115132 0.26439 -45.572

Neste caso, no se exclui qualquer varivel: o AIC do modelo inicial inferior ao de


qualquer submodelo resultante de excluir uma varivel. O submodelo final o modelo
inicial.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 284 / 479


Uma palavra final sobre algoritmos de pesquisa

O algoritmo de excluso sequencial no garante a identificao do


melhor submodelo com um dado nmero de preditores. Apenas
identifica, de forma que no computacionalmente muito pesada,
submodelos que se presume serem bons.

Deve ser usado com bom senso e o submodelo obtido cruzado com
outras consideraes (como por exemplo, o custo ou dificuldade de
obteno de cada varivel, ou o papel que a teoria relativa ao
problema em questo reserva a cada preditor).

J. Cadima (ISA) Estatstica e Delineamento 2014-15 285 / 479


Regresso Polinomial
Um caso particular de relao no-linear, mesmo que envolvendo
apenas uma varivel preditora e a varivel resposta, pode ser
facilmente tratada no mbito duma regresso linear mltipla: o caso
de relaes polinomiais entre Y e um ou mais preditores.

Considere-se, por exemplo, que a relao de fundo entre uma varivel


resposta Y e uma nica varivel preditora X no dada por uma
recta, mas sim por uma parbola:
80
60
40
y

20
0

0 2 4 6 8 10

J. Cadima (ISA) Estatstica e Delineamento 2014-15 286 / 479


Regresso Polinomial - Exemplo
Considere os dados do Exerccio 7 da Regresso Linear Mltipla,
relativos a medies sobre n = 600 folhas de videira.

Eis o grfico das reas vs. comprimentos de nervuras principais, com


sobreposta a recta de regresso:

400
300
videiras$Area

200
100

4 6 8 10 12 14 16

videiras$NP

H uma tendncia para curvatura. Talvez um polinmio de 2o. grau?


J. Cadima (ISA) Estatstica e Delineamento 2014-15 287 / 479
Regresso Polinomial - Exemplo (cont.)
Qualquer parbola, com equao Y = 0 + 1 x + 2 x 2 , pode ser
ajustada e estudada como se se tratasse duma regresso linear entre
Y e as variveis X1 = X e X2 = X 2 :

> summary(lm(Area ~ NP + I(NP^2), data=videiras))


Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.5961 22.0431 0.345 0.731
NP -0.2172 4.0125 -0.054 0.957
I(NP^2) 1.2941 0.1801 7.187 1.98e-12 ***
---
Residual standard error: 28.86 on 597 degrees of freedom
Multiple R-squared: 0.8162, Adjusted R-squared: 0.8155
F-statistic: 1325 on 2 and 597 DF, p-value: < 2.2e-16

A equao da parbola ajustada y = 7.5961 0.2172 x + 1.2941 x 2.

A rejeio da hiptese 2 = 0 diz que a parbola ajusta-se


significativamente melhor do que a recta de regresso.
J. Cadima (ISA) Estatstica e Delineamento 2014-15 288 / 479
Regresso Polinomial - Exemplo (cont.)

Eis a parbola ajustada:

R2 = 0.8162

400
y = 7.5951 0.2172x + 1.2941x2

300
videiras$Area

200
100

R2 = 0.8003

4 6 8 10 12 14 16

videiras$NP

legtimo afirmar que este modelo de regresso quadrtico explica


81.62% da variabilidade nas reas foliares observadas.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 289 / 479


Regresses Polinomiais (cont.)

O argumento extensvel a qualquer polinmio de qualquer grau, e


em qualquer nmero de variveis. Dois exemplos:
Polinmio de grau p numa varivel

Y = 0 + 1 |{z}
x +2 |{z}
x 2 +3 |{z}
x 3 +... + p |{z}
xp
=x1 =x2 =x3 =xp

Polinmio de grau 2 em 2 variveis

Y = 0 + 1 |{z}
x +2 |{z}
x 2 +3 |{z}
z +4 |{z}
z 2 +5 |{z}
xz
=x1 =x2 =x3 =x4 =x5

J. Cadima (ISA) Estatstica e Delineamento 2014-15 290 / 479


A anlise de Resduos e outros diagnsticos

Uma anlise de regresso linear no fica completa sem o estudo dos


resduos e de alguns outros diagnsticos.

Grande parte do que se disse sobre resduos na Regresso Linear


Simples mantm-se vlido numa Regresso Linear Mltipla.

Relembrar trs conceitos relacionados, mas diferentes:


Erros aleatrios
i = Yi (0 + 1 x1(i) + 2 x2(i) + ... + p xp(i) )
Resduos (variveis aleatrias)
Ei = Yi (0 + 1 x1(i) + 2 x2(i) + ... + p xp(i) )
Resduos (observados)
ei = yi (b0 + b1 x1(i) + b2 x2(i) + ... + bp xp(i) )

J. Cadima (ISA) Estatstica e Delineamento 2014-15 291 / 479


Propriedades dos Resduos sob o Modelo RLM

O modelo de Regresso Linear Mltipla admite que

i N (0 , 2 ) i = 1, ..., n .

Sob o modelo RLM, os resduos tm a seguinte distribuio:


 
Ei N 0 , 2 (1 hii ) i = 1, ..., n ,

onde hii o i-simo elemento diagonal da matriz H = X(Xt X)1 Xt de


projeco ortogonal sobre o subespao C (X), gerado pelas colunas
da matriz X.

= Y HY = (In H)Y ,
Em notao vectorial: E = Y Y

J. Cadima (ISA) Estatstica e Delineamento 2014-15 292 / 479


Propriedades dos Resduos sob o Modelo RLM (cont.)

Teorema (Distribuio dos Resduos no MRLM)


Dado o Modelo de Regresso Linear Mltipla, tem-se:
 
E Nn 0 , 2 (In H) sendo E = (In H)Y .

O vector dos resduos E = Y Y = Y HY = (In H)Y , tem


distribuio Multinormal pelo ltimo ponto do Teorema do acetato 231.

O vector esperado de E resulta das propriedades do acetato 226:


E [E] = E [(In H)Y] = (In H)E [Y] = (In H)X = 0,
pois o vector X C (X), logo permanece invariante sob a aco
da matriz de projeces H: HX = X .

J. Cadima (ISA) Estatstica e Delineamento 2014-15 293 / 479


Propriedades dos Resduos sob o Modelo RLM (cont.)

A matriz de covarincias do vector aleatrio dos resduos, E,


calcula-se a partir do facto de a matriz de projeco ortogonal ser
(Exerccio 4 da RLM):

simtrica, isto Ht = H;
idempotente, isto , H2 = H H = H.

Tendo tambm presentes as propriedades do acetato 227, vem:


V [E] = V [(In H)Y] = (In H)V [Y](In H)t = 2 (In H).

J. Cadima (ISA) Estatstica e Delineamento 2014-15 294 / 479


Propriedades dos Resduos sob o Modelo RLM (cont.)

Embora no modelo RLM os erros aleatrios sejam independentes, os


resduos no so variveis aleatrias independentes, pois as
covarincias entre resduos diferentes so (em geral), no nulas:

cov(Ei , Ej ) = 2 hij , se i 6= j ,

onde hij indica o elemento da linha i e coluna j da matriz H.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 295 / 479


Vrios tipos de resduos

Tal como na RLS, definem-se diferentes tipos de resduos (como


resultado do facto de as varincias dos resduos clssicos (Ei ) no
serem constantes, mesmo sob o modelo de RLM):
Resduos habituais : Ei = Yi Y i ;
Ei
Resduos (internamente) estandardizados : Ri = .
QMRE(1hii )
Resduos Studentizados (ou externamente estandardizados):

Ei
Ti = q
QMRE[i] (1 hii )

sendo QMRE[i] o valor de QMRE resultante de um


ajustamento da Regresso exclundo a i-sima
observao (associada ao resduo Ei ).

J. Cadima (ISA) Estatstica e Delineamento 2014-15 296 / 479


Anlise dos resduos
Tal como para a RLS, tambm em regresses mltiplas se avalia a
validade dos pressupostos do modelo atravs de grficos de resduos.

Estes grficos so agora mais importantes do que na RLS, dada a


impossibilidade de visualizao de nuvens de pontos em espaos de
alta dimensionalidade.

Os grficos mais usuais so os j considerados na RLS e a sua leitura


faz-se de forma anloga:
i s: os pontos devem-se dispor numa banda
grfico de Ei s vs. Y
horizontal, centrada no valor zero, sem outro padro especial.
qq-plot dos resduos estandardizados vs. distribuio Normal: a
Normalidade dos erros aleatrios corresponde linearidade.
grfico de resduos vs. ordem de observao: para investigar
eventuais faltas de independncia dos erros aleatrios.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 297 / 479


O efeito alavanca

Outras ferramentas de diagnstico visam identificar observaes


individuais que merecem ulterior anlise, tal como na RLS. Mas
importa adaptar as definies ao contexto de Regresso Mltipla.

Numa RLM o valor de efeito alavanca (leverage) o valor hii do


elemento diagonal da matriz de projeco ortogonal H,
correspondente observao i.

O valor mdio das observaes alavanca numa RLM

p+1
h= ,
n
ou seja, a razo entre o nmero de parmetros e o nmero de
observaes.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 298 / 479


Grficos de diagnstico

A distncia de Cook para avaliar a influncia da observao i


define-se agora como:

y
ky (i)k2
Di = ,
(p + 1) QMRE
onde y(i) = X (i) o vector dos n valores ajustados de Y obtido
estimando os s sem a observao i. Expresso equivalente (sendo
Ri o correspondente resduo estandardizado):
 
2 hii 1
Di = Ri .
1 hii p+1

Os restantes aspectos da discusso so anlogos aos duma RLS.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 299 / 479


Um exemplo de grficos de diagnstico
Um exemplo destes grficos de diagnsticos, para os dados do
Exerccio 2 da RLM (Brix) :

Cooks distance Residuals vs Leverage

13

2
1.5 14
1
1

Standardized residuals
0.5

1
14
Cooks distance

1.0

0
1

1
0.5

0.5

2
13
Cooks distance
0.0

2 4 6 8 10 12 14 0.0 0.2 0.4 0.6

Obs. number Leverage

Os valores bastante elevados de distncia de Cook e hii neste


exemplo reflectem o reduzido nmero de observaes (n = 14) usado
para ajustar um modelo com muitos parmetros (p + 1 = 6).
J. Cadima (ISA) Estatstica e Delineamento 2014-15 300 / 479
O R 2 modificado
Como foi visto no contexto da RLS (acetato 164), define-se uma
variante do Coeficiente de Determinao: o R 2 modificado.
O Coeficiente de Determinao usual:
SQR SQRE
R2 = = 1
SQT SQT

O R 2 modificado (sendo QMT = SQT /(n 1)):

2 QMRE SQRE
Rmod = 1 = 1 n1 = 1 (1 R 2) n(p+1)
n1 .
QMT SQT n(p+1)
2
Tem-se sempre n1 > n(p+1), pelo que Rmod < R 2.

Quando n p + 1 (muito mais observaes que parmetros no


modelo) tem-se R 2 Rmod
2 .

2
Se n pouco maior que o nmero de variveis preditoras, Rmod
2 2
bastante inferior a R , excepto se R fr muito prximo de 1.
J. Cadima (ISA) Estatstica e Delineamento 2014-15 301 / 479
Advertncias finais

1. Podem surgir problemas associados multicolinearidade das


variveis preditoras, ou seja, ao facto das colunas da matriz X serem
(quase) linearmente dependentes. Nesse caso, podem:
existir problemas no clculo de (Xt X)1 , logo no ajustamento do
modelo e na estimao dos parmetros;
existir varincias muito grandes de alguns i s, o que significa
muita instabilidade na inferncia.

Multicolinearidade exacta reflecte redundncia de informao nos


preditores.

possvel eliminar multicolinearidade exacta ou aproximada,


exclundo da anlise uma ou vrias variveis preditoras que sejam
responsveis pela (quase) dependncia linear dos preditores.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 302 / 479


Advertncias finais (cont.)
2. Tal como na Regresso Linear Simples, podem ser usadas
transformaes da varivel resposta, e tambm de alguma(s) das
variveis preditoras.

Em particular, podem ser teis transformaes que linearizem a


relao entre Y e X1 , X2 , ..., Xp . Tais transformaes linearizantes
podem permitir estudar relaes de tipo no-linear atravs de relaes
lineares entre as variveis transformadas.

E.g., a relao no linear entre Y , x1 e x2 ,

y = a x1b x2c

torna-se, aps uma logaritmizao, numa relao linear entre ln(y),


ln(x1 ) e ln(x2 ) (com b0 = ln(a), b1 = b e b2 = c):

ln(y) = b0 + b1 ln(x1 ) + b2 ln(x2 ) .

J. Cadima (ISA) Estatstica e Delineamento 2014-15 303 / 479


Advertncias finais (cont.)
3. No se deve confundir a existncia de uma relao linear entre
preditores X1 , X2 , ..., Xp e varivel resposta Y , com uma relao de
causa e efeito.

Pode existir uma relao de causa e efeito.


Mas pode tambm verificar-se:
Uma relao de variao conjunta, mas no de tipo causal (como
por exemplo, em muitos conjuntos de dados morfomtricos). Por
vezes, preditores e varivel resposta so todos efeito de causas
comuns subjacentes.
Uma relao espria, de coincidncia numrica.

Uma relao causal s pode ser afirmada com base em teoria prpria
do fenmeno sob estudo, e no com base na relao linear
estabelecida estatisticamente.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 304 / 479

You might also like