Regressão Múltipla com mais de uma variável preditora

II.2.
Regresso Linear Mltipla
Por vezes, necessrio mais do que uma varivel preditiva para

modelar a varivel resposta de interesse.
Exemplo: Num estudo sobre uma populao experimental de clones

da casta Tinta Francisca, realizado no Tabuao em 2003, foram
medidos os valores das seguintes variveis para 24 videiras:
teor de antocianas (varivel antoci, em mg/dm3 );
fenis totais (varivel fentot);
pH (varivel pH).
H interesse em estudar a relao entre o teor de antocianas (varivel

resposta) e o teor de fenis totais e pH.
J. Cadima (ISA) Estatstica e Delineamento 2014-15 187 / 479

A nuvem de pontos - uma perspectiva
As n = 24 observaes em trs variveis descrevem agora uma
nuvem de 24 pontos em R3 .
Neste ngulo de viso, a nuvem de pontos em R3 nada tem de

especial.

A nuvem de pontos - outra perspectiva
Noutro ngulo de viso percebe-se que os pontos se dispersam

aproximadamente em torno de um plano.

Plano em R3
Qualquer plano em R3 , no sistema x0y0z, tem equao
Ax + By + Cz + D = 0 .
No nosso contexto, e colocando:

no eixo vertical (z) a varivel resposta Y ;
noutro eixo (x) um preditor X1 ;
no terceiro eixo (y) o outro preditor X2 ,
A equao fica (no caso geral, com C 6= 0):
D A B
Ax1 + Bx2 + Cy + D = 0 y = x1 x2
C C C
y = b0 + b1 x1 + b2 x2
Esta equao generaliza a equao da recta, para o caso de haver

dois preditores.

Regresso Mltipla - representao grfica (p = 2)
y
11111111111111111111111
00000000000000000000000
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
Y = b0 + b1 x1 + b2 x2
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111x1
00000000000000000000000
11111111111111111111111
x2
Y = b0 + b1x1 + b2 x2 a equao dum plano em R3 (x1 0x2 0y).

Pode ser ajustado pelo mesmo critrio que na RLS: minimizar a Soma
de Quadrados Residual.
O caso geral: p preditores
Caso se pretenda modelar uma varivel resposta, Y , com base em p

variveis preditoras, x1 , x2 , ..., xp , uma generalizao da equao de
regresso linear simples admite que os valores de Y oscilam em torno
duma combinao linear (afim) das p variveis preditivas:
y = b0 + b1 x1 + b2 x2 + ... + bp xp .
Tal como na Regresso Linear

Simples, admite-se n que dispomos de n
conjuntos de observaes x1(i) , x2(i) , ...xp(i) , yi i=1 , para estudar
este hiperplano em Rp+1 que define a relao de fundo entre Y e os p
preditores.
Comeamos por considerar o problema meramente descritivo.

O hiperplano ajustado
O critrio utilizado para ajustar um hiperplano nuvem de n pontos
em Rp+1 o mesmo que na RLS: minimizar a Soma de Quadrados
dos Resduos, ou seja, escolher os valores dos p + 1 parmetros
p
{bj }j=0 de tal forma que minimizem
n n
SQRE = ei2 = (yi yi )2
i= i=
onde os yi so os valores observados da varivel resposta e

yi = b0 + b1 x1(i) + b2 x2(i) + ... + bp xp(i) os valores ajustados,
resultantes dos valores correspondentes dos p preditores e da
equao do hiperplano.
Infelizmente, no existem frmulas simples, como no caso da RLS,

para cada um dos parmetros bj isoladamente. Mas possvel indicar
uma frmula nica matricial para o conjunto dos p + 1 parmetros.

As dificuldades na representao grfica
A representao grfica usual da nuvem de n pontos observados
exige p + 1 eixos: um para Y e um para cada um dos p preditores.
Para p > 2, seriam necessrios mais de trs eixos e a visualizao

torna-se impossvel.
As caractersticas fundamentais dessas representaes seriam:

Existem p + 1 eixos um para cada varivel em questo.
Existem n pontos um para cada indivduo (unidade
experimental) observado.
Tem-se uma nuvem de n pontos num espao (p + 1)-dimensional.
Na regresso linear mltipla admite-se que os pontos se dispem em

torno de um hiperplano em Rp+1 , de equao
y = b0 + b1 x1 + b2 x2 + ... + bp xp .

Visualizaes parciais da nuvem de pontos
A impossibilidade de visualizar as nuvens de n pontos em Rp+1
sugere a considerao de vises parciais, como sejam as nuvens de
pontos definidas por cada par de variveis, que so as projeces
ortogonais da nuvem em cada plano coordenado de Rp+1 .
E.g., para as n = 150 observaes de lrios em 4 variveis:
2.0 3.0 4.0 0.5 1.5 2.5
7.5
Sepal.Length
6.0
4.5
4.0
Sepal.Width
3.0
2.0
7
5
Petal.Length
3
1
2.5
1.5
Petal.Width
0.5
4.5 5.5 6.5 7.5 1 2 3 4 5 6 7

Advertncia
A projeco da nuvem de n pontos nos planos coordenados no

uma soluo ideal.
Em particular, nem sempre permite verificar a hiptese bsica de

linearidade, isto , a hiptese de que os pontos se dispersam em
torno de um hiperplano.
Tal hiptese pode ser vlida, mesmo que no se verifique linearidade

em qualquer das nuvens de pontos de y vs. um preditor individual, xj .

Outra representao grfica
A representao grfica em Rp+1 das n observaes de Y e das p
variveis preditivas no a nica possvel.
H outra representao possvel dos dados, que casa conceitos

geomtricos e conceitos estatsticos e til na determinao dos
parmetros ajustados.
As n observaes de Y definem um vector em Rn :
y = (y1 , y2 , y3 , ..., yn ) .
Da mesma forma, as n observaes de cada varivel preditora

definem um vector de Rn .
xj = (xj(1) , xj(2) , xj(3) , ..., xj(n) ) (j = 1, 2, ..., p).
Podemos representar todas as variveis por vectores em Rn .

A representao em Rn , o espao das variveis
cada eixo corresponde a um indivduo observado;
cada vector corresponde a uma varivel.
O vector de n uns, representado por 1n , tambm til.
x1
Ind. 1
1n
Rn
y
x2
Ind. 2
x3
Ind. 3
...
Ind n
Ind. 4

Vantagens da representao grfica alternativa
Os n valores ajustados yi tambm definem um vector de Rn , y
, que
uma combinao linear dos vectores 1n , x1 , x2 , ..., xp :

1 x1(1) xp(1)
1
x1(2)

xp(2)

b0 1n + b1 x1 + b2 x2 + ... + bp xp =

b0 1
+ b1 x1(3) + ... + bp xp(3)
..
..

..

. . .
1 x1(n) xp(n)

b0 + b1 x1(1) + b2 x2(1) + ... + bp xp(1) y1

b0 + b1 x1(2) + b2 x2(2) + ... + bp xp(2)

y2

=

b0 + b1 x1(3) + b2 x2(3) + ... + bp xp(3)

= y3

..
... .
b0 + b1 x1(n) + b2 x2(n) + ... + bp xp(n) yn
=
y

A matriz X e o seu subespao de colunas
Recordemos alguns conceitos dados na UC lgebra Linear dos 1os.
ciclos do ISA.
O conjunto de todas as combinaes lineares dos p+1 vectores

1n , x1 , ..., xp chama-se o subespao gerado por esses vectores.
Colocando os vectores 1n , x1 , ..., xp nas colunas duma matriz X,
de dimenso n (p + 1), podemos chamar a este subespao o
subespao das colunas da matriz X, C (X) Rn .
um subespao de dimenso p + 1 (se os vectores forem
linearmente independentes, isto , nenhum se pode escrever
como combinao linear dos restantes).
Qualquer combinao linear dos vectores coluna da matriz X
dada por Xa, onde a = (a0 , a1 , a2 , ..., ap ) o vector dos
coeficientes que define a combinao linear.

Um produto matricial Xa
O produto da matriz X por um vector a Rp+1 uma combinao
linear das colunas de X:

1 x1(1) x2(1) xp(1) a0

1 x1(2) x2(2) xp(2)
a1

Xa = 1 x1(3) x2(3) xp(3) a2

.. .. .. .. ..

..
. . . . . .
1 x1(n) x2(n) xp(n) ap

a0 + a1 x1(1) + a2 x2(1) + ... + ap xp(1)

a0 + a1 x1(2) + a2 x2(2) + ... + ap xp(2)

= a0 + a1 x1(3) + a2 x2(3) + ... + ap xp(3)

...
a0 + a1 x1(n) + a2 x2(n) + ... + ap xp(n)
= a0 1n + a1 x1 + a2 x2 + ... + ap xp

Os parmetros
Cada escolha possvel de coeficientes a = (a0 , a1 , a2 , ..., ap )

corresponde a um ponto/vector no subespao C (X).
Essa escolha de coeficientes nica caso as colunas de X sejam
linearmente independentes, isto , se no houver
multicolinearidade entre as variveis x1 , ..., xp , 1n .
Um dos pontos/vectores do subespao a combinao linear
dada pelo vector de coeficientes b = (b0 , b1 , ..., bp ) que minimiza
SQRE . a combinao linear que desejamos determinar.
Como identificar esse ponto/vector?

Geometria
Vamos usar argumentos geomtricos.
Dispomos de um vector de n observaes de y que est em Rn

mas, em geral, no est no subespao C (X).
Queremos aproximar esse vector por outro vector,
= b0 1n + b1 x1 + ... + bp xp , que est no subespao C (X).
y
Vamos aproximar o vector de observaes y pelo vector y do
subespao C (X) que est mais prximo de y.
= Hy.
SOLUO: Tomar a projeco ortogonal de y sobre C (X) : y

O conceito geomtrico subjacente identificao de b
Rn y
= Hy
y
C (X)
O vector de C (X) Rn mais prximo dum vector y Rn o vector y

que resulta de projectar ortogonalmente y sobre C (X).

O critrio minimiza SQRE
tal que minimize a distncia ao vector de

O critrio de escolher y
observaes y significa que minimizamos o quadrado dessa distncia,
que dado por:
n
dist 2 (y, y k2 =
) = ky y (yi yi )2 = SQRE ,
i=1
ou seja, que minimizamos a soma de quadrados dos resduos.

Trata-se do critrio que foi usado na Regresso Linear Simples.

O conceito geomtrico subjacente obteno de b
Rn y

k
SQRE = ky y
= Hy
y
C (X)
SQRE , a soma dos quadrados

O quadrado da distncia de y a y
dos resduos.

A projeco ortogonal
A projeco ortogonal de um vector y Rn sobre o subespao C (X)
gerado pelas colunas (linearmente independentes) de X faz-se
pr-multiplicando y pela matriz de projeco ortogonal sobre C (X):
1
H = X Xt X Xt .
Logo, temos:
= Hy
y
= X (Xt X)1 Xt y
y
| {z }
=b
A combinao linear dos vectores 1n , x1 , ..., xp que gera o vector mais

prximo de y tem coeficientes dados pelos elementos do vector b:
Os parmetros ajustados na RL Mltipla

b = (Xt X)1 Xt y .
As trs Somas de Quadrados
Na Regresso Linear Mltipla definem-se trs Somas de Quadrados,
de forma idntica ao que se fez na Regresso Linear Simples:
SQRE Soma de Quadrados dos Resduos (j definida):
n
SQRE = (yi yi )2 .
i=1
SQT Soma de Quadrados Total:

n n
SQT = (yi y)2 = yi2 ny 2 .
i=1 i=1
SQR Soma de Quadrados associada Regresso:

n n
SQR = (yi y)2 = yi2 ny 2 .
i=1 i=1
Nota: Tambm aqui os y observados (yi ) e os y ajustados (yi ) tm a

mesma mdia (ver Exerccio 4 da RLM).
Pitgoras e a Regresso
O Teorema de Pitgoras aplica-se em qualquer espao euclideano Rn .
Aplicado ao tringulo rectngulo do acetato 206 produz a seguinte

relao:
kyk2 = ky
k2 + ky y
k2
n n n
yi2 = yi2 + (yi yi )2
i=1 i=1 i=1
| {z }
= SQRE
n n
yi2 ny 2 = yi2 ny 2 + SQRE
i=1 i=1
SQT = SQR + SQRE

Revisitando Pitgoras
Vimos que a relao fundamental da Regresso Linear
(SQT = SQR + SQRE ) resulta duma aplicao do Teorema de
Pitgoras. Mas foi necessrio introduzir a subtraco de ny 2 .
Um outro tringulo rectngulo estatisticamente mais interessante.
Considere-se o vector centrado das observaes da varivel resposta,

isto , o vector cujo elemento genrico yi y. Este vector, que ser
designado yc , obtm-se subtrando a y o vector que repete n vezes y :
yc = y y 1n = (y1 y, y2 y, ..., yn y)t .
s
n
A norma deste vector kyc k = (yi y)2 = SQT .
i=1

Revisitando Pitgoras (cont.)
A projeco ortogonal do vector yc sobre o subespao C (X) gera o
vector:
Hyc = H (y y 1n )
Hyc = Hy y H1n
Hyc = y
y 1n
j que H1n = 1n , pois o vector 1n j pertence ao subespao C (X),

logo fica invariante quando projectado nesse mesmo subespao.
O vector Hyc tem elemento genrico yi y, e a sua norma

s
n
kHy k = (yi y)2 = SQR .
c
i=1

c
o vector y e a sua projeco ortogonal sobre C (X)
A distncia entre
continua a ser SQRE:
yc Hyc = (y
y 1
n ) (y y 1
n)
c c
y Hy = y y
pelo que
s
n
kyc Hyc k = ky y
k = (yi yi )2 = SQRE .
i=1

Rn
yc

SQT = kyc k
SQRE = kyc Hyc k = ky Hyk
Hyc
C (X)

SQR = kHyc k
A frmula fundamental da Regresso Linear, SQT = SQR + SQRE ,

uma aplicao directa do Teorema de Pitgoras ao tringulo definido
por yc e a sua projeco ortogonal sobre C (X).

Pitgoras e o Coeficiente de Determinao
O acetato 213 torna evidente outra relao importante entre a

geometria e a estatstica da Regresso Linear:
Definindo o coeficiente de determinao da forma usual, R 2 = SQR

SQT ,
este resulta ser o cosseno ao quadrado do ngulo entre o vector
centrado das observaes da varivel resposta, yc , e a sua projeco
ortogonal sobre o subespao C (X):
SQR
cos2 ( ) = = R2 ,
SQT
onde o ngulo entre os vectores yc e Hyc .

Pitgoras e o Coeficiente de Determinao (cont.)
Rn
yc

SQT = kyc k

SQRE = ky Hyk
Hyc
C (X)

SQR = kHyc k
SQR
O Coeficiente de Determinao na Regresso Linear, R 2 = SQT ,
o cosseno ao quadrado do ngulo entre yc e Hyc .

Propriedades do Coeficiente de Determinao
A abordagem geomtrica confirma que, tambm na Regresso Linear

Mltipla, so vlidas as propriedades (j conhecidas da Regresso
Linear Simples) do Coeficiente de Determinao:
R 2 toma valores entre 0 e 1.

Quanto mais prximo de 1 estiver R 2 , menor o ngulo , e
portanto melhor ser a correspondncia entre o vector (centrado)
das observaes, yc , e o seu ajustamento em C (X).
Se R 2 0, o vector yc quase perpendicular ao subespao C (X)
onde se pretende aproxim-lo, e a projeco vai quase anular
todas os elementos do vector projectado. O resultado ser de m
qualidade.

A Regresso Mltipla no
Uma Regresso Mltipla no estuda-se atravs do mesmo
comando lm usado para a regresso linear simples. A indicao de
qual a varivel resposta y e quais as variveis preditivas x1 , ..., xp
faz-se de forma semelhante da RLS.
Por exemplo, se a varivel resposta se chama y e existirem trs

preditores de nome x1, x2 e x3, a frmula que indica a relao ser:
y x1 + x2 + x3
O comando correspondente no R ser:
> lm ( y x1 + x2 + x3 , data=dados)
O resultado produzido por este comando ser o vector das estimativas

dos p + 1 parmetros do modelo, b0 , b1 , ..., bp .

A Regresso Mltipla no (cont.)
Exemplifique-se de novo com os dados dos lrios.
Pretende-se prever a varivel resposta largura da ptala, no apenas
a partir do comprimento da ptala, mas tambm das duas medies
(largura e comprimento) das spalas.
> iris2.lm <- lm(Petal.Width ~ Petal.Length + Sepal.Length +

+ Sepal.Width , data=iris)
> iris2.lm
(...)
Coefficients:
(Intercept) Petal.Length Sepal.Length Sepal.Width
-0.2403 0.5241 -0.2073 0.2228
O hiperplano ajustado :
PW = 0.2403 + 0.5241 PL 0.2073 SL + 0.2228 SW
O coeficiente de determinao R 2 = 0.9379, s ligeiramente maior

que o valor R 2 = 0.9271 do modelo RLS (acetato 163).
O contexto inferencial
At aqui, apenas se considerou o problema descritivo:

dados n conjuntos de observaes {(x1(i) , x2(i) , ..., xp(i) , y(i) )}ni=1 ,
determinar os p + 1 coeficientes b = (b0 , b1 , b2 , ..., bp ) que
minimizam a soma de quadrados de resduos
n n
SQRE = (yi yi )2 = [yi (b0 + b1x1(i) + b2x2(i) + ... + bp xp(i) )]2
i=1 i=1
1
SQRE minimo se b = Xt X Xt y.
Mas, tal como na Regresso Linear Simples, coloca-se o problema
inferencial quando as n observaes representam uma amostra
aleatria de uma populao mais vasta. a relao populacional
entre Y e as p variveis preditoras que se pretende conhecer. Para
esse fim, ser necessrio admitir alguns pressupostos adicionais.

O Modelo RLM
Na Regresso Linear Mltipla admite-se que as n observaes da
varivel resposta Y so aleatrias e podem ser modeladas como
Yi = 0 + 1 x1(i) + 2 x2(i) + ... + p xp(i) + i , i = 1, ..., n
Admitem-se vlidos pressupostos semelhantes aos do modelo RLS:
Definio (O Modelo da Regresso Linear Mltipla - RLM)

1 Yi = 0 + 1 x1(i) + 2 x2(i) + ... + p xp(i) + i , i = 1, ..., n.
2 i N (0 , 2 ),
i = 1, ..., n.
3 {i }ni=1 v.a. independentes.
A constante j (j = 1, 2, ..., p) que multiplica a varivel Xj pode ser

interpretada como a variao esperada em Y , associada a aumentar
Xj em uma unidade, mantendo as restantes variveis constantes.

A notao matricial/vectorial
As n equaes do modelo, vlidas para as n observaes, podem ser

escritas como uma nica equao, utilizando notao
vectorial/matricial:
Y1 = 0 + 1 x1(1) + 2 x2(1) + + p xp(1) + 1

Y2 = 0 + 1 x1(2) + 2 x2(2) + + p xp(2) + 2
Y3 = 0 + 1 x1(3) + 2 x2(3) + + p xp(3) + 3
.. .. .. .. ..
. . . . .
Yn = 0 + 1 x1(n) + 2 x2(n) + + p xp(n) + n

A notao matricial (cont.)
As n equaes correspondem a uma nica equao matricial:
Y = X + ,
onde

Y1 1 x1(1) x2(1) xp(1) 0 1

Y2

1 x1(2) x2(2) xp(2)

1

2

Y= Y3
, X = 1 x1(3) x2(3) xp(3)

, =
2 , =
3

..
.. .. .. .. ..

.. ..
. . . . . . . .
Yn 1 x1(n) x2(n) xp(n) p n
Nesta equao, Y e so vectores aleatrios (de dimenso n 1),

X uma matriz no aleatria (dimenso n (p+1)) e um vector
no-aleatrio (dimenso (p+1) 1).

A notao matricial (cont.)
Na equao matricial Y = X + , tem-se:

Y vector aleatrio das n variveis aleatrias resposta;
X matriz do modelo (no aleatria) de dimenses
n (p + 1) cujas colunas so dadas pelas observaes
de cada varivel preditora (e por uma coluna de uns,
associada a constante aditiva do modelo);
vector (no aleatrio) dos p + 1 parmetros do modelo;
vector aleatrio dos n erros aleatrios.
Representa-se um vector de n observaes de Y por y.
Com alguns conceitos adicionais podemos escrever tambm os

pressupostos relativos aos erros aleatrios em notao
vectorial/matricial.

Ferramentas para vectores aleatrios
O conjunto das n observaes de Y, tal como o conjunto dos n erros

aleatrios, , constituem vectores aleatrios.
Para qualquer vector aleatrio W = (W1 , W2 , ..., Wk ), define-se:

O vector esperado de W, constitudo pelos valores esperados de
cada componente:

E [W1 ]
E [W2 ]

E [W] = .. .
.
E [Wk ]

Ferramentas para vectores aleatrios (cont.)
a matriz de varincias-covarincias de W constituda pelas

(co)varincias de cada par de componentes:

V [W1 ] C[W1 , W2 ] C[W1 , W3 ] ... C[W1 , Wk ]

C[W2 , W1 ] V [W2 ] C[W2 , W3 ] ... C[W2 , Wk ]

V [W] = C[W3 , W1 ] C[W3 , W2 ] V [W3 ] ... C[W3 , Wk ]

.. .. .. .. ..

. . . . .

C[Wk , W1 ] C[Wk , W2 ] C[Wk , W3 ] ... V [Wk ]

Propriedades do vector esperado
Tal como para o caso de variveis aleatrias, tambm o vector

esperado de um vector aleatrio Wk 1 tem propriedades simples:
Se b um escalar no aleatrio, E [bW] = b E [W].

Se ak 1 um vector no aleatrio, E [W + a] = E [W] + a.
Se ak 1 um vector no aleatrio, E [at W] = at E [W].
Se Bmk uma matriz no aleatria, E [BW] = B E [W].
Tambm o vector esperado da soma de dois vectors aleatrios tem

uma propriedade operatria simples:
Se Wk 1 , Uk 1 so vectores aleatrios, E [W + U] = E [W] + E [U].

Propriedades da matriz de (co)varincias
Se b um escalar no aleatrio, V [bW] = b 2 V [W].

Se ak 1 um vector no aleatrio, V [W + a] = V [W].
Se ak 1 um vector no aleatrio, V [at W] = at V [W] a.
Se Bmk uma matriz no aleatria, V [BW] = B V [W] Bt .
A matriz de varincias-covarincias da soma de dois vectors
aleatrios tem uma propriedade operatria simples se os vectores
aleatrios forem independentes:
Se Wk 1 e Uk 1 forem vectores aleatrios independentes,
V [W + U] = V [W] + V [U].

A distribuio Normal Multivariada
Vectores aleatrios tm tambm distribuies (multivariadas) de

probabilidades. A mais frequente distribuio multivariada para
vectores aleatrios a Multinormal:
Definio (Distribuio Normal Multivariada)

O vector aleatrio k-dimensional W tem distribuio Multinormal, com
parmetros dados pelo vector e a matriz se a sua funo
densidade conjunta fr:
1 1
e 2 (w ) (w )
1 t
f (w) = p , w Rk . (3)
(2 )k /2 )
det(
Notao: W Nk ( ,
).

A densidade Binormal (Multinormal com k = 2)
y
x

Algumas propriedades da distribuio Multinormal
Teorema (Propriedades da Multinormal)
Se W Nk ( ,
):
1 O vector esperado de W E [W] = .
2 A matriz de (co)varincias de W V [W] = .
3 Se duas componentes de W tm covarincia nula, so
independentes: Cov(Wi , Wj ) = 0 Wi , Wj independentes.
Nota: Nas disciplinas introdutrias de Estatstica d-se que

X , Y independentes cov(X , Y ) = 0. Agora sabemos que, quando a
distribuio conjunta de X e Y Multinormal, tem-se tambm a
implicao contrria.
Nota: Qualquer elemento nulo numa matriz de (co)varincias duma

Multinormal indica que as componentes correspondentes so
independentes.

Propriedades da Multinormal (cont.)
Teorema (Propriedades da Multinormal)

Se W Nk ( ,
):
4 Todas as distribuies marginais de W so (multi)normais.
Em particular, cada componente Wi normal com mdia i e
varincia (i,i) : Wi N (i ,
(i,i) ).
5 Se a um vector (no-aleatrio) k 1, ento W + a Nk ( + a,
).
6 Combinaes lineares das componentes dum vector multinormal
so Normais: at W = a1 W1 + a2 W2 + ... + ak Wk N (at , at a).
7 Se B matriz m k (no aleatria, de caracterstica m k),
ento BW Nm (B , BBt ).

Modelo Regresso Linear Mltipla - verso matricial
Definio (O Modelo em notao matricial)

1 Y = X + .
2 Nn (0 , 2 In ).
Na segunda destas hipteses so feitas quatro afirmaes (tendo em

conta as propriedades da Multinormal, referidas atrs):
Cada erro aleatrio individual i tem distribuio Normal.
Cada erro aleatrio individual tem mdia zero: E [i ] = 0.
Cada erro aleatrio individual tem varincia igual: V [i ] = 2 .
Erros aleatrios diferentes so independentes, porque
Cov[i , j ] = 0 se i 6= j e, numa Multinormal, isso implica a
independncia.

A distribuio das observaes Y da varivel resposta
O seguinte Teorema consequncia directa de aplicar as
propriedades dos acetatos 230 e 231 ao Teorema do acetato 232.
Teorema (Primeiras Consequncias do Modelo)

Dado o Modelo de Regresso Linear Mltipla, tem-se:
Y Nn (X , 2 In ).
Tendo em conta as propriedades da Multinormal:

Cada observao individual Yi tem distribuio Normal.
Cada observao individual Yi tem mdia
E [Yi ] = 0 + 1 x1(i) + 2 x2(i) + ... + p xp(i) .
Cada observao individual tem varincia igual: V [Yi ] = 2 .
Observaes diferentes de Y so independentes, porque
Cov[Yi , Yj ] = 0 se i 6= j e, numa Multinormal, isso implica a
independncia.
O estimador dos parmetros do Modelo
Tal como na Regresso Linear Simples, os estimadores dos

parmetros j do modelo (j = 0, 1, 2, ..., p) obtm-se adaptando a
expresso matricial resultante de minimizar SQRE (acetato 207).
O vector que estima o vector dos parmetros populacionais :
Definio (Estimador dos parmetros populacionais)

1 t
= Xt X XY,
onde X e Y so a matriz e o vector definidos no acetato 222.
O vector de dimenso p + 1. O seu primeiro elemento o

estimador de 0 , o seu segundo elemento o estimador de 1 , etc..
Em geral, o estimador de j est na posio j + 1 do vector .

A distribuio do vector de estimadores
Teorema (Distribuio do estimador )
Np+1 ( , 2 (Xt X)1 ) .
Tendo em conta as propriedades da Multinormal (acetatos 230 e 231):

E [ ] = e V [ ] = 2 (Xt X)1 .
Cada estimador individual j tem distribuio Normal.
Cada estimador individual tem mdia E [j ] = j (logo, centrado).
1
Cada estimador individual tem varincia V [j ] = 2 Xt X .
(j+1,j+1)
(Note-se o desfasamento nos ndices resultantes de a contagem
dos s comear em 0).
Estimadores individuais diferentes no so (em geral)
independentes, porque a matriz (Xt X)1 no , em geral, uma
1
matriz diagonal. Cov[i , j ] = 2 Xt X (i+1,j+1) .
A distribuio dum estimador individual
Como se viu no acetato anterior, tem-se, j = 0, 1, ..., p:

j N j , 2 (Xt X)1
(j+1,j+1)
j j
N (0, 1) ,

j
q
onde = 2 (Xt X)1
(j+1,j+1) .
j
Este resultado generaliza os relativos Regresso Linear Simples.

O problema de 2 desconhecido
O resultado distribucional indicado no acetato anterior permitiria

construir intervalos de confiana ou fazer testes a hipteses sobre os
parmetros , no fosse a existncia de um problema j familiar: o
desconhecimento da varincia 2 dos erros aleatrios.
Procedemos de forma anloga ao que se fez na Regresso Linear

Simples:
obter um estimador para 2 ; e
ver o que acontece distribuio do acetato anterior quando 2
substitudo pelo seu estimador.

SQRE na Regresso Mltipla
Teorema (Resultados distribucionais de SQRE)

Dado o Modelo de Regresso Linear Mltipla (RLM), tem-se:
SQRE
2
n(p+1)
2
SQRE independente de .
NOTA: Omite-se a demonstrao
Corolrio
h i
Dado o Modelo de RLM, E SQRE
n(p+1) = 2.
NOTA: Os graus de liberdade associados a SQRE so o nmero de

observaes (n) menos o nmero de parmetros do modelo (p+1).

O Quadrado Mdio Residual na Regresso Mltipla
Definio (Quadrado Mdio Residual)

Define-se o Quadrado Mdio Residual (QMRE ) numa Regresso
Linear Mltipla como
SQRE
QMRE =
n (p + 1)
O QMRE habitualmente usado na Regresso como estimador

da varincia dos erros aleatrios, isto , toma-se
2 = QMRE .
Como se viu no acetato anterior, QMRE um estimador centrado.

Revisitando o estimador de j
Vimos (acetato 236) que cada estimador j verifica:
j j
Z = q N (0, 1) .
2 (Xt X)1
(j+1,j+1)
Temos ainda:
SQRE
W = n(p+1)
2
e Z , W v.a. independentes .
2
Logo (ver tambm o acetato 127):
Z j j
p = q tn(p+1) .
W /(n(p+1)) QMRE (Xt X)1
(j+1,j+1)

Quantidades fulcrais para a inferncia sobre j
Teorema (Distribuies para a inferncia sobre j (j = 0, 1, ..., p))
Dado o Modelo de Regresso Linear Mltipla, tem-se
j j
tn(p+1) ,

j
q
com = QMRE (Xt X)1
(j +1,j +1) .
j
Este Teorema d-nos os resultados que servem de base construo

de intervalos de confiana e testes de hipteses para os parmetros
j do modelo populacional.
NOTA: O resultado acima totalmente anlogo aos resultados

correspondentes na RLS. Assim, os ICs e testes de hipteses a
parmetros individuais, na RLM, sero anlogos aos da RLS.
Intervalo de confiana para j
Teorema (Intervalo de Confiana a (1 ) 100% para j )

Dado o Modelo de Regresso Linear Mltipla, um intervalo a
(1 ) 100% de confiana para o parmetro j do modelo :
i h
bj t /2 [n(p+1)] , bj + t /2 [n(p+1)] ,
j j
q
com j = QMRE (Xt X)1(j +1,j +1) , e sendo t /2[n(p+1)] o valor que na
distribuio tn(p+1) deixa direita uma regio de probabilidade /2.
O valor bj o elemento j +1 do vector das estimativas b (acetato 207).
NOTA: A amplitude do IC aumenta com QMRE e o valor diagonal da

matriz (Xt X)1 associado ao parmetro j em questo.

Intervalos de confiana para i no
A informao bsica para a construo de intervalos de confiana
para cada parmetro j obtm-se, no R, a partir das tabelas
produzidas pela funo summary. No exemplo do acetato 218:
> summary(iris2.lm)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.24031 0.17837 -1.347 0.18
Petal.Length 0.52408 0.02449 21.399 < 2e-16 ***
Sepal.Length -0.20727 0.04751 -4.363 2.41e-05 ***
Sepal.Width 0.22283 0.04894 4.553 1.10e-05 ***
Assim, estima-se que em mdia a largura da ptala diminui 0.20727cm por

cada aumento de 1cm no comprimento da spala (mantendo-se as outras
medies constantes). Como t0.025(146) = 1.976346, o IC a 95% para 2
] (0.20727) (1.976346)(0.04751) , (0.20727) + (1.976346)(0.04751) [
] 0.3012 , 0.1134 [

Intervalos de confiana para j no (cont.)
Alternativamente, possvel usar a funo confint no objecto
resultante de ajustar a regresso para obter os intervalos de confiana
para cada j individual:
> confint(iris2.lm)
2.5 % 97.5 %
(Intercept) -0.5928277 0.1122129
Petal.Length 0.4756798 0.5724865
Sepal.Length -0.3011547 -0.1133775
Sepal.Width 0.1261101 0.3195470
> confint(iris2.lm,level=0.99)
0.5 % 99.5 %
(Intercept) -0.70583864 0.22522386
Petal.Length 0.46016260 0.58800363
Sepal.Length -0.33125352 -0.08327863
Sepal.Width 0.09510404 0.35055304

Testes de Hipteses sobre os parmetros
O mesmo resultado (acetato 241) usado para construir intervalos de
confiana serve para construir testes a hipteses para cada j
individual. Dado o Modelo de Regresso Linear Mltipla,
Testes de Hipteses a j (Regresso Linear Mltipla)

<
Hipteses: H0 : j = c vs. H1 : j 6= c
>
=c
z}|{
j j |H0
Estatstica do Teste: T = tn(p+1)
j
Nvel de significncia do teste:

Regio Crtica (Regio de Rejeio): Rejeitar H0 se
Tcalc < t [n(p+1)] (Unilateral esquerdo)
|Tcalc | > t /2[n(p+1)] (Bilateral)
Tcalc > t [n(p+1)] (Unilateral direito)

Combinaes lineares dos parmetros
Seja a = (a0 , a1 , ..., ap )t um vector no aleatrio em Rp+1 . O produto
interno at define uma combinao linear dos parmetros do modelo:
at = a0 0 + a1 1 + a2 2 + ... + ap p .
Casos particulares importantes nas aplicaes so:
Se a tem um nico elemento no-nulo, na posio j + 1, at = j .

Se a tem apenas dois elementos no-nulos, 1 na posio i + 1 e
1 na posio j + 1, at = i j .
Se a = (1, x1 , x2 , ..., xp ), onde xj indica um qualquer valor da
varivel preditora Xj , ento at representa o valor esperado de Y
associado aos valores indicados das variveis preditoras:
at = 0 + 1 x1 + 2 x2 + ... + p xp
= E [Y | X1 = x1 , X2 = x2 , ..., Xp = xp ] .

Inferncia sobre combinaes lineares dos j s
A multinormalidade do vector de estimadores implica a normalidade

de qualquer vector que seja combinao linear das suas componentes
(acetato 231, ponto 4). Mais concretamente,

Sabemos que N , 2 (Xt X)1 (acetato 235);
p+1
Logo, at N ( at , 2 at (Xt X)1 a ) (acetato 231, ponto 4);

at at
Ou seja, Z = N (0, 1);
2 at (Xt X)1 a
Por um raciocnio anlogo ao usado aquando dos s individuais,
tem-se ento
at at
p tn(p+1) .
QMRE at (Xt X)1 a

Quantidade fulcral para a inferncia sobre at
Teorema (Distribuies para combinaes lineares dos s)

Dado o Modelo de Regresso Linear Mltipla, tem-se
at at
tn(p+1) ,
at
p
com at = QMRE at (Xt X)1 a.
Neste Teorema temos o resultado que serve de base construo de

intervalos de confiana e testes de hipteses para quaisquer
combinaes lineares dos parmetros j do modelo.
NOTA: Repare-se na analogia da estrutura desta quantidade fulcral

com os resultados anteriores, relativos a j s individuais (acetato 241).

Intervalo de confiana para at
Teorema (Intervalo de Confiana a (1 ) 100% para at )

Dado o Modelo de Regresso Linear Mltipla, um intervalo a
(1 ) 100% de confiana para a combinao linear dos
parmetros, at = a0 0 + a1 1 + ... + ap p , :
i h
at b t /2 [n(p+1)] at , at b + t /2 [n(p+1)] at ,
p
com at b = a0 b0 + a1 b1 + ... + ap bp e at = QMRE at (Xt X)1 a.

Testes de Hipteses sobre os parmetros
Dado o Modelo de Regresso Linear Mltipla,
Testes de Hipteses a at (Regresso Linear Mltipla)

<
Hipteses: H0 : at = c vs. H1 : at 6= c
>
=c
z }| {
at at |H0
Estatstica do Teste: T = at tn(p+1) .
Regio Crtica (Regio de Rejeio): Rejeitar H0 se
Tcalc < t [n(p+1)] (Unilateral esquerdo)
|Tcalc | > t /2[n(p+1)] (Bilateral)
Tcalc > t [n(p+1)] (Unilateral direito)

De novo os casos particulares
No acetato (246) viram-se trs casos particulares importantes de
combinaes lineares dos parmetros.
No caso de at = j , os intervalos e testes acabados de ver so
idnticos aos dados nos acetatos (242) e (245).
No caso de at = j j , tem-se at = , com:
i j
q q
= V [i j ] = V [j ] 2 Cov[
[i ] + V i , j ]
i j
q
= QMRE (Xt X)1
(i+1,i+1)
+(Xt X)1
(j+1,j+1)
2(Xt X)1
(i+1,j+1)
No caso de a conter os valores das variveis preditoras usados

na i-sima observao, a ser a linha i da matrix X. Nesse caso,
q p
at = QMRE at (Xt X)1 a = QMRE hii ,
onde hii indica o i-simo elemento diagonal da matriz de

projeces ortogonal H = X(Xt X)1 Xt .
ICs para combinaes lineares no
Para construir um intervalo de confiana para at , ser necessrio
conhecer a matriz das (co)varincias estimadas dos estimadores ,
[ ] = QMRE (Xt X)1 .
V
No , esta matriz obtm-se atravs da funo vcov.
E.g., a matriz das (co)varincias estimadas no exemplo dos lrios :

> vcov(iris2.lm)
(Intercept) Petal.Length Sepal.Length Sepal.Width
(Intercept) 0.031815766 0.0015144174 -0.005075942 -0.002486105
Petal.Length 0.001514417 0.0005998259 -0.001065046 0.000802941
Sepal.Length -0.005075942 -0.0010650465 0.002256837 -0.001344002
Sepal.Width -0.002486105 0.0008029410 -0.001344002 0.002394932
O erro padro estimado de 2 + 3 :

p
= 0.002256837 + 0.002394932 + 2(0.001344002) = 0.04431439 .
2 +3

Intervalos de confiana para E[Y ] no
Se a combinao linear dos s que se deseja corresponde ao valor
esperado de Y , dado um conjunto de valores X1 = x1 , ..., Xp = xp das
variveis preditoras, possvel obter o intervalo de confiana referido
no acetato 249 atravs do comando predict, tal como na RLS.
No exemplo dos lrios, um IC a 95% para a largura esperada de

ptalas de flores com Petal.Length=2, Sepal.Length=5 e
Sepal.Width=3.1 pedido assim:
> predict(iris2.lm, data.frame(Petal.Length=c(2), Sepal.Length=c(5),

+ Sepal.Width=c(3.1)), int="conf")
fit lwr upr

[1,] 0.462297 0.4169203 0.5076736
O IC para E [Y |X1 = 2, X2 = 5, X3 = 3.1] : ] 0.4169 , 0.5077 [.

Intervalos de predio para Y
Podem tambm obter-se, de forma anloga ao que foi visto na RLS,
intervalos de predio para uma observao individual de Y ,
associada aos valores X1 = x1 , ..., Xp = xp das variveis preditoras.
Nestes intervalos, a estimativa da varincia associada a uma

observao individual de Y acrescida em QMRE unidades:

Y |x t /2 [n(p+1)] indiv , Y |x + t /2 [n(p+1)] indiv
onde x = (x1 , x2 , ..., xp )t indica o vector dos valores dos preditores e

Y |x = b0 + b1 x1 + b2 x2 + ... + bp xp
e
q
indiv = QMRE 1 + at (Xt X)1 a com a = (1, x1 , x2 , ..., xp ).

Intervalos de predio para Y no R
No , possvel obter um intervalo de predio atravs do comando

predict com o argumento int=pred, tal como na RLS.
Eis, na RLM dos lrios, o intervalo de predio para a largura da

ptala, num lrio cujo comprimento de ptala seja 2 e com spala de
comprimento 5 e largura 3.1:
> predict(iris2.lm, data.frame(Petal.Length=c(2), Sepal.Length=c(5),

+ Sepal.Width=c(3.1)), int="pred")
fit lwr upr

[1,] 0.462297 0.08019972 0.8443942
O intervalo de predio pedido : ] 0.0802 , 0.8444 [.

Avaliando a qualidade do ajustamento global
Numa Regresso Linear Simples, se 1 = 0, a equao do modelo
apenas Y = 0 + . Neste caso, o conhecimento do preditor X em
nada contribui para o conhecimento de Y (o Modelo Nulo no tira
partido da informao dos preditores).
Numa Regresso Linear Mltipla, o modelo Nulo Yi = 0 + i ,

corresponde a admitir que todas as variveis preditoras tm
coeficiente nulo. As hipteses que queremos confrontar so:
H0 : 1 = 2 = ... = p = 0
[MODELO INTIL]
vs.
H1 : j = 1, ..., p t.q. j 6= 0
[MODELO NO INTIL]
NOTA: repare que 0 no intervm nas hipteses.

Distribuio associada a SQR
De novo, o ponto de partida para uma estatstica de teste ser a Soma

n
de Quadrados associada Regresso, SQR = (Y i Y )2 .
i=1
Tem-se (sem demonstrao):
Teorema
SQR
2
p2 , se 1 = 2 = ... = p = 0.
SQR e SQRE so variveis aleatrias independentes.
SQR
Defina-se o Quadrado Mdio associado Regresso, QMR = p .

A estatstica do teste de ajustamento global
Temos (veja tambm o acetato 159), se j = 0 , i = 1 : p

W = SQR
2
p2

W /p QMR
V = SQRE
2
n(p+1)
2 = Fp,n(p+1) .

V /n(p+1) QMRE

W , V independentes
SQR SQRE
sendo QMR = p e QMRE = n(p+1) .

O Teste F de ajustamento global do Modelo
Sendo vlido o Modelo RLM, pode efectuar-se o seguinte
Teste F de ajustamento global do modelo RLM

Hipteses: H0 : 1 = 2 = ... = p = 0
vs.
H1 : j = 1, ..., p tal que j =
6 0.
QMR
Estatstica do Teste: F = QMRE Fp,n(p+1) se H0 .
Regio Crtica (Regio de Rejeio): Unilateral direita
0.7
0.6
0.5
df(x, 4, 16)
Rejeitar H0 se Fcalc > f [p,n(p+1)]
0.4
0.3
0.2
0.1
0.0
0 1 2 3 4

Expresses alternativas no teste F global
A estatstica do teste F de ajustamento global do modelo numa
Regresso Linear Mltipla pode ser escrita na forma alternativa:
n (p + 1) R2
F = .
p 1 R2
Tal como na Regresso Linear Simples, a estatstica F uma

funo crescente do Coeficiente de Determinao, R 2 .
As hipteses do teste tambm se podem escrever como
H0 : R 2 = 0 vs. H1 : R 2 > 0 .
A hiptese H0 : R 2 = 0 indica ausncia de relao linear entre Y e o

conjunto dos preditores. Corresponde a um ajustamento pssimo do
modelo. A sua rejeio no garante um bom ajustamento, mas
apenas a capacidade de o distinguir do Modelo Nulo.
Outra formulao do Teste F de ajustamento global
Teste F de ajustamento global do modelo RLM (alternativa)

Hipteses: H0 : R 2 = 0 vs. H1 : R 2 > 0.
n(p+1) R 2
Estatstica do Teste: F = p 1R 2 F(p,n(p+1)) se H0 .
Rejeitar H0 se Fcalc > f (p,n(p+1))
A estatstica F uma funo crescente do coeficiente de

determinao amostral, R 2 .
A hiptese nula H0 : R 2 = 0 afirma que, na populao, o
coeficiente de determinao nulo.

O Quadro-resumo do ajustamento global
Frequentemente, sintetiza-se a informao usada num teste de

ajustamento global num quadro-resumo da regresso:
Fonte g.l. SQ QM fcalc
Regresso p ni=1 (yi y )2 SQR

p
QMR
QMRE
Resduos n (p + 1) ni=1 (yi yi )2 SQRE

np1
Total n1 ni=1 (yi y )2

O princpio da parcimnia na RLM
Recordemos o princpio da parcimnia na modelao: queremos um

modelo que descreva adequadamente a relao entre as variveis,
mas que seja o mais simples (parcimonioso) possvel.
Caso se disponha de um modelo de Regresso Linear Mltipla com

um ajustamento considerado adequado, a aplicao deste princpio
traduz-se em saber se ser possvel obter um modelo com menos
variveis preditoras, sem perder significativamente em termos de
qualidade de ajustamento.

Modelo e Submodelos
Se dispomos de um modelo de Regresso Linear Mltipla, com
relao de base
Y = 0 + 1 x1 + 2 x2 + 3 x3 + 4 x4 + 5 x5 ,
chamamos submodelo a um modelo de regresso linear mltipla

contendo apenas algumas das variveis preditoras, e.g.,
Y = 0 + 2 x2 + 5 x5 ,
Podemos identificar o submodelo pelo conjunto S das variveis

preditoras que pertencem ao submodelo. No exemplo, S = {2, 5}.
O modelo e o submodelo so idnticos se j = 0 para qualquer
varivel xj cujo ndice no pertena a S .

Comparando modelo e submodelos
Para avaliar se um dado modelo difere significativamente dum seu

submodelo (identificado pelo conjunto S dos ndices das suas
variveis), precisamos de optar entre as hipteses:
H 0 : j = 0 , j
/S vs. H1 : j
/S tal que j 6= 0.
[SUBMODELO OK] [SUBMODELO PIOR]
NOTA: Esta discusso s envolve coeficientes j de variveis

preditoras. O coeficiente 0 faz sempre parte dos submodelos.
Este coeficiente 0 no relevante do ponto de vista da parcimnia: a
sua presena no implica trabalho adicional de recolha de dados, nem
de interpretao do modelo (ao mesmo tempo que permite um melhor
ajustamento do modelo).

Uma estatstica de teste para a comparao
modelo/submodelo
A estatstica de teste envolve a comparao das Somas de

Quadrados Residuais do:
modelo completo (referenciado pelo ndice C); e do
submodelo (referenciado pelo ndice S)
Vamos admitir que o submodelo tem k preditores (k + 1 parmetros):
(SQRES SQREC )/(p k)

F = Fpk ,n(p+1) ,
SQREC /[n (p + 1)]
caso j = 0, para todas as variveis xj que no pertenam ao

submodelo.

O teste a um submodelo (teste F parcial)
Teste F de comparao dum modelo com um seu submodelo

Hipteses:
H 0 : j = 0 , j
/S vs. H1 : j
/S tal que j 6= 0.
Estatstica do Teste:
F = (SQRE S SQREC )/(pk )
SQRE /[n(p+1)] Fpk ,n(p+1) , sob H0 .
C

0.7
0.6
0.5
df(x, 4, 16)
Rejeitar H0 se Fcalc > f [pk , n(p+1)]
0.4
0.3
0.2
0.1
0.0
0 1 2 3 4

Expresso alternativa para a estatstica do teste
A estatstica do teste F de comparao de um modelo completo com

p preditores, e um seu submodelo com apenas k preditores pode ser
escrita na forma alternativa:
n (p + 1) RC2 RS2
F = .
pk 1 RC2
NOTA: Assinale-se que a Soma de Quadrados Total, SQT , apenas

depende dos valores observados da varivel resposta Y , e no de
qual o modelo ajustado. Assim, SQT igual no modelo completo e no
submodelo.

Expresso alternativa para as hipteses do teste
As hipteses do teste tambm se podem escrever como
H0 : RC2 = RS2 vs. H1 : RC2 > RS2 ,
A hiptese H0 indica que o grau de relacionamento linear entre Y e o

conjunto dos preditores idntico no modelo e no submodelo.
Caso no se rejeite H0 , opta-se pelo submodelo (mais parcimonioso).

Caso se rejeite H0 , opta-se pelo modelo completo (ajusta-se
significativamente melhor).

Teste F parcial: formulao alternativa
Teste F de comparao dum modelo com um seu submodelo

Hipteses:
H0 : RC2 = RS2 vs. H1 : RC2 > RS2 .
Estatstica do Teste:
RC2 RS2
F = n(p+1)
pk 1R 2 Fpk ,n(p+1) , sob H0 .
C

0.7
0.6
0.5
df(x, 4, 16)
Rejeitar H0 se Fcalc > f [pk , n(p+1)]
0.4
0.3
0.2
0.1
0.0
0 1 2 3 4

O teste a submodelos no
A informao necessria para um teste F parcial obtem-se no ,

atravs da funo anova, com dois argumentos: os objectos lm
resultantes de ajustar o modelo completo e o submodelo sob
comparao.
Nos exemplos dos lrios (acetatos 131 e 243), temos:

> anova(iris.lm, iris2.lm)
Analysis of Variance Table
Model 1: Petal.Width ~ Petal.Length
Model 2: Petal.Width ~ Petal.Length + Sepal.Length + Sepal.Width
Res.Df RSS Df Sum of Sq F Pr(>F)
1 148 6.3101
2 146 5.3803 2 0.9298 12.616 8.836e-06 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Relao entre os testes-t e o teste F parcial
Caso o modelo e submodelo difiram num nico preditor, Xj , o teste F

parcial descrito nos acetatos anteriores equivalente ao teste t
(acetato 245) com as hipteses H0 : j = 0 vs. H1 : j 6= 0.
Nesse caso, no apenas as hipteses dos dois testes so iguais,

como a estatstica do teste F parcial o quadrado da estatstica do
teste t referido. Tem-se p k = 1, e como sabido (ver os
apontamentos da disciplina de Estatstica dos primeiros ciclos do ISA),
se uma varivel aleatria T tem distribuio t , ento o seu quadrado,
T 2 tem distribuio F1, .

Como escolher um submodelo?
O teste F parcial (teste aos modelos encaixados) permite-nos optar

entre um modelo e um seu submodelo. Por vezes, um submodelo
pode ser sugerido por:
razes de ndole terica, sugerindo que determinadas variveis
preditoras no sejam, na realidade, importantes para influenciar
os valores de Y .
razes de ndole prtica, como a dificuldade, custo ou volume de
trabalho associado recolha de observaes para determinadas
variveis preditoras.
Nestes casos, pode ser claro que submodelo(s) se deseja testar.
Nota: Veja-sa o Exerccio RLM 9e) para um exemplo.

Como escolher um submodelo? (cont.)
Mas em muitas situaes no , partida, evidente qual o
subconjunto de variveis preditoras que se deseja considerar no
submodelo. Pretende-se apenas ver se o modelo simplificvel.
Nestes casos, a opo por um submodelo no um problema fcil.
Dadas p variveis preditoras, o nmero de subconjuntos, de qualquer

cardinalidade, excepto 0 (conjunto vazio) e p (o modelo completo) que
possvel escolher dado por 2p 2. A tabela seguinte indica o
nmero desses subconjuntos para p = 5, 10, 15, 20.
p 2p 2
5 30
10 1 022
15 32 766
20 1 048 574

Cuidado com excluses simultneas de preditores
Para valores de p pequenos, possvel analisar todos os possveis

subconjuntos. Mas para p mdio ou grande, essa anlise completa
invivel.
Tambm no legtimo olhar para o ajustamento do modelo completo

e, com base nos testes t significncia de cada coeficiente j , optar
pela excluso de vrias variveis preditoras em simultneo.
De facto, os testes t aos coeficientes j so feitos partindo do princpio

que todas as restantes variveis pertencem ao modelo. A excluso de
um qualquer preditor altera o ajustamento: altera os valores estimados
bj e os respectivos erros padro das variveis que permanecem no
submodelo. Pode acontecer que um preditor seja dispensvel num
modelo completo, mas deixe de o ser num submodelo, ou viceversa.

Um exemplo
Nos dados relativos ao Exerccio 2 (RLM) das aulas prticas, a tabela
associada regresso da varivel Brix sobre todas as restantes :
(Intercept) 6.08878 1.00252 6.073 0.000298 ***
Diametro 1.27093 0.51219 2.481 0.038030 *
Altura -0.70967 0.41098 -1.727 0.122478
Peso -0.20453 0.14096 -1.451 0.184841
pH 0.51557 0.33733 1.528 0.164942
Acucar 0.08971 0.03611 2.484 0.037866 *
Mas no legtimo concluir que Altura, Peso e pH so dispensveis.
> anova(brix2.lm,brix.lm)
Analysis of Variance Table
Model 1: Brix ~ Diametro + Acucar
Model 2: Brix ~ Diametro + Altura + Peso + pH + Acucar
Res.Df RSS Df Sum of Sq F Pr(>F)
1 11 0.42743
2 8 0.14925 3 0.27818 4.97 0.03104 *

Algoritmos de pesquisa sequenciais
Vamos considerar algoritmos de pesquisa que permitam simplificar um

modelo de regresso linear mltipla, sem precisar de analisar todo os
possveis submodelos. Em particular, vamos considerar um algoritmo
que, em cada passo, exclui uma varivel preditora, at alcanar uma
condio de paragem considerada adequada. Trata-se do
algoritmo de excluso sequencial (backward elimination).
Existem variantes deste algoritmo, no estudadas aqui:

algoritmo de incluso sequencial (forward selection).
algoritmos de excluso/incluso alternada (stepwise selection).

O algoritmo de excluso sequencial
1 ajustar o modelo completo, com os p preditores;

2 existem variveis para as quais no se rejeita a hiptese j = 0?
Em caso negativo, passar ao ponto seguinte. Em caso afirmativo,
qualquer dessas variveis candidata a sair do modelo.
1 se apenas existe uma candidata a sair, excluir essa varivel;
2 se existir mais do que uma varivel candidata a sair, excluir a
varivel associada ao maior p-value (isto , ao valor da estatstica t
mais prxima de zero)
Em qualquer caso, reajustar o modelo aps a excluso da
varivel e repetir este ponto
3 Quando no existirem variveis candidatas a sair, ou quando
sobrar um nico preditor, o algoritmo pra. Tem-se ento o
modelo final.

Um exemplo Exerccio 2 (RLM)
Usando o nvel de significncia = 0.05:
> summary(lm(Brix ~ Diametro + Altura + Peso + pH + Acucar, data=brix))
(Intercept) 6.08878 1.00252 6.073 0.000298 ***
Diametro 1.27093 0.51219 2.481 0.038030 *
Altura -0.70967 0.41098 -1.727 0.122478
Peso -0.20453 0.14096 -1.451 0.184841
pH 0.51557 0.33733 1.528 0.164942
Acucar 0.08971 0.03611 2.484 0.037866 *
> summary(lm(Brix ~ Diametro + Altura + pH + Acucar, data=brix))

(Intercept) 6.25964 1.05494 5.934 0.000220 ***
Diametro 1.40573 0.53373 2.634 0.027189 *
Altura -1.06413 0.35021 -3.039 0.014050 * < Passou a ser significativo (0.05)
pH 0.33844 0.33322 1.016 0.336316
Acucar 0.08481 0.03810 2.226 0.053031 . < Deixou de ser significativo (0.05)
> summary(lm(Brix ~ Diametro + Altura + Acucar, data=brix))

(Intercept) 6.97183 0.78941 8.832 4.9e-06 ***
Diametro 1.57932 0.50642 3.119 0.01090 *
Altura -1.11589 0.34702 -3.216 0.00924 **
Acucar 0.09039 0.03776 2.394 0.03771 * < Voltou a ser significativo (0.05)
O algoritmo pra aqui. Pode comparar-se o submodelo final com o

modelo completo, atravs dum teste F parcial.
Algoritmos sequenciais com base no AIC
O disponibiliza funes para automatizar pesquisas sequenciais

de submodelos, semelhantes que aqui foi enunciada, mas em que o
critrio de excluso duma varivel em cada passo se baseia no
Critrio de Informao de Akaike (AIC).
O AIC uma medida geral da qualidade de ajustamento de modelos.

No contexto duma Regresso Linear Mltipla com k variveis
preditoras, define-se como

SQREk
AIC = n ln + 2(k + 1) .
n
Nota: O AIC pode tomar valores negativos.

Interpretando o AIC

SQREk
AIC = n ln + 2(k + 1)
n
a primeira parcela funo crescente de SQREk , i.e., quanto

melhor o ajustamento, mais pequena a primeira parcela;
a segunda parcela mede a complexidade do modelo (k +1 o
nmero de parmetros), pelo que quanto mais parcimonioso o
modelo, mais pequena a segunda parcela.
Assim, o AIC mede simultaneamente a qualidade do ajustamento e a
simplicidade do modelo.
Um modelo para a varivel resposta Y considerado melhor que

outro se tiver um AIC menor.

Algoritmos sequenciais com base no AIC (cont.)
Pode definir-se um algoritmo de excluso sequencial, com base no

critrio AIC:
ajustar o modelo completo e calcular o respectivo AIC.
ajustar cada submodelo com menos uma varivel e calcular o
respectivo AIC.
Se nenhum dos AICs dos submodelos considerados fr inferior
ao AIC do modelo anterior, o algoritmo termina sendo o modelo
anterior o modelo final.
Caso alguma das excluses reduza o AIC, efectua-se a excluso
que maior reduo no AIC provoca e regressa-se ao ponto
anterior.

Algoritmos sequenciais com base no AIC (cont.)
Em cada passo de excluso, o submodelo com menor AIC ser

aquele que provocar menor aumento no SQRE , ou seja, aquele que
tiver excludo a varivel cujo teste a j = 0 tem maior p-value.
Assim, o procedimento de excluso sequencial baseado nos testes t

ou no AIC coincidem na ordem das variveis a excluir, podendo diferir
apenas no critrio de paragem.
Em geral, um algoritmo de excluso sequencial baseado no AIC

mais cauteloso quanto a excluses do que um algoritmo baseado nos
testes t, sobretudo se o valor de usado nos testes fr baixo.
aconselhvel usar valores mais elevados de , como = 0.10, nos
algoritmos de excluso baseados nos testes t.

Algoritmos de excluso sequencial no
A funo step corre o algoritmo de excluso sequencial, com base no
AIC. Considere ainda o exemplo dos dados brix (Exerccio 2 RLM):
> brix.lm <- lm(Brix ~ Diametro+Altura+Peso+pH+Acucar, data = brix)
> step(brix.lm, dir="backward")
Start: AIC=-51.58
Brix ~ Diametro + Altura + Peso + pH + Acucar
Df Sum of Sq RSS AIC
<none> 0.14925 -51.576
- Peso 1 0.039279 0.18853 -50.306
- pH 1 0.043581 0.19284 -49.990
- Altura 1 0.055631 0.20489 -49.141
- Diametro 1 0.114874 0.26413 -45.585
- Acucar 1 0.115132 0.26439 -45.572
Neste caso, no se exclui qualquer varivel: o AIC do modelo inicial inferior ao de

qualquer submodelo resultante de excluir uma varivel. O submodelo final o modelo
inicial.

Uma palavra final sobre algoritmos de pesquisa
O algoritmo de excluso sequencial no garante a identificao do

melhor submodelo com um dado nmero de preditores. Apenas
identifica, de forma que no computacionalmente muito pesada,
submodelos que se presume serem bons.
Deve ser usado com bom senso e o submodelo obtido cruzado com
outras consideraes (como por exemplo, o custo ou dificuldade de
obteno de cada varivel, ou o papel que a teoria relativa ao
problema em questo reserva a cada preditor).

Regresso Polinomial
Um caso particular de relao no-linear, mesmo que envolvendo
apenas uma varivel preditora e a varivel resposta, pode ser
facilmente tratada no mbito duma regresso linear mltipla: o caso
de relaes polinomiais entre Y e um ou mais preditores.
Considere-se, por exemplo, que a relao de fundo entre uma varivel

resposta Y e uma nica varivel preditora X no dada por uma
recta, mas sim por uma parbola:
80
60
40
y
20
0
0 2 4 6 8 10

Regresso Polinomial - Exemplo
Considere os dados do Exerccio 7 da Regresso Linear Mltipla,
relativos a medies sobre n = 600 folhas de videira.
Eis o grfico das reas vs. comprimentos de nervuras principais, com

sobreposta a recta de regresso:
400
300
videiras$Area
200
100
4 6 8 10 12 14 16
videiras$NP
H uma tendncia para curvatura. Talvez um polinmio de 2o. grau?

Regresso Polinomial - Exemplo (cont.)
Qualquer parbola, com equao Y = 0 + 1 x + 2 x 2 , pode ser
ajustada e estudada como se se tratasse duma regresso linear entre
Y e as variveis X1 = X e X2 = X 2 :
> summary(lm(Area ~ NP + I(NP^2), data=videiras))

Coefficients:
(Intercept) 7.5961 22.0431 0.345 0.731
NP -0.2172 4.0125 -0.054 0.957
I(NP^2) 1.2941 0.1801 7.187 1.98e-12 ***
---
Residual standard error: 28.86 on 597 degrees of freedom
Multiple R-squared: 0.8162, Adjusted R-squared: 0.8155
F-statistic: 1325 on 2 and 597 DF, p-value: < 2.2e-16
A equao da parbola ajustada y = 7.5961 0.2172 x + 1.2941 x 2.
A rejeio da hiptese 2 = 0 diz que a parbola ajusta-se

significativamente melhor do que a recta de regresso.
Regresso Polinomial - Exemplo (cont.)
Eis a parbola ajustada:
R2 = 0.8162
400
y = 7.5951 0.2172x + 1.2941x2
300
videiras$Area
200
100
R2 = 0.8003
4 6 8 10 12 14 16
videiras$NP
legtimo afirmar que este modelo de regresso quadrtico explica

81.62% da variabilidade nas reas foliares observadas.

Regresses Polinomiais (cont.)
O argumento extensvel a qualquer polinmio de qualquer grau, e

em qualquer nmero de variveis. Dois exemplos:
Polinmio de grau p numa varivel
Y = 0 + 1 |{z}
x +2 |{z}
x 2 +3 |{z}
x 3 +... + p |{z}
xp
=x1 =x2 =x3 =xp
Polinmio de grau 2 em 2 variveis
Y = 0 + 1 |{z}
x +2 |{z}
x 2 +3 |{z}
z +4 |{z}
z 2 +5 |{z}
xz
=x1 =x2 =x3 =x4 =x5

A anlise de Resduos e outros diagnsticos
Uma anlise de regresso linear no fica completa sem o estudo dos

resduos e de alguns outros diagnsticos.
Grande parte do que se disse sobre resduos na Regresso Linear

Simples mantm-se vlido numa Regresso Linear Mltipla.
Relembrar trs conceitos relacionados, mas diferentes:

Erros aleatrios
i = Yi (0 + 1 x1(i) + 2 x2(i) + ... + p xp(i) )
Resduos (variveis aleatrias)
Ei = Yi (0 + 1 x1(i) + 2 x2(i) + ... + p xp(i) )
Resduos (observados)
ei = yi (b0 + b1 x1(i) + b2 x2(i) + ... + bp xp(i) )

Propriedades dos Resduos sob o Modelo RLM
O modelo de Regresso Linear Mltipla admite que
i N (0 , 2 ) i = 1, ..., n .
Sob o modelo RLM, os resduos tm a seguinte distribuio:

Ei N 0 , 2 (1 hii ) i = 1, ..., n ,
onde hii o i-simo elemento diagonal da matriz H = X(Xt X)1 Xt de

projeco ortogonal sobre o subespao C (X), gerado pelas colunas
da matriz X.
= Y HY = (In H)Y ,
Em notao vectorial: E = Y Y

Propriedades dos Resduos sob o Modelo RLM (cont.)
Teorema (Distribuio dos Resduos no MRLM)


E Nn 0 , 2 (In H) sendo E = (In H)Y .
O vector dos resduos E = Y Y = Y HY = (In H)Y , tem

distribuio Multinormal pelo ltimo ponto do Teorema do acetato 231.
O vector esperado de E resulta das propriedades do acetato 226:

E [E] = E [(In H)Y] = (In H)E [Y] = (In H)X = 0,
pois o vector X C (X), logo permanece invariante sob a aco
da matriz de projeces H: HX = X .

A matriz de covarincias do vector aleatrio dos resduos, E,

calcula-se a partir do facto de a matriz de projeco ortogonal ser
(Exerccio 4 da RLM):
simtrica, isto Ht = H;
idempotente, isto , H2 = H H = H.
Tendo tambm presentes as propriedades do acetato 227, vem:

V [E] = V [(In H)Y] = (In H)V [Y](In H)t = 2 (In H).

Embora no modelo RLM os erros aleatrios sejam independentes, os

resduos no so variveis aleatrias independentes, pois as
covarincias entre resduos diferentes so (em geral), no nulas:
cov(Ei , Ej ) = 2 hij , se i 6= j ,
onde hij indica o elemento da linha i e coluna j da matriz H.

Vrios tipos de resduos
Tal como na RLS, definem-se diferentes tipos de resduos (como

resultado do facto de as varincias dos resduos clssicos (Ei ) no
serem constantes, mesmo sob o modelo de RLM):
Resduos habituais : Ei = Yi Y i ;
Ei
Resduos (internamente) estandardizados : Ri = .
QMRE(1hii )
Resduos Studentizados (ou externamente estandardizados):
Ei
Ti = q
QMRE[i] (1 hii )
sendo QMRE[i] o valor de QMRE resultante de um

ajustamento da Regresso exclundo a i-sima
observao (associada ao resduo Ei ).

Anlise dos resduos
Tal como para a RLS, tambm em regresses mltiplas se avalia a
validade dos pressupostos do modelo atravs de grficos de resduos.
Estes grficos so agora mais importantes do que na RLS, dada a

impossibilidade de visualizao de nuvens de pontos em espaos de
alta dimensionalidade.
Os grficos mais usuais so os j considerados na RLS e a sua leitura

faz-se de forma anloga:
i s: os pontos devem-se dispor numa banda
grfico de Ei s vs. Y
horizontal, centrada no valor zero, sem outro padro especial.
qq-plot dos resduos estandardizados vs. distribuio Normal: a
Normalidade dos erros aleatrios corresponde linearidade.
grfico de resduos vs. ordem de observao: para investigar
eventuais faltas de independncia dos erros aleatrios.

O efeito alavanca
Outras ferramentas de diagnstico visam identificar observaes

individuais que merecem ulterior anlise, tal como na RLS. Mas
importa adaptar as definies ao contexto de Regresso Mltipla.
Numa RLM o valor de efeito alavanca (leverage) o valor hii do

elemento diagonal da matriz de projeco ortogonal H,
correspondente observao i.
O valor mdio das observaes alavanca numa RLM
p+1
h= ,
n
ou seja, a razo entre o nmero de parmetros e o nmero de
observaes.

Grficos de diagnstico
A distncia de Cook para avaliar a influncia da observao i

define-se agora como:
y
ky (i)k2
Di = ,
(p + 1) QMRE
onde y(i) = X (i) o vector dos n valores ajustados de Y obtido
estimando os s sem a observao i. Expresso equivalente (sendo
Ri o correspondente resduo estandardizado):

2 hii 1
Di = Ri .
1 hii p+1
Os restantes aspectos da discusso so anlogos aos duma RLS.

Um exemplo de grficos de diagnstico
Um exemplo destes grficos de diagnsticos, para os dados do
Exerccio 2 da RLM (Brix) :
Cooks distance Residuals vs Leverage
13
2
1.5 14
1
1
Standardized residuals
0.5
1
14
Cooks distance
1.0
0
1
1
0.5
0.5
2
13
Cooks distance
0.0
2 4 6 8 10 12 14 0.0 0.2 0.4 0.6
Obs. number Leverage
Os valores bastante elevados de distncia de Cook e hii neste

exemplo reflectem o reduzido nmero de observaes (n = 14) usado
para ajustar um modelo com muitos parmetros (p + 1 = 6).
O R 2 modificado
Como foi visto no contexto da RLS (acetato 164), define-se uma
variante do Coeficiente de Determinao: o R 2 modificado.
O Coeficiente de Determinao usual:
SQR SQRE
R2 = = 1
SQT SQT
O R 2 modificado (sendo QMT = SQT /(n 1)):
2 QMRE SQRE
Rmod = 1 = 1 n1 = 1 (1 R 2) n(p+1)
n1 .
QMT SQT n(p+1)
2
Tem-se sempre n1 > n(p+1), pelo que Rmod < R 2.
Quando n p + 1 (muito mais observaes que parmetros no

modelo) tem-se R 2 Rmod
2 .
2
Se n pouco maior que o nmero de variveis preditoras, Rmod
2 2
bastante inferior a R , excepto se R fr muito prximo de 1.
Advertncias finais
1. Podem surgir problemas associados multicolinearidade das

variveis preditoras, ou seja, ao facto das colunas da matriz X serem
(quase) linearmente dependentes. Nesse caso, podem:
existir problemas no clculo de (Xt X)1 , logo no ajustamento do
modelo e na estimao dos parmetros;
existir varincias muito grandes de alguns i s, o que significa
muita instabilidade na inferncia.
Multicolinearidade exacta reflecte redundncia de informao nos

preditores.
possvel eliminar multicolinearidade exacta ou aproximada,

exclundo da anlise uma ou vrias variveis preditoras que sejam
responsveis pela (quase) dependncia linear dos preditores.

Advertncias finais (cont.)
2. Tal como na Regresso Linear Simples, podem ser usadas
transformaes da varivel resposta, e tambm de alguma(s) das
variveis preditoras.
Em particular, podem ser teis transformaes que linearizem a

relao entre Y e X1 , X2 , ..., Xp . Tais transformaes linearizantes
podem permitir estudar relaes de tipo no-linear atravs de relaes
lineares entre as variveis transformadas.
E.g., a relao no linear entre Y , x1 e x2 ,
y = a x1b x2c
torna-se, aps uma logaritmizao, numa relao linear entre ln(y),

ln(x1 ) e ln(x2 ) (com b0 = ln(a), b1 = b e b2 = c):
ln(y) = b0 + b1 ln(x1 ) + b2 ln(x2 ) .

Advertncias finais (cont.)
3. No se deve confundir a existncia de uma relao linear entre
preditores X1 , X2 , ..., Xp e varivel resposta Y , com uma relao de
causa e efeito.
Pode existir uma relao de causa e efeito.

Mas pode tambm verificar-se:
Uma relao de variao conjunta, mas no de tipo causal (como
por exemplo, em muitos conjuntos de dados morfomtricos). Por
vezes, preditores e varivel resposta so todos efeito de causas
comuns subjacentes.
Uma relao espria, de coincidncia numrica.
Uma relao causal s pode ser afirmada com base em teoria prpria
do fenmeno sob estudo, e no com base na relao linear
estabelecida estatisticamente.

Regressão Múltipla com mais de uma variável preditora

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Regressão Múltipla com mais de uma variável preditora

Uploaded by

Copyright:

Available Formats

II.2.

Regresso Linear Mltipla

Por vezes, necessrio mais do que uma varivel preditiva para

Exemplo: Num estudo sobre uma populao experimental de clones

H interesse em estudar a relao entre o teor de antocianas (varivel

J. Cadima (ISA) Estatstica e Delineamento 2014-15 187 / 479

Neste ngulo de viso, a nuvem de pontos em R3 nada tem de

J. Cadima (ISA) Estatstica e Delineamento 2014-15 188 / 479

Noutro ngulo de viso percebe-se que os pontos se dispersam

J. Cadima (ISA) Estatstica e Delineamento 2014-15 189 / 479

No nosso contexto, e colocando:

Esta equao generaliza a equao da recta, para o caso de haver

J. Cadima (ISA) Estatstica e Delineamento 2014-15 190 / 479

Y = b0 + b1x1 + b2 x2 a equao dum plano em R3 (x1 0x2 0y).

Caso se pretenda modelar uma varivel resposta, Y , com base em p

Tal como na Regresso Linear

Comeamos por considerar o problema meramente descritivo.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 192 / 479

onde os yi so os valores observados da varivel resposta e

Infelizmente, no existem frmulas simples, como no caso da RLS,

J. Cadima (ISA) Estatstica e Delineamento 2014-15 193 / 479

Para p > 2, seriam necessrios mais de trs eixos e a visualizao

As caractersticas fundamentais dessas representaes seriam:

Na regresso linear mltipla admite-se que os pontos se dispem em

J. Cadima (ISA) Estatstica e Delineamento 2014-15 194 / 479

4.5 5.5 6.5 7.5 1 2 3 4 5 6 7

J. Cadima (ISA) Estatstica e Delineamento 2014-15 195 / 479

A projeco da nuvem de n pontos nos planos coordenados no

Em particular, nem sempre permite verificar a hiptese bsica de

Tal hiptese pode ser vlida, mesmo que no se verifique linearidade

J. Cadima (ISA) Estatstica e Delineamento 2014-15 196 / 479

H outra representao possvel dos dados, que casa conceitos

As n observaes de Y definem um vector em Rn :

Da mesma forma, as n observaes de cada varivel preditora

xj = (xj(1) , xj(2) , xj(3) , ..., xj(n) ) (j = 1, 2, ..., p).

Podemos representar todas as variveis por vectores em Rn .

J. Cadima (ISA) Estatstica e Delineamento 2014-15 197 / 479

J. Cadima (ISA) Estatstica e Delineamento 2014-15 198 / 479

J. Cadima (ISA) Estatstica e Delineamento 2014-15 199 / 479

O conjunto de todas as combinaes lineares dos p+1 vectores

J. Cadima (ISA) Estatstica e Delineamento 2014-15 200 / 479

J. Cadima (ISA) Estatstica e Delineamento 2014-15 201 / 479

Cada escolha possvel de coeficientes a = (a0 , a1 , a2 , ..., ap )

Como identificar esse ponto/vector?

J. Cadima (ISA) Estatstica e Delineamento 2014-15 202 / 479

Vamos usar argumentos geomtricos.

Dispomos de um vector de n observaes de y que est em Rn

J. Cadima (ISA) Estatstica e Delineamento 2014-15 203 / 479

O vector de C (X) Rn mais prximo dum vector y Rn o vector y

J. Cadima (ISA) Estatstica e Delineamento 2014-15 204 / 479

tal que minimize a distncia ao vector de

ou seja, que minimizamos a soma de quadrados dos resduos.

J. Cadima (ISA) Estatstica e Delineamento 2014-15 205 / 479

SQRE , a soma dos quadrados

J. Cadima (ISA) Estatstica e Delineamento 2014-15 206 / 479

A combinao linear dos vectores 1n , x1 , ..., xp que gera o vector mais

Os parmetros ajustados na RL Mltipla

SQT Soma de Quadrados Total:

SQR Soma de Quadrados associada Regresso:

Nota: Tambm aqui os y observados (yi ) e os y ajustados (yi ) tm a

Aplicado ao tringulo rectngulo do acetato 206 produz a seguinte

J. Cadima (ISA) Estatstica e Delineamento 2014-15 209 / 479