Regressione Multipla PDF

Linearizzazione
Relazione funzionale Trasformazione consigliata

1 1
Y = β0+β1 z=
x x
Y = β0exp(β1x) Z = logY
Y = β 0x β 1
Z1 = logY e z2 = logx
Y = x/(β1x−β0) Z1 = 1/Y e z2 = 1/x
… e la regressione polinomiale: Y = β0+ β1x + β2x2 + β3x3 +...+ βpxp + ε
12/12/2013 Regressione 1
Regressione lineare multipla
Y = β0 + β1x1 + β2x2 + β3x3 +...+ βpxp + ε
o in forma matriciale: Y = X β + ε
1 x11 x12 . . x1 p   Y1  β0   ε1 

1 x . x2 p  Y  β  ε 
 21 x22 .
  2  1  2
. . . .  .  .  .
X= Y=  β=  ε= 
. . . .  . . .
   
. . . .  .  .  .
       
1 xn 1 xn 2 . . xnp  Yn  β p  εn 
Data la matrice X dei predittori (compreso il vettore unitario), l’obiettivo
della regressione multipla è quello di trovare un vettore di coefficienti
b = (b0, b1, …, bp)’ tale che il vettore:
ŷ = Xb
sia una “buona approssimazione” del vettore delle osservazioni

y = (y1, y2, …, yn)’
Il criterio dei Minimi Quadrati ricava il vettore b imponendo che la forma

quadratica:
n
′ ′
(
∑ i i
y − ŷ )2
= (y − ˆ
y ) (y − ˆ
y ) = ( y − Xb ) (y − Xb)
i =1
sia minima, cioè che la somma dei quadrati degli scarti tra i valori osservati
e i valori approssimanti sia minima.
Infatti da (1) si ha:
(y − Xb)′ (y − Xb) = y′y − b′X′y − y′Xb + b′X′Xb =

= y′y − 2b′X′y + b′X′Xb
e derivando rispetto a b ed uguagliando a zero si ha:
X′y − X′Xb = 0 equazioni normali(*)
ovvero, se X’X è invertibile, si perviene all’espressione esplicita:
b = (X′X ) X′y
−1
(*) perché il vettore x è normale al vettore e, con e = y − ˆy vettore dei residui
La matrice X’X è simmetrica, cioè (X’X)’ = X’X
Inoltre, posto H = X(X’X)−1X’, la matrice H è simmetrica e idempotente

cioè H = H’ e H2 = H viene detta matrice proiezione (o matrice hat)
La matrice H trasforma il vettore y nel vettore ˆy :

ˆy = Xˆβ = X(X′X )−1 X′y = Hy
La matrice In − H trasforma il vettore degli errori ε nel vettore dei

residui:
E = Y − ˆY = Y − XB = Y − X(X′X )−1 X′Y = (In − H )Y =
= (In − H )(Xβ + ε ) = (In − H )ε
e′1 = 1′e′ = 0 La somma dei residui è uguale a zero
I residui sono una trasformazione lineare degli errori e quindi:

E [Y − Ŷ ] = E [(In − H)ε] = (In − H)0 = 0
Da: H + (I − H) = In, si ha:
y = Hy + ( In − H) y = ˆy + e decomposizione ortogonale del vettore

dei valori osservati nel vettore dei
valori previsti e nel vettore dei residui
Infatti: ˆ ′eˆ = y′H′(I − H )y = y′H′y − y′H′Hy = 0

y
E cioè i residui sono ortogonali ai valori previsti
Interpretazione geometrica (caso particolare Rn = R3)
• π = piano generato dai vettori 1 e X (nello spazio Rp+1); il vettore Xb = 1b0 +

b1X appartiene al piano π al variare della coppia (b0, b1)
• ˆy è il vettore che minimizza la distanza di y dal piano, cioè minimizza e
• Xb è la proiezione ortogonale di y sul piano
Y=(Y1,Y2,Y3)
3
Proiezione ortogonale di y nello e

y
spazio dei regressori X
X=(x1,x2,x3)
ˆy = Xb
P
x π
O 2
1
• OP2 è la somma dei quadrati dovuti alla regressione
• OY2 è la somma dei quadrati totale
• YP2 è la somma dei quadrati dei residui
• Interpretazione statistica del teorema di Pitagora: OY2 = OP2 + YP2
• Le coordinate di P’ sono i residui e si ha: OP + OP' = OY o in
termini statistici: ˆy + (y − ˆy ) = y
3 Y
P’
Decomposizione (ortogonale) della e

y
variabilità totale
P x π
O ˆy = Xb
2
1
Esempio
Se p = 1, si ha la costante ed un solo predittore X1 =X e si ottiene la

regressione lineare semplice con:
 1 x1 
 
 1 x 2
X = . . 
 
. . 
 
 1 xn 
b   a 
Il vettore dei coefficienti da determinare è: b =  0  =  
 b1   b 
 na + b ∑ n   n 
 xi   ∑ yi 
i =1 i =1
Le equazioni normali sono:  n n 2 =  n 
 a ∑ xi + b ∑ xi   ∑ xi yi 
 i =1 i =1   i =1 
Assunzioni
• Le Xi siano uniformemente limitate
• Le Xi siano indipendenti
• Le componenti εi siano tutte a media nulla, stessa varianza

e non correlate
E[Y]= E[Xββ +ε]= Xβ
var[Y] = E[( Y − Xβ)( Y − Xβ)′ ] = var[ε] = σ2In
Teorema
Lo stimatore B ai minimi quadrati è corretto (o non deviato) e

consistente
Correttezza E[B] = β
Essendo lo stimatore B corretto, allora esso è anche consistente

se:
lim var [Bn ] = 0
n →∞
con n numero dei punti sperimentali
Dimostrazione:
E[Β] = E[( X' X)−1 X' Y] = E[( X' X)−1 X' ( Xβ + ε)] = β
E[(Β − β)(Β − β)′] = E[(( X' X) −1 X' ε )(( X' X) −1 X' ε ) ] =

′
−1
( 2
) −1
= ( X' X) X' σ In X( X' X) ] = σ ( X' X) 2 −1
=
σ2
n
Pn−1
σ2
var [Β] = Pn−1 → 0 per n → ∞
n
Caso particolare p = 2:
n n
 n 
 ∑ xi 1 ∑ xi 2 
i =1 i =1
n n
2
n 
X′X =  ∑ xi 1 ∑x i1 ∑ x i 1 xi 2 
i n=1 n
i =1 i =1
n

∑ x ∑ x i 1x i 2 ∑ xi 2 
2
i2
i =1 i =1 i =1 
 var [B0 ] cov [B0 , B1 ] . . cov [B0 , Bp ]

 cov [B , B ] var [B1 ] . . cov [B1 , Bp ] 
 0 1 
V( B ) =  . . . . .  = (X′X)−1 σ2
 . . . . . 
 
cov [B0 , Bp ] cov [B1, Bp ] . . var [Bp ] 
matrice varianza-
varianza-covarianza
2
ˆσ = S = 21 n
∑
n − 2 i =1
(
Yi − ˆYi )2
=
1
n −2
( )(
′
Y − Y Y − ˆY
ˆ )
Y − ˆY = (Xβ + ε ) − XΒ = ε + Xβ − X(X'X ) X′Y =

−1
= ε + Xβ − X(X' X ) X′(Xβ + ε ) =
−1
[
= In − X(X' X ) X' ε = Rε
14442444 3
−1
]
=R
R è simmetrica e idempotente
( )(
′
)
E[ Y − ˆY Y − ˆY ] = E[(Rε )′ (Rε )] = E[ε'Rε] = E[tr (ε'Rε )] =
= E[tr (Rεε')] = tr [RE(εε')] = σ2tr [RIn ] = σ2 (n − p − 1)
Teorema di Theil:
Sia Z’AZ una forma quadratica con A matrice idempotente di
rango r. Se le componenti di Z sono v. c. normali standardizzate tra
loro indipendenti, allora la forma quadratica Z’AZ si distribuisce
come una v. c. Chi-quadrato con r gradi di libertà.
Teorema:
Sia Z’AZ una forma quadratica con A matrice simmetrica. Siano le
componenti di Z v. c. normali standardizzate tra loro indipendenti e
CZ un vettore le cui componenti sono combinazioni lineari delle v. c.
Z. Condizione sufficiente perché Z’AZ sia indipendente da CZ è
che il prodotto delle due matrici C e A coincida con la matrice
nulla.
Conseguenza n.1: (Y − ˆY )(′ Y − ˆY ) ∝ χ 2
n − p −1
σ2
2
S =
( )(
′
Y − ˆY Y − ˆY
=
σ2 ) χ2
n − p −1
n − p −1 n − p −1
Conseguenza n.2: ( )(
′
Y − ˆY Y − ˆY ) è indipendente da B
Gradi di
Origine della variazione Somme dei quadrati Quadrati
libertà
medi
2
Dovuti alla regress.: b0 1 SS(b0) = ny SS(b0)/1
2
Dovuti alla regress.: bib0 p SS(bib0) = b′X′Y − ny SS(bib0)/p
Rispetto alla regressione n − p− 1 SSRes. = Y′Y − b′X′Y MSRes. = s2

(Errore sperimentale o residui)
Totale n SST = Y′Y
Dati:
x1 1 4 9 11 3 8 5 10 2 7 6
x2 8 2 −8 −10 6 −6 0 −12 4 −2 −4
y 6 8 1 0 5 3 2 −4 10 −3 5
ŷ = 14 − 2x1 − 0.5x2
Origine della variazione Gradi di Somme dei Quadrati Fcalc..

libertà quadrati medi
Dovuti alla regress.: b0 1 99 99 11.6
Dovuti alla regress.: 2 122 61 7.2
(b1,b2)b0
Rispetto alla regressione 8 68 8.5
Totale 11 289
ŷ = 9.16 − 1.03x1
Quadrati
Origine della variazione Gradi di Somme dei Fcalc..
medi
libertà quadrati
Dovuti alla regress.: b1b0 1 116.1 116.1 13.7
Dovuti alla regress.: 1 5.9 5.9 0.7
Totale 11 289
ŷ = 3.95 + 0.47x2
Origine della variazione Gradi di Somme dei Quadrati Fcalc..

libertà quadrati medi
Dovuti alla regress.: b2b0 1 98.3 98.3 11.6
Dovuti alla regress.: 1 23.7 23.7 2.8
Totale 11 289
??????
rx x = − 0.97
1 2
rx y = − 0.78
1
M a t r ix P lo t x1 - x2 - y
rx y = 0.72
2
x1
x2
Multicollinearità e multicollinearità parziale
( )
n
∑ (xli − x i ) xlj − x j
rij =ˆρij = l =1
∑ (xhj − x j )
n n
∑ (xli −xi )
2 2
l =1 h =1
n n
R = ∑ (ŷi − y ) ∑ (yi −y)
2 2 2
i =1 i =1
Coefficiente di determinazione (regr. semplice)
( 2
R2 = b′X′Y − n y Y′Y ) Coefficiente di determinazione (regr. multipla)
R2 Coefficiente di correlazione multipla
ry 1 − ry 2r12
ry 1,2 =
(1 − ry22 )(1 − r122 ) Coefficiente di correlazione parziale
Step-wise Regression (selezione dei regressori)
Best Subset
Il piano sperimentale ortogonale
Da b = (X′X)−1X′Y sorge una domanda:

La matrice X′X è invertibile????
Risposta: Sì!!! Se X′X è di rango pieno
Allora “progettiamo” la matrice X′X
Come? In modo che nX′X sia diagonale:

semplicità, indipendenza ed additività
β2 β2
β1 β1
Come procedere?????
Determinare il n0 dei pti sperimentali da osservare su ciascun regressore
Progressione aritmetica dei pti lungo l’asse del regressore
(
Collocare gli estremi il più lontano possibile tra di loro (max ∑ xij − x i )2 )
j
~
Possibilmente la media dei pti sia uguale a zero (= matrice X′X è diagonale,
~ matrice dei dati “centrata”)
con X
Eventuali repliche su qualche pto sperimentale, replicare il punto centrale

(= livello medio per tutti i regressori) un numero arbtrario di volte
Esempio
x1 1 7 1 7 1 7 1 7 4
x2 8 8 12 12 8 8 12 12 10
x3 4 4 4 4 6 6 6 6 5
y y1 y2 y3 y4 y5 y6 y7 y8 y9
y10
y11
 72 0 0 
~~  
X′X =  0 32 0 
 0 0 8
 
~
Matrix M10 = X = Matrice dei dati
centrata (= scostamenti tra i regressori e
i loro valori medi)
-3 -2 -1
3 -2 -1 Matrix M11 = X = Matrice
-3 2 -1 dei regressori
3 2 -1
-3 -2 1 1 1 8 4
3 -2 1 1 7 8 4
-3 2 1 1 1 12 4
3 2 1 1 7 12 4
0 0 0 1 1 8 6
0 0 0 1 7 8 6
0 0 0 1 1 12 6
1 7 12 6
1 4 10 5
1 4 10 5
1 4 10 5
The regression equation is
y = - 4.78 + 0.547 x1 + 0.919 x2 + 0.748 x3
Predictor Coef SE Coef T P

Constant -4.782 2.553 -1.87 0.103
x1 0.5466 0.1174 4.65 0.002
x2 0.9191 0.1762 5.22 0.001
x3 0.7479 0.3523 2.12 0.071
S = 0.9966 R-Sq = 88.4% R-Sq(adj) = 83.4%
Analysis of Variance
Source DF SS MS F P
Regression 3 53.014 17.671 17.79 0.001
Residual Error 7 6.952 0.993
Lack of Fit 5 4.682 0.936 0.83 0.628
Pure Error 2 2.270 1.135
Total 10 59.966
8 rows with no replicates

Regressione Multipla PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Regressione Multipla PDF

Uploaded by

Copyright:

Available Formats

Linearizzazione

Relazione funzionale Trasformazione consigliata

… e la regressione polinomiale: Y = β0+ β1x + β2x2 + β3x3 +...+ βpxp + ε

Y = β0 + β1x1 + β2x2 + β3x3 +...+ βpxp + ε

1 x11 x12 . . x1 p   Y1  β0   ε1 

sia una “buona approssimazione” del vettore delle osservazioni

Il criterio dei Minimi Quadrati ricava il vettore b imponendo che la forma

(y − Xb)′ (y − Xb) = y′y − b′X′y − y′Xb + b′X′Xb =

e derivando rispetto a b ed uguagliando a zero si ha:

X′y − X′Xb = 0 equazioni normali(*)

ovvero, se X’X è invertibile, si perviene all’espressione esplicita:

(*) perché il vettore x è normale al vettore e, con e = y − ˆy vettore dei residui

Inoltre, posto H = X(X’X)−1X’, la matrice H è simmetrica e idempotente

La matrice H trasforma il vettore y nel vettore ˆy :

La matrice In − H trasforma il vettore degli errori ε nel vettore dei

e′1 = 1′e′ = 0 La somma dei residui è uguale a zero

I residui sono una trasformazione lineare degli errori e quindi:

y = Hy + ( In − H) y = ˆy + e decomposizione ortogonale del vettore

Infatti: ˆ ′eˆ = y′H′(I − H )y = y′H′y − y′H′Hy = 0

E cioè i residui sono ortogonali ai valori previsti

• π = piano generato dai vettori 1 e X (nello spazio Rp+1); il vettore Xb = 1b0 +

• ˆy è il vettore che minimizza la distanza di y dal piano, cioè minimizza e

• Xb è la proiezione ortogonale di y sul piano

Proiezione ortogonale di y nello e

Decomposizione (ortogonale) della e

Se p = 1, si ha la costante ed un solo predittore X1 =X e si ottiene la

• Le Xi siano uniformemente limitate

• Le componenti εi siano tutte a media nulla, stessa varianza

E[Y]= E[Xββ +ε]= Xβ

var[Y] = E[( Y − Xβ)( Y − Xβ)′ ] = var[ε] = σ2In

Lo stimatore B ai minimi quadrati è corretto (o non deviato) e

Essendo lo stimatore B corretto, allora esso è anche consistente

E[(Β − β)(Β − β)′] = E[(( X' X) −1 X' ε )(( X' X) −1 X' ε ) ] =

 var [B0 ] cov [B0 , B1 ] . . cov [B0 , Bp ]

Y − ˆY = (Xβ + ε ) − XΒ = ε + Xβ − X(X'X ) X′Y =

Rispetto alla regressione n − p− 1 SSRes. = Y′Y − b′X′Y MSRes. = s2

Totale n SST = Y′Y

Origine della variazione Gradi di Somme dei Quadrati Fcalc..

Origine della variazione Gradi di Somme dei Quadrati Fcalc..

R2 Coefficiente di correlazione multipla

Da b = (X′X)−1X′Y sorge una domanda:

Risposta: Sì!!! Se X′X è di rango pieno

Allora “progettiamo” la matrice X′X

Come? In modo che nX′X sia diagonale:

Determinare il n0 dei pti sperimentali da osservare su ciascun regressore

Progressione aritmetica dei pti lungo l’asse del regressore

Eventuali repliche su qualche pto sperimentale, replicare il punto centrale

Predictor Coef SE Coef T P

S = 0.9966 R-Sq = 88.4% R-Sq(adj) = 83.4%

8 rows with no replicates

You might also like