Regressione Multipla

Il modello di regressione lineare multipla
Introduzione
E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno dinteresse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa molto pi semplice utilizzando lalgebra delle matrici. Il modello di regressione multipla genera per nuovi problemi:
1 2 3
scelta delle variabili, multicollinearit, test multipli.
Specicazione del modello (1)

Siano: Y = (Y1 , Y2 , . . . , Yn ) il vettore delle v.c. dipendenti, le cui realizzazioni campionarie saranno contenute nel vettore y = (y1 , y2 , . . . , yn ) ; X la matrice di dimensione (n (p + 1)), contenente le osservazioni sulle variabili esplicative (regressori) e secondo la notazione usuale xij indica il valore assunto dalla variabile Xj , con j = 1, 2, . . . , p, relativamente all i-esima unit statistica, i = 1, 2, . . . , n; = ( 1 , 2 , . . . , n ) il vettore delle v.c. i le cui realizzazioni (scarti) sono contenute nel vettore e = (e1 , e2 , . . . , en ) ; = (0 , 1 , . . . , p ) il vettore dei (p + 1) parametri da stimare.

Pertanto, avendo posto: Y=
Y1 Y2 ... Yi ... Yn 1 x11 1 x21 ... ... 1 xi1 ... ... 1 xn1 ... ... ... ... ... x1p x2p ... xip ... xnp
X =
0 1 ... i ... p
2 ... = i ...
n
utilizzando la notazione matriciale, il modello di regressione multipla dato da Y = X + , ed esplicitando tale relazione per le singole unit statistiche equivale a Yi = 0 + 1 xi1 + 2 xi2 + . . . + p xip + i , i = 1, 2, . . . , n.
(1)

Sul campione osservato la relazione (1) diventa y = X + e. e, a livello delle singole unit statistiche, si specica come segue yi = 0 + 1 xi1 + 2 xi2 + . . . + p xip + ei , i = 1, 2, . . . , n. Il vettore e contiene le realizzazioni del vettore di v.c. . Tali realizzazioni sono determinabili se conosciamo i parametri , perch: e = y X e, ovviamente, si esplicitano nel modo seguente: ei = yi (0 +1 xi1 +2 xi2 +. . .+p xip ) = yi yi (), i = 1, 2, . . . , n.
Le ipotesi classiche
Le ipotesi del modello di regressione lineare multipla sono
1 2 3 4
Y = X + ; E( ) = 0; Var( ) = E( ) = 2 In ;
X una matrice (non stocastica) tale che r(X) = p + 1. Dopo aver ottenuto le stime j per i parametri j , il modello diventa yi = 0 + 1 xi1 + 2 xi2 + . . . + p xip + ei = yi + ei . I residui ei sono dati dalla dierenza tra i valori osservati yi e i valori stimati yi calcolati secondo il modello di regressione.
Stima dei parametri

Per stimare i parametri del modello di regressione multipla, senza fare ulteriori assunzioni circa la forma distributiva degli errori, si utilizza il metodo dei minimi quadrati (LS). Tale metodo consente di trovare il vettore che minimizza la somma degli scarti al quadrato, ovvero la funzione G() data da G() = e e = (y X) (y X). Sviluppando si ha che G() = y y + (X X) 2 X y ed uguagliando a 0 la derivata prima di G() rispetto a si ottiene 0 = G () = 2X y + 2(X X) = = (X X)1 X y.
Liperpiano di regressione
Geometricamente lequazione yi = 0 + 1 xi1 + 2 xi2 + . . . + p xip , i = 1, 2, . . . , n, denisce un iperpiano nello spazio a p + 1 dimensioni. Per avere unidea del procedimento di stima dei minimi quadrati, il piano rappresentato in gura , tra gli inniti piani, quello che rende minima la somma dei quadrati delle lunghezze dei segmenti congiungenti i punti osservati al piano stesso.
Propriet degli stimatori LS e ML
Teorema di Gauss-Markov Sotto le ipotesi del modello di regressione lineare, gli stimatori LS B per i parametri , sono lineari, non distorti,ed i pi ecienti nella classe degli stimatori lineari e non distorti (BLUE). Per applicare il metodo ML, occorre aggiungere lipotesi che il vettore N (0, 2 I). Si pu dimostrare che gli stimatori ML coincidono con quelli LS prima ricavati, che sono lineari, non distorti, sucienti ed ecienti nella classe di tutti gli stimatori non distorti.
Stima del parametro 2

Consideriamo innanzitutto lidentit
n n n
(yi y )2 =
i=1 i=1
(yi yi )2 +
i=1
(i y )2 , y
che rappresenta la scomposizione della devianza totale in devianza residua e devianza spiegata (o della regressione), ovvero SQT = SQE + SQR. La stima della varianza delle v.c. errori data da s2 = ee = np1
n i=1 (yi
yi )2 . np1
Test su un singolo parametro

Per ottenere la regione critica di un test o un intervallo di condenza per i parametri del modello di regressione, necessario ipotizzare, per n nito, che le v.c. errori siano normali e indipendenti, utilizzando quindi gli stimatori ML. Per vericare H0 : i = 0 contro lalternativa H1 : i = 0 basta calcolare il rapporto i 0 , j = 0, 1, 2, . . . , p. T = s v j+1,j+1 Infatti la stima della varianza dello stimatore Bj per il parametro j data da es2 (Bj ) = s2 v j+1,j+1 dove v j+1,j+1 lelemento di posto (j + 1, j + 1) sulla diagonale principale della matrice (X X). Tale rapporto, sotto H0 , si distribuisce come una v.c. t di Student con n p 1 gradi di libert.
ANOVA per un modello di regressione lineare multipla

Consiste in un test globale su tutti i parametri del modello (eccetto 0 ) e in particolare nel confronto tra la devianza del modello saturo Y = X + e quella del modello vincolato Y = 0 1n + . Le ipotesi saranno: H0 : 1 = 2 = = p = 0 vs. H1 : almeno un j = 0 Se indichiamo con Q1 la devianza della regressione Q2 la devianza dei residui siamo interessati a valutare la statistica F = Q1 /p Q2 /n p 1
che sotto H0 ha distribuzione F (p, n p 1).

Confronto tra modelli annidati

Per confrontare il modello vincolato (ridotto) con in modello non vincolato (saturo) si utilizza un test di tipo ANOVA, in cui il valore della statistica F = (SQEv SQEnv )/(dfv dfnv ) F,dfv dfnv ,dfnv . SQEnv /(dfnv )
Sia F1 il modello minimale con la sola intercetta (p = 1). Sia Fp il modello corrente con p parametri e sia Fp0 un modello ridotto con 1 < p0 < p. la perdita di bont di adattamento del modello Fp0 rispetto a Fp pu essere valutata attraverso la statistica: F = (SQEp0 SQEp )/(p p0 ) Fpp0 ,np SQEp0 /(n p0 )
Bont del modello

Ricordando che SQT = SQE + SQR, il modello si adatter tanto pi ai dati quanto pi modesta sar la variabilit dellerrore rispetto alla variabilit totale. Si introduce pertanto lindice di determinazione multipla R2 dato da R2 =
n y i=1 (i n i=1 (yi
y )2 =1 y )2
n 2 i=1 (yi yi ) . n 2 i=1 (yi y )
Lindice R2 varia in [0, 1] e pi si avvicina a 1 migliore ladattamento del modello ai dati. Tuttavia opportuno sottolineare che il valore R2 aumenta con laumentare del numero di regressori, per cui conveniente considerare la versione corretta dellindice R2 , data da R2 = 1
n 2 i=1 (yi yi ) /(n p n 2 i=1 (yi y ) /(n
1) . 1)
Scelta delle variabili esplicative

Oltre allindice R2 , vi lindice proposto da Mallows (1973) Cp =
2 (1 Rp )(n T ) [n 2(p + 1)] 2 1 RT
Quando le variabili esplicative sono molte si ricorre a procedure di tipo stepwise, nelle varianti per inclusione e per eliminazione. In particolare, partendo da un modello parziale si procede per passi e di volta in volta si aggiunge una variabile che contribuisce in maniera signicativa al miglioramento del modello o si elimina una variabile il cui coeciente non signicativo. Altro approccio il best-subset, in cui si valutano tutti i possibili modelli di regressione ricavabili da un certo insieme di variabili esplicative e si individuano i sottinsiemi migliori secondo uno dei criteri sopra riportati (R2 e Cp ).
Multicollinearit
Si verica quando il rango della matrice X non massimo e si traduce nella presenza di unelevata correlazione tra le variabili esplicative. Le variabili collineari non forniscono informazioni aggiuntive e risulta dicile individuare leetto che ciascuna di esse ha sulla variabile risposta. Una misura della multicollinearit data dallindice V IF (Variance Inationary Factor). In particolare, per la j-esima variabile si ha V IFj = 1 , 2 1 Rj
2 dove Rj il coeciente di determinazione che caratterizza il modello in cui la variabile dipendente Xj e tutte le altre variabili esplicative sono incluse nel modello.
Regressione quadratica e polinomiale

Supponiamo ora che tra Y e X non vi sia una relazione di tipo lineare. Tra le relazioni non lineari pi comuni vi quella quadratica. Il modello di regressione quadratica simile ad un modello di regressione multipla con due variabili esplicative in cui la seconda variabile esplicativa il quadrato della prima. In particolare: Yi = 0 + 1 xi1 + 2 x2 + i , i = 1, 2, . . . , n. i2 dove 0 lintercetta, 1 il coeciente che esprime leetto lineare su Y , 2 il coeciente che esprime leetto quadratico su Y ,
i
lerrore casuale.
Tale modello generalizzabile ad un modello polinomiale.
Variabili dummy
Nel caso di variabili esplicative discrete opportuno ricorrere ad un modello che includa variabili indicatrici (dummy) per poter valutare leetto di un fenomeno che presenta modalit qualitative su una risposta. Sia E un evento che si suppone abbia un eetto nel modicare Yi . Sia Di = 1 se per lunit i-esima E presente 0 altrimenti
la variabile indicatrice (dummy). Se consideriamo il modello Yi = 0 + 1 xi1 + 2 Di + i , i = 1, 2, . . . , n si avr che Yi = 0 + 1 xi1 + i , per le unit dove E assente (0 + 2 ) + 1 xi1 + i , per le unit dove E presente

Regressione Multipla

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Regressione Multipla

Uploaded by

Copyright:

Available Formats

Il modello di regressione lineare multipla

Il modello di regressione lineare multipla

scelta delle variabili, multicollinearit, test multipli.

Il modello di regressione lineare multipla

Specicazione del modello (1)

Specicazione del modello (2)

Specicazione del modello (3)

Il modello di regressione lineare multipla

Stima dei parametri

Il modello di regressione lineare multipla

Il modello di regressione lineare multipla

Propriet degli stimatori LS e ML

Il modello di regressione lineare multipla

Stima del parametro 2

Il modello di regressione lineare multipla

Test su un singolo parametro

ANOVA per un modello di regressione lineare multipla

che sotto H0 ha distribuzione F (p, n p 1).

Confronto tra modelli annidati

Il modello di regressione lineare multipla

Bont del modello

n 2 i=1 (yi yi ) . n 2 i=1 (yi y )

Il modello di regressione lineare multipla

Scelta delle variabili esplicative

Il modello di regressione lineare multipla

Regressione quadratica e polinomiale

Tale modello generalizzabile ad un modello polinomiale.

You might also like