Professional Documents
Culture Documents
Introduzione
E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno dinteresse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa molto pi semplice utilizzando lalgebra delle matrici. Il modello di regressione multipla genera per nuovi problemi:
1 2 3
X =
0 1 ... i ... p
2 ... = i ...
n
utilizzando la notazione matriciale, il modello di regressione multipla dato da Y = X + , ed esplicitando tale relazione per le singole unit statistiche equivale a Yi = 0 + 1 xi1 + 2 xi2 + . . . + p xip + i , i = 1, 2, . . . , n.
Il modello di regressione lineare multipla
(1)
Le ipotesi classiche
Le ipotesi del modello di regressione lineare multipla sono
1 2 3 4
Y = X + ; E( ) = 0; Var( ) = E( ) = 2 In ;
X una matrice (non stocastica) tale che r(X) = p + 1. Dopo aver ottenuto le stime j per i parametri j , il modello diventa yi = 0 + 1 xi1 + 2 xi2 + . . . + p xip + ei = yi + ei . I residui ei sono dati dalla dierenza tra i valori osservati yi e i valori stimati yi calcolati secondo il modello di regressione.
Liperpiano di regressione
Geometricamente lequazione yi = 0 + 1 xi1 + 2 xi2 + . . . + p xip , i = 1, 2, . . . , n, denisce un iperpiano nello spazio a p + 1 dimensioni. Per avere unidea del procedimento di stima dei minimi quadrati, il piano rappresentato in gura , tra gli inniti piani, quello che rende minima la somma dei quadrati delle lunghezze dei segmenti congiungenti i punti osservati al piano stesso.
Teorema di Gauss-Markov Sotto le ipotesi del modello di regressione lineare, gli stimatori LS B per i parametri , sono lineari, non distorti,ed i pi ecienti nella classe degli stimatori lineari e non distorti (BLUE). Per applicare il metodo ML, occorre aggiungere lipotesi che il vettore N (0, 2 I). Si pu dimostrare che gli stimatori ML coincidono con quelli LS prima ricavati, che sono lineari, non distorti, sucienti ed ecienti nella classe di tutti gli stimatori non distorti.
(yi y )2 =
i=1 i=1
(yi yi )2 +
i=1
(i y )2 , y
che rappresenta la scomposizione della devianza totale in devianza residua e devianza spiegata (o della regressione), ovvero SQT = SQE + SQR. La stima della varianza delle v.c. errori data da s2 = ee = np1
n i=1 (yi
yi )2 . np1
Sia F1 il modello minimale con la sola intercetta (p = 1). Sia Fp il modello corrente con p parametri e sia Fp0 un modello ridotto con 1 < p0 < p. la perdita di bont di adattamento del modello Fp0 rispetto a Fp pu essere valutata attraverso la statistica: F = (SQEp0 SQEp )/(p p0 ) Fpp0 ,np SQEp0 /(n p0 )
y )2 =1 y )2
Lindice R2 varia in [0, 1] e pi si avvicina a 1 migliore ladattamento del modello ai dati. Tuttavia opportuno sottolineare che il valore R2 aumenta con laumentare del numero di regressori, per cui conveniente considerare la versione corretta dellindice R2 , data da R2 = 1
n 2 i=1 (yi yi ) /(n p n 2 i=1 (yi y ) /(n
1) . 1)
Quando le variabili esplicative sono molte si ricorre a procedure di tipo stepwise, nelle varianti per inclusione e per eliminazione. In particolare, partendo da un modello parziale si procede per passi e di volta in volta si aggiunge una variabile che contribuisce in maniera signicativa al miglioramento del modello o si elimina una variabile il cui coeciente non signicativo. Altro approccio il best-subset, in cui si valutano tutti i possibili modelli di regressione ricavabili da un certo insieme di variabili esplicative e si individuano i sottinsiemi migliori secondo uno dei criteri sopra riportati (R2 e Cp ).
Il modello di regressione lineare multipla
Multicollinearit
Si verica quando il rango della matrice X non massimo e si traduce nella presenza di unelevata correlazione tra le variabili esplicative. Le variabili collineari non forniscono informazioni aggiuntive e risulta dicile individuare leetto che ciascuna di esse ha sulla variabile risposta. Una misura della multicollinearit data dallindice V IF (Variance Inationary Factor). In particolare, per la j-esima variabile si ha V IFj = 1 , 2 1 Rj
2 dove Rj il coeciente di determinazione che caratterizza il modello in cui la variabile dipendente Xj e tutte le altre variabili esplicative sono incluse nel modello.
lerrore casuale.
Il modello di regressione lineare multipla
Variabili dummy
Nel caso di variabili esplicative discrete opportuno ricorrere ad un modello che includa variabili indicatrici (dummy) per poter valutare leetto di un fenomeno che presenta modalit qualitative su una risposta. Sia E un evento che si suppone abbia un eetto nel modicare Yi . Sia Di = 1 se per lunit i-esima E presente 0 altrimenti
la variabile indicatrice (dummy). Se consideriamo il modello Yi = 0 + 1 xi1 + 2 Di + i , i = 1, 2, . . . , n si avr che Yi = 0 + 1 xi1 + i , per le unit dove E assente (0 + 2 ) + 1 xi1 + i , per le unit dove E presente
Il modello di regressione lineare multipla