Professional Documents
Culture Documents
EL_PCT/100
EXPN_STU/1000
Modello 7: OLS, usando le osservazioni 1-420 Variabile dipendente: testscr Errori standard robusti rispetto all'eteroschedasticit, variante HC1 const el_pct str Coefficiente 686,032 -0,649777 -1,1013 Errore Std. 8,72822 0,0310318 0,432847 rapporto t 78,5993 -20,9391 -2,5443 p-value <0,00001 <0,00001 0,01131 *** *** **
Media var. dipendente 654,1565 SQM var. dipendente 19,05335 Somma quadr. residui 87245,29 E.S. della regressione 14,46448 R-quadro 0,426431 R-quadro corretto 0,423680 F(2, 417) 223,8229 P-value(F) 9,28e-67 Log-verosimiglianza -1716,561 Criterio di Akaike 3439,123 Criterio di Schwarz 3451,243 Hannan-Quinn 3443,913 Retta di regressione lineare: TESTSCR = 686,032 1,10 STR 0,65 EL_PCT Lintercetta 0 stimata da 686.032, la stima OLS del coefficiente 1 del rapporto studentiinsegnanti -1.1013, la stima OLS del coefficiente 2 della percentuale di studenti non madrelingua -0.6498. Dunque con due regressori si stima che un decremento unitario del rapporto studenti-insegnati aumenti di soli 1,10 punti i punteggi dei test, contro i 2.28 punti della regressione con un singolo regressore. Riconosciamo dunque una distorsione da variabile omessa. La differenza tra lR2 e l R2 corretto piccola perch la dimensione campionaria grande e i regressori sono solo due. Si noti che con laggiunta della variabile sulla percentuale di non madrelingua spiegato il 42.6 % della variazione dei punteggi, contro il 5.1 % della regressione con il solo rapporto studentiinsegnanti. Il SER diminuisce da 18.6 a 14.5; questo indica che le predizioni circa i punteggi nei test sono pi precise quando vengono incluse sia STR che EL_PCT. Per verificare lipotesi nulla che il vero coefficiente di STR sia uguale a 0, guardiamo il valore della statistica t che -2.54 e il relativo p-value che 1.131 % < 5 % quindi lipotesi nulla pu essere rifiutata ad un livello di significativit del 5 % (ma ad esempio non ad un livello di significativit dell1%). Lintervallo di confidenza al 95% per il coefficiente di STR nella popolazione pu essere calcolato come (-1.1013 1.96*0.433 , -1.1013+ 1.96*0.433) = (-1.95 , -0.25) cio al 95 % il vero valore del coefficiente si trova in questo intervallo. Lintervallo di confidenza per leffetto sui test di una diminuzione di due unit del rapporto studenti-insegnanti -2 * (-1.95 , -0.25) = (0.5 , 3.9). Usando Gretl: Intervalli di confidenza per i coefficienti t(417, 0,025) = 1,966 Variabile const str el_pct Coefficiente 686,032 -1,10130 -0,649777 Intervallo di confidenza al 95 (668,875, 703,189) (-1,95213, -0,250462) (-0,710775, -0,588779)
ESEMPIO DI COLLINEARITA PERFETTA Modello 9: OLS, usando le osservazioni 1-420 Variabile dipendente: testscr Omesse per perfetta collinearit: fracel const el_pct str Coefficiente 686,032 -0,649777 -1,1013 Errore Std. 7,41131 0,0393425 0,380278 rapporto t 92,5656 -16,5159 -2,8960 p-value <0,00001 <0,00001 0,00398 *** *** ***
Media var. dipendente Somma quadr. residui R-quadro F(2, 417) Log-verosimiglianza Criterio di Schwarz
SQM var. dipendente E.S. della regressione R-quadro corretto P-value(F) Criterio di Akaike Hannan-Quinn
La variabile FRACEL viene omesse in quanto mostra collinearit perfetta con la variabile EL_PCT poich ne una funzione lineare. AGGIUNGIAMO UNALTRA VARIABILE Modello 3: OLS, usando le osservazioni 1-420 Variabile dipendente: testscr Errori standard robusti rispetto all'eteroschedasticit, variante HC1 const str el_pct expn Coefficiente 649,578 -0,286399 -0,656023 3,8679 Errore Std. 15,4583 0,482073 0,0317844 1,58072 rapporto t 42,0212 -0,5941 -20,6397 2,4469 p-value <0,00001 0,55277 <0,00001 0,01482 *** *** **
Media var. dipendente Somma quadr. residui R-quadro F(3, 416) Log-verosimiglianza Criterio di Schwarz
SQM var. dipendente E.S. della regressione R-quadro corretto P-value(F) Criterio di Akaike Hannan-Quinn
Retta di regressione lineare: TESTSCR = 649,578 0,286 STR 0,656 EL_PCT + 3.868 EXPN Tenendo costante la spesa per studente e la percentuale di non madrelingua, la variazione nel rapporto studenti-insegnanti ha un effetto molto ridotto, infatti oltre al valore del coefficiente che passa da -1.10 a -0.29 si noti la statistica t con relativo p-value 55,28 % che dice che lipotesi nulla che questo coefficiente sia pari a 0 non pu essere rifiutata neanche ad un livello di significativit del 10 %: quindi questo modello di regressione non fornisce evidenza a favore del fatto che lassumere pi insegnanti migliori i punteggi dei test se la spesa totale tenuta costante.
Lo SE relativo al coefficiente di STR aumentato dopo laggiunta di EXPN e questo manifestazione del fenomeno della collinearit imperfetta, infatti STR e EXPN sono fortemente correlati. Coefficienti di correlazione, usando le osservazioni 1 - 420 Valore critico al 5% (per due code) = 0,0957 per n = 420 str -0,6200 expn 1,0000 str Per testare lipotesi nulla che siano contemporaneamente nulli i coefficienti di STR e di EXPN usiamo la statistica F:
Insieme di vincoli 1: b[str] = 0 2: b[expn] = 0 Statistica test: F robusta(2, 416) = 5,43373, con p-value = 0,0046823 Stime vincolate: coefficiente errore std. rapporto t p-value --------------------------------------------------------------const 664,739 0,940642 706,7 0,0000 *** str 0,000000 0,000000 NA NA el_pct -0,671156 0,0389837 -17,22 1,36e-050 *** expn 0,000000 0,000000 NA NA Errore standard della regressione = 14,5917
expn 1,0000
La statistica F pari a 5.43373 > 4.61 quindi lipotesi nulla pu essere rifiutata ad un livello di significativit dell 1% e inoltre 5.43373 > 3 quindi lipotesi nulla pu essere rifiutata ad un livello di significativit del 5 %. Quindi possiamo rifiutare lipotesi nulla che STR e EXPN non siano statisticamente rilevanti per leffetto sui punteggi. La regressione vincolata dunque TESTSCR = 664,739 0,671 EL_PCT ovvero Modello 4: OLS, usando le osservazioni 1-420 Variabile dipendente: testscr Errori standard robusti rispetto all'eteroschedasticit, variante HC1 const el_pct Coefficiente 664,739 -0,671156 Errore Std. 0,974037 0,0321211 rapporto t 682,4578 -20,8946 p-value <0,00001 <0,00001 *** ***
Media var. dipendente Somma quadr. residui R-quadro F(1, 418) Log-verosimiglianza Criterio di Schwarz e dunque ha un R2 pari a 0.4149.
SQM var. dipendente E.S. della regressione R-quadro corretto P-value(F) Criterio di Akaike Hannan-Quinn
b[str] - b[expn] = 0 Statistica test: F robusta(1, 416) = 8,9403, con p-value = 0,00295511 Stime vincolate: coefficiente errore std. rapporto t p-value -------------------------------------------------------------const 685,822 11,3696 60,32 4,31e-208 str -0,854052 0,459004 -1,861 0,0635 el_pct -0,656690 0,0396393 -16,57 9,96e-048 expn -0,854052 0,459004 -1,861 0,0635 Errore standard della regressione = 14,5489
*** * *** *
-0,286, 3,87
4 expn 3 2 1 0 -1 -1,5
-1
-0,5 str
0,5
Lellisse contiene al 95 % le coppie di valori che non possono essere rifiutati usando la statistica F al livello di significativit del 5 %. Si noti che questa ellisse non contiene la coppia (0,0), ci vuol dire che lipotesi nulla che i coefficienti di STR e EXPN siano contemporaneamente nulli rifiutata ad un livello di significativit del 5 %. ALTRA REGRESSIONE Matrice di correlazione: Coefficienti di correlazione, usando le osservazioni 1 - 420 Valore critico al 5% (per due code) = 0,0957 per n = 420 calw_pct 1,0000 meal_pct 0,7394 1,0000 el_pct 0,3196 0,6531 1,0000 calw_pct meal_pct el_pct
Quindi le CALW_PCT e MEAL_PCT sono fortemente correlate (infatti misurano entrambi la percentuale di bambini economicamente svantaggiati nel distretto) Grafici X-Y a dispersione
calw_pct
testscr
testscr
meal_pct
testscr
el_pct
Ciascuna di queste variabili mostra una correlazione negativa con il punteggio nei test. Procediamo nel fare tre modelli di regressione, tutti con variabile dipendente TESTSCR: 1) Variabili indipendenti: STR, EL_PCT, CALW_PCT Modello 14: OLS, usando le osservazioni 1-420 Variabile dipendente: testscr Errori standard robusti rispetto all'eteroschedasticit, variante HC1 const str el_pct calw_pct Coefficiente 697,999 -1,30798 -0,48762 -0,789965 Errore Std. 6,92037 0,339076 0,0295823 0,0676596 rapporto t 100,8615 -3,8575 -16,4835 -11,6756 p-value <0,00001 0,00013 <0,00001 <0,00001 *** *** *** ***
TESTSCR = 698 1,308 STR 0,488 EL_PCT 0,79 CALW_PCT 2) Variabili indipendenti: STR, EL_PCT, MEAL_PCT Modello 15: OLS, usando le osservazioni 1-420 Variabile dipendente: testscr Errori standard robusti rispetto all'eteroschedasticit, variante HC1 const str el_pct meal_pct Coefficiente 700,15 -0,998309 -0,121573 -0,547346 Errore Std. 5,56845 0,27008 0,0328317 0,0241072 rapporto t 125,7352 -3,6963 -3,7029 -22,7046 p-value <0,00001 0,00025 0,00024 <0,00001 *** *** *** ***
Media var. dipendente Somma quadr. residui R-quadro F(3, 416) Log-verosimiglianza Criterio di Schwarz
SQM var. dipendente E.S. della regressione R-quadro corretto P-value(F) Criterio di Akaike Hannan-Quinn
Poich 9,87 > 3 lipotesi nulla, che i coefficienti di STR e di EL_PCT siano uguali, pu essere rifiutata ad un livello di significativit del 5%. 3) Variabili indipendenti: STR, EL_PCT, CALW_PCT, MEAL_PCT Modello 16: OLS, usando le osservazioni 1-420
Variabile dipendente: testscr Errori standard robusti rispetto all'eteroschedasticit, variante HC1 const str el_pct calw_pct meal_pct Coefficiente 700,392 -1,01435 -0,129822 -0,0478537 -0,528619 Errore Std. 5,53742 0,268861 0,0362579 0,0586541 0,0381167 rapporto t 126,4835 -3,7728 -3,5805 -0,8159 -13,8684 p-value <0,00001 0,00018 0,00038 0,41505 <0,00001 *** *** *** ***
Media var. dipendente Somma quadr. residui R-quadro F(4, 415) Log-verosimiglianza Criterio di Schwarz
SQM var. dipendente E.S. della regressione R-quadro corretto P-value(F) Criterio di Akaike Hannan-Quinn
TESTSCR = 700,4 1,014 STR - 0,13 EL_PCT - 0,048 CALW_PCT 0,529 MEAL_PCT Intervalli di confidenza per i coefficienti t(415, 0,025) = 1,966 Variabile const str el_pct calw_pct meal_pct Coefficiente 700,392 -1,01435 -0,129822 -0,0478537 -0,528619 Intervallo di confidenza al 95 (689,507, 711,277) (-1,54285, -0,485853) (-0,201094, -0,0585498) (-0,163150, 0,0674424) (-0,603545, -0,453693)
Tali intervalli di confidenza non contengono lo zero, quindi si pu rifiutare la nulla che ogni coefficiente sia singolarmente pari a 0. Confrontiamo gli R2 delle tre regressioni: Regressione con solo CALW_PCT R-quadro Regressione con solo MEAL_PCT R-quadro 0,774516 R-quadro corretto 0,772890 0,628543 R-quadro corretto 0,625864
Notiamo che gli R2 delle ultime due regressioni sono molto simili ed in particolare che lR2 corretto maggiore nel modello con solo MEAL_PCT quindi siamo portati a pensare che a causa dellalta correlazione tra MEAL_PCT e CALW_PCT non sia conveniente includere entrambe le variabili
nella regressione per non incappare nel fenomeno della collinearit imperfetta e dunque teniamo infine il modello numero 2.