You are on page 1of 137

Dispense del Corso di

Modellistica e Identificazione

Prof. Alberto De Santis

Laurea magistrale in Ingegneria


Gestionale

“Sapienza” Università di Roma

a.a. 2016-2017
Rapporto fra varianze F - Valori critici per p = 0,05 (carattere tondo), valori critici per p = 0,01
(carattere grassetto) - nella prima riga i gradi di libertà del numeratore, nella prima colonna i gradi
di libertà del denominatore
Gradi di
1 2 3 4 5 6 8 12 24 24
libertà
161 200 216 225 230 234 239 244 249 254
1
4052 4999 5403 5625 5764 5859 5982 6106 6234 6366
18,51 19,00 19,16 19,25 19,30 19,33 19,37 19,41 19,45 19,50
2
98,50 99,00 99,17 99,25 99,30 99,33 99,37 99,42 99,45 99,50
10,13 9,55 9,28 9,12 9,01 8,94 8,84 8,74 8,64 8,53
3
34,12 30,82 29,46 28,71 28,24 27,91 27,49 27,05 26,60 26,12
7,71 6,94 6,59 6,39 6,26 6,16 6,04 5,91 5,77 5,63
4
21,20 18,00 16,69 15,98 15,52 15,21 14,80 14,37 13,93 13,46
6,61 5,79 5,41 5,19 5,05 4,95 4,82 4,68 4,53 4,36
5
16,26 13,27 12,06 11,39 10,97 10,67 10,29 9,89 9,47 9,02
5,99 5,14 4,76 4,53 4,39 4,28 4,15 4,00 3,84 3,67
6
13,74 10,92 9,78 9,15 8,75 8,47 8,10 7,72 7,31 6,88
5,32 4,46 4,07 3,84 3,69 3,58 3,44 3,28 3,12 2,93
8
11,26 8,65 7,59 7,01 6,63 6,37 6,03 5,67 5,28 4,86
4,96 4,10 3,71 3,48 3,33 3,22 3,07 2,91 2,74 2,54
10
10,04 7,56 6,55 5,99 5,64 5,39 5,06 4,71 4,33 3,91
4,75 3,88 3,49 3,26 3,11 3,00 2,85 2,69 2,50 2,30
12
9,33 6,93 5,95 5,41 5,06 4,82 4,50 4,16 3,78 3,36
4,54 3,68 3,29 3,06 2,90 2,79 2,64 2,48 2,29 2,07
15
8,68 6,36 5,42 4,89 4,56 4,32 4,00 3,67 3,29 2,87
4,35 3,49 3,10 2,87 2,71 2,60 2,45 2,28 2,08 1,84
20
8,10 5,85 4,94 4,43 4,10 3,87 3,56 3,23 2,86 2,42
4,24 3,38 2,99 2,76 2,60 2,49 2,34 2,16 1,96 1,71
25
7,77 5,57 4,68 4,18 3,86 3,63 3,32 2,99 2,62 2,17
4,17 3,32 2,92 2,69 2,53 2,42 2,27 2,09 1,89 1,62
30
7,56 5,39 4,51 4,02 3,70 3,47 3,17 2,84 2,47 2,01
4,08 3,23 2,84 2,61 2,45 2,34 2,18 2,00 1,79 1,51
40
7,31 5,18 4,31 3,83 3,51 3,29 2,99 2,66 2,29 1,80
4,00 3,15 2,76 2,52 2,37 2,25 2,10 1,92 1,70 1,39
60
7,08 4,98 4,13 3,65 3,34 3,12 2,82 2,50 2,12 1,60
3,92 3,07 2,68 2,45 2,29 2,17 2,02 1,83 1,61 1,25
120
6,85 4,79 3,95 3,48 3,17 2,96 2,66 2,34 1,95 1,38
3,84 2,99 2,60 2,37 2,21 2,10 1,94 1,75 1,52 1,00
> 120
6,64 4,60 3,78 3,32 3,02 2,80 2,51 2,18 1,79 1,00
1 2 3 4 5 6 8 12 24 24
Critical Values for the Chi-Squared Distribution
Gradi di
libertà
ε ==>

ν 0.995 0.99 0.975 0.95 0.9 0.1 0.05 0.025 0.01 0.005
1 0.000 0.000 0.001 0.004 0.016 2.706 3.841 5.024 6.635 7.879
2 0.010 0.020 0.051 0.103 0.211 4.605 5.991 7.378 9.210 10.597
3 0.072 0.115 0.216 0.352 0.584 6.251 7.815 9.348 11.345 12.838
4 0.207 0.297 0.484 0.711 1.064 7.779 9.488 11.143 13.277 14.860
5 0.412 0.554 0.831 1.145 1.610 9.236 11.070 12.832 15.086 16.750
6 0.676 0.872 1.237 1.635 2.204 10.645 12.592 14.449 16.812 18.548
7 0.989 1.239 1.690 2.167 2.833 12.017 14.067 16.013 18.475 20.278
8 1.344 1.647 2.180 2.733 3.490 13.362 15.507 17.535 20.090 21.955
9 1.735 2.088 2.700 3.325 4.168 14.684 16.919 19.023 21.666 23.589
10 2.156 2.558 3.247 3.940 4.865 15.987 18.307 20.483 23.209 25.188
11 2.603 3.053 3.816 4.575 5.578 17.275 19.675 21.920 24.725 26.757
12 3.074 3.571 4.404 5.226 6.304 18.549 21.026 23.337 26.217 28.300
13 3.565 4.107 5.009 5.892 7.041 19.812 22.362 24.736 27.688 29.819
14 4.075 4.660 5.629 6.571 7.790 21.064 23.685 26.119 29.141 31.319
15 4.601 5.229 6.262 7.261 8.547 22.307 24.996 27.488 30.578 32.801
16 5.142 5.812 6.908 7.962 9.312 23.542 26.296 28.845 32.000 34.267
17 5.697 6.408 7.564 8.672 10.085 24.769 27.587 30.191 33.409 35.718
18 6.265 7.015 8.231 9.390 10.865 25.989 28.869 31.526 34.805 37.156
19 6.844 7.633 8.907 10.117 11.651 27.204 30.144 32.852 36.191 38.582
20 7.434 8.260 9.591 10.851 12.443 28.412 31.410 34.170 37.566 39.997
21 8.034 8.897 10.283 11.591 13.240 29.615 32.671 35.479 38.932 41.401
22 8.643 9.542 10.982 12.338 14.041 30.813 33.924 36.781 40.289 42.796
23 9.260 10.196 11.689 13.091 14.848 32.007 35.172 38.076 41.638 44.181
24 9.886 10.856 12.401 13.848 15.659 33.196 36.415 39.364 42.980 45.558
25 10.520 11.524 13.120 14.611 16.473 34.382 37.652 40.646 44.314 46.928
26 11.160 12.198 13.844 15.379 17.292 35.563 38.885 41.923 45.642 48.290
27 11.808 12.878 14.573 16.151 18.114 36.741 40.113 43.195 46.963 49.645
28 12.461 13.565 15.308 16.928 18.939 37.916 41.337 44.461 48.278 50.994
29 13.121 14.256 16.047 17.708 19.768 39.087 42.557 45.722 49.588 52.335
30 13.787 14.953 16.791 18.493 20.599 40.256 43.773 46.979 50.892 53.672
31 14.458 15.655 17.539 19.281 21.434 41.422 44.985 48.232 52.191 55.002
32 15.134 16.362 18.291 20.072 22.271 42.585 46.194 49.480 53.486 56.328
33 15.815 17.073 19.047 20.867 23.110 43.745 47.400 50.725 54.775 57.648
34 16.501 17.789 19.806 21.664 23.952 44.903 48.602 51.966 56.061 58.964
35 17.192 18.509 20.569 22.465 24.797 46.059 49.802 53.203 57.342 60.275
36 17.887 19.233 21.336 23.269 25.643 47.212 50.998 54.437 58.619 61.581
37 18.586 19.960 22.106 24.075 26.492 48.363 52.192 55.668 59.893 62.883
38 19.289 20.691 22.878 24.884 27.343 49.513 53.384 56.895 61.162 64.181
39 19.996 21.426 23.654 25.695 28.196 50.660 54.572 58.120 62.428 65.475
40 20.707 22.164 24.433 26.509 29.051 51.805 55.758 59.342 63.691 66.766
50 27.991 29.707 32.357 34.764 37.689 63.167 67.505 71.420 76.154 79.490
60 35.534 37.485 40.482 43.188 46.459 74.397 79.082 83.298 88.379 91.952
70 43.275 45.442 48.758 51.739 55.329 85.527 90.531 95.023 100.425 104.215
80 51.172 53.540 57.153 60.391 64.278 96.578 101.879 106.629 112.329 116.321
90 59.196 61.754 65.647 69.126 73.291 107.565 113.145 118.136 124.116 128.299
100 67.328 70.065 74.222 77.929 82.358 118.498 124.342 129.561 135.807 140.170
150 109.142 112.668 117.985 122.692 128.275 172.581 179.581 185.800 193.207 198.360
200 152.241 156.432 162.728 168.279 174.835 226.021 233.994 241.058 249.445 255.264
Modello lineare con rumore additivo: stima
dei minimi quadrati.
Nella maggior parte dei casi un modello lineare risulta essere sufficiente per rappresentare in
modo significativo il legame tra la grandezza di misura y e le variabili indipendenti x1 , x2 , , xm

yi   0  1 x1i   2 x2i     m xmi  wi ,


m (1.1)
  0    j x ji  wi , i  1, , N
j 1

dove wi  è una sequenza aleatoria a valor medio nullo che rappresenta il disturbo connesso al
rilevamento sperimentale delle misure  yi  della grandezza di misura. I parametri incogniti del
modello che devono essere determinati sono l’ordine del modello m e le m  1 costanti  0 , , m .
Nei riguardi del legame tra la grandezza di misura e le variabili indipendenti , tali costanti hanno un
significato preciso. La costante  0 è l’offset del modello, e rappresenta il valore di y quando tutte
le variabili indipendenti hanno valore nullo; sebbene questo possa sembrare un controsenso è difatto
più frequente di quanto non si pensi in quanto il più delle volte il modello lineare è una
rappresentazione del comportamento del processo allo studio nell’intorno di un punto di lavoro
y  f  x1 , , xm  che corrisponde a determinati valori costanti y , x1 , , xm della variabile di
misura e di quelle indipendenti, mentre i valori x1i , x2i , , xmi sono le variazioni di ampiezza
opportuna rispetto ai valori di equilibrio x1 , , xm . Inoltre  0 è utile per intercettare
eventualmente un valor medio non nullo del disturbo di misura. La costante generica  j rappresenta
la sensibilità della variabile di misura rispetto alle variazioni della j -esima variabile indipendente
x j quando le altre sono tenute costanti; infatti risulta

y
j  , j  1, , m
x j

Il modello (1.1) è molto usato in vari campi, per cui i suoi elementi sono suscettibili di varie
denominazioni, di cui si riportano quelle più usate: l’uscita viene chiamata genericamente dato; le
variabili indipendenti vengono dette variabili di regressione, regressori, predittori, scores; i
parametri possono chiamarsi coefficienti di correlazione parziale, oppure loads. Il modello quindi
può trovarsi sotto il nome di modello di regressione lineare, modello di regressione multipla o
multivariata.
Assegnato ora un set di N misure sperimentali  yi  della grandezza di misura e delle

 
variabili indipendenti x ji vogliamo stimare i parametri del modello; a tale scopo, sulla base di
opportune informazioni a disposizione circa il processo allo studio, si scelga un valore dell’ordine
m del modello, tale scelta sarà poi perfezionata in sede di validazione del modello identificato. I
parametri  0 , , m possono essere determinati minimizzando la seguente funzione di costo
2
1   mN  1 N
2
f  0 , , m     yi   0   j x ji    N   yi  ˆyi  (1.2)
Ni 1 
  j 1  
 i 1
T
per cui si vuole trovare il valore ˆ  ˆ0  ˆm  che minimizzi lo scarto quadratico medio tra le
misure sperimentali  yi  ed i valori dell’uscita riprodotti dal modello identificato  ˆyi  .
Per il problema dei minimi quadrati sarà dimostrato più avanti la sussistenza di condizioni
necessarie e sufficienti di minimo globale

f 2 N   m 
 0
   yi   0   j x ji    0
N 
i 1   j 1  
(1.3)
f 2 N   m 
 k
   yi   0    j x ji   xki  0 , k  1, , m
N i 1 
  j 1  

Il sistema (1.3) di m  1 equazioni lineari in m  1 incognite può essere utilmente risolto


introducendo le seguenti grandezze campionarie

N N
1 1
y 
N
 yi ,  xk 
N
 x ki
i 1 i 1

  yi   y    xki   xk 
N N
1 2 1 2
 2y  ,  x2k 
N i 1 N i 1

     xhi   xh  xki   xk 
N N
1 1
 2yxk  yi   y xki   xk ,  x2h xk 
N i 1 N i 1

Le (1.3) possono quindi essere riscritte nel seguente modo

m
 y   0   j  x j
j 1
(1.4)
N N m
1 1
N
 yi x k i   0  xk 
N
  j x ji xki , k  1, , m
i 1 i 1 j 1

Ora, per il generico k , si moltiplichi la prima delle (1.4) per  xk e la si sottragga dalla seconda
delle (1.4); si ottiene

1 N m  1 N 
 i k i y xk   j  N
y x      x ji xki   x j  xk , k  1, , m (1.5)
N i 1 j 1  i 1 

Con facili calcoli si può vedere che


  yi   y   xki   xk    2yxk
N N
1 1
N
 yi x k i   y  x k  N
i 1 i 1
(1.6)

  x ji   x j   xki   xk    x2 j xk
N N
1 1
N
 x ji xki   x j  xk 
N
i 1 i 1

e sostituendo nelle (1.5) si ottiene


m
 y   0   j  x j
j 1
(1.7)
m
 2
yxk   j x2 j xk , k  1, , m
j 1

Il sistema (1.7) fornisce la stessa soluzione del sistema (1.4) da un punto di vista teorico; tuttavia da
un punto di vista numerico, mentre i coefficienti del sistema (1.4) sono dati dai campioni misurati
della variabile di misura e di quelle indipendenti, valori quindi affetti da rumore di misura, i
coefficienti del sistema (1.7) sono dati dalle medie campionarie dei suddetti campioni, in cui la
presenza del rumore è drasticamente ridotta proprio dall’operazione di media campionaria; dal
sistema (1.7) otterremo quindi una stima dei parametri del modello numericamente più affidabile.
Esaminiamo ora alcuni modelli tipici.

Retta dei minimi quadrati.

In questo caso si ha m  1 ; dalla seconda delle (1.7) si ottiene


subito
 2yx1
ˆ1 
 x21

che sostituita nella prima fornisce

ˆ0   y  ˆ1 x1

Piano dei minimi quadrati.


Questa volta abbiamo m  2 . Dalla seconda delle (1.7)
si ottiene il seguente sistema

 2yx    x2  x21x2   
 1
  1  1

 yx   x x  
 2   2 1  x2   2 
2 2 2

da cui si ottiene
 2yx1 x22   x21x2  2yx2
ˆ1 
 
2
 x21 x22   x21x2

 x21 2yx2   x22 x1 2yx1


ˆ2 
 
2
 x21 x22   x21 x2
e quindi dalla prima ˆ0   y  ˆ1 x1  ˆ2  x2 .

Una volta identificato il modello, dobbiamo fare tutta una serie di verifiche atte a validare la
capacità del modello di descrivere adeguatamente il legame tra le variabili di interesse. Uno dei test
 m

più usati è quello del R 2 : esso consiste nel valutare in che percentuale i dati  ˆyi  ˆ0   ˆ j x ji 
 j 1 
riprodotti dal modello identificato catturino la variabilità dei dati sperimentali  yi  . A tale scopo
esprimiamo la varianza dei dati nel seguente modo

2 2 2

  yi   y    ˆyi   y 
N N N
1 1 1
 2
y
N

N
  yi  ˆyi  
N
(1.8)
i 1 i 1 i 1

Il primo termine a destra viene detto varianza residua, mentre il secondo termine a destra viene
detto varianza spiegata (dal modello s’intende). Il modello identificato è tanto migliore quanto più
la varianza spiegata eguaglia la varianza totale, cioè quanto più

  ˆyi   y 
N 2

i 1
R2 
  yi   y 
N 2

i 1

è prossimo ad uno. Se questo non dovesse succedere si deve aumentare l’ordine del modello; tale
scelta fa certamente diminuire il valore della varianza residua in quanto questa costituisce proprio il
valore all’ottimo della funzione di costo dei minimi quadrati. Tuttavia si può aumentare l’ordine
m del modello fino a che la diminuzione della varianza residua è significativo.

Come si vede dalla figura, aumentare l’ordine da m1 a


m2 produce una forte diminuzione della varianza
residua; aumentare ancora l’ordine fino a m3 o anche
oltre non produrrebbe diminuzioni apprezzabili del
residuo; a questo punto se il valore di R 2 non dovesse
risultare prossimo a 1, si dovrebbe ritenere che il
modello lineare non è in grado di rappresentare
adeguatamente il legame tra le variabili di ingresso e di
uscita.
Per la scelta della complessità del modello esistono altri
criteri che tengono anche conto della numerosità del
campione di dati N . Uno dei più usati è il cosiddetto
criterio di Akaike che consiste nello scegliere il valore di
m che rende minima la seguente funzione

m 1
N
c m  2
 ln f ˆ  
Questo, dato che m assume solo valori interi positivi,
viene fatto semplicemente calcolando la funzione c  m 
per valori crescenti dell’ordine m del modello: all’inizio
avremo un decremento della funzione all’aumentare di
m fino a raggiungere un punto minimo in corrispondenza
ad un valore m0 , per poi riaumentare man mano che il valore di m si avvicina al numero di dati
disponibili N (numero dei parametri confrontabile con il numero dei punti di misura). Il valore
m0 è da ritenersi il miglior compromesso tra diminuzione della varianza residua ottenibile e
complessità del modello. Di nuovo, se all’aumentare del numero dei parametri del modello non si
dovesse raggiungere il minimo della funzione c  m  questo sarebbe indice che il modello lineare
non rappresenta adeguatamente i dati.

Minimi quadrati pesati.


Riprendendo in esame la funzione di costo (1.2) si vede che in essa tutti gli scarti contano
allo stesso modo; questo potrebbe determinare una polarizzazione del procedimento di stima da
parte delle misure in valore assoluto più grandi, che potrebbero dare luogo a scarti più grandi. Può
quindi essere opportuno moltiplicare ogni scarto per un peso in modo da equalizzarne l’ampiezza

2
1 N   m 
f     pi2  yi   0    j x ji   (1.9)
N i 1   j 1  

Ad esempio, se fossero note le varianze  i2 degli errori di misura wi , si può scegliere pi2  1 /  i2 ;
in questo modo gli scarti grandi dovuti ad una maggiore imprecisione della misura vedrebbero
ridotta la loro influenza nella sommatoria in ragione della varianza del rumore di misura. Un’altra
scelta può essere pi2  1 / yi2 quando si hanno misure effettuate su scale differenti ed il fatto di avere
scarti più grandi significativamente di altri dipende quindi dal fatto che vengono misurati valori più
grandi dell’uscita.
Per prevenire qualsiasi problema di non equalizzazione degli scarti è buona norma effettuare
 
una standardizzazione dei dati  yi  , x j i , j  1, , m , in modo che le nuove sequenze delle

 
variabili indipendenti  j i , j  1, , m e della grandezza di misura i  abbiano valor medio nullo
e varianza unitaria

yi   yi x ji   x j
 ji  ,  ji  i
(1.10)
 yi  xj
i

e considerare la seguente funzione di costo


2
1 N  m 
     i    j ji  (1.11)
N i 1  j 1 

dove ovviamente non compare il termine di offset dato che tutte le variabili sono a valor medio
nullo.
I parametri  1 , , m che si ottengono dalla minimizzazione della (1.11), dove gli scarti si
riferiscono a variabili tutte con la stessa scala di variazione, sono legati a quelli del modello
originale  0 ,1 , , m da semplici relazioni. Infatti tenendo conto che

m m  xj  x 
ˆyi   y   yˆ i   y   y  ˆ j j   y    yˆ j  i j

j 1
i
j 1   xj 
 
m  ˆ m  ˆ
 y   x j   y j x ji
y j
(1.12)
j 1  xj j 1  xj
m
 ˆ0   ˆ j x x j
i
j 1

si ottiene

y m  y  m
ˆ j  ˆ , j  1, , m , ˆ0   y    ˆ j   x j   y   ˆ j  x j
 xj j j 1   x j  j 1
 
1

Statistica Matematica
Lo studio dei fenomeni complessi, tipici della realtà industriale moderna, comporta
l’adozione di opportuni modelli matematici che ne descrivano i caratteri essenziali, funzionali agli
obiettivi che il suddetto studio si prefigge. Nei riguardi di un sistema di produzione di beni e/o
servizi, è compito dell’ingegneria gestionale definire strategie di intervento che determinino il
miglioramento del ciclo produttivo, l’uso efficiente di risorse, la sicurezza e manutenzione degli
impianti, il rispetto dell’ambiente.
Il processo di formazione delle decisioni fa uso appunto di modelli descrittivi e di
predizione. Questi si ottengono individuando le variabili di interesse e le relazioni che intervengono
tra esse. Quest’ultimo passaggio è abbastanza complicato nei sistemi complessi, dove il numero
delle variabili che intervengono nel processo è elevato; di conseguenza si dispone anche di un
insieme di dati sperimentali, ottenuto dalle misure di dette grandezze, molto grande.
L’analisi dei dati sperimentali ha il compito di individuare quali tra le variabili misurate
siano effettivamente significative nel processo in questione, e la complessità delle relazioni che
intervengono tra esse. In tale ambito, la statistica gioca un ruolo fondamentale: nel suo aspetto
descrittivo e induttivo permette di dedurre i caratteri essenziali di una distribuzione di valori
dall’esame di un campione di essi, per poi fornire, unitamente ai risultati propri della teoria della
probabilità, una metodologia per la formazione delle decisioni. I metodi statistici intervengono
nell’identificazione e nella verifica dei modelli: la prima permette di selezionare il miglior modello
di una data classe e la seconda permette di convalidare il modello identificato in termini di
rappresentatività dei dati e di potere predittivo.

Statistica descrittiva

Consideriamo un apparato di produzione di supporti in ferro; si vuole caratterizzare la


qualità del prodotto finito in termini di carico di rottura (Kg/cm2 ). Si esamina un lotto di N  100
pezzi ottenendo l' insieme di dati sperimentali raccolti in Tab.1. Visti così, i dati sembrano
presentare delle fluttuazioni del tutto arbitrarie uno dall’altro da far sospettare che le caratteristiche
meccaniche del pezzo prodotto siano accidentali. Ma questo è frutto di un atteggiamento errato, che
consiste nel confrontare i singoli dati tra loro; se analizziamo l’insieme da un punto di vista più
generale, ad una scala più larga per così dire, potremmo individuare una certa regolarità che,
2

opportunamente caratterizzata, permetterà di definire un numero finito di parametri caratteristici del


lotto in questione.

Tab. 1. Unità statistiche. Carico di rottura dei pezzi di un lotto ( kg/cm2 )


62.3 82.0 83.5 54.4 76.8 52.6 79.1 61.5 75.8 75.2
82.7 53.2 57.3 101.6 85.4 102.6 90.5 83.4 83.2 75.6
48.1 72.2 98.4 91.5 58.1 75.4 70.2 57.1 64.8 87.3
73.8 83.0 86.5 85.4 60.5 60.8 85.8 74.2 95.5 65.1
92.6 75.8 43.1 62.5 79.2 75.6 71.5 57.6 73.5 42.6
62.1 63.4 72.3 77.6 82.6 89.4 87.3 85.1 95.6 58.4
83.7 79.6 63.7 87.5 76.3 43.2 61.0 72.6 65.6 85.5
78.5 68.2 75.6 68.3 69.1 78.4 63.6 68.2 107.2 74.8
79.5 93.6 64.4 74.3 107.8 60.5 94.2 73.6 89.0 65.4
105.8 52.6 78.2 84.3 93.8 97.0 53.3 74.3 85.6 91.8

Il carico di rottura minimo è di 42.6 ed il massimo è di 107.8 kg/cm2

Cominciamo con l’osservare che tutti i valori cadono nell’intervallo  dell’asse reale
 40, 110 , in effetti il minimo valore del carico di rottura è 42.6 Kg/cm
2
mentre il valore massimo è

di 107.8 Kg/cm2 per cui, per questo esperimento consideriamo il carico di rottura come una
variabile aleatoria continua X , con intervallo di definizione  . Dividiamo l’intervallo  in
sottointervalli contigui Ei ,    Ei (in questo esempio sono della stessa ampiezza, ma in generale

non devono necessariamente esserlo): in questo caso si scelgano M  7 sottointervalli di uguale


ampiezza pari a 10; per ogni Ei si conti il numero ni di dati che vi cadono all’interno. Il numero ni

prende il nome di frequenza assoluta dell’evento che il generico risultato X cada nell’intervallo
Ei , mentre il rapporto  i  ni / N prende il nome di frequenza relativa, o rapporto di frequenza

dell’evento X  Ei . Come è noto dalla teoria della probabilità, se N è sufficientemente grande, il

rapporto di frequenza  i è una buona approssimazione della probabilità pi dell’evento  X  Ei  .

Si noti che, ovviamente deve risultare che

M M
 ni  N ,  i  1
i 1 i 1
3

Riportando su un grafico in ascisse i valori della variabile X ed in ordinate i valori delle frequenze
relative otteniamo il classico diagramma a barre

graficoGrafico
del del
carico
carico didi rottura
rottura

110

100

90
carico di rottura Kg/cm2

80

70

60

50

40

10 20 30 40 50 60 70 80 90 100
unità esaminate
unità esaminate
valori del carico di rottura (Kg/cm2)

che viene detto istogramma della distribuzione campionaria di X .


Il numero e l’ampiezza dei sottointervalli devono essere tali che in ognuno di essi cada un
numero sufficiente di dati che presentino dei valori sostanzialmente omogenei. Da un lato, un basso
numero di sottointervalli lascia i dati ancora troppo raggruppati insieme, dall’altro un’ampiezza
troppo piccola del generico sottointervallo non garantisce che questo possa intercettare un numero
significativo di dati all’interno dell’insieme dato.
Istogramma con numero di classi troppo basso (M=3) Istogramma con numero di classi troppo elevato (M=13)
70 30

60
25

50
20
n° unità per classe

n° unità per classe

40
15
30

10
20

5
10

0 0
30 52 74 96 118 30 36 42 48 54 60 66 72 78 84 90 96 102 108 114 120
unità unità
4

L’istogramma determina una rappresentazione compatta dei dati di partenza, dalla quale è
possibile estrarre utili informazioni. Da una semplice ispezione visiva possiamo dire che per il lotto
di prodotti considerato, la distribuzione dei valori del carico di rottura si localizza nella classe
[70, 80], dove si presenta il massimo della frequenza relativa pari a 0.29. Osserviamo inoltre che i
valori di X sono abbastanza addensati intorno alla classe centrale (più dello 0.7 di frequenza
relativa nella classe centrale più le due ad essa contigue) e che si distribuiscono in modo simmetrico
rispetto ad essa. Quindi, come si vede, possiamo in definitiva individuare una certa regolarità nel
processo di produzione che ad un primo esame dei dati non era parsa evidente; l’istogramma è una
rappresentazione più maneggevole dei dati iniziali, fornendone una classificazione significativa.
Le qualità dell’istogramma che naturalmente sono risultate rilevanti ai fini della
caratterizzazione dell’insieme di dati analizzato, sono suscettibili di una precisa definizione
analitica, e quindi di una valutazione quantitativa. Ai fini del calcolo, la variabile aleatoria
dell’esempio trattato che riguardava una grandezza a valori nel continuo, può essere approssimata
da una variabile aleatoria, che chiameremo ancora X , a valori discreti  xi  rappresentati dalle

ascisse dei punti centrali delle classi Ei  , assunti con valori di probabilità  i  dati dalle

frequenze relative delle classi suddette.

Il valore medio
Questo parametro costituisce una misura della localizzazione della distribuzione dei valori,
in quanto determina quel valore rispetto al quale si distribuiscono meglio tutti gli altri

M
   xi i
i 1

dove xi è l’ascissa del punto centrale della classe, o sottointervallo, Ei . Nell’esempio considerato
avremmo

Tab.2. Calcolo della media del carico di rottura  ( kg/cm2 )


i classe xi i xi  i xi    xi     i
1 40-50 45 0.04 1.80 -30.6 -1.224
2 50-60 55 0.1 5.50 -20.6 -2.060
3 60-70 65 0.2 13.00 -10.6 -2.120
4 70-80 75 0.29 21.75 -0.6 -0.174
5 80-90 85 0.21 17.85 9.4 1.974
6 90-100 95 0.11 10.45 19.4 2.134
5

7 100-110 105 0.05 5.25 29.4 1.470


Totale 1 75.60 0.0

ottenendo   75.60 Kg/cm2 .


Altre misure di localizzazione sono la moda e la mediana. La prima definisce il valore della
X per cui si ha un massimo locale della frequenza relativa; se si hanno più massimi locali si parla di
distribuzione multimodale. La mediana invece fornisce il valore della X che divide la distribuzione
in due classi contigue di frequenza relativa pari 0.5. Nel caso dell’esempio, dalla Tab. 2 notiamo
che il valore 0.5 di frequenza relativa viene raggiunto nella classe [70, 80]; infatti la somma delle
unità fino alla classe [60, 70] è di 34, per cui la 50-esima unità (cioè l’unità mediana nei 100 pezzi)
è la 16-esima della classe [70, 80]; il calcolo della mediana (più facile a farsi che a dirsi) si ottiene
nel seguente modo

16
m  70  80  70   75.517
29

dove 29 sono le unità che compongono la classe [70, 80]. La mediana risulta essere poco sensibile
alla variazioni dei termini estremi, in quanto se ai termini della prima metà si sostituiscono termini
con valore minore e a quelli della seconda metà termini con valore maggiore, la mediana non
cambia.

La varianza
Questa è una misura di quanto i valori della distribuzione siano più o meno dispersi intorno
al valor medio

M
 2    xi     i
2

i 1

e si ottiene come valore medio degli scarti al quadrato, per cui è sempre una quantità positiva. Un
basso valore di  2 denota che le determinazioni della X sono addensate intorno al valor medio, e
che quindi il processo descritto dalla X ha una bassa variabilità; al contrario un grande valore della
varianza, significa che si hanno scarti dal valor medio grandi, e che quindi la X è molto dispersa
denotando grande variabilità nel fenomeno allo studio.
6

Si noti come la varianza sia una grandezza del secondo ordine, per cui in termini di unità di
misura non è omogenea alla X ; a tale scopo si è soliti considerare la radice quadrata (positiva)
della varianza

  2

che prende il nome di deviazione standard, od in inglese root mean square (rms). Per l’insieme di
dati dell’esempio considerato si ha

Tab.3. Calcolo della deviazione standard del carico di rottura  ( kg/cm2 )


i classe xi i  xi    2  xi    2  i r.m.s
1 40-50 45 0.04 936.36 37.4544
2 50-60 55 0.1 424.36 42.4360
3 60-70 65 0.2 112.36 22.4720
4 70-80 75 0.29 0.36 0.1044
5 80-90 85 0.21 88.36 18.5556
6 90-100 95 0.11 376.36 41.3996
7 100-110 105 0.05 864.36 43.2180
Totale 1 75.60 205.64 14.34

ottenendo  2  205.64 ( Kg/cm2)2 , e   14.34 Kg/cm2.

Prima di esaminare altri parametri, vediamo come si modificano valor medio e varianza
quando la variabile aleatoria cui si riferiscono subisce delle semplici trasformazioni.

Somma di una costante: Y  X  c

M M M M
Y   yi i    xi  c  i   xi i  c   i   X  c
i 1 i 1 i 1 i 1

    yi   y   i    xi  c  (  X  c)   i    xi   X   i   X2
M 2 M M
2 2 2
Y
i 1 i 1 i 1

da cui si vede che il valor medio varia proprio della costante c addizionata, mentre la varianza resta
inalterata.

Prodotto per una costante: Y  cX


7

M M M
Y   yi i   cxi i  c  xi i  c X
i 1 i 1 i 1

 Y2    yi   y   i    cxi  c X   i  c 2   xi   X   i  c 2 X2
M 2 M M
2 2

i 1 i 1 i 1

per cui il valor medio risulta moltiplicato per la stessa costante, mentre la varianza è moltiplicata
per la costante al quadrato.

Trasformazione affine: Y  aX  b

M M M M
Y   yi i    axi  b  i  a  xi i  b  i  a X  b
i 1 i 1 i 1 i 1

 Y2    yi   y   i    (axi  b)  (a X  b)   i  a 2   xi   X   i  a 2 X2
M 2 M M
2 2

i 1 i 1 i 1

L’ultima trasformazione riassume il risultato ottenuto nelle prime due! Questa è importante perché
permette di effettuare la standardizzazione di una variabile aleatoria X , ovvero la trasformazione in
una variabile aleatoria X ' con lo stesso tipo di distribuzione, ma con valor medio nullo e varianza
pari ad uno

X  X
X '
X

che corrisponde ad una trasformazione affine con a  1/  X e b    X /  X ; infatti si ha


8

1  X 
 X '  a X  b  X    0
X   X 

1
 X2 '  a 2 X2   X2  1
 2
X

L’importanza della standardizzazione sarà chiara in seguito.

Dissimmetria
Questo parametro dà una misura della dissimmetria della curva della distribuzione rispetto al
valore medio, ed è definita nel seguente modo

M
  xi     i
3

i 1

Tuttavia per ottenere un indice adimensionale come indice di dissimmetria (o skewness) si


considera la seguente grandezza

M
  xi     i
3
3
i 1
d

Valori positivi dell’indice denotano che nella distribuzione sono più frequenti scarti positivi dal
valor medio; il viceversa vale nel caso di valori di d negativi. Per l’esempio trattato si ottiene

Tab.3. Calcolo della skewness del carico di rottura d ( kg/cm2 )


i classe xi i  xi    3  xi    3  i d
1 40-50 45 0.04 -28652.626 -1146.1046
2 50-60 55 0.1 -8741.826 -874.1816
3 60-70 65 0.2 -1191.026 -238.2032
4 70-80 75 0.29 -0.216 -0.0626
5 80-90 85 0.21 830.584 174.4226
6 90-100 95 0.11 7301.384 803.1522
9

7 100-110 105 0.05 25412.184 1270.6092


Totale 1 75.60 -10.3680 -0.1521

con d  2.18 /14.34  0.152 1.

Curtosi (o indice di eccesso)


Questo parametro non è molto usato nel nostro ambito, viene riportato per completezza. Per
distribuzioni unimodali, e simmetriche misura il grado di appiattimento della distribuzione intorno
al valor medio o, corrispondentemente, l’assottigliamento delle code della distribuzione. E’ definito
nel seguente modo

M
  xi     i
4

C i 1
3
4

e vale zero per una distribuzione gaussiana. Una distribuzione con Curtosi positiva vuol dire che ha
una distribuzione più appuntita e concentrata intorno al valor medio rispetto ad una gaussiana di
pari valor medio e varianza; si dice anche in questo caso che la distribuzione presenta un eccesso
positivo rispetto alla gaussiana. Nel caso opposto la distribuzione apparirà più appiattita e dispersa
in corrispondenza del valor medio rispetto ad una gaussiana.

Vediamo come la considerazione di questi semplici elementi descrittivi di una distribuzione possa
permettere di orientarci tra varie strategie di intervento. Consideriamo un tipico esempio in cui
un’azienda debba decidere tra diversi tipi di investimento nei riguardi della produzione e vendita di
un certo prodotto. Nella seguente tabella si riportano, per ognuna delle cinque strategie, le
previsioni per gli utili annui xi ( in euro ) e la distribuzione delle frequenze relative  i 
10

1 2 3 4 5
X1  i 1 X2  i 2 X3  i 3 X4  i 4 X5  i 5
0 0.8 2000 0.1 0 0.3 4000 1 1000 0.2
20000 0.2 3000 0.3 3000 0.4 2000 0.7
4000 0.4 5000 0.2 8000 0.1
5000 0.2 7000 0.1
1 1 1 1 1

Dalla semplice ispezione dei dati non riusciamo facilmente a decidere quale strategia sia
preferibile alle altre. Una buona politica è quella di scegliere l’investimento che mediamente
comporti i maggiori guadagni. Se calcoliamo il valore medio dei dati presenti in ciascuna colonna
della tabella, si ottengono i seguenti guadagni medi annui

Strategia 1  X  4000
1

Strategia 2  X  3700
2

Strategia 3  X  2900
3

Strategia 4  X  4000
4

Strategia 5  X  2400
5

Si vede che le strategie migliori dal punto di vista dei guadagni medi annui previsti sono la
prima e la quarta, ma quale scegliere tra le due? A questo punto dobbiamo valutare la variabilità dei
dati relativi alle due politiche di investimento. Nel caso della strategia n° 4 la variabilità è nulla:
quindi in questo caso si guadagna mediamente 4000 euro senza alcun rischio. Per la strategia n° 1 si
ottiene  X1  8000 , pari al doppio del valor medio; questo indica una estrema variabilità che rende

questa strategia molto rischiosa: nel 20% dei casi potremmo guadagnare molto, 20000 euro, ma
nell’80% dei casi i guadagni attesi potrebbero essere nulli. Chi ama rischiare sceglierà la strategia
n°1, mentre chi vuole assicurarsi sceglierà la strategia n° 4.

Questo semplice esempio mostra come i parametri della distribuzione campionaria dei dati,
determinino una rappresentazione concisa dell’informazione contenuta in essi, ed utile alla
definizione di opportune alternative di decisione nei riguardi di un dato problema.
In molti casi pratici tuttavia l’uso dell’istogramma non è molto agevole e risulta più utile poter
sostituire alla distribuzione empirica un’opportuna distribuzione analitica ad essa equivalente.
Riportiamo quindi di seguito le distribuzioni più utilizzate e le loro proprietà!
11

Nella introduzione della distribuzione campionaria dei dati abbiamo visto come per una v.a. discreta
con un numero finito N di possibili valori x1 ,, xN , la distribuzione è rappresentata da N valori

(masse concentrate) p1 ,, pN

PX ( x)

pk

p1 p2 pN

X
x2 xk xN

N
Naturalmente gli N valori pk devono essere tali che la massa totale valga 1, cioè p
k 1
k
 1.

Nel caso di v.a. continua la legge di distribuzione è data da una funzione p X ( x) che
chiameremo funzione di densità di probabilità . Tale denominazione deriva dal fatto che per il

generico valore ammissibile x essa fornisce la probabilità dell’evento E  { X  ( x, x  dx)} di

lunghezza infinitesima dx intorno al punto considerato

PX ( E )  p X ( x)dx

Considerato poi un qualunque altro evento A rappresentato ad esempio da un intervallo


(a, b) di lunghezza finita, la sua probabilità si ottiene “sommando” tutti i termini infinitesimi del
tipo precedente relativi ai punti che compongono tale intervallo

PX ( A)   p X ( x)dx
a

Da un punto di vista geometrico il calcolo precedente corrisponde a calcolare l’area campeggiata in


figura contenuta tra l’intervallo ( a, b) ed il tratto della curva p X ( x) da esso individuato!
12

p X ( x)

a b X
x x  dx

Come più volte precisato, non è tanto importante poter calcolare la probabilità di un qualsiasi
evento legato ad una v.a. quanto caratterizzare la legge di distribuzione con un numero limitato di
parametri che ne descrivano il carattere globale. Questi parametri sono dati dai momenti della
distribuzione, e sono una misura delle seguenti caratteristiche.

1. Valor medio. E’ il momento del primo ordine e si calcola nel seguente modo

N
 X  E ( X )   x p X ( x) dx,  X   xk pk
 k 1

nel caso continuo e nel caso discreto. Fornisce il baricentro della distribuzione, ovvero quel
valore compreso in  rispetto al quale si ripartiscono in modo equilibrato i valori assunti
dalla X .

2. Varianza. E’ il momento centrato del secondo ordine: ovvero detta X  X  E ( X ) la


v.a. centrata, ovvero lo scarto della v.a. rispetto al suo valor medio, la varianza è data da

N
 X2  E ( X )   ( x   X ) 2 p X ( x)dx,  X2   ( xk   X ) 2 pk
2

 k 1
13

In altre parole la varianza è lo scarto quadratico medio rispetto a  X ed è una misura della
dispersione dei valori della X : una varianza grande indica che possiamo trovare con buona
probabilità valori della X lontani dal valor medio, mentre una bassa varianza vuol dire che i

pX(x) pX(x)
0.3 0.3
X = 2  X = 1.3
0.25 0.25

0.2 0.2

0.15 0.15

0.1 0.1

0.05 0.05

X X
-10 -5 0 5 10 -10 -5 0 5 10

valori della v.a. sono addensati intorno al valor medio e valori distanti da esso occorrono con
bassa probabilità. Dalle figure vediamo che la prima distribuzione è molto più dispersa
intorno al valor medio della seconda distribuzione; la prima ha certamente una varianza
maggiore della seconda.
Tuttavia osserviamo che parlare di entità della dispersione in assoluto non ha molto senso;
infatti occorre rapportare il valore della varianza all’entità del valor medio: per esempio se
considerassimo due distribuzioni con stessa varianza pari 10, ma una con valor medio pari a
20 e l’altra con valor medio pari 1000 vedremmo che l’entità dello scarto rispetto al valor
medio sarebbe nel primo caso del 50%, nel secondo caso del 1%. Si è soliti quindi introdurre
un fattore di forma della curva della distribuzione che valuta l’entità della varianza rispetto
al valor medio

 X2  X
cv X   , X  0
X X

che viene detto coefficiente di variazione della v.a. X ; in esso compare la radice quadrata
della varianza per poter confrontare grandezze omogenee, e prende il nome di deviazione
standard. Il cv X in definitiva fornisce lo scarto medio dei valori della X rispetto alla media
in percentuale del valore della media stessa: un valore del 1% indica una distribuzione molto
14

concentrata intorno al valor medio, mentre un valore del 50% indica che i valori di X
possono essere anche abbastanza lontani da X .

3. Skewness (simmetria). Un altro elemento importante del carattere di una distribuzione è


costituito dal fatto che i valori della v.a. X si distribuiscano in modo simmetrico rispetto
alla media. Questo comporta che si debbano ritenere equiprobabili sia scarti positivi che
scarti negativi rispetto al valor medio. In caso contrario significa che preferibilmente i valori
della v.a. saranno a destra o a sinistra della media. Il grado di simmetria si misura
considerando il valor medio centrato del terzo ordine

N
E ( X )   ( x   X )3 p X ( x)dx, E ( X )   ( xk   X )3 pk
3 3

 k 1

ed è dato dal seguente parametro

3
3
E( X )
d
X

che prende appunto il nome di skewness. Le distribuzioni simmetriche hanno skewness


nulla; un valore positivo di d indica che i valori della X si distribuiscono principalmente a
destra della media mX , cioè sono più frequenti scarti positivi rispetto a  X ; al contrario se
d è negativa significa che sono più frequenti scarti negativi rispetto a  X

0.12 0.12
pX(x) pX(x)
0.1 d>0 0.1 d<0

0.08 0.08

0.06 0.06

0.04 0.04

0.02 0.02

0 X 0 X
0 X 10 20 30 0 10 20 X 30
15

4. Tightness (Curtosi). Questo parametro misura quanto una distribuzione si discosti da una
gaussiana; in particolare dice se le code della distribuzione vadano zero più o meno
rapidamente di quelle di una gaussiana. Si deve considerare il momento centrato del quarto
ordine

N
E ( X )   ( x   X ) 4 p X ( x)dx, E ( X )   ( xk   X ) 4 pk
4 4

 k 1

da cui

leptocurtica
4
E( X ) normale
C 3
 4
X platicurtica

Per una gaussiana C vale 0; se una distribuzione ha C  0 si dice ipergaussiana


(leptocurtica) ed intorno alla media è più appuntita di una gaussiana ed ha code più alte, cioè
che vanno meno rapidamente a zero di quelle di una gaussiana ; viceversa essa si dice
ipogaussiana (platicurtica) e risulta di andamento più dolce intorno alla media, ma con code
che vanno rapidamente a zero.

5. Percentili. Si è detto che nota la distribuzione di una v.a. X è possibile calcolare la


probabilità di un qualunque evento legato ad essa. Tuttavia interessano in pratica solo alcuni
tipi di eventi, che vengono utilizzati nei test di ipotesi. In particolare si è interessati a eventi
del tipo

 X  mx 
   
 X 
con probabilità

 X  mx 
P      %
 X 
16

La precedente relazione va utilizzata specificando il valore  % della probabilità e


calcolando il valore dell’ascissa  per cui l’evento considerato ha probabilità appunto  % .
Si noti che il  viene calcolato sempre con riferimento alla v.a. standardizzata

X  mX
X

Tali ascisse vengono dette percentili della distribuzione in quanto sono i valori della X per
cui l’evento del tipo considerato ha un assegnato  % di probabilità! Questi vengono forniti
in tabelle disponibili su tutti i testi di statistica per le distribuzioni normalmente usate nei test
statistici, come la gaussiana, la  2 , la t -Student e la F -Fisher.

Prima di passare in rassegna le distribuzioni di più largo uso, illustriamo un altro metodo per
rappresentare in maniera concisa le proprietà statistiche di un insieme di dati .

Box Plot. In tale rappresentazione vengono riportati: la mediana, i percentili  0.25 e  0.75 (si

chiamano anche quartili per via che corrispondono a valori di probabilità multipli di 0.25) i valori
massimo e minimo dei dati, eventuali outliers.
17

Se la mediana non è equidistante dal primo e terzo quartile la distribuzione non è simmetrica.
Il Box Plot permette un rapido confronto tra le proprietà statistiche principali di più insiemi di dati
che possano riguardare uno stesso fenomeno.

La distribuzione gaussiana.

Tale distribuzione assume valori in ( , ) ed è completamente caratterizzata dal valor

medio m e dalla varianza  ; viene detta anche distribuzione normale ed indicata con il simbolo
2

N (m, )

1  ( x  m) 2 
N (m, )  exp  
2   2 2 

E’ una distribuzione simmetrica (  3  0 ); in particolare tutti i momenti centrati dispari sono nulli,
mentre per quelli pari si ha

E ( X )  1  3  5  (2k  1)  ( 2 ) k , k  1,2,3,
2k

4
da cui si vede subito che E[ X ]  3.
18

I percentili vengono tabulati in riferimento alla v.a. standardizzata N (0,1)


19

La distribuzione  2 .

Consideriamo n v.a. i gaussiane standard N (0,1) indipendenti; la v.a.  2 è definita nel seguente
modo
n
 2   i2
i 1

Il parametro n definisce il numero dei gradi di libertà della v.a., che assume valori in (0, ) . E’
generalmente una distribuzione non simmetrica, che tende a diventare simmetrica all’aumentare di
n . Essa ha andamento monotono decrescente per n  2 , mentre per n  2 è unimodale con il
massimo di ascissa ( n  2)

1
p ( y )  y n / 21e  y / 2 , y0
2 (n / 2)
2
n/2

dove () è la funzione speciale gamma-euleriana. Essa possiede i momenti di qualunque ordine

E ( y k )  n(n  2)    (n  2k  2)

per cui il valor medio è m  n e la varianza  2  2n


20

I percentili vengono tabulati per numero crescente di gradi di libertà e si riferiscono ad eventi del
tipo (    )
2

La distribuzione di Student.

Consideriamo n  1 v.a. gaussiane indipendenti x, 1 ,  2 , n tutte N (0, ) e costruiamo la


seguente v.a

x
t
1 n 2
 i
n i 1

che prende il nome di distribuzione t  Student a n gradi di libertà ed ha la seguente densità di


probabilità
21

 n 1
  2  ( n 1) / 2
1  2  t 
pT (t )  1  n  , t0
n   n   
 
 2

E’ importante notare che la distribuzione è indipendente dalla varianza  delle componenti. Essa
2

ha valor medio nullo ed è simmetrica, quindi con tutti i momenti dispari nulli, con i momenti pari
(per n  2 ) dati da

1  3    (2k  1)n k
E (t ) 
2k

(n  2)(n  4) (n  2k )

per cui la varianza vale   n /(n  2)


2
22

Al solito i percentili vengono tabulati per numero crescente di gradi di libertà e si riferiscono ad
eventi del tipo ( t   ) .

La distribuzione di Fisher.

Consideriamo m  n v.a. gaussiane indipendenti 1 ,, m ,1 ,,n tutte N (0, ) . La v.a.

1 m 2
m
 i
F ni 1
1

n j 1
 2j

ha distribuzione che prende il nome di distribuzione di Fisher, che risulta indipendente dalla
varianza delle componenti. Assume valori in (0, ) con valor medio e varianza dati da
23

n
E(F )  , n2
n2

2n 2 (n  m  2)
 
2
, n4
m(n  2) 2 (n  4)
F
24

I percentili vengono tabulati per diversi valori di m ed n .


25

Il teorema fondamentale della convergenza stocastica

Questo teorema è anche noto con il nome di “teorema del limite centrale”. Sia  X k  una

successione di v.a. indipendenti con

E  X k   k , E  X k    k2
2
 
e si consideri la seguente v.a.

n n n
Sn   X k con  S    k ,  S2    k2
n n
k 1 k 1 k 1

Se valgono le seguenti ipotesi

 lim  S2n  
n 

 E  X k   C ,   2

allora la distribuzione della v.a. standardizzata ( S n   Sn ) /  Sn per n   tende ad una gaussiana

standard N(0,1).

Il risultato di questo teorema è di notevole interesse in quanto stabilisce che, sotto le due
ipotesi fatte, la somma di un numero elevato di v.a. indipendenti tende a distribuirsi come una
gaussiana, indipendentemente dalla distribuzione delle singole componenti. Le due ipotesi in pratica
stabiliscono che la somma deve essere determinata da variabili indipendenti (prima ipotesi) nessuna
predominante rispetto alle altre (seconda ipotesi). In particolare la seconda ipotesi è verificata se le
v.a. componenti hanno tutte la stessa distribuzione.
Questo teorema assegna una importanza centrale della distribuzione gaussiana nell’insieme
delle leggi di distribuzione della variabili aleatorie e spiega il largo impiego della distribuzione
gaussiana come modello statistico nella maggior parte dei processi considerati nell’ambito
ingegneristico!
26

Test statistici di ipotesi


I test statistici consistono in procedure per validare ipotesi di modello riguardanti le
caratteristiche statistiche di dati sperimentali ottenuti come risultati di un dato fenomeno aleatorio.
Un esempio chiarirà meglio il senso del problema. Sia X una variabile aleatoria che descriva i
valori di un certo attributo di un prodotto o di un servizio, ed abbia distribuzione gaussiana con
varianza nota  2 e valor medio m incognito. Tutto quello che si sa a proposito del valor medio è
che potrebbe avere o un valore m 1 oppure un valore m 2 . Un caso come questo si può presentare
ad esempio se si valuta la risposta di un test per un tipo di virus influenzale in una popolazione: la
risposta dei soggetti sani e dei soggetti infetti avrà grosso modo la stessa variabilità, ma le risposte
dei soggetti infetti devono localizzarsi intorno ad un valore medio significativamente differente dal
valor medio della risposta dei soggetti sani (il test è tanto più discriminante quanto più questa
differenza è accentuata). Ora andiamo noi stessi a fare l'analisi per vedere se abbiamo preso
l'influenza: il risultato del test fornirà quindi un dato sperimentale x (il nostro!) della variabile
aleatoria X .

Si vuole decidere se sia più verosimile che il dato osservato derivi dalla distribuzione con
media m 1 ( e quindi saremmo sani) oppure dalla distribuzione con media m 2 (e quindi saremmo

infettati dal virus). L'ipotesi che m  m 1 viene chiamata ipotesi nulla, ed indicata con H 0 , mentre

l'ipotesi che m  m 2 viene chiamata ipotesi alternativa, ed indicata con H1 (ovviamente si poteva
27

scegliere anche nell'altro modo). Come facciamo a prendere tale decisione? Tutto dipende da dove
si localizza il dato osservato.

Nel caso in cui x  m1 potremmo senza dubbio accettare l'ipotesi H 0 e ritenerci sani perché la

distribuzione con media m 2 assegna ad x un valore di probabilità veramente trascurabile ( è ben


dentro la coda della distribuzione in rosso) rispetto a quello assegnato dalla distribuzione con media
m 1 . Ricordiamo che questo valore di probabilità è approssimato come p X ( x)   , dove  è un

piccolo intorno di x . Allo stesso modo, nel caso in cui fosse x  m 2 , con analogo ragionamento,

potremmo certamente accettare l'ipotesi H1 e ritenerci infetti.

Nel caso intermedio m 1 x  m 2 le cose sono meno ovvie; entrambi le distribuzioni

assegnano valori di probabilità confrontabili per cui dobbiamo stabilire un valore  di X


compreso tra m 1 e m 2 per cui se x   accettiamo H 0 e rifiutiamo H1 (notiamo che questa regola

comprende anche i valori x  m1 ), se x   rifiutiamo H 0 e accettiamo H1 (questa regola include

anche i valori x  m 2 ). Tuttavia, comunque venga scelto  , si può notare che le regole precedenti

comportano il rischio di prendere una decisione sbagliata. Infatti, se risulta x   si rifiuta H 0 ; ma


osservando la figura seguente si vede come la distribuzione che corrisponde all'ipotesi nulla assegna
all'evento x   una probabilità finita data dall'area della zona campeggiata in rosso. Questo
28

significa che se l'ipotesi H 0 è vera, per cui la media della distribuzione è effettivamente m 1 , c'è
comunque una probabilità non trascurabile di poter ottenere dati sperimentali di ampiezza più
grande del valore  , che quindi ci farebbero rifiutare l'ipotesi H 0 . Tale errore viene detto errore di

tipo 1: si rifiuta H 0 quando è vera.

La probabilità di commettere questo errore è data dalla probabilità dell'evento x   sotto l'ipotesi
H0
  ( x  m 1)
2
1
P( x   | H 0 )  e 2 dx
2

2 

e viene detta livello di significatività del test. L'insieme dei valori  x    per cui si rifiuta l'ipotesi
nulla prende il nome di set critico del test.

Normalmente in un test di ipotesi si fissa il livello di significatività  del test (usualmente 0.05, in
alcuni casi 0.01), quindi si determina il set critico. Dobbiamo quindi trovare il valore di  per cui
risulti
29

 ( x  m1 ) 2

1 2 2
e dx  
2 

Questo può essere ottenuto facilmente esprimendo la distanza   m1 secondo la scala tipica di

variazione di X , e cioè in unità di deviazione standard


  m 1   0
Ora quindi dobbiamo trovare il valore di  per cui risulti P ( x   | H 0 )  P( x  m 1  0 )   . Ma
questo è facilmente ottenibile dalla tabella dei percentili di una gaussiana. Infatti l'evento
x  m 1   0
equivale al seguente
x m1
 0

e quindi il valore di 0 per cui

x m1
P ( x  m 1  0 )  P(  0 )  

è proprio il percentile 2 della gaussiana (si ricordi che per le distribuzioni simmetriche

x m1
usualmente i percentili sono tabulati in corrispondenza agli eventi bilaterali  0 ).

In definitiva se la risposta x della nostra analisi per l'influenza supera il valore
m 1   2 dobbiamo concludere di essere infetti, e quindi seguiremo la profilassi per l'influenza,

sapendo che con una probabilità pari ad  siamo invece non affetti dal virus e prenderemmo delle
medicine inutilmente.
Facciamo ora un passo ulteriore: che fine ha fatto l'ipotesi alternativa? Questa in effetti entra
in gioco quando x   per cui accettiamo H 0 . Come si vede dalla figura seguente, la distribuzione

che corrisponde all'ipotesi alternativa assegna una probabilità finita all'evento x   data da

  ( x  m 2) 2
1 2 2
P ( x   | H1 )   e dx
2 

Per cui, se l'ipotesi H 0 è falsa per cui la media della distribuzione è effettivamente pari a m 2 , c'è

comunque una probabilità non nulla di osservare valori sperimentali x che siano minori di  e per i
quali effettivamente accetteremmo H 0 . Tale errore prende il nome di errore di tipo 2: si accetta

H 0 quando è falsa (attenzione non è il complementare dell'errore di tipo 1). La quantità


30

  ( x  m 2)
2
1
1  P( x   | H1 )  e 2
2
dx
2 

prende il nome di potenza del test, e corrisponde alla probabilità del set critico sotto l'ipotesi
alternativa H1 : P ( x   | H 1) .

Si può dimostrare (lemma di Neyman-Pearson) che, assegnato il livello  di significatività del test,
il set critico scelto x  m 1   2 è quello a cui corrisponde la minima probabilità di commettere
l'errore di tipo 2, e quindi la massima potenza; per cui potremmo anche dire che il set critico scelto
fornisce il test più potente di livello  .
Nell'esempio trattato abbiamo considerato il caso che m 2 fosse maggiore di m1 ; nella
situazione complementare in cui risulti m 2 minore di m1 , con ragionamenti analoghi a quelli fatti
si otterrebbe il seguente test più potente di livello 

x  m 1    m 1   2
31

Se infine l'ipotesi alternativa fosse stata H1 : m  m1 , avremmo dovuto contemplare

contemporaneamente le due situazioni precedenti. Con facili ragionamenti si arriverebbe al


seguente set critico bilaterale

x  m1       x  m1    
ottenendo ancora il set critico più potente di livello  .
32

I test di ipotesi del tipo di quello analizzato vengono detti test di ipotesi semplice: in questi la forma
della distribuzione è nota, il vettore  dei suoi parametri è incognito ma può assumere valore solo
in un punto  0 per l'ipotesi nulla e un punto  1 per l'ipotesi alternativa. Nel caso in cui, per almeno

una delle due ipotesi, il vettore dei parametri della distribuzione potesse assumere valori in un
insieme di punti si parlerebbe di test di ipotesi composta. Altri tipi di test di ipotesi semplice e
composta saranno affrontati nel seguito del corso.
In molte situazioni, l'ipotesi da verificare riguarda proprio la forma della distribuzione nel
suo insieme. Quindi, da un insieme di dati, si vuole stabilire se la variabile aleatoria cui essi si
riferiscono abbia o meno una distribuzione p X ( x) assegnata. Nel caso che la forma ipotizzata della

distribuzione sia gaussiana N (m,  2 ) , esiste un semplice metodo grafico per testare questa ipotesi,

il Q-Q Plot (Quantile-Quantile Plot). Il grafico riporta in ascisse i quantili della N (m,  2 ) (
usualmente ad intervalli di 0.1 ) ed in ordinate gli stessi quantili ottenuti dalla distribuzione
campionaria dei dati.

Quanto più i quantili sono uguali tanto più i dati confermano l'ipotesi di gaussianità. In questo caso
il Q-Q plot si presenta come un insieme di punti abbastanza allineati lungo la bisettrice (vedi
figura). Nel caso in cui i punti non fossero adeguatamente allineati lungo la bisettrice si dovrebbe

rifiutare l'ipotesi che la loro distribuzione sia N (m,  2 ) . E' un metodo diciamo abbastanza euristico
in quanto si basa su un giudizio soggettivo, ma è di rapida applicazione e di immediata
interpretazione. Il Q-Q plot è presente in un qualsiasi applicativo, come ad es. Matlab.
33

Test  2 di Pearson.
In questo test l'ipotesi nulla H 0 consiste nello specificare la distribuzione p X ( x ) di una

variabile aleatoria X . Dividiamo l'insieme ammissibile dei valori della distribuzione allo studio in
r sottointervalli S1 ,, Sr disgiunti, non necessariamente tutti uguali. Questi sono eventi elementari
di cui si possono definire le probabilità secondo l'ipotesi H 0

p j   p X ( x)dx, j  1,, r
Sj

r
risultando peraltro che p
j 1
j
 1 . In congruenza con la decomposizione dell'insieme dei possibili

risultati effettuata, dividiamo ora il campione osservato in gruppi di dati ottenuti contando per ogni
sottointervallo S j il numero n j di risultati fra gli N possibili che appartengono ad esso. Possiamo

a questo punto costruire un istogramma della distribuzione campionaria

p X ( x) j

S1 Sj Sr X
riportando in corrispondenza degli S j i valori di frequenza realtiva  j  n j / N , che ovviamente
r
verificano 
j 1
j
 1 . Da un punto di vista intuitivo se l'ipotesi H 0 è vera, per N abbastanza

grande le frequenze relative dovrebbero non discostarsi molto dai valori di probabilità p j , calcolati

con la distribuzione ipotizzata.


Una misura della deviazione della distribuzione campionaria (istogramma) dalla
distribuzione ipotizzata può essere la seguente
34

N  j  p j  n  Np j 
r 2 r 2

D  
2 j

j 1 pj j 1 Np j

dove vengono considerati gli scarti al quadrato tra i valori ipotizzati di probabilità e quelli
determinati dai dati sperimentali.
Il risultato notevole ottenuto da Pearson consiste nell'aver dimostrato che al crescere di N ,
2
la distribuzione di D tende ad una distribuzione limite che è indipendente da quella ipotizzata . In
effetti si dimostra che tale distribuzione limite corrisponde ad una  2 con r  1 gradi di libertà. Si
noti che questo non vuol dire che la v.a. diventi una  2 (in particolare non è vero che risulti essere
la somma dei quadrati di gaussiane standard indipendenti) ma solo che la probabilità degli eventi
2
legati alla D può essere valutata mediante la distribuzione limite, con approssimazione tanto
migliore quando maggiore è N .
A questo punto si può determinare quel valore percentile   a cui corrisponde una

probabilità  % di ottenere una deviazione D   


2
35

(area della coda della distribuzione a destra di   ). Quindi se nel nostro esperimento, a fronte degli

N dati prelevati, con N sufficientemente grande, dovessimo ottenere un valore D 2 minore del
  prescelto, dovremmo ritenere la distribuzione campionaria consistente con l'ipotesi , con un

livello di significatività pari a  % ; un valore superiore a sarebbe considerato un valore di


deviazione troppo grande, tale da ritenere che l'evidenza sperimentale non supporti l'ipotesi .

Nell'applicazione pratica del test di Pearson, bisogna saper scegliere opportunamente il


numero r dei sottointervalli in cui è decomposto l'insieme ammissibile, ed il numero N che
stabilisce la dimensione del campione di dati da analizzare. Il test di Pearson si basa sul confronto
tra l'istogramma della distribuzione campionaria del campione di N dati ed il profilo della
distribuzione ipotizzata. Dipendentemente da quest'ultimo, un istogramma con un numero troppo
basso di sottointervalli darebbe luogo comunque ad una grossa deviazione indipendentemente dalla
numerosità del campione; la pratica suggerisce di scegliere un numero di sottointervalli non
inferiore a 5. Per ogni sottointervallo S j poi deve risultare Np j  10 che permette di scegliere N .

E' ovvio che dovendo ottenere una informazione molto sofisticata quale l'andamento della
distribuzione, ci si debba aspettare valori di N molto grandi.
Valori grandi di N sono anche richiesti dal fatto che il test di Pearson non è un test esatto,
l'approssimazione alla distribuzione limite è tanto migliore quanto più N è grande. Il vantaggio di
questo test è che la statistica del test non dipende dall'ipotesi da testare, e che inoltre i parametri
dell'ipotesi da testare possono anche essere stimati dai dati; in questo caso la statistica limite sarà

una  r2c dove c è pari al numero dei parametri da stimare aumentato di uno.

Test di Kolomogorov-Smirnov (K-S test)


Questo test esegue il confronto tra la distribuzione cumulativa ipotizzata e quella ottenuta dai dati.
Come è noto, i valori della prima si ottengono nel modo seguente
x
F ( x)   p X (t ) dt

per cui, se x1 , x2 , , xN sono i dati raccolti, calcoleremo N valori della distribuzione cumulativa di
probabilità ipotizzata
xi
F ( xi )   p X (t ) dt , i  1, , N

36

Per calcolare i valori corrispondenti della distribuzione cumulativa campionaria basta ordinare i dati
in valore crescente x1  x2    xN , si ottiene subito

i 1
Fc ( xi ) 
N

che corrisponde al numero dei dati che hanno valore minore di xi diviso il numero totale dei dati.
A questo punto la statistica del test è ottenuta nel modo seguente

D 2  max  F ( xi )  Fc ( xi ), Fc ( xi 1 )  F ( xi ) 
1i  N
 i 1 i 
 max  F ( xi )  ,  F ( xi ) 
1i  N  N N 

I percentili che corrispondono alla statistica del test sono forniti da opportune tabelle. Ogni tabella è
costruita rispetto ad opportune variazioni di scala della statistica; quindi bisogna fare attenzione,

quando si usa una di queste tabelle, di scalare la D 2 come previsto dalla tabella. C'è da dire che
anche questo test si trova già implementato (tabelle incluse) in tutti gli applicativi di analisi dei dati
in commercio. Il test quindi va eseguito nel solito modo, si fissa il livello di significatività  , dalle

opportune tabelle si ricava il percentile corrispondente  , l'ipotesi viene rifiutata se D 2   .

Come il test del  2 , anche il K-S test è indipendente dall'ipotesi da testare. Esso è però un test
esatto in quanto la sua statistica non è una statistica limite, per cui normalmente è richiesto un
numero N di dati moderato (qualche decina).
Vediamo i difetti. Il test si può eseguire solo per distribuzioni continue e la distribuzione deve
essere completamente specificata, cioè i suoi parametri debbono essere noti e non stimati dai dati.
Quest'ultimo in effetti rappresenta un difetto sostanziale. Inoltre il test è maggiormente sensibile ai
valori centrali della distribuzione e meno a quelli sulle code.

Test di Anderson -Darling (A-D test)


Questo test rimuove tutti i difetti del K-S test ed è una sua estensione. E' un test esatto che da più
peso ai valori della distribuzione sulle code, i parametri della distribuzione ipotizzata possono
essere stimati dai dati, va bene anche per le distribuzioni discrete. L'unico difetto è che il test
dipende dall'ipotesi da testare, per cui avremo tabelle dei percentili differenti a seconda della
distribuzione ipotizzata da testare (gaussiana, log-normale, esponenziale, Weibull, logistica, ....).
Anche qui le tabelle possono riferirsi ad opportune variazioni di scale della statistica del test.
37

Con le stesse notazioni introdotte nel K-S test, la statistica del test di Anderson-Darling è data da

N 2i  1
D2   N   ln  F ( xi )   ln 1  F ( xN 1i )  
i 1 N

dove i dati sono ovviamente ordinati per valori crescenti. Il test è affidabile anche con un numero
di dati esiguo, intorno a 20.
27

2. Statistica induttiva
Abbiamo visto come per mezzo della statistica descrittiva sia possibile ottenere una
descrizione sintetica di dati sperimentali riguardanti un determinato processo; questa è finalizzata
alla rappresentazione dell’informazione utile agli scopi fissati per la definizione di opportune
strategie di intervento. Tuttavia, riprendendo l’esempio trattato, abbiamo visto come i parametri
descrittivi venivano dedotti dalla distribuzione campionaria o empirica, ovvero il loro valore era
legato strettamente ai valori dei dati ottenuti nel particolare esperimento eseguito; ripetendo
l’esperimento, cioè prelevando un altro campione di N  100 supporti di ferro, determinando sul
nuovo campione di dati la distribuzione campionaria  i  , non necessariamente rispetto agli stessi
sottoinsiemi Ei  , ricalcolando i parametri statistici  ,  2 , d , c , otterremmo dei valori diversi da
quelli relativi al primo insieme di dati! Questa variabilità dipende in primo luogo dalla numerosità
del campione analizzato e poi dalla sua significatività, ovvero da quanto debba ritenersi
rappresentativo di tutta la produzione. E’ facile comprendere come un campione molto numeroso
consenta di definire un istogramma più preciso della distribuzione effettiva e quindi un calcolo più
attendibile delle varie medie; tuttavia se la nostra fabbrica di supporti in ferro si servisse da due
diversi fornitori di materie prime, ed il nostro campione di dati, ancorché numeroso, avesse
riguardato le unità prodotte con materie prime prese solo da uno dei due fornitori, avremmo
ottenuto una parziale descrizione delle caratteristiche del processo di produzione, non considerando
le caratteristiche dei prodotti ottenuti con lo stesso processo ma con materie prime di altra
provenienza.
La statistica induttiva si propone di fornire procedure sistematiche per la verifica della
significatività di un campione di dati in termini sia di scelta della numerosità che di
rappresentatività dell’intera popolazione! Possiamo grosso modo distinguere i seguenti argomenti

 Stima puntuale: consiste nel determinare dai dati il valore di un parametro e nel valutare
l’attendibilità della stima
 Stima di intervallo: si vuole determinare un intervallo di valori entro il quale possa cadere
con buona probabilità il valore di un parametro incognito
 Criteri di verifica delle ipotesi: scelta sistematica tra possibili valori di un parametro quello
più verosimile sulla base dell’evidenza sperimentale
 Analisi della varianza: per verificare ipotesi complesse
 Programmazione degli esperimenti: tecniche di campionamento e di scelta della
numerosità del campione.

Stima puntuale del valore medio e della varianza

Consideriamo un insieme  di N unità e sia X una v.a. che rappresenta i valori di una
determinata qualità degli elementi dell’insieme (il carico di rottura dei supporti in ferro, il
coefficiente  del transistor, il rendimento annuo di un prodotto finanziario, la percentuale di
sostanze inquinanti in un campione di acqua, ecc.), che quindi assume i valori  xi , i  1, , N  , su
 . Come è noto il valor medio e la varianza di X sono definiti nel seguente modo
28

1 N 1 N
 2    xi   
2
 xi ,
N i 1 N i 1
ma, non potendo analizzare tutto l’insieme  , risultano di valore incognito.
Estraiamo ora dall’insieme  un campione casuale di n  N elementi e valutiamo la media
campionaria su questo sottoinsieme di dati

1 n
ˆ n   xj
n j 1

Ci chiediamo, quanto il valore ̂ n sia vicino o meno al valore medio di popolazione  ; in altre
parole possiamo dire che ̂ n è una buona stima di  ? Quali caratteristiche di ̂ n dovremmo
osservare per validare o meno questa affermazione?
Come al solito dovremo considerare le cose da un punto di vista statistico. Infatti la
grandezza ̂ n è di natura aleatoria in quanto scegliendo a caso da  un qualunque altro campione
di dimensione n , otterremmo un valore ̂ n differente dal precedente, e così via per ogni scelta del
campione. La stima sarà buona se la distribuzione dei valori di ̂ n si localizza sul valore vero  e
se i valori sono tutti addensati intorno a  . In altre parole stiamo richiedendo che

E  ˆ n    ,  2ˆ n  E  ˆ n     piccola


2
 

cioè che la media E  ˆ n  della stima di valor medio coincida con il valore vero  , e che la
varianza della stima sia piccola. Calcoliamo quindi queste grandezze

1 n  1 n 1
E  ˆ n   E   x j    E  x j   n  
 n j 1  n j 1 n

dove nel penultimo passaggio si è considerato che il generico valore x j deriva da una popolazione
con valore medio  . Il primo requisito è rispettato; in questi casi si dice che la stima non è distorta,
vale a dire che mediamente non si commettono errori nel determinare il valore della grandezza
incognita  . Se questo non fosse stato il caso, i.e. E  ˆ n    , avrebbe significato che il nostro
metodo di stima sarebbe stato affetto da un errore sistematico (uno strumento starato).
Il calcolo della varianza è un po’ più elaborato perché dipende da come è estratto il
campione; se gli elementi del campione sono scelti in maniera indipendente uno dall’altro si ha

 1 n 
2

  E  ˆ n      E   x j    
2 2
ˆ n    n j 1  
29

 1 n  
2
1 n  
2
1 n n 
 2
ˆ n  E   x j      E  2   ( x j   )    E  2    xi     x j    
 n j 1    n  j 1    n i 1 j 1 

 
2
 2  E  x j       E  xi     x j      2 n 
1 n  2
 n n
 1
  2
n  j 1   i 1 j 1  n n
 j i 

dove, per l’indipendenza degli elementi, si ha che la covarianza

  E  xi     x j     E  xi    E  x j     0


i j

Se invece gli elementi del campione non sono indipendenti si ha

 1 n  
2
1 n  
2
1 n n 
 2
ˆ n  E   x j      E  2   ( x j   )    E  2    xi     x j    
 n j 1    n  j 1    n i 1 j 1 

 
 2 2 n
 2  E  x j       E  xi     x j      
1 n  2
 n n
 
n  j 1   i 1 j 1  n n 2  2 
 j i 

Ora se scegliessimo n  N avremmo ˆ n   con varianza nulla, per cui

2 2 N  2 N 1 2
0         
N N 2  2  N N N 1

da cui

2n 1  2  n 1  2
 2
   1  
n  N  1  N  1  n
ˆ n
n

In entrambi i casi si vede come aumentando n si ottenga una diminuzione di  2ˆ n e quindi un
aumento della precisione della stima!
Tuttavia, se dal problema ci fosse richiesto di determinare il minimo valore di n per
assicurare che la precisione della stima non scenda sotto un minimo assegnato, per cui la varianza
30

della stima  2ˆ n non deve superare un limite assegnato, ci troveremmo nella necessità di dover
stimare anche la varianza  2 della popolazione. Analogamente a quanto è stato fatto per il valor
medio, potremmo pensare di stimare la varianza campionaria con la seguente espressione

  x j  ˆ n 
1 n 2
sn2 
n j 1

ma in questo caso si può vedere subito che tale stima sarebbe distorta, cioè presenterebbe un errore
sistematico; infatti, nel caso in cui gli elementi del campione siano scelti in modo indipendente, si
ottiene

1 n 2 1 n 2 1 n 2
E[ sn2 ]  E    x j  ˆ n    E    x j  ˆ n        E    ( x j   )  ( ˆ n   )  
 n j 1   n j 1  n  j 1 

1 n 
E    x j       ˆ n     2   x j     ˆ n    
2 n 2 n

n  j 1 j 1 j 1 

1 2  1 2  n 1 2
  n 2  n 2ˆ n  n 2    n 2  n  2 2    2
n n  n n  n

mentre nel caso che gli elementi non siano scelti in modo indipendente, omettendo i calcoli, si
ottiene

n 1 N
E[ sn2 ]  2 2
n N 1

Ma la situazione non è così drammatica, infatti basta modificare l’espressione della stima in
modo opportuno per togliere l’errore sistematico. Nel caso di campione indipendente si scelga come
stima campionaria della varianza la seguente espressione

  x j  ˆ n  ,
n 2 1 n 2
ˆ n2,1  sn  E ˆ n2,1    2
n 1 n  1 j 1

mentre nel secondo caso si scelga

n N  1 2 N  1 1 n 2
ˆ n2,2 
n 1 N
sn   
N  n  1 j 1
 x j  
ˆ n  ,

E ˆ n2,2    2
31

In entrambi i casi siamo in grado di ottenere quindi una stima centrata della varianza.
Analizziamo ora la varianza della stima. Per il caso di campione indipendente si ha (omettiamo la
dimostrazione)

 
 4  E  X     n  3 
 4

 E ˆ n,1  E[ˆ n,1 ] 
  2
 2 2 2

ˆ n2,1   n  4 n  1 
 

Ora sappiamo che un valore di riferimento per il rapporto E[( X   )4 ]/  4 è 3 ( tale valore occorre
se la distribuzione della v.a. X è gaussiana); per tale valore si ha

2 4
 2
ˆ n2,1

n 1

per cui il coefficiente di variazione della nostra distribuzione campionaria vale


E  ˆ n2,1  E[ˆ n2,1 ]   2
2

2

  n 1  2

E[ˆ n2,1 ] 2 n 1

Per una distribuzione che si vuole piuttosto addensata intorno al valor medio si può
richiedere che il coefficiente di variazione non superi il 20%; per cui

2
 0.2  n  51
n 1

Se poi la Curtosi è compresa tra 0 e 2, come nei casi di asimmetria, si ricava n  100 . Se
invece la Curtosi è compresa tra 2 e 20, come nei casi di distribuzione con probabilità non
trascurabile di presentare valori eccezionali (code grasse), si ottiene n  500 .
Se la Curtosi è inferiore a 0 occorre sempre che n  50 .
Le stesse conclusioni si ottengono nel caso di non indipendenza del campione.

Riassumendo possiamo dire che, nel caso di campione indipendente, la stima centrata
ˆ 2ˆ n della varianza  2ˆ n di ˆ n è data da

2
 2
ˆ n 
n
ˆ n2,1
1 n s2
ˆ 2ˆ n   sn2  n
n n n 1 n 1
mentre nel caso di campione con elementi non indipendenti si ha
32

2 N n
 2
ˆ n 
n N 1
ˆ n2,2 N  n
1 n N 1 N  n sn2  n
ˆ 2ˆ n    sn2   1  
n N  1 n  n  1 N  N  1 n  1 N 

Vediamo un semplice esempio. Si è ricevuto un lotto di N  1000 barrette di ferro


qualitativamente omogenee, ovvero ottenute con un ciclo di produzione in cui tutti i fattori
caratteristici sono stati mantenuti costanti (fornitore delle materie prime, stesse macchine operatrici
utilizzate, stessa squadra di operai). Da un campione di n  50 unità si è ricavato che le barrette
hanno un diametro medio di ˆ n  3.5mm con una varianza campionaria sn2  0.09mm2 . Si stima
quindi il valore medio  dei diametri su tutto il lotto con il valore ˆ n  3.5mm , che sappiamo
essere una stima non affetta da errore sistematico. Per valutare la variabilità della stima supponiamo
di avere preso un campione con gli elementi scelti tutti indipendentemente uno dall’altro
(chiariremo poi questo concetto), allora la stima centrata della varianza  2ˆ n è data da

sn2
ˆ 2ˆ n   0.00183
n 1
mentre nel caso che gli elementi del campione non siano scelti tutti indipendentemente uno
dall’altro si ha

sn2  n
ˆ 2ˆ n   1    0.00174
n  1 N

Nell’ipotesi che la distribuzione dei valori del diametro delle barrette possa ritenersi
gaussiana nel lotto, dato che n  50 , la stima di ˆ n è da ritenersi accurata, nel senso che il
coefficiente di variazione della stima della sua varianza ˆ ˆ è non superiore al 20%.
2
n

Se volessimo rendere la stima ˆ n più accurata dovremmo aumentare la numerosità del


campione; infatti, volendo ridurre la varianza ˆ ˆ a 0.0004 otterremmo
2
n

0.09 0.09
0.0004   n  1  226
n 1 0.0004

nel caso di campionamento indipendente e

0.09  n  1000(0.09  0.0004)


0.0004  1    n  184
n  1  1000  0.0004*1000  0.09
33

nell’altro caso.

Il prelievo del campione fatto in modo che tutti gli elementi siano scelti in modo
indipendente uno dall’altro significa in sostanza che il fatto di selezionare un elemento dalla
popolazione per metterlo nel campione, non deve alterare la composizione statistica della
popolazione. Questo può essere ottenuto sostanzialmente in due modi: se la dimensione della
popolazione non è molto grande rispetto a quella del campione da prelevare si effettua un
campionamento con reinserzione; nel caso contrario se N  n si può ritenere che il prelievo del
campione alteri la composizione statistica della popolazione in modo trascurabile. Naturalmente la
reinserzione può essere praticata se l’analisi del campione non modifica in alcun modo i suoi
elementi: nell’esempio della misura del diametro delle barrette questo si verifica, ma nell’esempio
della misura del carico di rottura, l’elemento analizzato verrebbe distrutto e quindi diventerebbe non
reinseribile! In questo caso il campionamento sarebbe necessariamente senza reinserzione, e la
indipendenza del campione dipenderebbe solo, come detto, dal confronto tra la numerosità della
popolazione e quella del campione stesso!

Riassumiamo con una tabella sinottica i risultati della stima puntuale di valore medio e
varianza di una popolazione ottenuta da un campione dei suoi elementi

Valori di
Stime campionarie
popolazione
Campione indipendente Campione non indipendente

1 n 1 n
Valor medio  ˆ n   xj ˆ n   xj
n j 1 n j 1

n N  1 2 N  1 1 n 2
n 2 1 n
  x j  ˆ n  ˆ n ,2   
2
Varianza  2 ˆ n2,1  sn  2
sn    x  
ˆ 
n 1 n  1 j 1 n 1 N N  n  1 j 1
j n

Varianza  ˆ 2
ˆ 2
1 n s2 ˆ N  n sn  n 
2 2
n
ˆ 2ˆ  n,1  sn2  n ˆ 2ˆ  n,2  1  
della stima ˆ n n
n n n 1 n 1 n
n N  1 n  1 N 
4  E  X     
4
   n 3
sn    x j  mn  ; 
1 n 2
2
 ˆ 2 
2
 (varianza di ˆ n ,1 , valore di popolazione)
2

n j 1 n ,1 n   4
n  1 
 
34

Stima di intervallo e controllo statistico della qualità

Quindi abbiamo visto come la media aritmetica ˆ n costituisca una buona stima del valore
medio  di una v.a. X con varianza  2 , di cui si sono considerati n determinazioni  xi in1
indipendenti; si è supposto quindi che il campione di dati sperimentali sia stato prelevato da una
popolazione molto grande, ovvero sia stato prelevato con reinserzione da una popolazione finita. In
tale caso si ha

E[ ˆ n ]   , E[( ˆ n   )2 ]  ˆ n2,1 / n .

Come si vede, la stima di valor medio è una stima accurata in quanto ha distorsione nulla, e la sua
precisione aumenta all'aumentare della dimensione n del campione casuale analizzato, in quanto la
varianza della stima è inversamente proporzionale a n .
In definitiva, il parametro incognito  viene valutato mediante una sua stima puntuale ˆ n che ha
una variabilità misurata da ˆ n2,1 / n . Questo significa che se si analizzassero più campioni di
dimensione n , si otterrebbero tanti valori differenti della stima puntuale ˆ n , ma che si localizzano
intorno al valore incognito  , potendo peraltro presentare errori ˆ n   positivi e negativi che
hanno mediamente un range dell'ordine di ˆ n,1 / n .
Da quanto detto la stima puntuale del valor medio per essere apprezzabile deve essere
accompagnata anche dal valore della sua dispersione, cioè dalla misura della sua variabilità.
Ci si chiede quindi se non sia possibile rappresentare la stima con un unico elemento che faccia
comparire in modo esplicito la variabilità della stima. In altre parole appare di più facile
interpretazione poter fornire un intervallo I,n di possibili valori tale che si possa ritenere con una
certa confidenza che il valore incognito  appartenga a tale intervallo

 
P   I ,n  1  %

In questo caso non si fornirebbe un unico valore ˆ n per  , attendibile a meno di un errore medio
pari a ˆ n,1 / n , ma un intervallo I,n di valori attendibili per  con una confidenza dell' 1  % .
Vediamo come fare.
Consideriamo la v.a. standardizzata

ˆ n  
n 
ˆ n,1 / n

che ha quindi valor medio nullo e varianza pari a 1. Se si conoscesse la distribuzione di tale
variabile aleatoria, potremmo risolvere il seguente problema: assegnato il valore % trovare il
valore  per cui risulti

P    n     1  %
35

Ora, dal teorema del limite centrale sappiamo che per n   la variabile standardizzata  n tende
in distribuzione ad una gaussiana standard N (0,1) . Questo implica che, se n è abbastanza grande ,
la probabilità dell'evento   n   possa essere calcolata usando la distribuzione limite


et /2
2

P    n      dt
 2 

A questo punto, scelto % , il valore di  tale che P    n     1  % è dato dal percentile


  della gaussiana, ottenibile dall'opportuna tabella dei percentili. Infatti si ricordi che il valore 
che risolve il problema precedente, risolve anche il seguente


P        P       %
che fa riferimento all'evento complementare, ed è esattamente l'evento che viene considerato sulle
tabelle dei percentili.
A questo punto sappiamo che con una confidenza del 1  % il valore  n ottenuto dai dati
sperimentali sarà compreso nel seguente intervallo

   n   
cioè

ˆ n  
   
ˆ n,1 / n

da cui con semplici passaggi si ottiene

ˆ n,1 ˆ n,1
ˆ n      ˆ n  
n n

n 2
e quindi, ricordando che ˆ n2,1  sn , si ha
n 1

sn sn
ˆ n      ˆ n  
n 1 n 1

L’ultima relazione stabilisce un intervallo di confidenza I  ,n cui apparterrà il valore


incognito della media  della popolazione con probabilità 1  % . Come si vede dalla sua
espressione, fissato  % , l’ampiezza I  ,n di tale intervallo dipende sostanzialmente dalla
numerosità del campione

sn  sn  sn
 I  ,n  ˆ n     ˆ n     2
n 1  n 1  n 1

per cui, all'aumentare della dimensione del campione analizzato, a parità di confidenza,
36

l'intervallo I  ,n diventa più stretto, dando luogo ad una valutazione più precisa dei valori attendibili
del parametro incognito  .
Ovviamente nel caso che il campione fosse stato non casuale, con ragionamenti del tutto
analoghi, avremmo ottenuto I  ,n pari a

sn n sn n
ˆ n   1    ˆ n   1
n 1 N n 1 N

di lunghezza pari a

sn n
 I  ,n  2 1
n 1 N

Nell'espressione dell'intervallo di confidenza si è potuto utilizzare il percentile  della gaussiana


standard nell'ipotesi che n fosse abbastanza grande da ritenere soddisfatto il teorema del limite
centrale, ed utilizzare quindi la distribuzione limite per calcolare la probabilità degli eventi della
variabile  n . Se la distribuzione dei dati fosse gaussiana, allora basterebbe n  50 . Se invece fosse
dissimmetrica, con una curtosi al più uguale a 2, allora dovrebbe essere n  100 . Se infine si avesse
un'alta probabilità di avere valori estremi (cioè molto lontani dalla media) , con curtosi quindi
maggiore di 2, allora dovrebbe essere n  500 .

Nel caso in cui i dati a disposizione non soddisfacessero nessuna delle condizioni
precedenti, ad esempio n  30 sempre per un campione casuale, allora si può avere la distribuzione
della v.a. standardizzata  n solo nel caso in cui si possa validare un'ipotesi di gaussianità dei dati.
In tal caso infatti la variabile standardizzata

ˆ nn  
n 
sn / n  1

ha distribuzione t-student con n  1 gradi di libertà, per cui il valore  per cui, fissato  % , si ha

P    n     1  % oppure P       %

è dato dal percentile t della distribuzione t-student con n  1 gradi di libertà (ottenibile
dall'opportuna tabella dei percentili) , ottenendo per l’intervallo di confidenza

sn sn
ˆ n  t    ˆ n  t
n 1 n 1

Vediamo un esempio. Un’officina meccanica deve stimare il carico medio di rottura di un


cospicuo lotto di pezzi. Si seleziona un campione di 100 unità e si determina mn  1115 Kg / cm2 e
37

sn  2,16 Kg / cm2 . Dalla tabella della N(0,1) si ricava che con   0.05 sia ha   1.96 , per cui
il carico di rottura medio  si trova nell’intervallo

 2.16 2.16 
1115  1.96 , 1115  1.96   1114.57, 1115.42  kg / cm
2

 100  1 100  1 

con una confidenza di 0.95. Se aumentassimo il campione analizzato a 300 unità si otterrebbe un
intervallo di confidenza dello 0.95 pari a

 2.16 2.16 
1115  1.96 , 1115  1.96   1114.8, 1115.2 kg / cm
2

 300  1 300  1 

quindi più ristretto rispetto al precedente, costituendo quindi un intervallo di valori più preciso per il
carico di rottura medio  .

La stessa officina vuole determinare il valore medio dello spessore di un lotto di lamine; tale
grandezza risulta avere distribuzione gaussiana con media  e varianza  2 incognite. Si preleva
un campione di 14 barrette e si determina  n  52.52 mm e sn  3.37 mm . Siccome n  30 ,
stavolta dobbiamo usare la distribuzione t-student per determinare l’intervallo di confidenza per lo
spessore medio  . Dalla tabella per   0.05 si ottiene t  2.160 per 13 gradi di libertà, per cui si
ha

 3.37 3.37 
52.52  2.16 , 52.52  2.16   50.5011,54.5389
 14  1 14  1 

con confidenza pari a 0.95.


38

Controllo di qualità.
L’intervallo di confidenza viene utilizzato nel controllo statistico della qualità di un processo
di produzione. In condizioni nominali le unità prodotte presentino, per quanto concerne un certo
attributo, una distribuzione gaussiana con un valor medio  ed una varianza  2 , noti perché
determinati in modo preliminare (cioè determinati con un esperimento dedicato, con un campione di
dati differente da quelli attualmente in esame) usando i metodi descritti precedetemente. Per
controllare che il processo mantenga la qualità nel tempo, vengono prelevati ad intervalli regolari
dei campioni di dimensione n e su questi si calcola la media campionaria ˆ n ; dato che la
distribuzione si suppone gaussiana, n può essere scelto anche piccolo, ad esempio 5 o 10, e la
variabile normalizzata

ˆ n  
n 
/ n

è certamente N(0,1); quindi fissando   0.05 otteniamo   1.96 per cui

  
P   ˆ n        0.95
  n 

Ciò significa che l’evento

 
  ˆ n    
n n

 
    ˆ n    
n n

occorre con probabilità del 95%. La qualità del processo di produzione è quindi da ritenersi idonea
se ˆ n si mantiene nell’intervallo      / n ,     / n 
ˆ n

   / n

   / n

tempo
39

Qualora ˆ n dovesse uscire dai limiti prefissati si dovrebbe intervenire subito per individuare le
cause che hanno determinato questo scostamento significativo della qualità della produzione dallo
standard (utensile logorato, inquinamento dei reagenti, ecc.).

Test di confronto.
In molti casi pratici si deve poter confrontare la stima di campionaria di una statistica ( media,
varianza, frequenza relativa) con valori considerati come noti, evidentemente acquisiti da indagini
precedenti. Esaminiamo ad esempio il seguente caso.
Una compagnia di televisione via cavo asserisce che il 60% degli abitanti della zona di
esercizio possiede la televisione via cavo, mentre una compagnia di televisione satellitare crede che
il precedente valore sia troppo grande, dopo aver effettuato un rilevamento per cui 81 abitazioni
avevano la televisione via cavo e 69 ne erano sprovviste. La compagnia di televisione via cavo
afferma che tale differenza è solo dovuta al caso. A quale delle due compagnie dareste ragione, con
una confidenza del 95%?
La compagnia di televisione via cavo sostiene che in media la proporzione p delle persone
nella popolazione di riferimento che hanno la tv via cavo è pari a 0.6, potendo la proporzione
effettiva variare entro certi limiti. Il valore di questa proporzione, risultante dall'esame del campione
di abitazioni effettuato dalla compagnia di tv satellitare, è di 81/(81+69)=0.54. C'è quindi uno
scostamento significativo del valore stimato della proporzione pˆ  0.54 dal valore di riferimento
ipotizzato  p  0.6 . La compagnia di tv via cavo sostiene che tale scostamento rientra nella
variabilità naturale insita nella stima campionaria di p ; per cui l'ipotesi nulla è che il valore di
riferimento della proporzione di abitazioni con tv via cavo sia del 60%

H 0 :  p  0.6
H1 :  p  0.6

Confronto tra proporzioni

Per validare o meno questa ipotesi, basta appunto misurare la variabilità della stima della
proporzione  2p e costruire un set critico con significatività del 5%
p   p  2  p
con il percentile del 10% in modo che la singola coda misuri 5%. La regola di rifiuto dell'ipotesi
nulla è unilaterale perché pˆ   p e la compagnia di tv satellitare ritiene che appunto che  p  0.6
sia troppo grande.
La misura delle proporzioni segue la distribuzione binomiale: in una popolazione in cui un
dato evento occorre con probabilità p0 , la probabilità con cui si avranno k risultati favorevoli
all'evento su un campione di N unità (caso delle prove ripetute di Bernoulli) è pari a

N N!
P ( X  k )    p0k (1  p0 ) N k  p0k (1  p0 ) N k
k ( N  k )!k !

La variabile aleatoria X data dal "n° di successi su N prove indipendenti" viene detta binomiale
ed ha valor medio e varianza pari a
40

 X  N p0 ,  X2  N p0 (1  p0 )

Tale distribuzione è simmetrica per qualunque N se p0  0.5 , mentre tende ad essere simmetrica
per qualunque p0 quanto più N è grande. Dalla distribuzione di X si ottiene subito la distribuzione
della proporzione p  X del numero di successi su N prove ripetute: essa è ancora una
N
binomiale, ma con media e varianza pari a
  2 p (1  p0 )
 p  X  p0 ,  2p  X2  0
N N N

Si dimostra inoltre che se Np0 (1  p0 ) 10 si ha

p  p p  p0
 : N  0,1
p p0 (1  p0 )
N

cioè, la variabile aleatoria standardizzata ha distribuzione limite pari alla gaussiana standard. Questo
risultato al solito è fondamentale per dedurre i percentili per gli intervalli di confidenza che
riguardano la variabile aleatoria p . Nel caso in esame infatti abbiamo

p0 (1  p0 )
 p  p0  0.6,  p   0.04, Np0 (1  p0 )  36 10
N

e il set critico cercato è pari a

pˆ   p  2  p  0.6 1.645  0.04  0.5342

per cui, dato che pˆ  0.54 , dobbiamo concludere che la compagnia di tv via cavo aveva ragione,
con un rischio del 5% di prendere la decisione sbagliata.
Nel prossimo caso le proporzioni da confrontare sono estratte da due campioni differenti.
La malattia di Lyme o Borreliosi è una infezione batterica che colpisce le articolazioni, il sistema
nervoso, gli organi interni e la pelle dei gatti. Il contagio avviene per via delle zecche. Vogliamo
valutare l'efficacia di un nuovo antibiotico X nella terapia contro la Borrelliosi, confrontandola
con quella dell' amoxicillina. A questo scopo, analizziamo i test clinici su una popolazione di gatti
affetti da Borrelliosi in cura presso alcuni ambulatori veterinari in un trimestre. I dati raccolti sono
riportati in tabella

guariti non guariti totale % guariti


X 56 14 70 80
amoxicillina 52 23 75 69.33

totale 108 37 145 74.48


41

In particolare, si noti che su un totale di 145 gatti, 70 sono stati sottoposti a trattamento con il nuovo
antibiotico X e di questi l'80% sono guariti ( 56 su 70). Per i restanti 75 gatti, trattati con
amoxicillina, si è avuta una percentuale di guarigione pari al 69.33% (52 su 75). Sembrerebbe che il
nuovo farmaco sia più efficace. Tuttavia, bisogna assicurarsi che la differenza tra le percentuali dei
guariti nei due gruppi sia significativa e non dovuta al caso.

Nel gruppo di gatti trattati con X si ha quindi una proporzione pˆ1  0.8 di soggetti guariti su un
campione di n1  70 unità, prelevato da una popolazione in cui la proporzione dei guariti è un
p (1  p1 )
valore p1 . Per quanto visto precedentemente sia ha che E[ pˆ1 ]  p1 e  2pˆ1  1 .
n1
Analogamente per il gruppo di n2  75 unità trattato con amoxicillina si osserva una proporzione di
p (1  p2 )
soggetti guariti pˆ 2  0.7 , con E[ pˆ 2 ]  p2 e  2pˆ 2  2 . Ora come statistica del test possiamo
n2
scegliere la differenza delle proporzioni p  pˆ1  pˆ 2 , che avrà valor medio pari a E  p   p1  p2 ,
e varianza ˆ 2 p   2p1   2p2 dato che i due gruppi di dati sono indipendenti. Dobbiamo quindi testare
le seguenti ipotesi

H 0 : E  p   p1  p2  0
H1 : E  p   0

L'ipotesi nulla H 0 si riferisce al caso in cui i due trattamenti sono equivalenti e la differenza tra le
proporzioni osservate è del tutto casuale. La statistica del test, se è vera H 0 è

p  E  p  p p
 
 2pˆ1   2pˆ 2  2pˆ1   2pˆ 2 1 1 
p0 (1  p0 )   
 n1 n2 

dove p0 è la proporzione totale di guariti sull'unione dei due gruppi


56  52
p0   0.7448
70  75
Se  n1  n2  p0 1  p0   10 , la statistica del test ha distribuzione gaussiana standard, per cui il set
critico del test è

p
 
1 1 
p0 (1  p0 )   
 n1 n2 

con  percentile dell'  % di N (0,1) . Nel nostro caso, volendo effettuare un test con significatività
del 5%, otterremmo
42

0.80  0.6933
1.3802  1.96
 1 1 
0.7448(1  0.7448)   
 70 75 

per cui dovremmo accettare l'ipotesi H 0 e ritenere che il nuovo farmaco X abbia avuto un effetto
non significativamente differente da quello ottenuto con l' amoxicillina. In effetti, volendo testare se
sia conveniente usare il nuovo farmaco, avremmo fatto meglio ad eseguire un test unilaterale,
impostando l'ipotesi alternativa sul fatto che ci si aspetta che il nuovo farmaco abbia una
percentuale di guariti superiore rispetto all'amoxicillina, i.e. H1 : E  p   0 .

Consideriamo ora un altro caso di studio.

Per valutare l’efficacia antirughe, elasticizzante, “ridensificante” e riparatrice per la barriera


cutanea di un trattamento cosmetico è stato eseguito uno studio1 clinico su 10 soggetti sani di sesso
femminile. Vengono riportati in tabella i dati relativi all'elasticità cutanea prima del trattamento
(tempo T0 ) e dopo quindici giorni di trattamento (tempo T15 ). Il trattamento cosmetico è stato
efficace?

Confronto tra medie, misure appaiate

Per rispondere al quesito si può ragionare così. Per ogni soggetto si


misura la stessa grandezza, l'elasticità cutanea, in due tempi
differenti. Per cui in effetti è come se si misurasse la variazione di
elasticità cutanea per ogni soggetto; di conseguenza alla tabella
precedente potremmo sostituire quella ottenuta dalle differenze dei
dati per ogni soggetto

0.0345 -0.0054 0.0244 0.0402 0.0625 0.0400 -0.0196 -0.0281 0.0006 0.0695

con media ˆ d  0.0219 e deviazione standard ˆ d  0.0336 .

Ora se il trattamento non ha avuto effetto, vuol dire che mediamente le differenze dei valori
dell'elasticità cutanea è zero; mentre si avranno effetti significativi se la media delle differenze è
significativamente differente da zero. Per cui, se la nostra ipotesi nulla corrisponde all'assenza di
effetto significativo del farmaco, possiamo scrivere
H 0 : E  ˆ d   0
H1 : E  ˆ d   0

1
http://www.biotivia.cc/attachments/down/Celle%20-%20CLINICAL%20TEST.pdf
43

in quanto per l'ipotesi alternativa dobbiamo considerare che l'effetto del cosmetico deve produrre un
aumento dell'elasticità cutanea. Possiamo quindi disporre un test unilaterale di ipotesi semplice con
un livello di significatività del 5% ; il set critico avrà quindi la seguente forma

ˆ d
ˆ d  E  ˆ d   2 ˆ ˆ d  E  ˆ d   2
n

Facciamo ora l'ipotesi di gaussianità dei dati (da verificare eventualmente con un opportuno test); in
questo modo potremo scegliere il percentile 2 come il percentile del 10% di una t-Student a 9
gradi di libertà ottenendo il seguente set critico

0.0336
ˆ d  0  1.833  0.0195
10

Dato che ˆ d  0.0219 è maggiore di 0.0195, dobbiamo rifiutare l'ipotesi nulla e ritenere, con una
confidenza del 95%, che il cosmetico abbia avuto effetto.

Nel caso esaminato, la variabilità dei dati era legata alla presenza di soggetti differenti in uno stesso
gruppo. In altre situazioni i dati variano anche per il fatto che i dati si riferiscono a gruppi differenti
di soggetti. Il caso che segue chiarisce questo aspetto. Per semplicità di notazioni, le medie
calcolate su due gruppi di n1 e n2 dati, saranno indicate con ̂1 e ̂2 anziché ˆ n1 , ˆ n 2 .

Un’azienda produce disinfettante industriale concentrato, in confezioni per le quali dichiara che è
possibile ottenere mediamente 150 litri di disinfettante con una varianza pari a 36 litri2. La
produzione avviene in due stabilimenti separati. Un primo rivenditore analizza un campione casuale
di 225 confezioni, prelevato dal primo stabilimento, e ottiene una media ̂1 di 148 litri di
disinfettante; un secondo rivenditore analizza un campione casuale di144 confezioni, prelevato
dall'altro stabilimento, e ottiene una quantità media ̂2 di disinfettante pari a 151 litri. La differenza
tra queste rilevazioni è significativa oppure è da ritenersi dovuta alla naturale variabilità del
prodotto?

Confronto tra medie, misure non appaiate, varianza nota

Come sappiamo, la stima di valor medio è centrata, per cui risulta che E[ ˆ1 ]   con varianza
2 36  2 36
 2ˆ 1    0.16 e E[ ˆ 2 ]   con varianza  2ˆ 2    0.25 . Ora possiamo scegliere
n 225 n 144
come statistica del test la differenza tra i valori medi rilevati sui due campioni indipendenti
ˆ d  ˆ 2  ˆ1 , per la quale possiamo testare le ipotesi

H 0 : E  ˆ d   0
H1 : E  ˆ d   0
44

L'ipotesi nulla corrisponde al caso in cui la differenza osservata sia da attribuire al caso, mentre
l'ipotesi alternativa corrisponde al fatto che i due stabilimenti hanno una differenza sistematica nella
produzione del disinfettante. Se è vera H 0 abbiamo che E[ ˆ d ]  0 mentre, indipendentemente da
H 0 , H1 risulta  2d   2ˆ 1   2ˆ 2  0.16  0.25  0.41 . La scelta dell'ipotesi alternativa determina un
set critico bilaterale

ˆ d  E[ ˆ d ] ˆ d
  
 d  2 1   2 2

Se possiamo validare un'ipotesi di gaussianità dei dati, possiamo scegliere  =1.96 corrispondente
al percentile del 5% di una gaussiana standard. In questo caso si otterrebbe

ˆ d 151  148 3
   4.685  1.96
 2 1   2 2 0.41 0.41

Si dovrebbe quindi accettare l'ipotesi alternativa e ritenere che ci siano cause sistematiche nel
processo di produzione dei due stabilimenti che determina una differenza significativa nella qualità
del prodotto fornito.

Il più delle volte la varianza dei dati, differentemente dal caso appena esaminato, è incognita.
Questo accade ad esempio nel problema che segue 2.

E' stato condotto uno studio clinico per la valutazione


dell’efficacia della Tulatromicina nella prevenzione delle
forme respiratorie del bovino da carne (BRD), nelle normali
condizioni d’allevamento italiane. La patologia esordisce
con sintomi generali (abbattimento e riduzione
dell’appetito) che, nell’arco di poche ore, si accompagnano
a febbre, dispnea, tosse, scolo nasale (catarrale e/o muco
purulento, vedi figura) e nei casi più gravi e senza un
adeguato intervento, evolvono in pochi giorni verso una
polmonite grave che può condurre a morte l’animale.
In tabella vengono riportati i dati relativi all'esperimento: un
gruppo di n1  89 bovini è stato trattato con Tulatromicina ed
un secondo gruppo n2  81 con Tilmicosina. Dopo 60 giorni
si è osservato un peso medio per il primo gruppo di
ˆ1  537.39 Kg con una deviazione standard ˆ n1 ,1  42.96
Kg, mentre per il secondo gruppo si è ottenuto un peso
medio ˆ 2  529.49 Kg con una deviazione standard
ˆ n2 ,1  41.47 Kg.

2
Tratto da: M. Muraro et al. Large Animal Review 2008; 14: 267-272 267.
45

Confronto tra medie, misure non appaiate, varianza incognita

Siamo in presenza ancora di un caso in cui i dati appartengono a due gruppi differenti di soggetti
per cui essi non possono considerarsi appaiati. Si devono confrontare quindi due medie per capire se
la loro differenza sia significativa o dovuta al caso. La varianza dei dati è incognita, ma le varianze
del peso dei bovini sono state stimate dai dati dei due campioni di 89 e 81 unità. Nell'ipotesi (da
verificare con un test ovviamente!) che la varianza dei dati sia costante, e che la differenza tra ˆ n2 ,1 1

e ˆ n22 ,1 sia del tutto casuale, la varianza di ˆ d  ˆ 2  ˆ1 è data dalla seguente espressione

n1sn21  n2 sn22  1 1  1 n1 n1
 x1,i  ˆ1  , sn22 
1
  x2,i  ˆ 2 
2 2
 d
2
   ,
n1  n2  2  n1 n2 
sn21  
n1 i 1 n2 i 1

che viene detta pooled variance. In questo caso, nell'ipotesi di gaussianità dei dati, la statistica del
test di confronto tra medie
H 0 : E  ˆ d   0
H1 : E  ˆ d   0
è data da
ˆ d
n1sn21  n2 sn22  1 1 
  
n1  n2  2  n1 n2 

e segue una distribuzione t-Student a n1  n2  2 gradi di libertà. Per cui il set critico unilaterale di
significatività  % sarà dato da

ˆ d
 tn1  n2 2,2
n1sn21  n2 sn22
1 1 
  
n1  n2  2  n1 n2 

Nel caso di studio si ottiene

7.9
 1.2174  t168,0.10  1.645
6.4891

per cui si accetta l'ipotesi nulla e si conclude che il trattamento con Tulatromicina non ha avuto un
effetto significativamente differente dal trattamento con Tilmicosina.

Nel caso in cui si debba rifiutare l'ipotesi che la varianza dell'insieme dei dati del primo e del
secondo gruppo sia costante, allora si può usare la seguente statistica
46

ˆ d
 t gdl ,
ˆ n21 ,1 ˆ n22,1

n1 n2

che seguirà approssimativamente una distribuzione t-Student, nell'ipotesi di gaussianità dei dati, con
gradi di libertà ottenuti dal termine di correzione di Welch- Satterwhaite

2
 ˆ n2 ,1 ˆ n2 ,1 
 1  2 
 n1 n2 
gdl   
2 2
 ˆ n21 ,1   ˆ n22 ,1 
 n1   n2 
   
n1  1 n2  1

ovviamente si prende come numero di gradi di libertà il valore intero della precedente espressione.

Confronto tra varianze

I test di confronto tra proporzioni e tra medie appena visti, possono applicarsi anche al caso in cui
si debbano confrontare le varianze.

Si consideri a esempio un insieme di dati per cui si ipotizzi una distribuzione gaussiana con media
 e varianza  2 . Si estragga un campione casuale di n unità è si verifichi l'ipotesi

H 0 :  n2,1   2
H1 :  n2,1   2

Se l'ipotesi nulla è vera si può dimostrare facilmente che la grandezza

n
 ( xi  ˆ n )2 (n  1)  n2,1 nsn2
i 1
 
2 2 2

ha distribuzione  n21 con n  1 gradi di libertà. Il set critico per il test posto sarà quindi

(n  1)  n2,1
  n21,
 2

dove  n21, è il percentile dell'  % . Nel caso in cui l'ipotesi alternativa fosse stata H1 :  n2,1   2 ,
allora il set critico con significatività dell'  % sarebbe stato

(n  1)  n2,1
  n21,1
 2
47

mentre se l'ipotesi alternativa fosse stata H1 :  n2,1   2 , allora avremmo avuto il seguente set critico
di livello  %

 (n  1)  n,1
2 
 
 (n  1)  n,1
2 

   2
n 1,1 /2     2
n 1,  /2 
   
2 2
 
  

Concludiamo questo paragrafo considerando il caso di differenze tra varianze. Vogliamo


confrontare le varianze di due campioni di dati con distribuzione gaussiana con parametri (1, 12 )
e ( 2 ,  22 ) rispettivamente. Si vuole verificare l'ipotesi H 0 : 12   22 contro l'ipotesi alternativa
H1 : 12   22 . A questo punto dal primo campione di n1 dati stimiamo ˆ n1 e  n21 ,1 , e analogamente
dal secondo gruppo di n2 dati stimiamo ˆ n2 e  n22 ,1 (entrambi i gruppi si intendono essere due
campioni casuali di dati). Ora, per quanto visto prima, la variabile
n1
 ( xi  ˆ n1 )2 (n1  1)  n21 ,1
i 1

12 12

è distribuita come una  n21 1 , mentre la variabile

n2
 ( x j  ˆ n2 )2 (n2  1)  n22 ,1
j 1

 22  22
è distribuita come una  n22 1 . Per cui, se l'ipotesi nulla è vera, la variabile

 n21,1
F1, 2 
 n22 ,1

ha una distribuzione Fisher con 1  n1  1, 2  n2  1 gradi di libertà. Per cui il set critico di livello
 % per cui si rifiuta l'ipotesi nulla è

F1, 2  F1, 2 , 

Se l'ipotesi alternativa fosse stata H1 : 12   22 , avremmo scelto come statistica del test il reciproco
della precedente F ' 2 ,1  1/ F1 , 2 ed il set critico sarebbe stato
F ' 2 ,1  F 2 ,1 , 

Infine, se l'ipotesi alternativa fosse stata H1 : 12   22 avremmo ottenuto il seguente set critico
48

F ' ,
2 1
 F 2 ,1 ,  /2  F , 1 2
 F1 , 2 ,  /2 

Confronto tra varianze di più gruppi

In molti casi pratici l’insieme di dati in esame è costituito da più di due gruppi per i quali è
necessario sapere se hanno tutti la stessa varianza, ovvero almeno due gruppi hanno varianza l’uno
differente dall’altro. Nel primo caso si dice che l’insieme di dati è omoschedastico, nell’altro caso
che è eteroschedastico. Per decidere se un insieme di dati sia omoschedastico si ricorre al solito a
dei test satistici. Come dati di partenza si consideri un insieme di N dati costituito da k gruppi
costituiti da n1 , n2 , , nk unità rispettivamente con medie 1 , 2 , , k e con varianze
 12 ,  22 , ,  k2 .

Test di Bartlett. Nel caso in cui l’insieme di dati segua una distribuzione gaussiana si può usare
questo test che prevede le seguenti ipotesi composte

H 0 :  12   22     k2
H 1 :  i2   2j per almeno una coppia (i, j )

La statistica del test è data dalla seguente variabile

k
( N  k ) ln ˆ 2p   (ni  1) ln ˆ n2i ,1
i 1
T
1 k  1  1 
1    
3(k  1)  i 1  ni  1  N  k 

dove le ˆ n2i ,1 sono le stime corrette delle varianze dei singoli gruppi, mentre

1 k
ˆ 2p    ni  1ˆ n2i ,1
N  k i 1

è la sample pooled variance, che abbiamo già incontrato nel caso di due soli gruppi. Le due
espressioni differiscono perché nel caso del confronto tra medie, la pooled variance si riferisce
appunto alla varianza della stima di valor medio. La variabile T segue approssimativamente una
distribuzione  k21 , per cui il set critico di livello  % è dato da

T   k21,

Se questo si verifica, l’ipotesi nulla viene rifiutata e l’insieme di dati si ritiene eteroschedastico.

Test di Levene. Questo test è indicato nel caso in cui l’insieme di dati non segua una distribuzione
gaussiana. Sia xi , j il j-esimo dato dell' i-esimo gruppo, e si definiscano le seguenti grandezze
49

ni
1
zi , j  xi , j  ˆ i , ˆ i 
ni
 xij
j 1
ni
1
zi 
ni
 zi, j , media delle zi, j nell ' i  esimo gruppo
j 1

1 k
z 
N
 ni zi , media di tutte le zi, j
i 1

La statistica del test è data dalla seguente variabile

k
 ni  zi  z 
2
N k i 1
W
k 1 nj
   zi, j  zi 
k 2

i 1 j 1

che ha distribuzione di Fisher Fk 1, N  k . Il set critico di livello  % è il seguente

W  Fk 1,N k ,

per cui se la grandezza W è più grande del percentile dell’  % della Fisher Fk 1, N  k , l’ipotesi nulla
va rifiutata, e si deve ritenere l’insieme di dati eteroschedastico.

ANOVA (Analysis of Variance) : confronto tra medie di più gruppi


In molte situazioni, l’insieme o popolazione di unità da analizzare può presentare delle
sottostrutture per cui il modello statistico rappresentato dalle medie di insieme (valore medio,
varianza, …) può risultare in una descrizione troppo grossolana della variabilità insita nella
popolazione: infatti parte di questa variabilità non è da attribuirsi al caso, all’evento aleatorio, ma
alla presenza di una variabilità strutturata, determinata appunto da queste sottostrutture: in ognuna
di queste gli elementi hanno un comportamento statisticamente omogeneo, ovvero presentano una
variabilità interamente dovuta a cause aleatorie e bene descritta da medie di insieme, caratteristiche
tuttavia del sottogruppo considerato; queste medie peraltro possono cambiare molto tra i vari
sottogruppi per motivi non di natura aleatoria ma dovuti a meccanismi di natura sistematica! Si
pensi ad esempio ad una produzione che venga effettuata da reparti con esperienza ed affiatamento
differenti; alla vendita di articoli editoriali di varia natura: giornali, settimanali, audiovisivi;
all’effetto di materie prime acquistate da fornitori differenti, come stoffe, filati , reagenti chimici, e
chi più ne ha più ne metta! Consideriamo il caso di un portafoglio costituito da k  4 prodotti
finanziari di cui interessa il numero di scambi giornalieri in borsa su un numero di 10 rilevazioni
per ognuno di essi
50

Prodotti Finanziari
1 2 3 4

61 100 66 86
80 74 52 35
N° in migliaia di 98 85 73 52
Scambi 64 77 69 70
giornalieri 78 84 80 79
73 95 73 43
57 96 62 60
95 62 50 65
78 80 71 58
86 87 84 82

Media 77 84 68 63

Il numero di rilevazioni per ciascuna classe non deve necessariamente coincidere, e le singole
determinazioni possono considerarsi come estrazioni casuali indipendenti di una v.a. X . In
generale quindi avremo ni , i  1, , k , rilevazioni sperimentali; indichiamo con xij la j-esima
rilevazione per la classe i-esima ( i  1, , k ; j  1, , ni ).
Come si vede le medie interclasse ˆ i sono diverse tra loro e diverse dalla media di
popolazione

k ni k ni
1 1

n
  xij , n   ni , ˆi 
ni
 xij
i 1 j 1 i 1 j 1

Vogliamo stabilire se questa variabilità è da attribuirsi al caso oppure è qualcosa di sistematico.


Nell'ipotesi che la popolazione di dati possa ritenersi omoschedastica con distribuzione gaussiana,
rappresentiamo il generico dato xij nel seguente modo

xij    ai  yij

dove ai modella l’effetto della classe i-esima e yij è una fluttuazione statistica che modelliamo
come una gaussiana con media nulla e varianza  2 costante per tutte le classi; risulta che xij è
modellata come una gaussiana con media i    ai e varianza  2 .
A questo punto si vuole testare l’ipotesi composta

 H 0 : ai  0 per ogni i

cioè che la differenza interclasse è da attribuirsi al caso, contro l’ipotesi alternativa

 H1 : ai  0 per almeno un i
51

che tale differenza sia dovuta ad un fattore sistematico.

Consideriamo la varianza campionaria totale

  xij  ˆ     xij  ˆi 


ni ni
1 k 1 k
1 k
ni  ˆi  ˆ 
2 2
 
2
 
n i 1 j 1 n i 1 j 1 n i 1
T V W

che con semplici passaggi può decomporsi nelle due varianze parziali V e W : la prima rappresenta
la variabilità intraclasse, cioè la variabilità dei dati all’interno di ciascun gruppo di ni termini che è
la stessa indipendentemente dal fatto che l’ipotesi H 0 sia vera o falsa; la seconda fornisce la
variabilità interclasse e, se l’ipotesi H 0 è vera, risulta essere una fluttuazione casuale, altrimenti
porta in conto la variabilità dovuta alle differenze tra le medie dei vari sottogruppi.
Ora se l’ipotesi H 0 è vera, la variabile T /  2 risulta essere distribuita come una  2 con
n  1 gradi di libertà. In base al teorema di Cochran si può quindi dimostrare che V /  2 è distribuita
come una  2 con n  k gradi di libertà, mentre W /  2 ha distribuzione  2 con k  1 gradi di
libertà; inoltre V e W sono tra loro indipendenti. Quindi il rapporto

W /(k  1)
F
V /(n  k )
ha distribuzione di Fisher con 1  k  1,  2  n  k gradi di libertà. Se W è troppo grande
dovremmo rifiutare H 0 ; fissando un livello di significatività del test pari ad  , ovvero fissando la
probabilità di commettere l’errore di tipo I rifiutando H 0 quando è vera, dalle tavole della
distribuzione F1 , 2 si ricava il percentile F per cui se

F  F

si rifiuta H 0 prendendo la decisione giusta nell’ (1   )% dei casi. Il terst appena anlizzato prende
comunemente il nome di F-test.

L’analisi svolta viene normalmente riportata su una tabella che viene detta appunto tabella
dell’analisi della varianza

somme dei
variazione gradi di libertà devianze statistiche
quadrati
Tra gruppi k-1 W W/(k-1) W /(k  1)
;
Nei gruppi n-k V V/(n-k) V /(n  k )
Totale n-1 T z  ln F

che nel nostro caso diventa


52

Somme dei
variazione gradi di libertà devianze statistiche
quadrati
Tra gruppi 3 2620 873.33
F = 4.84;
Nei gruppi 36 6496 183.22
z = 0.79
Totale 39 9116

Se si sceglie   0.05 dalle tavole si ricava F  2.90 ; per cui dato che 4.84>2.90 dobbiamo
rifiutare l’ipotesi che la differenza tra le medie degli scambi giornalieri dei 4 prodotti finanziari sia
dovuta al caso.

Lo stesso tipo di analisi può essere condotta se la misura della grandezza di interesse x è
influenzata da più di un attributo. In riferimento al caso già trattato supponiamo di considerare il
numero di scambi giornalieri di k titoli in h mercati; per cui ora xij( ) denota la -esima rilevazione
del numero di scambi giornalieri del titolo i -esimo nel mercato j -esimo.

Ora, il generico dato può essere rappresentato nel seguente modo

xij( )    ai  b j   ij  yij( )

Senza perdita di generalità, per semplificare le notazioni, si assume che ciascuna classe sia
composta dallo stesso numero di elementi, per cui 1   m per ogni i, j . La costante  ij modella
l'effetto combinato dei due attributi, e la variabile yij( ) modella al solito la variabilità statistica del
dato e si assume con distribuzione N (0,  2 ) .

Siano ora

1 h m () 1 h m () 1 m ()
ˆi ,.,.    xij ,
h m j 1 1
ˆ., j ,.    xij ,
k m i 1 1
ˆij   xij
m 1

la media dei dati per il valore i-esimo del primo attributo, la media dei dati per il valore j-esimo del
secondo attributo, la media dei dati all'interno di ciascun gruppo individuato dalla generica coppia
di valori i, j del primo e del secondo attributo. La variabilità totale T dei dati può essere questa
volta decomposta nel seguente modo

    xij( )  ˆ     
k h m k h m k h
 h m  ˆi ,.,.  ˆ   k m  ˆ., j ,.  ˆ
2 2 2 2
    xij( )  ˆij
i 1 j 1 1 i 1 j 1 1 i 1 j 1

 
k h 2
 m  ˆij  ˆi ,.,.  ˆ., j ,.  ˆ  V  W1  W2  WI
i 1 j 1

Il primo termine a secondo membro V rappresenta la variabilità statistica dei dati all'interno di
ciascun gruppo ed è indipendente dalla presenza degli effetti degli attributi; esso costituisce il
53

termine di errore. Il secondo termine W1 ed il terzo W2 rappresentano la variabilità dovuta


all'effetto del primo attributo ed all'effetto del secondo attributo, rispettivamente. Il termine
WI viene detto interazione e quantifica l'effetto legato alla sinergia degli attributi. L'ipotesi nulla
H 0 richiede che tutte le costanti ai , b j ,  ij siano nulle. Se questo è vero, con l'ipotesi di gaussianità
dei dati, si ha al solito che T /  2 è distribuita come una  2 con  k h m  1 gradi di libertà. Si può
quindi applicare il teorema di Cochran ed affermare che V  2 ,W1  2 ,W2  2 ,WI  2 sono
variabili aleatorie indipendenti con distribuzione  2 con gradi di libertà k h  m  1 ,  k  1 ,  h  1
e  k  1 h  1 rispettivamente. A questo punto si possono testare varie ipotesi: se si vuole valutare
l'importanza del primo attributo si considera la variabile

W1 /  k  1
F1 
V / kh  m  1

che risulta avere distribuzione di Fisher con  k  1 , kh  m  1 gradi di libertà. Fissando al solito il
livello  % di significatività del test è possibile rilevare sulle tabelle opportune il relativo percentile
F1, ; se il valore F1 ottenuto dai dati dell'esperimento supera F1, si deve ritenere che l'effetto del
primo attributo introduce una variabilità sistematica nei dati, non attribuibile a cause aleatorie, e
quindi ha senso stratificare i dati in base ai valori del primo attributo. Lo stesso ragionamento vale
per il secondo attributo; si consideri la variabile

W2 /  h  1
F2 
V / kh  m  1

che ha distribuzione di Fisher con  h  1 , kh  m  1 gradi di libertà. Si scelga il livello  % di


significatività del test e si determini il percentile F2, dalle tabelle. I valori del secondo attributo
inducono una stratificazione significativa dei dati se F2  F2, .
Infine il grado di interazione fra gli attributi può essere valutato considerando la variabile

WI /  k  1 h  1
FI 
V / k h  m  1

che ha distribuzione di Fisher con  k  1 h  1 , kh  m  1 gradi di libertà. Scelto il livello  % di


significatività del test e determinato il percentile FI , dalle tabelle, se risulta FI  FI , dovremo
ritenere che l'effetto combinato dei due attributi è significativo ai fini di una stratificazione della
popolazione. La popolazione risulta essere omogenea se in tutti e tre i test precedenti le statistiche
F1, F2 e FI ottenute dai dati non superano i rispettivi percentili.

Nel caso particolare in cui m  1 , per cui è disponibile una sola rilevazione xij della variabile x per
ogni coppia di valori (i, j ) dei due attributi, non è possibile modellare il grado di interazione tra gli
attributi. Per cui si avrà la seguente rappresentazione del dato generico
54

xij    ai  b j  yij
dove, nelle stesse ipotesi del caso con interazione, a i è una costante che tiene conto dell’effetto
dell’attributo “titolo”, b j è una costante che tiene conto dell’effetto dell’attributo “mercato”, e
yij  
N 0, 2 . In questa situazione le grandezze

1 h 1 k 1 k h
ˆ i ,.   xij ,
h j 1
ˆ ., j   xij ,
k i 1
ˆ  
hk i 1
 xij
j 1

denotano la media degli scambi giornalieri del titolo i -esimo sull’insieme dei mercati, la media
degli scambi giornalieri dell’insieme di titoli nel mercato j -esimo e la media degli scambi
giornalieri di titoli sull’insieme dei mercati, rispettivamente.

La variabilità totale dei dati risulterà quindi ripartita nel seguente modo

   xij  ˆ       xij  ˆ i ,.  ˆ ., j  ˆ 
k h k h k h k h
    ˆ i ,.  ˆ     ˆ ., j  ˆ
2 2 2 2

i 1 j 1 i 1 j 1 i 1 j 1 i 1 j 1

     xij  ˆ i ,.  ˆ ., j  ˆ 
k h k h
 h  i ,.  ˆ   k  ˆ ., j  ˆ
2 2 2

i 1 j 1 i 1 j 1

 W1  W2  V

Il primo termine a secondo membro è la variabilità tra i vari titoli, il secondo è la variabilità tra i
mercati, ed il terzo termine è detto comunemente termine di errore. Con ragionamenti analoghi al
caso precedente, a norma del teorema di Cochran, possiamo affermare che i tre termini a secondo
membro sono indipendenti; inoltre W1  2 è distribuita come una  2 con k  1 gradi di libertà,
W2  2 è distribuita come una  2 con h  1 gradi di libertà e V è distribuita come una  2 con
 h  1 k  1 gradi di libertà.
A questo punto possiamo testare varie ipotesi; per esempio se vogliamo testare se l’effetto della
variabilità dovuta ai titoli è significativo basta considerare la variabile

W1 /  k  1
F1 
V /  h  1 k  1
che sarà distribuita come una Fisher Fk 1, h1 k 1 . Se invece vogliamo testare per la significatività
dell’effetto legato ai mercati possiamo considerare la variabile

W2 /  h  1
F2 
V /  h  1 k  1
55

che sarà distribuita come una Fisher Fh1, h1 k 1 .

adhf primer method Esaminiamo il seguente caso. Tre tipi di fondo per vernici
(primer) sono applicatio su alluminio in due modi: immersione
1 4.0 1 D
2 4.5 1 D (dipping, D), a spruzzo (spraying, S). L'esperimento consiste nel
3 4.3 1 D determinare la forza di adesione della vernice (adhf)
4 5.6 2 D dipendentemente dal fondo e dal metodo utilizzati. In base ai
5 4.9 2 D valori della tabella valutiamo se la forza di adesione risente
6 5.4 2 D
singolarmente del primer e del metodo di applicazione, o risente
7 3.8 3 D
8 3.7 3 D del loro effetto combinato. I dati dell'esperimento sono riportati
9 4.0 3 D nella tabella accanto: si ha un totale di 18 misure: per ogni primer
10 5.4 1 S si hanno tre ripetute per il metodo dipping e tre ripetute per lo
11 4.9 1 S spraying. La forza di aderenza della vernice dipende da due
12 5.6 1 S
13 5.8 2 S
attributi : il "metodo di deposizione del primer", attributo con
14 6.1 2 S k  2 valori "D" e "S"; il "tipo di primer " con h  3 valori "tipo
15 6.3 2 S 1", "tipo 2" e "tipo 3". Gli attributi determinano un totale di
16 5.5 3 S k * h  6 gruppi, ciascuno con m  3 ripetute
17 5.0 3 S
18 5.0 3 S

Normal Probability Plot

xij( ) , i  1, 2 j  1, 2,3  1, 2,3 0.98

Verifichiamo l'applicabilità del test 0.95


ANOVA a 2 vie descritto. Il valor 0.90
medio campionario dei dati è pari a
4.9889, mentre la deviazione 0.75
standard stimata, nell'ipotesi che il
Probability

campione sia casuale, è pari a 0.50

0.2070. I dati sono valori positivi, ci


chiediamo quanto sia verosimile 0.25
testare un'ipotesi di gaussianità:
notiamo in effetti che la media dei 0.10 dati
dista dallo 0 per più di 4, per la 0.05
distribuzione gaussiana può essere un 0.02
buon modello di distribuzione dei dati, 4 4.5 5
Data
5.5 6 in
quanto prevede che l'insieme dei valori negativi ha una probabilità di occorrere
inferiore a 0.006. Analizziamo il Q-Q plot. Dalla figura accanto si nota un certo allineamento tra i
quantili: il test di Lilliefors (Matlab) suggerisce che il rifiuto dell'ipotesi nulla che la distribuzione
dei dati sia gaussiana ha un rischio (p_value) pari a 0.4233>>0.05, per cui l'ipotesi nulla va
accettata, ed i dati sono ritenersi estratti da una distribuzione gaussiana. Verifichiamo ora
l'omoschedasticità dei dati (ipotesi nulla): il test di Bartlett garantisce che non ci sia differenza
significativa tra le varianze dei gruppi, con un p_value pari a 0.9214. Siamo quindi nelle condizioni
di applicazione del test ANOVA di Pearson.
Ripartiamo quindi la variabilità totale dei dati nel modo visto

     
2 3 3 2 3 3 2 3
 9  ˆ i ,.,.  ˆ   6  ˆ., j ,.  ˆ
2 2 2 2
T     xij( )  ˆ     xij( )  ˆij
i 1 j 1 1 i 1 j 1 1 i 1 j 1

 
2 3 2
 3  ˆij  ˆi ,.,.  ˆ., j ,.  ˆ  V  W1  W2  WI
i 1 j 1
56

1 3 3 () 1 3 3 ()
ˆ1,.,.    x  4.4667 ,
9 j 1 1 1 j
ˆ 2,.,.    x  5.5111
9 j 1 1 2 j
methods

1 2 3 () 1 2 3 () 1 2 3 ()
ˆ.,1,.    x 4.7833,
6 i 1 1 i1
ˆ.,2,.    x  5.6833
6 i 1 1 i 2
ˆ.,3,.    x  4.5
6 i 1 1 i 3
primers

1 3 () 1 3 () 1 3 ()
ˆ11   x  4.2667,
3 1 11
ˆ12   x  5.3,
3 1 12
ˆ13   x  3.8333,
3 1 13
1 3 () 1 3 () 1 3 ()
ˆ 21   x  5.3,
3 1 21
ˆ 22   x  6.0667
3 1 22
ˆ 23   x  5.1667
3 1 23

1 2 3 3 ()
    xij  4.9889
18 i 1 j 1 1

Si ottiene

T  10.7178, V  0.9867, W 1  4.9089, W 2  4.5811, WI  0.2411

I dati sono gaussiani e omoschedastici, per cui sotto l'ipotesi nulla

H 0 : a1  a2  0, b1  b2  0,  11   12   21   22  0
la variabile T ha distribuzione 17
2
; il teroema di Cochran assicura quindi che le variabili
2
V ,W 1,W 2,WI sono  2 tra loro indipendenti, con gradi di libertà rispettivamente pari a 12, 1, 2, 2 .
A questo punto calcoliamo le statistiche del test per la significatività dell'attributo "metodo di
deposizione"

W1
F1   59.7027
V /12
dell'attributo "tipo di primer"

W2/ 2
F2  27.8581
V /12

e dell'interazione fra i due attributi

WI / 2
FI  1.4662
V /12

Fissando il livello di significatività del test pari a  %  0.05 , dalle tabelle della Fisher otteniamo il
percentile per la F1,12 pari a 4.75, per cui si può ritenere che il metodo di deposizione del fondo
costituisca un attributo che influenza significativamente la forza di aderenza della vernice; dai
57

valori medi calcolati per methods si vede subito che il secondo metodo (spraying) determina una
forza media (sui tre tipi di primer) di aderenza pari a 5.5111 contro 4.4667 del primo metodo
(dipping). Invece il percentile per la F2,12 pari a 3.88, per cui anche l'attributo "tipo di primer"
influenza significativamente la forza di aderenza: dai valori medi calcolati per primers si nota come
il secondo tipo di fondo garantisca una forza di aderenza media (sui due metodi di deposizione) pari
a 5.6833, significativamente più alta rispetto agli altri due tipi di fondo, che hanno prestazioni simili
di 4.7833 (tipo 1) e 4.5 (tipo 3). Questa considerazione comunque andrebbe confortata con una
ulteriore analisi ponendo i dati relativi al tipo1 e tipo 3 in un unico gruppo e verificare la differenza
significativa con il gruppo di dati relativi al tipo 2. Per quanto riguarda l'interazione, dato che il
percentile è lo stesso che per F2, si vede come si debba escludere una sinergia tra metodo di
deposizione del fondo e tipo di fondo.
Per quanto riguarda la significatività dei due attributi singolarmente, avremmo potuto anche
utilizzare due ANOVA ad una via. Ad esempio, per l'attributo "metodo di deposizione", avremmo
raggruppato i dati in due classi: la prima per il valore "dipping" dell'attributo, aggregando i 9 dati in
tabella contrassegnati con "D", relativi ai tre tipi di primer; la seconda classe relativa al valore
"sparying" dell'attributo, aggregando i 9 dati in tabella contrassegnati con "S". In questo caso si
sarebbe ottenuta la seguente ripartizione della variabilità dei dati

   
2 3 3 2 2 3 3 2 2
T     xij( )  ˆ     xij( )  ˆ i   9  ˆ i  ˆ   V  W
2

i 1 j 1 1 i 1 j 1 1 i 1

dove  è lo stesso di prima in quanto è la media globale dei dati, mentre

1 3 3 () 1 3 3 ()
1   x
9 j 1 1 1 j
 4.4667  1,.,. ,  2    x  5.5111  2,.,.
9 j 1 1 2 j

Si ottiene

T  10.7178, V  5.8089, W  4.9089


Si noti come il termine W è lo stesso del termine W 1 dell'ANOVA a due vie con interazione,
mentre il termine d'errore V raccolga la somma dei termini V , W 2, WI (salvo approssimazioni
numeriche) della precedente analisi.
Nelle stesse ipotesi statistiche abbiamo che la variabile

W
F 13.521
V /16
ha distribuzione Fisher F1,16 il cui percentile del 5% è compreso tra 4.54 e 4.35. Per cui si deve
rifiutare l'ipotesi nulla e ritenere il metodo di deposizione un fattore significativo per la forza di
aderenza della vernice. Inoltre, avendo solo due gruppi, risulta immediatamente che il secondo
metodo, lo spraying, ha le prestazioni migliori, garantendo una forza di adesione media (su tutti i
primer) di 5.5111 contro 4.4667 del metodo dipping. Tale risultato conferma quanto ottenuto
nell'ANOVA a due vie. Sulla scorta di questa osservazione eseguiamo ora un ANOVA ad una via
per l'attributo "tipo di primer". Si ottengono tre classi, ognuna di 6 dati ottenuti considerando per
ogni primer le 3 ripetute contrassegnate con "D" e le 3 contrassegnate con "S". Si ottiene
58

   
2 3 3 2 2 3 3 2 3
T     xij( )  ˆ     xij( )  ˆ i   6  ˆ i  ˆ   V  W
2

i 1 j 1 1 i 1 j 1 1 i 1

con
1 2 3 () 1 2 3 1 2 3
1   
6 i 1 1
xi1  4.7833  .,1,. , 2    xi(2 )  5.6833  .,2,. , 3    xi(3 )  4.5  .,3,.
6 i 1 1 6 i 1 1

Si ottengono quindi i seguenti valori

T  10.7178, V  6.1367, W  4.5811

Possiamo anche qui notare che W  W 2 , mentre V raccoglie i termini V ,W 1,WI dell'ANOVA a due
vie. Osserviamo che il termine di differenza tra gruppi questa volta è più piccolo che nel caso
precedente per l'attributo "metodo di deposizione ", mentre la V è più grande. Infatti risulta

W /2
F2   5.5989
V
15
che comunque è maggiore del percentile del 5% di una Fisher F2,15  3.68 . Per cui anche l'effetto
dell'attributo " tipo di primer" è da ritenersi significativo. Tuttavia, rispetto al caso precedente, ora
ci sono tre gruppi e non è chiaro come scegliere il primer migliore, in quanto il rifiuto dell'ipotesi
nulla dice solo che c'è almeno un gruppo significativamente differente dagli altri. Per cui bisogna
condurre un'analisi ulteriore, come si era peraltro già precisato in occasione dell'analisi ANOVA a 2
vie.
Analizziamo ora il caso di studio togliendo la variabilità dei dati dovuta alle tre ripetute per
ogni gruppo: questo si ottiene sostituendo alle 3 ripetute la loro media ij , i  1, 2 j  1, 2,3 .
Otteniamo quindi uno schema di analisi ANOVA a 2 vie senza interazione

       ˆ ij  ˆ i,.  ˆ ., j  ˆ 
2 3 2 3 2 3
 3  ˆ i,.  ˆ   2 ˆ ., j  ˆ
2 2 2
T   ˆ ij  ˆ
2

i 1 j 1 i 1 j 1 i 1 j 1

 W1  W2  V

dove

1 3 1 3
ˆ 1,.   ˆ 1 j  4.4667 ,
3 j 1
ˆ 2 ,.   ˆ 2 j  5.5111
3 j 1

1 2 1 2 1 2
ˆ .,1   i1  4.7833,
2 i 1
ˆ .,2   i2
2 i 1
  5.6833, 
ˆ .,3   ˆ i3  4.5
2 i 1

Quindi si ottiene

T  3.2427, V  0.0804, W1 1.6363, W2  1.5270


59

Notiamo subito che la variabilità totale è diminuita rispetto ai casi precedenti in quanto questa è
dovuta solo alle "medie delle misure in ciascun gruppo" ij e non dalle misure xij( ) , come nei casi
precedenti. Nelle stesse ipotesi statistiche dei casi precedenti abbiamo che le variabili

W1 W /2
F1   40.7189, F2  2 19
V /2 V /2
hanno distribuzione di Fisher F1,2 con percentile del 5% pari 18.51, e F2,2 con percentile del
5% pari 19. Per cui, mentre per il primo l'attributo "metodo di deposizione" otteniamo dei risultati
in accordo con quelli delle analisi precedenti, in quanto l'ipotesi nulla deve essere rifiutata, per il
secondo attributo "tipo di primer" la situazione è un pò critica: si ottiene un valore di F2 proprio pari
al percentile F2,2,0.05  19 (in effetti sarebbe F2  19.000000000000142 ). A questo punto siamo
proprio sulla frontiera del set critico, potremmo senz'altro decidere comunque di rifiutare l'ipotesi
nulla; sarebbe comunque più ragionevole ad esempio richiedere l'acquisizione di dati ulteriori. Ma,
indipendentemente dalla decisione che prenderemo, notiamo come l'aver mediato le misure
riducendo la variabilità totale dei dati abbia portato ad una situazione di indecisione. Avremmo
anche potuto avere un risultato per cui, nel caso del secondo attributo, avremmo dovuto accettare
l'ipotesi nulla, ottenendo un'indicazione in netto contrasto con quella delle analisi precedenti.
Questo semplice caso di studio su dati reali ha mostrato che è meglio usare un modello per i
dati in cui i due (o più) attributi vengono considerati contemporaneamente, conviene quindi sempre
rappresentare al meglio tutte le cause di variabilità dei dati.
60

Concludiamo la sezione dell'ANOVA riassumendo e discutendo le ipotesi che devono essere


soddisfatte dall'insieme dei dati affinché l'F-test dia risultati attendibili

1. ciascun gruppo dell'insieme deve essere un campione di dati casuale, e i dati relativi a
gruppi differenti devono essere indipendenti
2. i gruppi devono avere grosso modo lo stesso numero di dati
3. la scala di variazione dei dati deve essere comparabile tra i diversi gruppi
4. la distribuzione dei dati deve essere gaussiana
5. la varianza deve essere costante

Diciamo subito che l'F-test è robusto rispetto a violazioni delle condizione 4) e 5) se ogni gruppo
ha un numero di dati sufficientemente grande e più o meno uguale tra loro. In caso di numero di dati
basso, le differenze tra le varianze può risultare determinante.

K-W ANOVA. L'algoritmo di Kruskal-Wallis è un test ANOVA non parametrico che si può
applicare tutte le volte che la distribuzione dei dati differisca significativamente dalla gaussiana, pur
rimanendo la stessa per tutta la popolazione, per cui deve sempre valere l'omoschedasticità. Per
meglio illustrare l'algoritmo consideriamo un esempio.

Un'azienda vinicola chiede a degli intenditori di testare tre dei loro vini, indichiamoli per semplicità
A, B e C, con un punteggio da uno a dieci. Ecco quanto ottenuto dopo i vari assaggi (tabella di
sinistra)

Per prima cosa si devono ordinare i dati in ordine


crescente. Nella tabella quindi ad ogni dato viene
sostituito il suo numero d'ordine nella lista (rank). Se due
o più dati dovessero avere lo stesso valore e quindi
occupare lo stesso rank, questo viene ripartito in parti
uguali in modo da non privilegiare nessun gruppo
(adjusted ranks). Nel caso in esame si ottiene la tabella di
destra.
Ora l'ipotesi nulla consiste nel testare che i valori medi
dei ranghi dei tre gruppi siano uguali, contro l'ipotesi
alternativa che almeno due di essi differiscano. Siano al solito n1, n2 , n3 il numero di dati per
ciascun gruppo, e si indichino con r1, r 2 , r 3 i valori medi dei ranghi nei tre gruppi, mentre sia
 r la media dei ranghi per tutto l'insieme di dati. La statistica del test è data dalla seguente variabile

3
 ni  ˆ ri  ˆ r 
2

i 1
H
1
N  N  1
12
dove al solito N è il numero totali di dati. Questa risulta essere distribuita approssimativamente
come una 321   22 (chi-quadro a 2 gradi di libertà ). Il percentile del 5% di tale distribuzione è
pari a 5.991. Per cui il set critico del test di livello 5% è data da
61

H  5.991

Nel caso in esame si ottiene H  9.5591 , per cui si deve rifiutare l'ipotesi nulla e ritenere che i
gruppi abbiano ranghi con medie significativamente differenti; si noti in particolare come i ranghi
corrispondenti al vino A siano più elevati rispetto agli altri due vini, per cui possiamo senz'altro
concludere che il vino A abbia riscosso maggior successo tra gli intenditori.

Il test K-W da buoni risultati se le la distribuzione dei dati ha la stessa forma per tutti i gruppi e le
varianze sono sostanzialmente uguali, già con 5 dati per ogni gruppo. Generalmente si assegna
come regola che la varianza più grande sia non più del doppio della varianza più piccola.

Se tuttavia i dati avessero la stessa distribuzione ma soffrissero di una forte eteroschedasticità, il test
K-W non è affidabile. In caso che la distribuzione sia gaussiana si può ricorrere al seguente test.

Welch ANOVA. Con il solito significato dei simboli, facciamo riferimento ad un insieme di dati con
k gruppi; la distribuzione sia gaussiana ma le varianze dei gruppi differiscano significativamente.
In queste condizioni il valor medio di popolazione si calcoli con la seguente media pesata

k
 wi ˆi ni k
ˆ   i 1
, wi  , w   wi
w sn2i i 1

dove al solito le sn2i sono le varianze campionarie di ciascun gruppo. La statistica del test è data
dalla seguente variabile

k
 wi ( ˆi  ˆ )2
i 1

W k 1
2
2(k  2)  1   wi 
k
1 2   1 
w 
k  1 i 1  ni  1  

che risulta essere distribuita come una Fisher Fk 1, con un numero di gradi di libertà dato da

k 2 1
Λ= 2
k 
1   wi 
3   
w 
1
i 1  ni  1  
come al solito si prende il valore intero più vicino.
62

Piano degli esperimenti

Come abbiamo visto, l’analisi della varianza permette di testare ipotesi composte nella stima
del valor medio di una popolazione. Nel caso quindi che l’ipotesi H 0 debba essere rifiutata significa
sostanzialmente che l’insieme di dati non è omogeneo statisticamente; quindi se nella stima del
valor medio di insieme il campione di n dati non venga opportunamente stratificato tra le varie
classi dell’insieme, ne risulterebbe una stima affetta da grande variabilità, e quindi poco affidabile.
Questo può essere facilmente compreso se consideriamo il caso in cui gran parte dei dati del
campione cadano in una sola delle classi; questo darebbe luogo ad una stima del valor medio
d’insieme fortemente polarizzata dalle caratteristiche statistiche della classe suddetta.
Nasce quindi l’esigenza di pianificare l’esperimento in modo da raccogliere i dati
distribuendo opportunamente la numerosità del campione tra le varie classi o strati; questa tecnica
prende il nome di stratificazione (o clusterizzazione). La situazione generale è quindi quella di un
insieme di N elementi suddivisi in k strati ognuno con N i unità. Sia i il valor medio di un certo
attributo degli elementi considerati nella classe i-esima, e sia wi  Ni / N il peso della classe i-esi-
ma nell’insieme, che supponiamo noto perché, ad esempio, ottenuto da una precedente indagine
sperimentale condotta ad hoc. Come è facile verificare per il valore medio di insieme  si ha

k
   wi i
i 1

Ora consideriamo ni elementi per ogni strato e stimiamo i con la media campionaria ˆ ni . Come
sappiamo questa è una stima centrata E  ˆ ni   i e, nel caso realistico di estrazione in blocco
senza reinserzione, con varianza

Ni  ni  i2
 2ˆ 
ni Ni  1 ni

mentre nel caso sia possibile l’estrazione di un campione indipendente si otterrebbe

 i2
 2ˆ 
n
i ni
dove  i2 è la varianza intraclasse dell’attributo considerato, ed è inferiore alla varianza  2 di
popolazione se, ovviamente, la stratificazione è stata eseguita opportunamente! La stima ˆ n della
media di popolazione  è quindi data da

k
ˆ n   wi ˆ ni
i 1

che è centrata come è facile verificare; inoltre ritenendo che il campione preso da uno strato sia
indipendente da quelli presi dagli altri, la varianza di ˆ n è data da
63

 k
2 i
2
  i nw camp. indp.
 i 1 i
k

 2ˆ   wi2 2ˆ 
n
i 1
ni
k
 w2 Ni  ni  i
2

  i
Ni  1 ni
camp. non indp.
i 1

dove  i2 può essere a sua volta stimata nei modi indicati.

Come si vede la varianza della stima dipende dagli ni , per cui una corretta scelta di essi può
rendere la stima ˆ n più accurata possibile una volta fissato, per motivi di costi o altri motivi di
ordine pratico, la numerosità totale n del campione. Esaminiamo due possibili strategie!

1) Attribuzione proporzionale

In questo caso si sceglie ni  wi n (ovviamente approssimato ad un intero); per la varianza


della stima otteniamo

 1 k
 
n i 1
wi i2 camp. indp.


 ˆ  
2
n
 k
 1  w Ni  ni  2 camp. non indp.
 n i 1 i Ni  1 i

ed è facile dimostrare che risulta essere minore rispetto a quella ottenibile estraendo un campione
casuale di dimensione n dall’intera popolazione.

2) Attribuzione ottimale

In questo caso si cercano i valori ottimi ni* che rendano minima la varianza  2ˆ della stima,
n
con il vincolo  ni  n . Mediante la tecnica dei moltiplicatori di Lagrange si ottiene
64



 Ni i
 n camp. indp.
k
  N j j
 j 1
* 
ni  

 Ni
Ni i
 Ni  1
n camp. non indp.
 k Nj
  N j
N j 1
j
 j 1

In effetti, nella misura in cui N i /  N i  1 1, si può usare la stessa attribuzione ottima

e la varianza della stima all’ottimo vale

  k 
2
 1
  wi i  camp. indp.
 n  i 1 

 ˆ  
2
n
 2
1  k Ni  k w2 2
      i i
w i i  camp. non indp.
 n  i 1 Ni  1  i 1 Ni  1

Esempio

Si vuole stimare il consumo medio giornaliero di pane in un’azienda di N  10.000 dipendenti. Se


si ricorresse ad un campione casuale di n  1000 dipendenti, supponendo una varianza di
popolazione  2  9 , la stima campionaria ˆ n della media  avrebbe varianza

2 9
 2ˆ    0.009
n n 1000

Tendendo conto delle varie tipologie di dipendenti, si può pensare alla seguente stratificazione

i strato Ni wi i
1 manovali 6.500 0.650 1
2 operai specializzati 2.500 0.250 1.5
3 impiegati 920 0.092 2
4 dirigenti 80 0.008 2.5
totale 10.000 1.00
65

Nell’ipotesi che il campionamento interclasse sia indipendente, nel caso di attribuzione


proporzionale si ottiene

(0.65)12  (0.25)1.52  (0.092)22  (0.008)2.52 1.6305


 2ˆ  
n n n

Volendo mantenere la stessa accuratezza della stima ottenuta con il campione casuale si pone

1.6305
 0.009
n
da cui si ricava n  190 anziché 1000 come prima, ottenendo quindi un forte risparmio in termini di
numero di rilevamenti da effettuare. L’attribuzione proporzionale sarebbe la seguente

i ni
1 124
2 47
3 17
4 2
totale 190

Fissando definitivamente n  190 e scegliendo l’attribuzione ottima

i n*i
1 98
2 57
3 29
4 6
totale 190

otterremmo la seguente varianza della stima

1
 2ˆ  (0.65)1  (0.25)1.5  (0.092)2  (0.008)2.52  0.00794
n 190

che è sensibilmente inferiore a quella ottenuta con l’attribuzione proporzionale.


Svolgiamo ora la nostra indagine circa il consumo medio giornaliero di pane sulla base di un
campione di 190 unità come indicato dalla nostra analisi preliminare. I dati sono N  10.000 , i
valori di Ni e wi della tabella precedente, ed i valori ottimi ni* appena determinati. Prelevando
quindi il campione secondo la modalità prestabilita e calcolando medie e varianze campionarie si è
ottenuto
66

ˆ ni ni*
i ˆ ni ,1  sni
ni*  1
1 4.3 1.2
2 3.5 1.6
3 2.0 2.1
4 1.5 2.3

Per il consumo medio giornaliero di pane per l’azienda considerata si ottiene

4
ˆ n   wi ˆ ni  0.65  4.3  0.25  3.5  0.092  2  0.008 1.5  3.866
i 1

La stima della varianza, con le stime delle varianze intraclasse, risulta

1
ˆ 2ˆ  0.65 1.2  0.25 1.6  0.092  2.1  0.008  2.32  0.0102
n 190

che da luogo ad una deviazione standard di 0.1010 ed un coefficiente di variazione

ˆ ˆ n 0.1010
  0.026  2.6%
ˆ n 3.866

denotando una stima molto precisa della media!


Stima Parametrica
Abbiamo visto come tramite gli strumenti della statistica induttiva sia possibile descrivere in
modo succinto l’informazione essenziale di una sequenza (o popolazione ) di N dati  yi  ,
ottenuti rilevando sperimentalmente il valore di una grandezza di interesse del prodotto di un
determinato processo di produzione di beni o servizi. Ciò si ottiene stimando i parametri della
distribuzione campionaria dei dati, a partire da un sottoinsieme di essi di dimensione n  N .
Mediante opportuni test (test di ipotesi, intervalli di confidenza, tabelle ANOVA) è quindi possibile
valutare se il processo allo studio è conforme alle specifiche assegnate e se la qualità dei prodotti
raggiunge gli obiettivi prefissati.
Questo modo di procedere tuttavia permette di valutare il processo solo a valle della
produzione, e di ottenere dei prodotti che si distribuiscono uniformemente all’interno di un
intervallo ammissibile di degradazione della qualità rispetto al valore di riferimento (target). Questo
dipende sostanzialmente dal fatto che ci accorgiamo dell’incidenza delle cause di disturbo del
processo di produzione solo dopo che queste abbiano agito. Cercare di ridurre al massimo od
eliminare le cause di disturbo comporta normalmente dei costi elevati; una filosofia più efficiente e
redditizia consiste nel ridurre la sensibilità del processo rispetto ai disturbi.
Nasce quindi l’esigenza di dover descrivere il meccanismo secondo il quale un dato
processo trasforma le variabili indipendenti X (materie prime, energia, risorse,…) nelle grandezze
di misura Y (prodotto finito, beni, servizi, …), valutando l’incidenza su tale trasformazione delle
grandezze di disturbo d

X Y
Processo

Si devono quindi stabilire le condizioni di funzionamento che assicurino che la grandezza di


misura sia il più possibile vicina al valore di target e che risenta il meno possibile dei disturbi.
Per raggiungere questo obbiettivo si deve definire un modello matematico che descriva il
legame tra le variabili indipendenti, di misura e di disturbo. Una classe piuttosto generale di modelli
è la seguente

Y  L( X ; )  d

dove  è un vettore di parametri che caratterizza la famiglia di modelli; il disturbo agisce in modo
additivo e viene normalmente descritto come una grandezza aleatoria che tiene conto sia degli errori
strumentali connessi alla misura sperimentale della Y , sia dell’errore di modello, cioè dell’errore
che si commette nel rappresentare il legame esatto tra X e Y con la funzione L() che ne cattura la
parte che noi riteniamo più significativa.
Definita quindi la famiglia di modelli ora si deve eseguire un esperimento per determinare il
valore dei parametri incogniti  in modo da selezionare il modello più adatto a rappresentare il
processo in analisi. L’esperimento consiste nello scegliere un’opportuna sequenza di N dati delle
variabili indipendenti  xi  ed applicarla al processo; si rileva sperimentalmente quindi la
corrispondente sequenza  yi  di N dati della grandezza di misura. A questo punto si può stimare il
parametro incognito elaborando opportunamente i dati

   (Y )

La funzione  prende il nome di stimatore e  viene detta stima del parametro  . I metodi di
stima parametrica consistono nello scegliere opportunamente lo stimatore in modo che la stima
ottenuta goda di opportune proprietà. I metodi di stima parametrica si distinguono peraltro dalle
informazioni a priori disponibili sul disturbo additivo d e sull’incognita  . In base a queste è infatti
possibile dedurre il cosiddetto modello statistico

p(Y ; )
ovvero la distribuzione dei dati come funzione del parametro incognito  . I vari metodi di stima
fanno uso di tale modello statistico sia per dedurre la stima  , sia per validare il modello L( X ; )
in base all’analisi del fit error

z  Y  L( X ; )

Proprietà della stima.

Polarizzazione
Il primo requisito che deve possedere una stima è quello di essere centrata (non polarizzata,
unbiased): questo consiste nel fatto che lo stimatore non commette errori sistematici nella
valutazione di  , per cui

E      (Y ) p(Y ; ) dY  
 

cioè il valor medio della stima coincide con il valore effettivo dell’incognita. Il valor medio
dell’errore di stima e    

b( )  E  e   E    
 

prende il nome di polarizzazione o bias della stima. Per una stima non polarizzata il bias è nullo.
Efficienza
Tuttavia, sebbene l’errore di stima possa avere valor medio nullo, gli errori singolarmente
potrebbero essere molto grandi, sia con segno positivo che con segno negativo in modo da
compensarsi mediamente. Quindi il secondo requisito della stima consiste nel fatto che la
distribuzione dei valori di essa sia il più possibile addensata intorno al valore effettivo  o,
equivalentemente che la distribuzione dell’errore di stima sia il più possibile addensata intorno allo
zero. Quindi si vuole che la matrice di correlazione dell’errore di stima


  
T
Qe  E            (Y )    (Y )    p(Y ; )dY
T
 

sia minima. Si noti che per una stima centrata la correlazione dell’errore di stima Qe coincide con la
covarianza Re . Nell’ipotesi che

 p(Y ; ) T
1.  p(Y ; )  ( gradiente di p(Y ; ) rispetto a  ) esista quasi ovunque, cioè

escluso per un insieme di valori isolati di Y ;
2. E   p(Y ; )   

per la correlazione dell’errore di stima esiste un risultato di carattere generale che prende il nome di
limite inferiore di Cramer Rao

Qe   I   b( )   ( )1  I   b( )  ,  ( )  E  ln p(Y ; )   T ln p(Y ; ) 


T
 

che nel caso scalare diventa

2
 db( ) 
 1
d 

 
2
Qe  E       
   d ln p(Y ; )  2
 d 
 

Questa relazione dice che, una volta scelto il modello statistico p(Y ; ) si commette un errore di
stima che necessariamente ha una correlazione non inferiore al valore minimo indicato a secondo
membro. Una stima si dice efficiente se l’errore di stima ha una correlazione pari al valore minimo
possibile dato dal limite di Cramer Rao, cioè se la relazione precedente vale con il segno di
uguaglianza. Una condizione sufficiente affinché ciò si verifichi consiste nel poter esprimere
l’errore di stima nel seguente modo

    M ( )  ln p(Y ; )
In tale caso si dimostra che la stima efficiente è anche centrata ed inoltre è una stima di massima
verosimiglianza

  arg max p(Y ; )

Purtroppo non vale il viceversa, cioè in generale non è vero che una stima di massima
verosimiglianza sia efficiente e centrata. Tuttavia sotto ipotesi piuttosto generali si può dimostrare
che la stima di massima verosimiglianza è asintoticamente centrata ed efficiente: cioè all’aumentare
del numero N di dati elaborati la stima di massima verosimiglianza tende ad acquisire le due
proprietà suddette.

Consistenza
Anche questa proprietà è di carattere asintotico, ovvero descrive come si comporta la stima
all’aumentare del numero N di dati elaborati. In particolare, indicando con  N la stima ottenuta
dall’elaborazione di N campioni dell’uscita, si dice che la stima sia consistente se

lim  N 
N 

quasi certamente; in altre parole la stima è consistente se con probabilità 1 tende al valore vero del
parametro al tendere di N all’infinito. Altre definizioni di consistenza possono far riferimento ai
momenti dell’errore di stima; quella più usuale è la seguente

  2
lim E  N    0
N   

in questo caso si dice che la stima è consistente in media quadratica.


Stima di massima verosimiglianza
La stima di massima verosimiglianza consiste nel determinare il valore del parametro  che
rende massima la distribuzione (verosimiglianza) dei dati

 MLE  arg max p(Y ; )

In luogo del problema precedente, conviene considerare il seguente

 MLE  arg max ln p(Y ; )

che, essendo il logaritmo una funzione monotona crescente, ammette la stessa soluzione del
precedente, ma risulta di più agevole soluzione. Infatti consideriamo il caso in cui il modello di
misura sia lineare in 

Y  L( X )  d

con Y   N ,    m , L   N  m e d   N ; per non appesantire la notazione da qui in poi non


riporteremo la dipendenza dei coefficienti del modello dai valori delle variabili di ingresso X , per
cui indicheremo sempre L( X ) con L , e L( X ; ) con L( ) .
Supponiamo che d  N (0, Q ) , cioè che il disturbo additivo sia una gaussiana a media nulla e con
matrice di covarianza Q . Allora l’uscita risulta essere una gaussiana con valor medio L e
covarianza Q , per cui

1  1 
p(Y ; )  exp   Q 1 Y  L  , Y  L   
 
 2  N /2
 det Q 
1/ 2  2 

Calcolando il logaritmo, si ottiene una funzione di  considerevolmente più semplice

 1 
ln p(Y ; )  ln    1 Q 1 Y  L  , Y  L  
  2  N / 2  det Q 1 / 2  2  
 

ed il problema di massima verosimiglianza diventa

1
 MLE  arg min Q 1 Y  L  , Y  L  
2 

La funzione obbiettivo è una funzione quadratica dell’incognita e l’esistenza dell’ottimo è di facile


deduzione. Dato che non abbiamo posto vincoli sui valori di  esso varierà in tutto  m che è un
insieme convesso; se la funzione obbiettivo risulta essere convessa, abbiamo una condizione
necessaria e sufficiente di minimo globale
1  1
 Q Y  L  , Y  L    0
2 

Tutte e sole le soluzioni della precedente equazione saranno stime ottime di massima
verosimiglianza. Per verificare la convessità della funzione obbiettivo, dato che essendo quadratica
risulta essere di classe C 2 , si può verificare se l’hessiano risulti essere una matrice semidefinita
positiva

1  1
2 Q Y  L  , Y  L    0
2 

Per la funzione obbiettivo in questione l’hessiano risulta essere

LT Q 1 L

che è subito visto essere una matrice simmetrica e semidefinita positiva. Per cui la funzione
obiettivo è convessa in un insieme convesso, e quindi l’equazione

1  1
 Q Y  L  , Y  L     LT Q 1 Y  L   0
2 

fornisce tutte e sole le soluzioni ottime del problema

 LT Q1 L  LT Q1Y


Se la matrice L ha rango pieno ( Lz  0  z  0 ), la matrice entro parentesi risulta essere non
singolare per cui si ottiene un'unica soluzione ottima

 
1
 MLE  LT Q 1 L LT Q 1Y

Vediamo se la stima di massima verosimiglianza per un modello lineare con disturbo additivo
gaussiano gode di qualche proprietà. L’errore di stima risulta essere

 
1
 MLE    LT Q 1 L LT Q 1Y  

dato che

   LT Q1L
1
  LT Q 1 L
si ottiene

   LT Q1Y  LT Q1L 
1
 MLE    LT Q 1 L

 
1
 LT Q 1 L LT Q 1 Y  L 

 
1
  LT Q 1 L  ln p(Y ; )

per cui risulta essere verificata la condizione sufficiente in base alla quale possiamo dire che la
stima ottenuta è efficiente; di conseguenza è anche centrata. Il limite inferiore di Cramer Rao è dato
da

1 1
E  ln p Y ;   ln p Y ;    E  LT Q 1 Y  L Y  L  Q 1 L 
T T
   

 
1 1
  LT Q 1 E Y  L Y  L   Q 1 L   LT Q 1 E  dd T  Q 1 L
T
 
    

   
1 1
 LT Q 1QQ 1 L  LT Q 1 L

che è quindi costante ed indipendente da  . Questo significa che qualunque altra operazione sui

 
1
dati produrrebbe un errore di stima con matrice di correlazione non inferiore a LT Q 1 L .
Se il modello fosse stato non lineare

Y  L( )  d

con le stesse ipotesi per il disturbo d , la condizione necessaria per la stima di massima
verosimiglianza sarebbe stata

 MLE  arg max ln p(Y ; )


1  1
 Q Y  L( )  , Y  L( )    0
2 
cioè

G ( )T Q 1 Y  L( )   0
con G ( )  L( ) /  . Si otterrebbe quindi un’equazione non lineare da risolvere; diciamo che
quindi in questo caso si dovrebbe adottare un opportuno algoritmo di ottimizzazione che risolva
numericamente il problema di massima versosimiglianza

 MLE  arg min Q 1 Y  L    , Y  L    


1
2 

Tuttavia è sempre possibile tentare di approssimare il problema originario linearizzando la funzione


L() nell’intorno di un valore  noto, che si possa ritenere una buona stima iniziale per 

   
L    L   G     
In questo modo il modello di misura approssimato diventerebbe

   
Y  L   G     d 
 
da cui ponendo Y  Y  L  ,      si otterrebbe

 
Y  G    d

e quindi di nuovo un modello lineare con rumore additivo gaussiano; per questo la stima efficiente è

1

   
 
T T
 MLE   G  Q 1G   G  Q 1Y
 

con limite di Cramer Rao pari a

1

  
 
T 1
G  Q G  
 

che risulta essere funzione della stima iniziale  . Per la stima di  si ha quindi

'
 MLE   MLE  

l’apice sta a ricordare che questa è una stima di  che deriva dal modello linearizzato.
Stima dei minimi quadrati
Nel caso che sul disturbo additivo non si abbiano informazioni sufficienti per poterne
ipotizzare la distribuzione ma si possa solo ritenere che sia a media nulla, la stima del parametro
incognito  può essere ottenuta minimizzando la norma al quadrato dell’errore di fitting

 LSE  arg min Y  L  arg min Y  L  , Y  L  


2

Come si nota si ottiene un problema analogo al caso precedente con Q pari all’identità. Per cui
sappiamo che se la matrice L ha rango pieno si ottiene un’unica soluzione ottima

 
1
 LSE  LT L LT Y

Dato che il disturbo additivo è a media nulla, si può facilmente stabilire che la stima dei minimi
quadrati (least square estimate) è centrata; infatti si ha

   
1 1
E  LSE   LT L LT E Y   LT L LT L  
 

Tuttavia nulla si può dire circa l’efficienza della stima, anche perché non si dispone di un modello
statistico dei dati.
Ricordando la definizione di prodotto interno euclideo, la funzione obbiettivo ha la seguente
forma

N
 Y  L  , Y  L      yi  li 
2 2
Y  L
i 1

dove li è la i-esima riga di L . Si vede come se qualche addendo è molto grande rispetto agli altri,
tenderà a polarizzare il valore della stima  LSE , che di fatto dovendo minimizzare tutti questi
scarti al quadrato risente maggiormente di quegli scarti di valore maggiore. Per evitare questo
inconveniente si debbono equalizzare gli scarti al quadrato pesandoli opportunamente, ognuno con
un determinato peso, in modo da rendere tutti gli scarti tra loro confrontabili; in luogo della
precedente funzione obbiettivo si considera quindi la seguente

N
Y  L P   P Y  L  , Y  L     pi  yi  li 
2 2

i 1

con P  diag  pi  ed i pesi pi tutti positivi ovviamente. In questo caso la stima dei minimi
quadrati diventa
 
1
 LSE  LT PL LT PY
e viene chiamata usualmente stima dei minimi quadrati pesati.

Esempio.

Uno dei problemi più interessanti nell’analisi dei dati sia demografici che finanziari consiste
nella stima di opportuni andamenti in essi presenti; questi rappresentano dipendenze cosiddette
stagionali che denotano un comportamento tipico a lungo termine. Assegnata quindi una sequenza
 yk  di dati supponiamo il seguente modello di misura

yk  mk  nk

con

mk  m0  m1 k 

In definitiva stiamo descrivendo la sequenza di dati come composta da un andamento lineare nel
tempo mk (  è l’intervallo di campionamento ossia l’intervallo di tempo tra due istanti di misura
consecutivi) la cui misura viene corrotta istante per istante da un rumore additivo che possiamo
supporre bianco e a valor medio nullo; si ricorda che la bianchezza consiste nella proprietà per cui
tutti i campioni del rumore sono tra loro incorrelati.

Quello che vogliamo fare è stimare i parametri m0 , m1 della legge di variazione


dell’andamento medio dei dati mk . Per far questo consideriamo per ogni istante, lo scarto  k ( ) tra
il dato sperimentale yk e il valor medio ipotizzato mk

 m0 
 k ( )  yk  mk  yk  [1 k  ]  
 m1 

 yk  [1 k  ]   yk  lk 

dove si è indicato con    m0 m1  il vettore dei parametri incogniti. Si può determinare 


T

mediante la stima dei minimi quadrati

N
  arg min   yi  li   arg min Y  L
2 2

i 1

dove si è posto

 l1  1  
 y1   l  1 2 
Y     , L 2 
     
 y N     
lN  1 N  
Si può vedere facilmente che la matrice L per questo problema ha rango pieno pari a 2, per cui la
soluzione del problema dei minimi quadrati ha un'unica soluzione ottima.

Se il valor medio ha un andamento più generale del precedente, possiamo pensare di


aumentare la complessità del modello di rappresentazione della dinamica del valor medio
ricordando che una qualunque funzione continua del tempo può approssimarsi con precisione
grande a piacere (su un intervallo finito di tempo) con un polinomio; pertanto si può porre

mk  m0  m1 k   m2 (k ) 2    m p (k ) p

e di conseguenza

 m0 
m 
 1
 k ( )  yk  mk  yk  [1 k  (k ) 2  (k ) ]  m2 
p

 
  
mp 
 

 yk  [1 k  (k ) 2  (k ) p ]   yk  lk 

T
dove stavolta    m0 m1 m2  m p  . Ora non dobbiamo far altro che risolvere lo stesso
problema di prima, ma con

 l1  1   2   p 
 y1   l  1 2 
(2) 2  (2) p 
Y     ,
 L  2 
 
     
 y N     
lN  1 N  ( N ) 2  ( N ) p 

Di nuovo, è facile vedere che la matrice L ha rango pieno pari a p+1, e perciò si ha un’unica
soluzione ottima del problema di minimi quadrati.

Una successiva generalizzazione rispetto al caso precedente consiste nel considerare la


situazione in cui i parametri che descrivono la dinamica del valor medio, siano variabili nel tempo
T
 (k )   m0 (k ) m1 (k ) m2 (k )  m p (k )  . Possiamo distinguere due casi differenti: nel primo si
suppone che la rapidità di variazione dei parametri sia piccola se confrontata a quella dei dati; nel
secondo caso invece si suppone che la dinamica di variazione dei parametri sia comparabile a quella
dei dati.
Quando i parametri variano lentamente rispetto alla dinamica dei dati, è possibile ancora
utilizzare il metodo di stima dei minimi quadrati, modificandolo opportunamente: in particolare se
consideriamo la somma degli scarti al quadrato
N

 y  l 
2
i i
i 1

dobbiamo fare in modo che, all’aumentare di N, nella sommatoria contino di più i termini più vicini
all’istante corrente k=N e via via si rendano trascurabili i termini lontani. Ciò può essere ottenuto
cambiando l’indice di costo nel seguente modo

   y  l  ,
N i
  (0, 1)
2
i i
i 1

Essendo   1 nella sommatoria i termini che corrispondono ad istanti i lontani dall’istante corrente
N sono moltiplicati per  N i che diventa sempre più piccolo per i che via via si allontana da N. Tale
tecnica viene detta dei minimi quadrati con fattore di oblio, e permette di stimare il valore del
parametro incognito nell’intervallo immediatamente adiacente all’istante corrente; questo permette
quindi di inseguire le variazioni temporali del parametro incognito, nell’ipotesi che queste siano
piuttosto lente. Più piccolo è  e più breve risulta l’intervallo adiacente all’istante corrente che
viene considerato.

Stima Bayesiana

Questo metodo di stima si deve adottare quando l’incognita  non è un parametro


deterministico, ma una grandezza aleatoria con distribuzione p( ) . In questo caso il modello
statistico è costituito dalla densità di probabilità congiunta dei dati e dell’incognita p(Y ,  ) . La
stima del valore di  può essere ottenuta al solito massimizzando la p(Y ,  )

 MULE  arg max p(Y ,  )

che viene detta stima di massima verosimiglianza non condizionata. Infatti la funzione obbiettivo
cambia rispetto al caso di stima di massima verosimiglianza quando il parametro  può assumere
indistintamente un qualunque valore di  m : infatti la differenza consiste nel fatto che nel caso
bayesiano i valori di  m non sono tutti equiprobabili ma sono assunti con probabilità determinata
dalla distribuzione p( ) . Questo fatto può essere esplicitato ricordando il teorema di Bayes, in base
al quale la distribuzione congiunta p(Y ,  ) può essere fattorizzata nel seguente modo

p(Y , )  p(Y |  ) p( )

dove p(Y |  ) è la distribuzione di Y condizionata a  , ovvero è la distribuzione dei valori dei dati
Y quando si fissa un generico valore  dell’incognita. L’espressione di tale funzione è facilmente
deducibile dal modello di misura

Y  L  X ;   d
Infatti nell’usuale ipotesi che il disturbo additivo abbia distribuzione gaussiana con media nulla e
covarianza Q , fissando un generico valore di  , la variabile Y diventa gaussiana con media
L( X ; ) e varianza Q .
Ricorrendo ancora alla trasformazione logaritmica si ottiene

 MULE  arg max ln p(Y ,  )  arg max  ln p(Y |  )  ln p( ) 

Si vede che rispetto al caso di massima verosimiglianza nella funzione obbiettivo compare il
termine ln p( ) che dà un peso differente ai diversi valori di  .
Vediamo l’espressione della stima ottima nel caso importante di modello lineare con rumore
additivo gaussiano, nelle ipotesi aggiuntive che anche l’incognita sia una gaussiana con valor medio
o e matrice di covarianza 

1  1 
p( )  exp     1   o  ,   o   
(2 ) m/2
(det  )1/ 2  2   

e che sia ovviamente indipendente dal disturbo. Quindi, trascurando i temini costanti, il problema di
stima diventa

1 1 
 MULE  arg min  Q 1 Y  L  , Y  L      1   o  ,   o   
2  2 

Effettuando la stessa analisi svolta nel caso di massima verosimiglianza si può ancora dimostrare
che la funzione obbiettivo risulta essere convessa; infatti l’hessiano è

LT Q 1 L   1

ed è quindi una matrice simmetrica e definita positiva; dall’annullamento del gradiente della
funzione obbiettivo si ottiene quindi la seguente condizione necessaria e sufficiente di ottimo
globale

 LT Q 1 Y  L    1   o   0
da cui

 LT Q 1 L   1   LT Q 1Y   1o
Ora, dato che la matrice  1 è definita positiva, la matrice LT Q 1 L   1 è certamente non
singolare, indipendentemente dal fatto che L sia o meno a rango pieno. Per cui si ottiene l’unica
soluzione ottima

   LT Q1Y   1o 
1
 MULE  LT Q 1 L   1
Se il modello di misura è non lineare, sorgono gli stessi problemi visti nel caso della massima
verosimiglianza, per cui in generale è necessario ricorrere al calcolo numerico della soluzione
ottima. Anche in questo caso tuttavia si può ricorrere alla linearizzazione del modello ed ottenere
una soluzione approssimata.

Validazione delle stime


A conclusione di questo capitolo riportiamo i test che vanno eseguiti per valicare la stima
ottenuta. Abbiamo visto come i vari tipi di stima effettuati si basino su differenti ipotesi di partenza.
Una volta stimato il parametro incognito  dovremo verificare se il modello stimato può costituire
una buona rappresentazione del processo cui si riferisce. Questo può essere fatto analizzando da un
punto di vista statistico la grandezza nota come fit error o residuo

z  Y  L( X ; )

Tenendo conto che tutti i modelli considerati presentavano il disturbo in forma additiva, si capisce
come il modello identificato L( X ; ) rappresenti bene i dati sperimentali Y se il residuo ha le
stesse caratteristiche ipotizzate per il disturbo additivo.
Come prima verifica potremmo quindi accertarci che il valor medio del residuo sia nullo; ciò
può essere fatto mediante un opportuno test di ipotesi valutando valor medio e deviazione standard
campionaria di z

1 N N
ˆ z  
N i 1
( y i  l i ( )), ˆ  1
z 
N i 1
 zi   z 
2

e ricordando che, per il teorema del limite centrale, se N è abbastanza grande la variabile
standardizzata
 
z  z z
N    
z z

può considerarsi una gaussiana standard N(0,1). Considerando quindi un livello di significatività del
test dell’  % si può testare l’ipotesi nulla che E ( z )  0 se

ˆ z ˆ z
   ˆ z  
N N

con  percentile di una N(0,1) all’  % . Se ˆ z dovesse essere fuori dell’intervallo di confidenza
 ˆ z ˆ 
   N
,  z
N 
si deve rifiutare l’ipotesi nulla e ritenere quindi che il residuo non sia a

media nulla, denotando un difetto del modello scelto, che quindi andrebbe modificato.
Come seconda verifica si potrebbe testare che il residuo abbia la statistica ipotizzata per il
disturbo additivo: nell’ipotesi che il disturbo additivo sia una sequenza gaussiana con covarianza
Q , si potrebbe testare se anche il residuo possegga tali caratteristiche. Quindi la sequenza
 
z  Q 1 Y  Lˆ dovrebbe essere una sequenza gaussiana standard. Il test sul tipo di
distribuzione può essere eseguito con un test di Anderson-Darling.

Da ultimo si può verificare la bianchezza della sequenza mediante il test di bianchezza di


Anderson: si calcolano le seguenti grandezze

1 N 
 ( )   z z ,    2, 5
N   i  1 i i 

1 N  2
 (0)   z
N   i 1 i

Il test di bianchezza si basa sul risultato che, se la sequenza  zi  è bianca allora, per N abbastanza
grande, la grandezza

 ( )
 ( )  N  
 (0)

tende a distribuirsi come una gaussiana standard N(0,1); per cui si fa il solito test con livello  % .
LE SERIE STORICHE

Una serie storica y(t) è semplicemente la registrazione cronologica, non ne-


cessariamente con campionamento uniforme, di osservazioni sperimentali di
una variabile: l’andamento dei prezzi delle materie prime, gli indici di bor-
sa, lo spread BTP/BUND, il tasso di disoccupazione. Da questa serie di
dati si vuole estrarre informazione per la caratterizzazione del fenomeno in
osservazione e per la previsione di valori futuri.

30

25
n° di passeggeri * 10

20

15

10

0
Gen Feb Mar Apr Mag Giu Lug Ago Set Ott Nov Dic Gen Feb Mar Apr

Figura 1: rilevazione del numero di passeggeri in un piccolo aeroporto

Dai dati di figura potremmo certo riconoscere che il numero dei passeggeri
è in crescita (si nota un trend positivo), denotando tuttavia una certa va-
riabilità (oscillazioni intorno ad una ipotetica linea di tendenza) che si va
via via più accentuando al passare del tempo. Volendo tentare una predizio-
ne del numero di passeggeri nel prossimo Gennaio, potremmo ragionare nel

1
2

modo seguente: con i dati acquisiti potremmo tracciare la linea di tenden-


za e prolungarla fino al Gennaio successivo. In questo modo avremmo una
valutazione di massima del numero di passeggeri, circa 200 (Fig.2), che ci
dovremmo aspettare nell’immediato futuro. Tuttavia, avendo osservato una

30

25

200
n° di passeggeri * 10

20

15

10

0
Gen Feb Mar Apr Mag Giu Lug Ago Set Ott Nov Dic Gen Feb Mar Apr

Figura 2: linea di tendenza del numero di passeggeri

certa variabilità dei dati, il numero effettivo di passeggeri potrebbe differire


molto dalla stima precedente, sia in eccesso che in difetto. Per determinare
un possibile intervallo di valori entro cui dovrebbe collocarsi con una cer-
ta confidenza il numero di passeggeri, potremmo tracciare le curve spezzate
dei massimi e dei mimini (Fig.3), ottenendo in questo modo un intervallo
di valori plausibili da 120 a 290, a cavallo della media di 200, dettata dalla
tendenza.
Certamente la valutazione effettuata risulta abbastanza insoddisfacen-
te, è molto grande la differenza tra il limite inferiore e quello superiore per
prendere una qualche decisione affidabile, come ad esempio quanti impiegati
destinare alle operazioni di check-in. Questo dipende sostanzialmente dal
modello troppo semplice che si è adottato sia per la tendenza che per la
variabilità della serie. In altra parole abbiamo caratterizzato la serie con de-
scrittori con una scala temporale troppo grossolana. Nel caso della tendenza
si è considerato il trend lineare su tutto l’intervallo d’osservazione, mentre
per la variabilità si è considerata la proiezione lineare dei massimi e minimi
della serie. Una valutazione migliore comporta l’analisi dei dati ad una scala
3

30
290

25

200
n° di passeggeri * 10

20

15

120
10

0
Gen Feb Mar Apr Mag Giu Lug Ago Set Ott Nov Dic Gen Feb Mar Apr

Figura 3: linee di supporto del numero di passeggeri

temporale più fine in modo da descrivere in modo più accurato il movimento


della serie
30
290

25

200
n° di passeggeri * 10

20

15

120
10

0
Gen Feb Mar Apr Mag Giu Lug Ago Set Ott Nov Dic Gen Feb Mar Apr

Figura 4: stagionalità del numero di passeggeri

La Fig.4 mostra una curva che insegue bene la variazione dei dati in ogni
4

punto di campionamento, evidenziando peraltro il carattere periodico della


serie storica. Tale curva permette certamente una valutazione più realistica
del numero di passeggeri nel prossimo Gennaio, propendendo per un valore
vicino all’estremo superiore calcolato precedentemente (addirittura superiore
a quello). Tale curva può essere pensata come la sovrapposizione del trend
τ (t) e della componente periodica (o stagionalità) S(t)

serie storica Trend τ(t)


25 25

20 20

15 15

10 10

5 5

0 0
Gen Giu Dic Gen Giu Dic

Stagionalità S(t) residuo r(t)


10 2

5 1

0 0

−5 −1

−10 −2
Gen Giu Dic Gen Giu Dic

Figura 5: analisi della serie storica

Quello che resta nella serie di dati oltre al trend ed alla componente sta-
gionale prende il nome di residuo r(t). Questo, eventualmente, può essere
ulteriormente analizzato r(t) = γ(t) + ε(t) in una componente struttura-
ta γ(t) ed una sequenza i.i.d. (independent identically distributed random
variables). Questa sequenza è completamente priva di informazione in quan-
to, essendo tutti i suoi valori indipendenti l’uno dall’altro, non è possibile
prevedere in alcun modo il valore della sequenza in un qualunque punto di
5

campionamento anche se si conoscono i valori in tutti gli altri punti di cam-


pionamento. Tali sequenze sono anche dette sequenze di rumore bianco. In
questo caso le componenti τ (t), S(t) e γ(t) intercettano tutta l’informazione
presente nei dati y(t).
Nel caso appena illustrato si è effettuata un’analisi dei dati di tipo additivo

y(t) = τ (t) + S(t) + r(t) (1)


Di solito, tutto ciò che eccede il trend prende il nome di componente
ciclica c(t) della serie storica

c(t) = y(t) − τ (t) (2)


In altri casi risulta più indicata un’analisi di tipo moltiplicativo

y(t) = τ (t) ∗ S(t) ∗ r(t) (3)


Non c’è un modo sistematico per scegliere l’una o l’altra modalità, consi-
derando inoltre che alcune serie storiche potrebbero richiedere contempora-
neamente i due tipi di analisi; in altre parole le serie di dati sperimentali non
sono semplicemente suddivise in serie con analisi additiva e serie con analisi
moltiplicativa. Tuttavia i modelli additivo e moltiplicativo sono soddisfacenti
nella stragrande maggioranza dei casi.
Nel caso appena esaminato per esempio, possiamo notare che la compo-
nente stagionale ha un’oscillazione la cui ampiezza cresce nel tempo, con una
tendenza che sembrerebbe dipendere fortemente dal trend (crescita lineare).
Anche il residuo denota lo stesso comportamento: un andamento erratico
con ampiezza crescente. In questo caso sarebbe bene provare ad analizzare i
dati con un modello moltiplicativo.

Vediamo invece i dati del caso di Fig.6, che rappresentano le rilevazioni spe-
rimentali dell’indice NDVI (Normalized Difference Vegetation Index, indice
della presenza di vegetazione ottenuto dal telerilevamento della riflettanza
spettrale nel visibile, rosso, e nel vicino infrarosso). La componente stagio-
nale (seasonal) ha un’oscillazione di ampiezza costante, ed anche il residuo
varia all’interno di un intervallo pressoché costante di valori. Ne deduciamo
che l’analisi mostrata è di tipo additivo. Tuttavia notiamo che la componente
di trend non è un semplice trend lineare come nell’esempio della Fig.1, ma
si è scelto di rappresentare la tendenza della serie storica su una scala fine
del tempo, e non la tendenza globale riferita a tutto l’intervallo temporale di
misura. In questo modo, descrivendo l’andamento medio della serie su una
scala temporale più locale, si ottiene una curva di trend che segue in maniera
più fedele la dinamica dei dati. E’ da notare inoltre che probabilmente il
6

trend lineare su tutto l’intervallo di osservazione non avrebbe messo in luce


alcuna tendenza significativa, e quindi sarebbe stato privo di informazione.
La scala a cui rilevare il trend dipende molto dal tipo di informazione
richiesta dal problema allo studio. Nelle serie storiche di tipo finanziario per
trend si intende quasi sempre il trend lineare (scala temporale lunga), salvo
poi distinguere i trend secondari, terziari e quaternari, a scale temporali via
via più locali.
Vediamo ora il prossimo caso.Nei grafici della Fig.7 vengono presentate
due analisi della serie storica riguardanti il numero di soldati americani morti
in Vietnam dal 1966 al 1971: la prima è su base annuale, la seconda su base
trimestrale (quarterly).
L’analisi su base annuale mostra un andamento del trend molto regolare
con un primo tratto crescente ed il tratto finale decrescente. Punto per punto
questa curva fornisce l’andamento medio annuale dei dati. La componente
stagionale ha un periodo di un anno con un ampiezza modulata dall’anda-
mento del trend, prima crescente e poi decrescente. Per questo motivo il
periodo non è proprio costante come per il caso della Fig.6; in questo caso
la componente stagionale si dice pseudo-periodica. Osservando i dati si può
pensare ad un’analisi in cui la componente stagionale si sovrappone al trend
ma con un’ampiezza modulata da esso

τ (t) + τ (t) ∗ S(t) (4)


In questi casi è logico ritenere che anche il residuo risenta della modu-
lazione dell’ampiezza in base al trend, ed ottenere la seguente analisi della

Figura 6: analisi additiva dei dati del NDVI per una piantaggione di pini nel
sud-est dell’Australia
7

Figura 7: analisi a scale differenti del numero dei combattenti USA deceduti nella
guerra in Indocina dal 1966 al 1971

serie storica

y(t) = τ (t) + τ (t) ∗ S(t)) + τ (t) ∗ r(t) (5)


Un’analisi quindi di tipo misto: addizionale per quanto riguarda la so-
vrapposizione degli effetti delle tre componenti di trend, stagionalità e resi-
duo, ma la stagionalità ed il residuo hanno un’ampiezza che varia nel tempo
8

secondo l’andamento del trend. Lo stesso tipo di comportamento dei dati lo


avevamo osservato anche per il caso di Fig.1, per il quale è ipotizzabile lo
stesso tipo di analisi mista.
Nel secondo grafico di Fig.7, il trend ha un andamento che denota una
dinamica (variabilità) comparabile con quella dei dati. Esso infatti rappre-
senta l’andamento medio dei dati su base trimestrale, e quindi ad una scala
temporale più fine del caso precedente, per cui insegue in modo più accurato
i movimenti della serie di dati.
Il trend trimestrale cattura inoltre gran parte della dinamica che prima
apparteneva alla componente stagionale, che infatti risulta essere di ampiez-
za molto più bassa rispetto a prima, con uno pseudo-periodo di tre mesi.
Anche in questo caso l’ampiezza della componente stagionale sembra essere
modulata in base all’ampiezza del trend, per cui è ipotizzabile un modello
di analisi misto additivo/moltiplicativo, visto precedentemente. Le due ana-
lisi rappresentano la stessa serie di dati, ma c’è una differente ripartizione
dell’informazione tra componente di trend e componente stagionale. Va sot-
tolineato che la componente stagionale con pseudo-periodo trimestrale era
già presente anche nell’analisi su base annua, probabilmente relegata nella
componente di residuo, non rappresentata in Fig.7.

Analisi delle serie storiche


L’analisi di una serie storica consiste nel determinare le componenti che ne
descrivono i caratteri utili alla formazione delle decisioni (tendenza, stagio-
nalità) ed alla previsione. Tali componenti sono composte principalmente se-
condo un modello additivo od un modello moltiplicativo. Dal punto di vista
algoritmico verrà trattata l’analisi solo per il modello additivo, in quanto que-
sta può essere applicata anche al modello moltiplicativo, dopo un’opportuna
trasformazione logaritmica dei dati

ln y(t) = ln (τ (t) ∗ S(t) ∗ r(t)) (6)


= ln τ (t) + ln S(t) + ln r(t) (7)
=τ (t)0 + S(t)0 + r(t)0 (8)

Dopodiché, una volta identificate le componenti τ (t)0 , S(t)0 e r(t)0 dall’analisi


additiva del ln y(t), per l’analisi del modello moltiplicativo si ottiene
9

y(t) = exp (τ (t)0 + S(t)0 + r(t)0 ) (9)


= exp (τ (t)0 ) ∗ exp (S(t)0 ) ∗ exp (r(t)0 ) (10)

Nel caso invece del modello misto (5) incontrato in alcuni degli esempi
trattati precedentemente si può procedere nel modo seguente. Si calcola il
logaritmo dei dati

ln y(t) = ln τ (t) + ln (1 + S(t) + r(t)) (11)


ottenendo in questo modo un’analisi additiva del ln y(t) come somma di una
componente di trend
τ (t)0 = ln τ (t)
ed una parte ciclica
c(t)0 = ln (1 + S(t) + r(t))
Una volta identificato τ (t)0 si determina c(t)0 = ln y(t) − τ (t)0 . Ora, ricordia-
mo che il termine c(t)0 è legato alle componenti di stagionalità e di residuo
dell’analisi mista dalla relazione c(t)0 = ln (1 + S(t) + r(t)), per cui si ottiene

exp (c(t)0 ) = 1 + S(t) + r(t) (12)


per cui basta eseguire un’analisi additiva del segnale z(t) = exp (c(t)0 ) − 1
per ottenere S(t) ed r(t). A questo punto l’analisi mista è data da

y(t) = exp (τ (t)0 ) ∗ (1 + S(t) + r(t)) (13)


Per quanto visto quindi, nelle prossime sezioni verranno illustrati i pos-
sibili modelli per le componenti di trend, stagionale e di residuo dell’analisi
additiva di una serie di dati, e contestualmente verranno descritti i metodi
che permettono di identificarli dai dati sperimentali.

Il trend
Il trend τ (t) di una serie storica descrive l’andamento medio della stessa
riferito ad un’opportuna scala temporale. Nella maggior parte dei casi per
trend si intende il trend lineare su tutto l’intervallo di osservazione della
serie. In questo caso la componente ciclica ha valor medio nullo su tutto
l’intervallo di osservazione. Quindi se stimassimo la media campionaria di
c(t) dovremmo ottenere un valore pressoché nullo
10

N
1 X
µ̂c = c(ti ) ' 0
N i=1

serie storica
30

20

10

0
Gen Giu Dic

serie detrendizzata
10

−5

−10
Gen Giu Dic

Figura 8: serie storica, trend lineare, componente ciclica (serie detrendizzata)

Il modello del trend lineare è un polinomio di primo grado della variabile


temporale t
τ (t) = θ0 + θ1 t (14)
dove i parametri sono costanti, in quanto tale modello vale per ogni t appar-
tenente all’intervallo di osservazione dei dati. Tali parametri possono quindi
essere stimati risolvendo un problema dei minimi quadrati
" N #
  X 2
θ̂0 , θ̂1 = argmin y(ti ) − θ0 − θ1 ti
i=1

ottenendo θ̂0 = 3.4320, θ̂1 = 1.6056 per i dati di Fig.8. Ovviamente, nella so-
luzione di questo semplice programma, si sono adottate tutte le tecniche più
volte discusse per eliminare il malcondizionamento del problema. Sottolineia-
mo che in questo caso non ha senso valutare l’R2 del modello identificato in
11

quanto, rappresentando questo solo l’andamento medio dei dati, certamente


non spiega granché della varianza dei dati, che invece è praticamente tutta
contenuta nella componente ciclica. In particolare, i valori di quest’ultima
possono essere stimati sottraendo il trend dai dati

ĉ(ti ) = y(ti ) − θ̂0 − θ̂1 (ti ), i = 1, . . . , N

e sono graficati in Fig.8.


In casi più generali è possibile che il trend non abbia semplicemente un
andamento lineare, ma segua una legge di variazione temporale più comples-
sa. In queste situazioni si può ricorrere ad un modello polinomiale di grado
più elevato
τ (t) = θ0 + θ1 t + θ2 t2 + . . . + θm tm (15)

L’identificazione parametrica di tale modello si ottiene risolvendo un pro-


gramma dei minimi quadrati del tutto simile al caso lineare appena trattato,
per cui non verrà ulteriormente discusso. Invece dobbiamo capire come sce-
gliere il grado m del polinomio. Dato che anche in questo caso il trend deve
solo descrivere l’andamento medio dei dati, non è di alcun aiuto valutare l’R2
del modello identificato, che comunque risulterà basso. Quindi, al solito, la
scelta del grado va fatta per tentativi e sfruttando caratteristiche generali
individuabili per ispezione visiva della serie storica. Ad esempio, per i dati
di Fig.8, si nota che l’andamento medio su tutto l’intervallo di osservazione
non denota una variazione della curvatura, per cui si può pensare al più ad
un polinomio di secondo grado. In effetti, risolvendo il problema dei minimi
quadrati per il trend quadratico

τ (t) = θ0 + θ1 t + θ2 t2 + θ2 t2

si ottiene θ̂0 = 3.7924, θ̂1 = 1.3846, θ̂2 = 0.0197. Trend e componente


ciclica sono graficati in Figura 9. Si nota in effetti una leggera curvatura
positiva (θ̂2 > 0) ma non cosı̀ evidente, per cui potremmo senz’altro ritenere
accettabile il trend lineare precedente.
Come regola generale per determinare l’ordine del trend si potrebbe stabi-
lire di fare vari tentativi aumentando di volta in volta il grado del polinomio
che lo rappresenta fino a che il termine di grado massimo θ̂m tm non dia un
contributo considerato trascurabile rispetto alla somme dei termini fino al
grado m − 1. Naturalmente questo dipende molto dall’estensione dell’inter-
vallo di osservazione dei dati. Nel caso appena trattato, se l’intervallo di
osservazione fosse molto più esteso (t molto più grande), allora il termine
θ̂2 t2 certamente darebbe un contributo via via più consistente al crescere di
12

serie storica
30

20

10

0
Gen Giu Dic

serie detrendizzata
10

−5

−10
Gen Giu Dic

Figura 9: serie storica, trend lineare, componente ciclica (serie detrendizzata)

t, tanto da far preferire il modello del secondo ordine rispetto al trend linea-
re. La complessità del modello polinomiale può essere determinata in modo
sistematico ricorrendo al criterio di Akaike.
Il modello polinomiale con coefficienti costanti, permette quindi di rap-
presentare il trend della serie storica riferito a tutto l’intervallo temporale
di osservazione. Quale modello potremmo scegliere se invece della tendenza
generale della serie volessimo un andamento medio che seguisse al meglio la
dinamica dei dati istante per istante? Questo ad esempio è quello che viene
mostrato nel secondo grafico della Fig.7. In questo caso, nel generico istante
t, l’andamento medio richiesto deve rappresentare la tendenza media dei dati
in un intorno ristretto dell’istante considerato. Come si nota nella Fig.10,
nell’intorno degli istanti scelti il valore del trend globale (linea rossa) è molto
differente dai valori della serie, in quanto esso è funzione dei valori dei dati
su tutto l’intervallo di osservazione. Il trend locale rappresentato dai tratti
di linea verde rappresenta abbastanza bene la tendenza locale dei dati.
Prendendo lo spunto dalla Fig.10, si potrebbe pensare quindi di descrivere
il trend locale con una sequenza di tratti lineari che, istante per istante,
cambino pendenza in modo da adattarsi alla media locale dei dati
13

serie storica
30

25
trend globale
trend locale
20

15

10

0
Gen Giu Dic

Figura 10: serie storica, trend globale, trend locale

τ (t) = θ0 (t) + θ1 (t)t, , t ∈ (t − tm , t) (16)


Il modello precedente è ancora un modello del primo ordine, ma i suoi
coefficienti non sono costanti, ma variano ad ogni istante dipendentemente
dai dati che si trovano in un intorno ((t − tm , t) più o meno esteso dell’i-
stante corrente t. Il modello del trend locale quindi è definito una volta che
si conoscano i suoi parametri θ0 (t) e θ1 (t), per ogni t. Vediamo ora come
sia possibile stimare dai dati i valori di θ0 (t) e θ1 (t) al variare del tempo,
usando ancora il metodo dei minimi quadrati. Considerando che i dati sono
campionati in istanti discreti del tempo, indichiamo con tk l’istante corrente,
e con t1 il primo istante di campionamento. Supponiamo di aver collezionato
i dati fino all’istante tk . Se risolvessimo il seguente programma
" k #
X 2
(θ0 (tk ), θ1 (tk )) = argmin y(ti − θ0 (tk ) + θ1 (tk )ti
i=1

otterremmo un modello lineare (16) su tutto l’intervallo (t1 , tk ), rappresentato


dal tratto di retta di color rosso in Fig.11. Si avrebbe quindi un andamento
medio lineare, rappresentativo di tutto l’intervallo di osservazione, e non
dell’andamento dei dati solo nelle vicinanze dell’istante corrente tk . Questo
14

15

10

0
t1 tk−m tk

Figura 11: trend globale, trend locale

perché nell’indice di costo del programma vengono inclusi tutti i dati da t1 a


tk . Per ovviare a questo inconveniente, basta introdurre dei pesi nell’indice di
costo che diano maggiore importanza ai termini più vicini all’istante corrente
e rendano trascurabili i termini distanti da esso

" k #
X  2
(θ0 (tk ), θ1 (tk )) = argmin µk−i y(ti − θ0 (tk ) + θ1 (tk )ti , µ ∈ (0, 1)
i=1

che viene detto problema dei minimi quadrati con pesi esponenziali (Expo-
nential Weighted Least Square Estimate, EWLSE). In questo modo è pos-
sibile ottenere il modello lineare rappresentato dalla linea di colore verde di
Fig.11. Il parametro µ determina quanto è esteso l’intorno dell’istante cor-
rente tk in cui risulta valido il modello locale: come si vede i termini della
sommatoria sono moltiplicati per µk−i con µ positivo e minore di 1, per cui
per i << k cioè per istanti molto distanti da quello corrente, il peso di-
venta veramente piccolo e praticamente cancella il termine corrispondente
(y(ti − θ0 (tk ) + θ1 (tk )ti )2 dalla sommatoria. Per fare un esempio, scegliamo
15

µ = 0.95; per i = k, k − 1, k − 2, ..., 1 si ha

1 0.95 0.9025 0.8574 0.8145 0.7738 0.7351 0.6983 0.6634 0.6302 0.5987...

per cui a distanza di 7 passi dall’istante corrente tk il peso diventa circa 0.7
e via via diminuisce indebolendo l’influenza dei temini corrispondenti della
sommatoria. Per µ = 0.8 si ha

1 0.8 0.64 0.512 0.4096 0.3277 0.2621 0.2097 0.1678 0.1342 0.1074...

ed in questo caso già a 3 passi dall’istante corrente il peso vale circa 0.5,
ottenendo quindi un algoritmo di stima in cui contano solo i dati entro una
finestra di 3 passi dall’istante corrente, a differenza del primo caso in cui la
finestra era circa di 7 passi.
Facciamo ora un passo in più. Supponiamo di aver correttamente de-
terminato il trend locale all’istante tk , e viene prelevato un nuovo dato ad
un istante successivo tk+1 . Per calcolare il trend locale aggiornato al nuovo
istante corrente

τ (t) = θ0 (tk+1 ) + θ1 (tk+1 )t, t ∈ (tk+1−m ), tk+1

dovremmo risolvere il seguente programma


" k+1 #
  X  2
θ̂0 (tk+1 ), θ̂1 (tk+1 ) = argmin µk−i y(ti − θ0 (tk+1 ) + θ1 (tk+1 )ti , µ ∈ (0, 1)
i=1

e rielaborare daccapo tutti i dati da t1 a tk+1 per ottenere le stime dei para-
metri del modello aggiornate all’istante corrente tk+1 . In altre parole bisogna
di volta in volta rieseguire tutto il calcolo dall’inizio, su un campione di dati
di dimensione via via crescente. Questo può essere evitato mediante un algo-
ritmo ricorsivo di soluzione del programma EWLSE, che calcola la soluzione
del problema all’istante tk+1 in funzione della soluzione al passo precedente
tk . Sia
 
  `(t1 )
θ0 (tk )
θ(tk ) = , `(tk ) = [1 tk ], L(tk ) =  ... 
 
θ1 (tk )
`(tk )
16

Si ottiene
S(tk )`(tk+1 )T
G(tk+1 ) = (17)
µ + `(tk+1 )S(tk )`(tk+1 )T
 
θ̂(tk+1 ) = θ̂(tk ) + G(tk+1 ) y(tk+1 ) − `(tk+1 )θ̂(tk ) (18)
1 
S(tk+1 ) = I − G(tk+1 )`(tk+1 ) S(tk ) (19)
µ
L’algoritmo va opportunamente inizializzato. Per questo, a partire da un

30
serie storica
25 trend globale
trend locale

20

15

10

0
Gen Giu tk Dic

Figura 12: trend globale, trend locale del primo ordine τ (t) = θ0 (t) + θ1 (t)t

istante tm , si risolve il problema utilizzando tutti i dati da t1 a tm , ottenendo

−1
θ̂(tm ) = S(tm )L(tm )T W (tm )Y (tm ), S(tm ) = L(tm )T W (tm )L(tm )
 
m−1
  µ 0 . . . . . . 0
y(t1 )  0
 µm−2 0 . . . 0  
 ..  . .
Y (tm ) =  .  , W (tm ) =  0
 
. . . . ... 0 
 
y(tm )  0 ... ... µ 0 
0 ... ... 0 1

A questo punto con tk = tm , θ̂(tk ) = θ̂(tm ) ed S(tk ) = S(tm ) è possibile


innescare l’algoritmo ricorsivo e calcolare in successione l’aggiornamento dei
17

parametri del trend locale secondo le (17), (18) e (19), elaborando solo un
dato alla volta. La Fig.12 mostra l’andamento dei dati, del trend lineare
(globale) e del trend locale del primo ordine secondo l’algoritmo (17)-(19),
con µ = 0.8. Possiamo subito notare un effetto dell’elaborazione ricorsiva
dei dati: il trend locale segue con un certo ritardo i dati. Ciò si verifica
in quanto il modello locale, ad es. nell’istante tk in Fig.12, risente solo dei
dati precedenti a tk e non di quelli futuri. La pendenza del trend locale
cambierà gradualmente man mano che l’istante corrente si inoltra nel tratto
dei dati successivo a tk (di qui il ritardo), e rappresenterà bene la tendenza
locale solo quando la finestra di dati sui cui il modello locale viene stimato
sarà tutta compresa nell’intervallo di tempo a destra di tk . Questo effetto è
tanto più evidente quanto più la memoria dell’algoritmo è grande. In questo
caso la memoria dell’algoritmo dipende dal valore del parametro µ. Per

30

serie storica
25 trend locale, µ=0.95
trend locale, µ=0.8

20

15

10

0
Gen Giu Dic

Figura 13: trend locale con differenti valori di µ

valori di µ più grandi, l’algoritmo ha una memoria più grande, per cui la
stima dei parametri del modello locale dipende da un numero più esteso di
dati, anche un pò lontani dall’istante corrente. Come si nota dalla Fig.13
(linea magenta) questo determina una curva di trend locale molto regolare
(smooth), ma con un certo ritardo rispetto ai dati. Per valori minori di µ
invece, la memoria dell’algoritmo si accorcia, interessando quindi solo i dati
pi prossimi all’istante corrente. Ne risulta una curva (linea verde) meno
18

regolare, che però segue i dati meglio che nel caso precedente, con un ritardo
inferiore.
Sin qui si sono forniti dei modelli analitici per il trend, sia globale che lo-
cale. In altre parole si sono fornite in forma analitica possibili leggi temporali
che rappresentassero al meglio la tendenza dei dati. Questi modelli hanno la
loro importanza in quanto i loro parametri quantificano alcune caratteristi-
che fondamentali dei dati: ad esempio il parametro θ1 misura la pendenza
della serie, e permette di dire se siamo in un peridodo di trend al rialzo o al
ribasso. Il parametro θ2 misura la convessità della serie, per cui permette di
stabilire se il trend continuerà con il segno attuale, ad esempio permane il
trend al rialzo (θ1 > 0 e θ2 > 0) ovvero ci si avvia verso un trend al ribasso
(θ1 > 0 e θ2 < 0).
Tuttavia, laddove non sia necessaria una descrizione analitica della ten-
denza della serie storica, è possibile ricorrere a metodi che calcolino diretta-
mente i valori di τ (t) su tutto l’intervallo di osservazione dei dati. Uno tra i
più utilizzati è il filtro di Prescott-Hodrick. Secondo questo metodo, vengono
calcolati simultaneamente i valori τ (ti ) su tutto l’intervallo di osservazione
dei dati, risolvendo il seguente programma
" N N −1
#
X 2 X 2
{τ (ti )} = argmin y(ti ) − τ (ti ) + λ τ (ti+1 ) − 2 ∗ τ (ti ) + τ (ti−1 )
i=1 i=2
(20)
Il primo termine dell’indice di costo misura il fit con cui la sequenza τ (ti )
rappresenta bene la sequenza dei dati y(ti ). Il secondo termine è invece un
termine di penalizzazione che misura la derivata seconda della sequenza di
trend (ogni addendo della seconda sommatoria è il quadrato dell’approssima-
zione numerica della derivata seconda di τ (t) nel generico istante ti ). Più λ
è grande e più verranno selezionate sequenze τ (ti ) con derivata seconda con
ampiezza piccola (quindi molto regolari); al limite per λ molto grande la so-
luzione potrebbe assomigliare al trend lineare globale visto precedentemente
(derivata seconda nulla). Per valori di λ più piccoli invece il programma (20)
rende ammissibili sequenze che siano meno regolari, e che quindi possano
seguire al meglio, anche localmente, la dinamica dei dati.
La Fig.14, oltre che mostrare il comportamento annunciato della stima
del trend al variare del parametro λ, mostra anche l’assenza del fenomeno
di ritardo che avevamo osservato nei modelli stimati con il metodo ricorsivo.
Questo però non deve trarre in inganno: l’elaborazione del filtro non è in
tempo reale, perché la stima degli N valori τ (ti ) è ottenuta elaborando tutti
i dati contemporaneamente, per cui essa non può essere prodotta se non
dopo aver acquisito tutti i dati, di fatto con un ritardo massimo pari al
tempo necessario ad acquisire tutti i dati. C’è inoltre da osservare che, se
19

Filtro Prescott−Hodrick
30

25 serie storica
trend, λ=5
trend, λ=500
20 trend, λ=10000

15

10

0
Gen Giu Dic

Figura 14: Stima del trend con il filtro di Prescott-Hodrick con differenti valori
di λ

venisse acquisito un dato ulteriore y(tN +1 ), la stima del trend di Prescott-


Hodrick andrebbe ricalcolata risolvendo di nuovo il programma (20) con i =
1, . . . , N, N + 1.
Si può ovviare a questo inconveniente con un algoritmo ricorsivo che stima
istante pet istante il trend locale τ (ti ) della serie di dati secondo la seguente
formula
1
τ (ti ) = [(y(ti ) + y(ti−1 ) + +y(ti−2 ) + . . . + +y(ti−m+1 )] (21)
m
Per ogni istante ti , la stima τ (ti ) è la media aritmetica degli ultimi m valori
della serie, per tale motivo viene detta media mobile (moving average). La
sequenza stimata τ (ti ) è tanto più regolare quanto più la memoria m è grande,
come si nota facilmente nella Fig.15. Come per tutti gli algoritmi ricorsivi
ovviamente è presente un ritardo con cui il trend locale segue la dinamica
dei dati, che si accentua, all’aumentare di m.
La media mobile è un algoritmo molto semplice ed efficiente, anche se la
tima del trend che si ottiene si può dimostrare essere meno accurata di quella
ottenibile con il modello analitico (16). È la stima più utilizzata in ambito
finanziario, in quanto permette di ottenere in modo semplice la tendenza dei
dati. In ambito finanziario le serie storiche possono essere soggette a shock
20

media mobile
30
serie storica
25 MA, m=2
MA, m=10
20

15

10

0
Gen Giu Dic

Figura 15: Stima del trend con la media mobile per diversi valori di m

(variazioni) con dinamiche molto veloci, si pensi ad esempio al fixing delle va-
lute, per cui l’algoritmo di stima del trend deve raggiungere un compromesso
tra il catturare la tendenza dei dati con una certa fedeltà e senza un ritardo
eccessivo ( il fixing monetario avviene su una scala di secondi) ed il filtrare
gli shock dovuti alla volatilità del mercato. Agendo solo sulla memoria m
dell’algoritmo il più delle volte non si raggiunge un buon compromesso tra
velocià di risposta e filtraggio degli shock. Per questo motivo la media mobi-
le semplice (21)(SMA, simple moving average) viene modificata in modo da
dare più peso al dato corrente
2
τ (ti ) = αy(ti ) + (1 − α)τ (ti−1 ), α= (22)
m+1
Tale algoritmo si chiama media mobile esponenziale (EMA, exponential mo-
ving average); la scelta di α indicata nella (22) garantisce generalmente il
miglior compromesso. Come tutti gli algoritmi ricorsivi, la EMA va inizia-
lizzata, calcolandone un primo campione τ (tm ) come media mobile semplice
21

dei primi m dati, poi per i = m + 1, m + 2, . . . si usa l’algoritmo (22). Nella

media mobile esponenziale


30
serie storica
EMA, alfa=2/11
20 SMA, m=10

10

0
Gen Giu Dic

media mobile esponenziale


30
serie storica
EMA, alfa=3/11
20 SMA, m=10

10

0
Gen Giu Dic

Figura 16: Stima del trend con la media mobile esponenziale

Fig.16 si nota come la EMA anticipi la SMA, cioè ha una maggiore velocità
di risposta in quanto si accorge prima dei tratti della serie storica sia con
tendenza al rialzo che che al ribasso. Inoltre al crescere di α rispetto al va-
lore generalmente consigliato si nota come l’algoritmo migliori in termini di
prontezza di risposta.

La componente stagionale
Consideriamo ancora la serie storica di Fig.9. Il grafico in basso mostra
l’andamento della serie di dati una volta che da essa venga sottratto il trend
τ (t). Si ottiene quindi la componente ciclica che denota chiaramente un
comportamento periodico. È quindi logico ritenere che sia possibile analizzare
questa componente ciclica separando la componente stagionale dal residuo

c(t) = S(t) + r(t) (23)


22

La componente stagionale è la parte periodica di c(t), il suo grafico è quindi


una curva che assume gli stessi valori ad intervalli regolari di tempo (si veda
ad esempio anche la Fig.6)

S(t) = S(t + T ) = S(t + 2T ) = ... = S(t + kT ) = ... (24)

Il parametro T prende il nome di periodo. Per capire come stimare S(t)


dai dati della componente ciclica c(t), consideriamo il modello per eccellenza
di una funzione periodica, un segnale sinusoidale con un periodo ad esempio
pari a 5 sec. (linea rossa Fig.17) Nella stessa figura sono riportate alcune

1.5
S(t)
S(t−T/5)
1 S(t−T/2)

0.5

−0.5

−1

−1.5
1 2 3 4 5 6 7 8 9 10 11
time

Figura 17: andamento sinusoidale, T=5 sec

repliche di S(t): la prima (linea blu) ha un ritardo δ pari a 1 sec rispetto a


S(t), mentre la seconda ritardata di mezzo periodo δ = 2.5 sec. Confrontan-
do S(t) con S(t − δ) si nota come, istante per istante, i valori assunti dai due
segnali siano abbastanza differenti, e questa differenza si accentua o meno
dipendentemente dal valore del ritardo δ. In particolare per δ = 2.5 = T /2 le
due curve hanno stessi valori in modulo ma di segno contrario, mentre se po-
nessimo δ = 5 = T , cioè per un ritardo pari ad un periodo, otterremmo una
curva esattamente uguale a S(t). Da quanto detto, il metodo per estrarre la
componente stagionale dalla componente ciclica consiste proprio nel misura-
re la somiglianza di c(t) con le sue versioni ritardate c(t − δ), al variare di δ,
23

ed individuare i valori del ritardo per cui tale somiglianza è massima. Tale
somiglianza viene misurata dalla funzione di autocorrelazione
PN −k
c(ti ) ∗ c(ti+k )
φ(k) = qP i=1 qP (25)
N −k 2 N −k 2
i=1 c(ti ) i=1 c(ti+k )

L’espressione (25) si riferisce ovviamente alla versione campionaria della fun-


zione di autocorrelazione, in cui il ritardo δ è dato dal numero di campioni
che separano l’istante corrente ti e quello ritardato ti+k . La (25) fornisce
il risultato corretto nell’ipotesi che i dati a disposizione siano molti, in al-
tre parole deve risultare N >> k. In questo modo risulterà sempre che
c(ti ), i ∈ [1, N − k] ha valor medio nullo. Tuttavia in quasi tutti i ca-
si pratici Pin cui N non sia molto grande, è bene ricalcolare il valor medio
N −k
µc,0 (k) = i=1 c(ti )/(N − k) della componente ciclica sul sottoinsieme dei
P −k
dati [1, N − k] ed il valor medio µc,1 (k) = N i=1 c(ti+k )/(N − k) della com-
ponente ciclica sul sottoinsieme dei dati [k + 1, N ], e modificare la (25) nel
seguente modo
PN −k
c̄(ti ) ∗ c̄(ti+k )
φ(k) = qP i=1 qP
N −k 2 N −k 2
i=1 c̄(ti ) i=1 c̄(ti+k )

dove c̄(ti ) = c(ti ) − µc,0 (k) e c̄(ti+k ) = c(ti+k ) − µc,1 (k)

funzione di autocorrelazione
1

0.5

−0.5

−1
0 1 2 3 4 5 6 7 8
delay

Figura 18: funzione di autocorrelazione di S(t) = sin(2 ∗ π ∗ t/T )

A titolo di esempio, calcoliamo la funzione di autocorrelazione per la


funzione S(t) di Fig.17 e grafichiamo il risultato. Come si nota dalla Fig.18 i
massimi locali della funzione di autocorrelazione si hanno in corrispondenza
al ritardo nullo, ovviamente, e al ritardo δ = 5 sec (un periodo), come ci si
aspettava. Si ha inoltre un minimo locale δ = 2.5 sec (mezzo periodo), che
denota che la curva ritardata di tale entità ha lo stesso andamento di S(t)
24

ma con segno opposto, come avevamo già osservato nel comportamento della
sinusoide.
Naturalmente le cose sarebbero meno evidenti nel caso di presenza di più
di una componente sinusoidale, per cui consideriamo la seguente componente
ciclica c(t) = sin(2πt/5) + 1.5sin(2πt/2.5) in assenza di residuo.

componente stagionale

−2

1 2 3 4 5 6 7 8 9 10 11

time

funzione di autocorrelazione
1

−1
0 1 2 3 4 5 6 7 8
delay

Figura 19: componente ciclica c(t) = sin(2πt/5)+1.5sin(2πt/2.5) e sua funzione


di autocorrelazione

Osserviamo in Fig.19 che la funzione di autocorrelazione ha un massimo


locale (positivo) ben visibile per un ritardo pari a 5 sec che segnala la presenza
di una componente stagionale con periodo pari proprio a 5 sec. Sottolineiamo
che il massimo locale a T = 5 non segnala la presenza della sola componen-
te sinusoidale con periodo T = 5 sec, ma la presenza di una componente
stagionale (data dalla combinazione delle due sinusoidi con T 1 = 2.5 sec e
T 2 = 5 sec) con periodo T = 5 sec.
Questo è dovuto ad un risultato generale in base al quale se sommiamo
più segnali periodici, i cui periodi hanno a due a due un rapporto dato da
un numero razionale (questo si ottiene ad esempio se tutti i periodi sono
dei numeri interi, oppure se sono l’uno un multiplo intero dell’altro, come
nell’esempio precedente delle due sinusoidi), allora il segnale risultante è un
segnale periodico con periodo pari al minimo comune multiplo dei periodi
25

delle componenti. Quindi, la composizione di un segnale periodico con pe-


riodo 3 sec con uno con periodo 5 sec darebbe luogo ad un segnale periodico
complessivo con periodo pari a 15 sec. Nella funzione di autocorrelazione
quindi noteremmo un massimo locale molto evidente per un ritardo pari a
15 sec.
In generale quindi, i massimi della funzione di autocorrelazione deno-
tano la presenza di segnali periodici, non necessariamente sinusoidali, cioè
di pattern ripetitivi che soddisfano la (24). In questo caso, la stima della
componente stagionale deve sfruttare la relazione (24). Quindi, un segnale
periodico di periodo T è individuato dai valori S(ti ), i = 1, . . . M che ne com-
pongono un periodo, e che quindi si ripetono tali e quali in ogni intervallo
di tempo pari ad un periodo T . Il numero di questi valori dipende dal passo
di campionamento del segnale: se ad es. avessi un passo di campionamento
pari a 1 sec ed un periodo T = 10 sec, avremmo un numero M = 10 di valori
differenti del segnale all’interno di un periodo T . Tali valori incogniti possono
essere stimati risolvendo il seguente programma
" N M #
n o X X 2
Ŝ1 , . . . , ŜM = argmin c(t(j−1)∗T +i ) − Si (26)
j=1 i=1

dove N è il numero di periodi T compresi nella serie storica analizzata. La


funzione obiettivo del programma (26) è una semplice funzione quadratica
delle incognite, strettamente convessa, per cui la soluzione ottima se esiste è
unica, e si ricava dall’annullamento del gradiente della funzione obiettivo. Si
ottiene facilmente che
N
1 X
Ŝi = c(t(j−1)∗T +i ), i = 1, . . . , M (27)
N j=1

Con il metodo dei minimi quadrati si ottiene che ogni valore Ŝi è semplice-
mente la media dei campioni di c(t) all’i-esimo istante all’interno di ciascuno
degli N periodi di ampiezza T che la compongono.

Vediamo subito un esempio reale, non simulato. Prendiamo la serie di


dati mostrata in Fig.20. Si hanno ha disposizione rilievi mensili su 6 anni (72
campioni), la funzione di autocorrelazione è stata calcolata per un ritardo da
0 a 48 mesi. Il massimo relativo più grande della funzione di autocorrelazione
si ha per un ritardo pari 36 mesi. In base a quanto discusso precedentemente
questo segnalerebbe la presenza di un segnale periodico S(t) con periodo
T = 36 mesi. Tuttavia una componente stagionale con periodo cosı̀ lungo
sarebbe stimata in modo poco affidabile con soli 72 dati: si avrebbero a
26

prezzi di vendita delle banane


(Israele, 1997−2002) componente ciclica
10 6

5
9 prezzi
trend
4
8
3
7 2

6 1

0
5
−1
4
−2

3 −3
0 10 20 30 40 50 60 70 80 0 10 20 30 40 50 60 70 80
time time

f. di autocorrelazione componente ciclica


1

0.8

0.6

0.4

0.2

−0.2

−0.4

−0.6

−0.8
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40
delay

Figura 20: serie storica dei prezzi delle banane in Israele (1997-2002): serie dei
prezzi e trend (Filtro di Prescott-Hodrick, λ = 105 ), componente ciclica, funzione
di autocorrelazione della componente ciclica

disposizione solo N = 2 periodi, e conseguentemente le stime ottenibili dalla


(27) sarebbero le medie solo su due campioni di c(t), distanti 36 mesi uno
dall’altro. C’è inoltre da considerare che, per quanto riguarda i prodotti
agricoli, la periodicità è tipicamente data dalle stagioni, per cui ci si deve
attendere periodicità annuali (il ripetersi dello stesso clima) o trimestrali (il
succedersi delle stagioni). Per cui nel caso in esame scegliamo certamente
il massimo relativo corrispondente al ritardo pari a 12 mesi. Dato che le
rilevazioni dei prezzi sono mensili, in un periodo si hanno esattamente 12
valori del prezzo S1 , S2 , . . . , S12 che, in accordo alla (24), si ripetono tali e
quali ogni 12 mesi. Per poter stimare questi valori risolviamo il programma
(26) " 6 12 #
n o X X 2
Ŝ1 , . . . , Ŝ12 = argmin c(t(j−1)∗12+i ) − Si (28)
j=1 i=1

con M = 6 periodi di T = 12 mesi compresi nella serie storica analizzata (la


serie si compone di 72 campioni). Dalla (27) si ottiene facilmente che
6
1X
Ŝi = c(t(j−1)∗12+i ), i = 1, . . . , 12 (29)
6 j=1

La Fig.21 mostra l’andamento di questa componente stagionale S(t), della


componente ciclica depurata di S(t) (componente residua), e della funzione
di autocorrelazione risultante. La componente stagionale S(t) ha un anda-
27

componente stagionale S(t)


con periodo T=12 mesi componente residua r(t)=c(t)−S(t)
3 2.5

2
2
1.5

1 1

0.5
0 0

−0.5
−1
−1

−2 −1.5
0 10 20 30 40 50 60 70 80 0 10 20 30 40 50 60 70 80
time time

funzione di autocorrelazione
componente residua r(t)
1

0.8

0.6

0.4

0.2

−0.2

−0.4
0 5 10 15 20 25 30 35 40
delay

Figura 21: componente stagionale S(t), componente residua r(t) = c(t) − S(t) e
sua funzione di autocorrelazione

mento periodico con periodo T1 = 12 mesi, ma non è sinusoidale, come ci


attendevamo. Nella funzione di autocorrelazione della componente residua
r(t) non si evidenziano più massimi locali isolati, significativi, ed infatti r(t)
ha un andamento piuttosto erratico, che peraltro è suscettibile di analisi
ulteriore, come vedremo nella prossima sezione. La Fig.22 mostra tutte le
componenti dell’analisi effettuata del prezzo di vendita delle banane.

Va precisato che le scelte effettuate nell’analisi svolta sono solo indicative,


indicano cioè una possibile procedura di analisi. Per esempio, il fatto che la
componente di trend sia stata ottenuta con un filtro di Prescott-Hodrick è
stata una delle possibili scelte; tra l’altro il valore del parametro λ è stato
anch’esso selezionato in modo euristico, provando alcuni valori e scegliendo
quello per cui si ottenevano risultati accettabili. Alternativamente, avremmo
potuto seguire una via un pò più sistematica, modellando τ (t) con un poli-
nomio di ordine crescente e scegliendo l’ordine migliore in base al criterio di
Akaike. Avremmo ottenuto i risultati riportati in Fig.23. Si nota un notevole
abbassamento della figura di merito del criterio di Akaike per m = 6, per
poi risalire. Questo indica che il miglior compromesso tra fitting e comples-
sità del modello si ha per un polinomio di sesto grado. Procedendo poi alla
stima della componente stagionale, esattamente come nel caso precedente,
otterremmo gli andamenti di Fig.24. In questa si nota che la componente
residua, pur mantenendo un andamento erratico come nel caso precedente,
ha tuttavia una funzione di autocorrelazione con dei massimi locali signi-
ficativi per un ritardo T = 20 anomalo. Questo indica semplicemente che
28

prezzi delle banane trend τ(t)


10 10

8 8

6 6

4 4

2 2
0 20 40 60 80 0 20 40 60 80

componente stagionale S(t) componente residua r(t)


6 3
S(t)
2
4 c(t)
1
2
0
0
−1

−2 −2
0 20 40 60 80 0 20 40 60 80

Figura 22: analisi del prezzo delle banane: trend, componente stagionale,
componente residua

criterio di Akaike trend τ(t), polynomial of order 6


1.4 10

1.2
8

1
6
0.8

4
0.6

0.4 2
0 2 4 6 8 0 20 40 60 80
polynomial order time (months)

Figura 23: stima del trend del prezzo delle banane con il criterio di Akaike

seguire la strategia di selezionare la componente di trend in base a criteri di


ottimalità non ha portato ad un buon risultato per quanto concerne l’analisi
29

componente stagionale S(t),


con periodo T=12 mesi componente residua r(t)=c(t)−S(t)
3 3
2 2
1 1
0 0
−1 −1
−2 −2
0 20 40 60 80 0 20 40 60 80

funzione di covarianza
componente residua r(t)
1

0,5

−0,5
0 20 40 60

Figura 24: componente stagionale, componente residua e sua funzione di auto-


correlazione, della serie storica dei prezzi delle banane in Israele (1997-2002) tolto
il trend polinomiale di sesto ordine

della componente stagionale. Questo perchè il criterio di ottimalità di Akaike


va utilizzato con una certa cautela, in quanto cerca il miglior compromesso
tra un buon fitting e la complessità del modello di trend; ma la componente
di trend non deve in alcun modo dare un buon fitting, deve solo indicare la
tendenza generale della serie. Infatti se ripetiamo l’analisi con un polinomio
di ordine 2, si ottiene l’analisi mostrata in Fig.25. Come si vede si ottengo-
no praticamente gli stessi risultati ottenuti stimando il trend con il filtro di
Prescott-Hodrick (si confrontino in particolare gli andamenti della funzione
di autocorrelazione della componente residua in Fig.25 ed in Fig.21), e lo
stesso si sarebbe ottenuto se si fosse scelto un polinomio del quarto ordine.
Certo, disporre della forma analitica del trend della serie dei prezzi offre il
vantaggio di poter predire la tendenza futura del prezzo, anche se solo per
pochi mesi immediatamente successivi all’ultimo rilevamento dei dati.
30

componente stagionale S(t)


prezzi delle banane e trend con periodo T=12 mesi
10 2.5

9 τ(t)=θ0+θ1t+θ2t2 2

1.5
8
1
7
0.5
6
0
5
−0.5

4 −1

3 −1.5
0 10 20 30 40 50 60 70 80 0 10 20 30 40 50 60 70 80
time time
componente residua r(t)= C(t)−S(t)

f. di autocorrelazione componente residua r(t)


2.5 1

1.5
0.5
1

0.5

0
0
−0.5

−1

−1.5 −0.5
0 10 20 30 40 50 60 70 80 0 5 10 15 20 25 30 35 40
time delay

Figura 25: serie dei prezzi e trend (polinomio di secondo ordine), componente
stagionale, componente residua e sua funzione di autocorrelazione

La componente residua
Individuati il trend τ (t) e la componente stagionale S(t), il residuo

r(t) = y(t) − τ (t) − S(t) (30)

ha un andamento erratico, suscettibile di ulteriore analisi. Si può general-


mente ipotizzare che la componente residua r(t) sia una sequenza stazionaria
secondo le statistiche del secondo ordine (sequenza debolmente stazionaria)
• la sequenza ha valor medio costante E[r(t)] = cost., nel nostro caso
pari a 0;

• la sequenza ha funzione di covarianza stazionaria

φ(t + h, t) = E[r(t + h)r(t)] = γ(h), ∀t, h

La seconda relazione indica che la correlazione tra due campioni qualunque


della sequenza dipende non esplicitamente dagli istanti di tempo in cui sono
presi, ma solo dalla differenza dei due istanti di tempo. Questo peraltro
indica che la sequenza ha varianza costante γ(0) = E[r(t)2 ] = σ 2 . Per questo
tipo di sequenze l’informazione è contenuta nella correlazione seriale dei suoi
campioni: in altre parole è in genere possibile esprimere il generico valore r(t)
in funzione dei valori passati r(t − 1), r(t − 2), . . . fino ad un certo ritardo m

r(t) = f (r(t − 1), . . . , r(t − m)) + (t) (31)


31

con la funzione f (·) che non dipende esplicitamente dal tempo. Il termine
r̂(t) = f (r(t − 1), . . . , r(t − m)) prende il nome di predizione ad un passo di
r(t), e quindi (t) è l’errore di predizione r(t) − r̂(t). Ogni trasformazione dei
dati precedenti costituisce una predizione di r(t) cui, dipendentemente dalla
forma di f (·) e dall’ordine m, corrisponderà un errore di predizione diffe-
rente. La predizione migliore si ha quando essa cattura tutta l’informazione
contenuta nei campioni precedenti r(t−1), r(t−2), . . . e determina un errore
(t) privo di informazione. Una sequenza è priva di informazione quando i
suoi campioni sono tutti tra loro indipendenti, per cui nessun insieme di essi
può fornire informazione circa nessun’altro campione. Tali sequenze sono
indicate come sequenze i.i.d (independent identically distributed) o sequenze
di rumore bianco. La predizione ottima è quindi quella per cui l’errore di
predizione (t) è una sequenza i.i.d..
L’espressione della predizione ottima può essere ottenuta in vari modi.
Analizzeremo i modelli che si incontrano più frequentemente in pratica.

Modello AR(n)
Viene detto modello autoregressivo in quanto la predizione è ottenuta come
media pesata dei campioni passati della serie fino ad un ritardo pari ad n,
che definisce l’ordine del modello

r(t) = a1 r(t − 1) + a2 r(t − 2) + . . . + an r(t − n) + (t) (32)


Si tratta quindi di determinare l’ordine n della regressione ed il valore dei
parametri a1 , . . . , an per cui l’errore (t) risulti i.i.d.. Fissato l’ordine n, il
valore dei parametri del modello si ottiene risolvendo il seguente programma
di stima dei minimi quadrati
" N #
X 2
{â1 , . . . , ân } = argmin r(t + j + n) − `(t + j + n)θ , (33)
j=1

con θ = [a1 a2 . . . an ]T e `(t) = [r(t − 1)r(t − 2) . . . r(t − n)]. L’identificazione


del modello AR(n) viene quindi effettuata per iterazione, partendo ad esem-
pio con n = 1, si calcolano i parametri del modello risolvendo il programma
(33), si calcola l’errore di predizione e si effettua un test di bianchezza. Se
il test fallisce si incrementa l’ordine n e si ricomincia. Man mano che au-
mentiamo la complessità del modello, controlliamo con il criterio di Akaike
se non si sia raggiunta o meno la complessità ottima: se questo succede, ma
l’errore del modello non soddisfa ancora il test di bianchezza, allora vuol dire
che la sequenza in esame non è descrivibile mediante un modello AR(n). La
32

conclusione è la stessa anche se ci si vede costretti ad aumentare molto l’or-


dine del modello, cioè anche se non ri raggiunge la complessità ottima entro
un numero limitato di valori di n.

Modello ARMA(n,p)
In questo modello si ha una componente autoregressiva di ordine n, come nel
caso precedente, ma l’errore di modello è espresso come una media mobile di
p valori di una sequenza i.i.d.

r(t) = a1 r(t−1)+a2 r(t−2)+, . . . , +an r(t−n)+(t)+b1 (t−1)+. . .+bp (t−p)


(34)
In questo caso il predittore ottimo si ottiene come una funzione f (r(t −
1), . . . , r(t − n), θ), θ = [a1 a2 . . . an b1 b2 . . . bp ]T , lineare nei dati [r(t − 1)r(t −
2) . . . r(t − n)] ma non lineare nei parametri θ. La stima dei parametri in-
cogniti del modello si ottiene quindi risolvendo un problema di ottimo non
lineare con vincoli
" N #
X 2
θ̂ = min r(t + j + n) − f (r(t + j + n − 1), . . . , r(t + j), θ) , (35)
θ∈D
j=1

dove l’iniseme ammissibile è definito come i valori di b1 b2 . . . bp per cui il


polinomio z p + b1 z p−1 + . . . + bp ha tutte radici interne al cerchio di raggio
unitario. Esistono vari applicativi in grado di risolvere il programma (35) con
opportuni algoritmi. Per cui l’identificazione procede in modo iterativo come
per i modelli AR(n), tenendo conto che la complessit del modello in questo
caso è pari a n + p, e l’aggiornamento del modello si ottiene aumentando
l’ordine della parte autoregressiva e/o l’ordine della parte di media mobile.
Il procedimento termina nel momento in cui l’errore di predizione (t) =
r(t) − f (r(t − 1), . . . , r(t − n), θ̂) soddisfa il test di bianchezza. Come nel caso
precedente, qualora si raggiunga la complessità massima secondo Akaike ed
il test di bianchezza non sia ancora soddisfatto, si deve ritenere che anche la
classe di modelli ARMA(n,p) non sia adatta a rappresentare la componente
residua in esame.

Le classi di modelli adottate per sequenze debolmente stazionarie, sono


casi particolari della famiglia di modelli Box-Jenkins. Esistono poi altre
famiglie in grado di descrivere altre cause di non stazionarietà della sequenza,
oltre al trend ed alla componente stagionale, che consiste ad esempio nel
33

fenomeno del volatility clustering, tipico delle sequenze dei returns di serie
finanziarie: nella sequenza si individuano sottosequenze (cluster) in cui la
varianza è costante, ma varia molto da cluster a cluster. Questi sono i modelli
ARCH(n) (autoregressive conditionally heteroschedastic)

r(t) =µ + σ(t) (t)


σ(t)2 =α0 + α1 (t − 1)2 + . . . + αn (t − n)2

ed i modelli GARCH(n,p) (generalized autoregressive conditional heteroske-


dastic)

r(t) =µ + σ(t) (t)


σ(t)2 =α0 + α1 (t − 1)2 + . . . + αn (t − n)2
+ β1 σ(t − 1)2 + . . . + βp σ(t − p)2

L’identificazione di questi tipi di modelli comporta la soluzione di un pro-


blema di ottimizzazione non lineare vincolato. Algoritmi adatti alla soluzione
del problema sono disponibili negli applicativi di largo uso come Matlab, R2 ,
Eviews, SAS, SPSS, ...

Analizziamo ora la componente residua (30) dell’analisi del prezzo delle


banane. Iniziamo con modellare r(t) come una sequenza AR(n) con ordine
n = 1, 2, . . . ed applichiamo la procedura iterativa di identificazione di cui si
discusso nel relativo paragrafo. Risolvendo il problema (33) si ottiene

n =1, a1 = 0.8266, F P E = 0.21848


n =2 a1 = 1.076, a2 = −0.302, F P E = 0.205444
n =3 a1 = 1.07, a2 = −0.2804, a3 = −0.02011, F P E = 0.212812

Come si nota nel passaggio da n = 1 a n = 2 il valore di FPE (Final


Prediction Error del criterio di Akaike) diminuisce, indicando quindi che il
modello di ordine 2 è migliore di quello di ordine 1. Tuttavia quando si passa
al modello di ordine 3, il valore di FPE aumenta, indicando quindi che n = 2
fornisce il modello con la complessità migliore. A questo punto eseguiamo il
test di bianchezza di Ljung-Box sulla sequenza di errore

(t) = r(t) − 1.076r(t − 1) + 0.302r(t − 2)

per ritardi pari a 2, 3, 4 e 5. Si ottiene che l’ipotesi nulla che la sequenza


di errore (t) non abbia correlazione seriale, sia quindi priva di informazione,
34

deve essere accettata per tutti e quattro i valori del ritardo. L’errore quindi
è una sequnza i.i.d. per cui la componente residua r(t) ha una struttura
autoregresiva di ordine 2. La Figura 26 mostra infine tutte le componenti
dell’analisi additiva effettuata.

prezzi delle banane componente stagionale S(t)


10 6
prezzi S(t)
trend c(t)
8 4

6 2

4 0

2 −2
0 20 40 60 80 0 20 40 60 80

AR(2) della componente residua r(t)


1.076 r(t−1)− 0.302 r(t−2) errore ε(t)
0 2
AR(2)
−2 r(t) 1
4
0
2

−1
0

−2 −2
0 20 40 60 80 0 20 40 60 80

Figura 26: serie dei prezzi e trend (polinomio di secondo ordine), componen-
te stagionale, componente residua ed errore del modello AR(2) della componente
residua
Values of the Normal distribution Values of the Normal distribution

area from - to -z and z to area from -z to z z

0.001 0.999 3.291

0.005 0.995 2.807

0.01 0.99 2.576

0.05 0.95 1.960

0.10 0.90 1.645

0.20 0.80 1.282

0.50 0.50 0.675

area from z to area from - to z z

0.001 0.999 3.090

0.005 0.995 2.576

0.01 0.99 2.326

0.05 0.95 1.645

0.10 0.90 1.282

0.20 0.80 0.842

0.50 0.50 0.000