Professional Documents
Culture Documents
Sommario
Introduzione al corso ......................................................................................................................................... 5
I modelli ......................................................................................................................................................... 5
Lidentificazione e i problemi che vogliamo risolvere ................................................................................... 5
Modelli di stato e modelli di ingresso/uscita ................................................................................................ 6
Modellistica, identificazione e predizione ..................................................................................................... 6
Richiami su variabili casuali, vettori casuali e processi casuali...................................................................... 7
Introduzione alla predizione: processi AR, MA e ARMA ................................................................................. 13
Il problema della predizione ........................................................................................................................ 13
Simbologia ................................................................................................................................................... 13
Il predittore lineare a memoria finita .......................................................................................................... 13
Problemi nella realizzazione del predittore lineare .................................................................................... 14
Lerrore di predizione .................................................................................................................................. 14
Il rumore bianco .......................................................................................................................................... 15
Descrizione del segnale come uscita di un sistema lineare......................................................................... 15
Processi MA ................................................................................................................................................. 16
Processi AR .................................................................................................................................................. 18
Processi ARMA............................................................................................................................................. 22
Spettro ......................................................................................................................................................... 24
Rappresentazioni di un processo stazionario .............................................................................................. 26
Fattorizzazione spettrale canonica .............................................................................................................. 28
La predizione ................................................................................................................................................... 31
Il problema della predizione ........................................................................................................................ 31
Ipotesi di misurabilit dellingresso ............................................................................................................. 32
Predizione a partire dalle misurazioni di
................................................................................................. 35
Pag. 4
Introduzione al corso
I modelli
I modelli sono strumenti comunemente adottati per la descrizione di sistemi e fenomeni naturali.
Essi possono essere di varia natura. Una delle tipologie di modelli quella dei modelli deterministici, nei
quali si assume in sostanza che il futuro sia gi scritto, ovvero possa essere determinato in maniera
esatta a partire dai dati relativi al presente o al passato. Tuttavia il mondo reale governato
dallincertezza, e ci fa s che questi modelli risultino essere in sostanza sbagliati. A tale proposito nota la
citazione secondo la quale tutti i modelli sono sbagliati, ma alcuni sono utili.
Allinterno del nostro corso adotteremo il punto di vista secondo il quale le risposte alle domande relative
ai sistemi sono fornite dai dati, che sono in sostanza dei fenomeni visibili complessi.
Pag. 5
Dove:
Pag. 6
di un esperimento
Gli unici concetti di interesse nel nostro corso tra quelli legati alle variabili casuali sono i seguenti:
Media
La media di una variabile casuale sempre un numero reale, che viene indicato con:
= = =
Varianza
La varianza di una variabile casuale sempre un numero reale non negativo. La varianza cos
definita:
=
=
=
= !!
Deviazione standard
La deviazione standard di una variabile casuale sempre un numero reale non negativo, che
rappresenta la radice quadrata della varianza:
Varianza incrociata
Date due variabili casuali
"#
=$
=$
!!
% =
% %
Si noti che % = % e che %% la deviazione standard di % (come ovvio anche dalle notazioni usate).
Propriet delle variabili casuali
1. Se la distribuzione di probabilit della variabile casuale gaussiana, allora con una probabilit del
95%, il valore di appartiene allintervallo:
& 2 "# ; + 2 "# *
2. La media un operatore lineare, ovvero se sono date le variabili casuali % e , ed definita una terza
variabile casuale = + % + , , allora si ha:
=+
= + %+,
% +,
Vettore casuale (o aleatorio, o stocastico)
Un vettore casuale un insieme di variabili casuali. Per comodit, il vettore casuale viene sempre
organizzato come un vettore colonna. Quindi, date le variabili aleatorie % e , il vettore:
e
=- .
un vettore casuale. Anche in questo caso sono definiti i concetti di valor medio e di varianza:
Valor medio
Il valor medio di un vettore casule il vettore dei valori medie delle variabili casuali del vettore dato:
=/
0=-
Varianza
La varianza di un vettore casuale di dimensione 1 una matrice 1 1 cos costruita (1 = 2):
=/
%%
In altri termini, l3-esimo elemento della diagonale principale la varianza dell3-esima componente del
vettore casuale dato, mentre per le restanti posizioni, detta 3, 5 la posizione dellelemento
considerato, il corrispondente valore la varianza incrociata tra la componente 3-esima e la
componente 5-esima del vettore casuale di partenza.
Pag. 7
% >%%
>% +
>% +
>
= ?
@,AB%
@ A >@A
Condizioni pratiche
Pag. 8
= 0.
Per verificare che la matrice di varianza semidefinita positiva, possiamo osservare che:
=
=
Infatti:
% %
% %
% %
= = J-
. % %
K= /
% %
Possiamo ora portare loperatore di media allinterno dei singoli elementi della matrice, perci abbiamo:
& 1 1 2*
1 1
2 2
12
= =J
K = / 11
0=
2
21
22
2
2
1
1
2
2
Di conseguenza, possiamo cos calcolarla forma quadratica:
=
= =
= =
= =
= =
Siccome L
E siccome
-L
ML
-L
M.
M .
$ %% $
In virt del risultato appena ottenuto a partire dal fatto che la matrice di varianza semidefinita positiva,
possiamo concludere che:
|O| 1
In particolare:
Se O = 0, allora diciamo che % e sono incorrelati e scriviamo % .
Se O = 1, allora diciamo che % e sono massimamente correlati.
= + % . Proviamo a calcolare il coefficiente di
Esempio:
Consideriamo % ~ 0, %% e poniamo
correlazione tra % e . Avremo:
=
=
+ % =+
% = + %%
Inoltre:
=
+ % %
% =
% %
% % + %+ % =
Perci:
= + %%
% =+
% %
A questo punto, possiamo calcolare il coefficiente di correlazione:
1 V + < 0
+ %%
+
%
O=
=
=
=U 0
V + = 0X
|+|
$ %% $
$+
$ %%
%%
+1 V + > 0
Si noti che a rigore se + = 0,. O dovrebbe essere indefinito, ma possiamo porlo nullo
perch intuitivamente in tal caso sarebbe sempre nullo, indipendentemente dai valori di
% , perci le due variabili aleatorie sono di fatto incorrelate.
Pag. 9
t
Stagionale
Varianza
La varianza di un processo casuale :
t
Un trend (o linea di tendenza)
-L
M .=
t
Fluttuante
M*
% ML
Si nota che, nel caso in cui si abbia % = = , la funzione di covarianza coincide con la varianza:
Y , =
Pag. 10
= Y %,
=Y Z
% =
% %
%
La precedente disuguaglianza pu allora essere cos riscritta:
Y Z
[
[ 1 | Y Z |
=Y 0
3. La funzione di covarianza pari:
Y Z = Y Z
Funzione di covarianza normalizzata
Talvolta viene introdotta la funzione di covarianza normalizzata, che cos definita:
Y Z
O Z =
Y 0
In questo modo si ottiene una funzione sempre compresa tra 1 ed 1.
Spettro di un processo stazionario
Dato un processo stazionario con funzione di covarianza Y Z , possiamo calcolare la trasformata di Fourier
di Y Z , ottenendo:
%
bc
^ = ? Y Z V _A`a , ^
aB_c
unitario. Spesso si rappresenta il grafico dello spettro per pulsazioni tra d e d, corrispondenti a
frequenze tra 0,5 e 0,5; questultimo valore anche la massima frequenza che si pu ottenere in
campo discreto: il segnale periodico che varia pi rapidamente infatti quello fluttuante tra due valori.
Essendo pari, spesso sufficiente rappresentare lo spettro tra 0 e d.
4. ^ 0.
Pag. 11
La figura seguente mostra un esempio di spettro, mettendo in evidenza le propriet appena elencate:
^
Antitrasformata di Fourier
Se calcoliamo lantitrasformata di Fourier dello spettro di un processo casuale otteniamo nuovamente la
funzione di covarianza del processo stesso:
1 bi
g ^ V A`a h^ , Z 31 Vjk
Y Z =
2d _i
Si noti che le definizioni di trasformata ed antitrasformata vengono date in modi diversi tra loro: nel caso
pi generale, esse vengono definite come:
bc
^ =+ ? Y Z V
aB_c
bi
Y Z = ,g
_A`a
_i
+, =
1
2d
+=1
,=
^ V A`a h^
1
2d
Pag. 12
1
E di voler calcolare lincognita:
Il problema pu essere rappresentato come mostrato nella figura seguente:
?
1
Supponiamo inoltre di non essere a conoscenza di come i dati siano stati generati.
Simbologia
Il dato incognito
, come gi abbiamo affermato, rappresenta il valore che assumer allistante .
Tuttavia, dobbiamo distinguere tra il valore che effettivamente assumer in tale istante e quello che si
stima possa assumere; di conseguenza, indichiamo la stima di
con il simbolo m .
Tale simbologia risulta per non sufficientemente chiara, perci si utilizza la notazione seguente:
m | 1
Che indica che stimiamo il valore di allistante , utilizzando tutti i dati misurati fino allistante 1.
Naturalmente, saranno lecite anche scritture come le seguenti (il cui significato risulta ovvio):
m | 2
m + 1| 1
Per prima cosa, proviamo a costruire un predittore lineare, ovvero un predittore che calcoli m | 1
come combinazione lineare dei dati a disposizione. Possiamo scegliere di realizzare:
Un predittore lineare a memoria infinita
Ovvero un predittore nel quale m | 1 viene calcolato come combinazione di tutti i valori di a
partire da un certo istante iniziale 1, che listante relativamente al quale si possiede il primo dato:
m | 1 = +%
1 ++
1 + + +o_% 1
Come dice il nome stesso, il predittore corrispondente allequazione appena riportata necessita per di
una memoria infinita, perch indipendentemente dal valore di , bisogna conservare tutti i dati a
partire dallistante iniziale 1.
Un predittore lineare a memoria finita
Se vogliamo realizzare invece un predittore con memoria finita, che abbia bisogno di memorizzare
solamente gli ultimi 1 valori di , allora dobbiamo realizzare un predittore del tipo:
1 ++
2 + + +;
1
m | 1 = +%
Pag. 13
Lerrore di predizione
Introduzione
Naturalmente, una volta individuato il predittore, ovvero dopo aver fissato tutti i parametri che compaiono
nellequazione:
1 ++
2 + + +;
1
m | 1 = +%
il predittore stesso potr essere utilizzato anche sul passato. In altri termini, possiamo calcolare:
m q|q 1 , rVj q = 1, 2,
Per ognuno dei valori considerati possiamo calcolare lerrore di predizione, che di fatto lerrore di stima.
Definizione
Lerrore di stima definito come la differenza tra il valore vero di una grandezza e il suo valore stimato m:
s
=
m | 1
Naturalmente, siccome e m variano nel tempo, anche s varier nel tempo. In particolare, siccome
consideriamo come un processo casuale, anche s sar un processo casuale.
Quali caratteristiche deve avere lerrore di predizione perch la stima sia considerata buona?
Naturalmente, la situazione ideale sarebbe quella nella quale lerrore di predizione costantemente nullo;
ci tuttavia impossibile nella realt dei fatti. Ci accontentiamo perci di un risultato molto meno
vincolante. A tale scopo, consideriamo gli andamenti dellerrore di predizione mostrati in figura:
s
1. La figura riportata a sinistra mostra chiaramente un errore di predizione con media positiva. Di
conseguenza ci rendiamo conto molto facilmente del fatto che possiamo realizzare un predittore
migliore di quello in analisi, tenendo conto semplicemente di questo dato evidente. Possiamo quindi
concludere che uno dei requisiti dellerrore di predizione che esso abbia media nulla.
2. La figura a sinistra mostra invece un errore con media nulla (ipotizziamo che sia cos), ma nonostante
questo possiamo osservare che lerrore cambia segno ad ogni istante. Anche in questo caso quindi
siamo in grado di ottenere delle informazioni pi dettagliate rispetto a quelle che ci vengono
direttamente fornite (ad ogni istante sappiamo dire se la predizione viene fornita per eccesso o per
difetto) e quindi anche in questo caso possiamo ottenere un predittore migliore. Possiamo allora
concludere che il secondo requisito necessario che il predittore non abbia una dinamica propria,
ovvero una propria logica di funzionamento.
Pi rigorosamente, questi concetti vengono formalizzati affermando che lerrore di predizione un rumore
bianco (WN, White Noise):
s ~ tu 0,
Dove il primo dei due parametri rappresenta la media (cio 0), mentre la varianza di s .
Pag. 14
Il rumore bianco
Pi formalmente, un rumore bianco, spesso indicato con i simbolo tu, v oppure w, un processo casuale
stazionario con valor medio nullo e funzione di covarianza:
Y Z =x
Y Z
V Z 0X
V Z = 0
Il fatto che la funzione di covarianza sia nulla ovunque tranne che nel punto zero significa di fatto che la
conoscenza del passato non serve a prevedere il futuro: non c alcun legame tra ci che accade in un
istante e ci che accade in un altro.
Il calcolo della trasformata di Fourier molto semplice, perci otteniamo in maniera molto banale che lo
spettro di un rumore bianco costante e pari a :
^
^ =
d
Immaginiamo ora che effettivamente s sia un rumore bianco. Per la definizione di errore di predizione:
s
=
m | 1
Modificando poi tale equazione con banali passaggi algebrici, otteniamo:
= m | 1 +s
A questo punto, sostituendo a m | 1 la formula nota per un predittore lineare a memoria finita:
= +%
1 ++
2 + + +;
1 +s
Abbiamo cos ottenuto unequazione alle differenze avente come incognita il processo casuale , che
rappresenta la grandezza sulla quale stiamo cercando di eseguire la predizione. Nellequazione compare
inoltre lerrore di predizione s . Per quanto noto dal corso di Automatica, questo significa che la
grandezza pu essere vista come luscita di un sistema lineare avente come ingresso s :
s
Lequazione alle differenze precedente quindi lequazione che descrive il comportamento del sistema
rappresentato nella figura sopra riportata. A partire da tale equazione, possiamo ricavare la funzione di
trasferimento
, semplicemente introducendo loperatore di ritardo unitario , e ricordando che _%
loperatore di anticipo unitario. Abbiamo infatti:
= +% _%
++ _
+ + +; _;
+s
Da cui si ottiene facilmente:
1 +% _% + _ +; _; = s
E quindi:
;
1
=
= ;
t
=
1 +% _% + _ +; _;
+% ;_% + ;_ +;
s
Pag. 15
Possiamo ora calcolare gli zeri e i poli della FdT cos ottenuta:
Gli zeri si ottengono annullando il numeratore, e perci abbiamo 1 zeri tutti nellorigine:
= 0 1 ky V
Gli zeri vengono rappresentati nel piano dei numeri complessi con il simbolo .
I poli si ottengono annullando il denominatore, e perci avremo 1 poli. A priori, non possiamo sapere in
quale regione del piano dei numeri complessi si troveranno i poli della funzione di trasferimento
precedentemente riportata. Il simbolo usato per indicare i poli nel piano complesso .
In conclusione, per trovare un buon predittore lineare, dobbiamo cercare di descrivere il segnale esatto
come luscita di un sistema avente una funzione di trasferimento del tipo:
t
+% ;_% + ;_ +;
e che sia alimentato da un rumore bianco. Vediamo ora che caratteristiche avr il processo duscita
relazione alle caratteristiche del processo dingresso.
;
in
Processi MA
Il processo MA(1)
Sia dato un sistema dinamico lineare come quello mostrato nella figura seguente:
v
Supponiamo inoltre che il segnale dingresso v sia un rumore bianco di media v e varianza :
v~tu v ,
Supponiamo per praticit che si abbia v = 0 (ma tale ipotesi non in realt necessaria). Analizziamo il
sistema nel caso in cui il suo comportamento imponga la validit della seguente equazione:
= E{ v + E% v 1 , E{ , E%
Allora:
= E{ v , perci:
1. Se E% = 0, abbiamo semplicemente
a)
= E{ v
= E{ v
=0
b)
>j
c) |k
%,
2. Se
3. Se
=
=
%,
-L
= :Y ,
= E{
M .=
+ E21
1: Y , + 1 = E{ E%
% 2: Y , + 2 = 0
%
-LE{ v
Pag. 16
M . = E{ -Lv
M . = E{
=
=
%
V % X
= E{ v % v
= E{ Y % ,
=}
E{
V % =
Siccome valgono tutte le relative propriet, il segnale di uscita ancora un processo stazionario, ed in
particolare si tratta ancora di un rumore bianco.
2. Se E% 0 e E{ qualsiasi, allora:
a)
= E{ v + E% v 1 = E{ v
+ E% v 1 = 0
b) >j
=
= E{ v
+ E% v
1 + 2E{ E% v v 1 =
= E{ v
+ E% v
1 + 2E{ E% v v 1
Ricordando la definizione di covarianza:
>j
= E{ + E% + Y , 1 = E{ + E%
c) Y % ,
=
=
&LE
+ E% v 1 M* =
%
{ v % + E% v % 1 MLE{ v
= E{ v % v
+ E{ E% v % v 1 + E{ E% v % 1 v
+ E% v % 1 v 1
Abbiamo ora vari casi:
1. Se
=Y
In sostanza quindi, nel caso in analisi, si ottiene ancora un processo stazionario, ma in questo caso non
si tratta di un rumore bianco, perch la covarianza non si annulla nei valori 1. Diciamo in questi casi
che il processo in analisi un rumore colorato.
Y Z =~
E{ + E%
E{ E%
0
V Z = 0
V Z = 1
V Z = q, q > 1
E{ E%
Y Z
E{ + E%
E{ E%
Un processo di questo tipo noto con il nome di processo MA(1), dove lacronimo MA sta per Moving
Average, ovvero media mobile. Il nome giustificato dal fatto che in sostanza il processo in uscita
viene costruito calcolando la media dei 2 precedenti valori, sempre utilizzando gli stessi 2 coefficienti.
Il caso generale: processo MA(n)
Procedendo in maniera analoga, il processo MA(n), ottenuto con un sistema del tipo:
= E{ v + E% v 1 + + E; v 1 , E{ , E% , , E;
Sar ancora un processo casuale stazionario, con:
=0
= E{ + E% + + E;
e sar nuovamente un rumore colorato. In particolare, la sua funzione di covarianza sar del tipo:
Y 0 = E{ + E% + + E;
Y 1 = E{ E% + E% E + + E;_% E;
Y 2 = E{ E + E% E + + E;_ E;
Y 1 = E{ E;
Y q = 0, q > 1
Possiamo ora provare a calcolare la funzione di trasferimento di un generico processo MA(n):
= E{ v + E% _% v + + E; _; v
= E{ + E% _% + + E; _; v
E{ ; + E% ;_% + + E;
=
= E{ + E% _% + + E; _; =
;
v
Osserviamo che si tratta di una funzione di trasferimento lineare, perci potremo calcolarne zeri e poli; gli
1 poli saranno tutti coincidenti e posizionati nellorigine, mentre la posizione degli zeri dipende
chiaramente dai valori che si attribuiscono ai vari coefficienti E{ , E% , , E; .
Il processo MA()
Consideriamo ora ci che accade se, anzich considerare un segnale che sia dato dalla media pesata tra i
valori assunti dallingresso v negli ultimi 1 istanti (dove 1 un numero finito), consideriamo il caso in cui il
segnale duscita sia la combinazione lineare di v valutato in un numero infinito di istanti del passato:
= E{ v + E% v 1 + + E;_% v 1 + E; v 1 + E;b% v 1 1 +
Avremo allora:
Y 0 = E{ + E% + + E; +
Allora, affinch Y 0 sia una quantit finita, necessario che sia finita la serie:
bc
E{ + E% + = ? E@
@B{
In tale ipotesi, Y sar finita in ogni suo punto: sappiamo infatti che:
|Y Z | Y 0
Perci sufficiente verificare che la covarianza sia finita per Z = 0.
Pag. 17
Processi AR
Il processo AR(n)
Un processo AR (autoregressivo) di ordine 1, indicato con AR(1), viene ottenuto come uscita di un sistema
dinamico lineare avente come ingresso un rumore bianco v:
t
bc
@B{
@B{
bc
1
1 >%
? E@ = ? >% @
Quella cos ottenuta una serie geometrica di ragione >% , perci noto dallAnalisi Matematica che la
serie convergente se:
>% < 1
O, equivalentemente:
|>% | < 1
Sotto tale ipotesi, la somma della serie
? >% @ =
@B{
Pag. 18
Possiamo cos concludere che, se |>% | < 1, allora il processo AR(1) equivalente ad un processo MA()
ben definito, e perci stazionario, perch abbiamo gi dimostrato che tutti i processi MA sono stazionari.
La varianza del processo AR(1) pu essere calcolata utilizzando la formula data per i processi MA():
>j
= Y 0 = E{ + E% + + E; +
bc
= ? >% @
bc
= L>% +
>%
= >% +
>%
@B{
1 >%
bc
>%
+ M
= >% ? >%
= ? >% @
= >% Y 0
>%
= >% ? >%
= ? >% @
= >% Y 0
Y Z = >%a Y 0 =
@B{
bc
@B{
@
@
@B{
bc
@B{
>a
1 >% %
Da un punto di vista grafico allora la funzione di covarianza sar rappresentata da un esponenziale
negativo simmetrico a tempo discreto:
0 < >% < 1
Y Z
Come mostra la figura a destra, nel caso >% < 0, il segnale generato oscilla visivamente in modo molto pi
significativo. Con il termine segnale generato si intende quello che, in maniera pi rigorosa, dovrebbe
essere chiamato realizzazione del processo, ovvero linsieme dei valori che il processo realmente assume se
lo si osserva. In sostanza, considerare una realizzazione di un processo significa fissare un certo valore di ,
che ricordiamo essere la variabile che indica lesito dellesperimento casuale:
dovrebbe infatti essere
espresso come
, . Diciamo allora che:
, , ovvero una variabile casuale.
Se fissiamo il valore di = , otteniamo
Se fissiamo il valore si = , otteniamo
, , ovvero una realizzazione del processo.
Pag. 19
>%
>%
>%
>%
E cos via. Al primo passo otteniamo allora:
>%
1 + >% _%
>% _%
>% _%
=1+
>%
>
>% _%
>%
Cio, ad ogni passo indichiamo il risultato della divisione, cui si somma il resto diviso per il denominatore
della funzione di trasferimento iniziale. Il procedimento viene iterato allinfinito, e si ottiene, se |>% | < 1:
t
= 1 + >% _% + >% _ +
Che equivale alla funzione di trasferimento di un processo MA(), a patto di porre E@ = >%@ :
t
= E{ + E% _% + E _ +
Analisi del processo AR(1) terzo metodo: le equazioni di Yule-Walker
Un terzo metodo di analisi quello che prevede di ricorrere alluso delle equazioni di Yule-Walker:
1. Per prima cosa, calcoliamo la varianza Y 0 di .
Y 0 = >j
=
Siccome si ha:
v
=0
Allora avremo, per ogni valore di :
=0
E quindi possiamo scrivere:
t
Y 0 =
-L
M .=
>%
= 1 + >%
1 +v
_%
>%
1 +v
+ 2>%
1 v
= >%
1 + v
+ 2>%
1 v
= >% >j
1 + + 2>%
1 v
Dove
1 v
la correlazione tra
1 e v . Come evidente dallequazione che
descrive
,
dipende da
1 e da v ; a sua volta,
1 dipende da
2 ev
1 , e cos via. Possiamo allora affermare che
dipende dal passato di v fino allistante , mentre
1 dipende dal passato di v fino a 1.
Se per v un rumore bianco, allora v
incorrelato con tutti i valori precedenti, e perci anche
con
1 . Ne ricaviamo allora:
Y 0 = >% >j
1 +
Inoltre, siccome un processo stazionario:
>j
1 = >j
=Y 0
Perci:
Y 0 = >% Y 0 +
Y 0 =
Pag. 20
1 >%
Y 1 =
1 =
+1
Utilizziamo, tra le due precedenti definizioni, la prima:
Y 1 =
1 = &L>%
1 +v M
1 *=
= >%
1 +v
1 = >%
1 + v
1 = >% Y 0
3. Calcoliamo ora il valore Y 2 :
Y 2 =
2 =
+2
Utilizziamo ancora, tra le due precedenti definizioni, la prima:
Y 2 =
2 = &L>%
1 +v M
2 *=
1
2 +v
2 = >% >%
1
2 + v
2
= >%
= >% >%
1
2 = >% >%
1 = >% Y 1 = >% Y 0
Procedendo sempre nello stesso modo, si ottengono le equazioni di Yule e Walker:
Y 0 =
Y Z = >% Y Z 1 ,
1 >%
Z: |Z| 1
Y 1
Y 1
Y 0 =
V = Y 0 1 >% = 1
Y 0
~
1 >% X >% =
Y 0
Y 0
Y 1 = >% Y 0
Quello appena descritto un primo esempio di procedimento di identificazione. Immaginiamo ad esempio
di avere una certa serie di dati, e supponiamo di volerla modellare come luscita di un sistema dinamico
lineare del tipo AR(1): dobbiamo naturalmente stimare i valori di >% e di . A tale scopo, dalla serie
temporale stimiamo direttamente i valori di Y 0 e Y 1 e poi, utilizzando le relazioni appena individuate,
possiamo calcolare i parametri ignoti.
Equazioni di Yule-Walker per un generico processo AR(n)
Dato un generico processo AR(n):
= >%
1 +>
2 + + >;
1 +v
Possiamo generalizzare il procedimento delle equazioni di Yule-Walker, in modo da individuare la funzione
di correlazione Y del processo stesso. Infatti possiamo:
1. Calcolare i primi 1 valori di Y mediante la risoluzione di un sistema di 1 equazioni in 1 incognite. Ad
esempio, se 1 = 2, calcoliamo:
Y 0 =
-L>%
1 +>
2 +v
M . = >%
1 +>
2 +
+ v
+ 2>% >
1
2 + 2>%
1 v
+ 2>
2 v
=
= >% Y 0 + > Y 0 +
v
+ 2>% > Y 1 = >% Y 0 + > Y 0 + + 2>% > Y 1
Y 1 =
1 = &L>%
1 +>
2 +v M
1 *=
= >%
1 +>
2
1 + v
1 = >% Y 0 + > Y 1
Si ottiene allora il sistema:
Y 0 = >% Y 0 + > Y 0 + + 2>% > Y 1 X
}
Y 1 = >% Y 0 + > Y 1
Che, una volta risolto, ci permette di conoscere Y 0 e Y 1 .
2. Calcolare poi i restanti valori mediante la formula:
Y Z = >% Y Z 1 + > Y Z 2 + + >; Y Z 1 , Z: |Y| 1
Pag. 21
Processi ARMA
Il processo ,
I processi
1 , 1 sono una famiglia di processi, che contiene tra laltro anche tutti i processi AR e
tutti i processi MA. Se consideriamo ancora il processo come uscita di un sistema dinamico lineare avente
come ingresso un rumore bianco v~ 0,
:
v
(parte AR)
(parte MA)
Come mette in evidenza questa espressione, si hanno sempre 1 zeri e 1 poli, dove:
1 = max 1 , 1
evidente inoltre che
I coefficienti E@ determinano gli zeri della funzione di trasferimento;
I poli sono determinati dai coefficienti >@ ;
La differenza 1 1 determina il numero di zeri nellorigine (o, se negativa, il numero di poli
nellorigine).
Se 1 = 0, allora il processo del tipo
1 , e quindi ha 1 zeri nellorigine (come si ricava anche
dalla precedente osservazione).
Pag. 22
E{
>%
+ E%
;_%
;_%
>
;_;
+ + E;
;_
;_;
>;
non , nel caso generale, un processo stazionario. A tal proposito, opportuno innanzitutto distinguere tra
il concetto di modello ARMA, che un sistema descritto dallequazione alle differenze del tipo:
_;
= E{ + E% _% + + E; _; v
L1 >% _% > _ >; M
e il concetto di processo ARMA, ovvero il processo generato dal modello ARMA, solo nel caso in cui il
processo generato sia stazionario.
Naturalmente, vogliamo ora determinare quali sono le condizioni necessarie affinch il processo generato
dal modello ARMA con un rumore bianco al proprio ingresso sia effettivamente stazionario.
Per farlo, possiamo osservare che, eseguendo la lunga divisione tra il numeratore ed il denominatore della
t , otteniamo:
_
t
= { + % _% +
+
Dove i coefficienti @ sono dei numeri reali (il cui significato verr specificato in seguito). Avremo allora:
_
=t v
= { + % _% +
+ v
= {v + %v 1 + v 2 +
Lespressione individuata quella di un processo e, come noto, tale processo stazionario se:
bc
?
@B{
< +
< +
Di conseguenza, stabilire la stazionariet equivale a stabilire sotto quali ipotesi tale condizione verificata.
Possiamo ora osservare che, se supponessimo che il segnale di ingresso v
fosse non un rumore bianco,
ma un impulso discreto, ovvero un segnale del tipo:
1
V = 0 X
v
=x
0 >y j3 V1 3
Allora avremmo:
0 = {v 0 = {
1 = %v 0 = %
q = v 0 =
Perci i coefficienti @ non sono altro che i valori della risposta impulsiva del sistema nei vari istanti. Di
conseguenza, individuare la condizione di stazionariet equivale anche ad individuare quali sono le
condizioni sotto le quali la risposta impulsiva del sistema a quadrato sommabile:
bc
?
@B{
Come noto, affinch ci accada, la risposta impulsiva deve tendere a 0 in maniera sufficientemente rapida,
e ci accade quando il sistema stabile.
In conclusione, se il modello ARMA stabile:
1. La somma dei quadrati della risposta impulsiva limitata.
2. Il modello che esprime il modello ARMA dopo la lunga divisione genera un processo
stazionario;
3. Il processo generato dal modello ARMA stazionario, ovvero un processo ARMA.
Inoltre, si ricorda che, come noto dai Fondamenti di Automatica, un sistema dinamico a tempo discreto
stabile se i suoi poli hanno tutti modulo minore di uno. Si osserva perci che la stazionariet del processo
generato dipende solamente dai coefficienti >@ e non dai coefficienti E@ .
Pag. 23
Osservazioni
I processi MA finiti, come gi noto, sono sempre processi stazionari. Infatti, possono essere modellati
come processi ARMA nei quali tutti i coefficienti >@ sono nulli:
= E{ + E% _% + + E; _; v
E quindi gli zeri sono tutti nellorigine:
E{ ; + E% ;_% + + E;
t
=
;
Spettro
Consideriamo ancora una volta il sistema:
v~ 0,
Ipotizzando ora che sia un processo stazionario. Chiamiamo inoltre Y Z la funzione di covarianza. Allora,
lo spettro :
^ = Y Z
bc
= ? Y Z V _A`a
aB_c
= Y 0 + Y 1 LV _A` + V A` M = Y 0 + 2Y 1 cos ^ = E{ + E%
^
Caso E{ E% > 0
+ 2E{ E%
Caso E{ E% < 0
Pag. 24
cos ^
Lo spettro complesso
Introduciamo ora il concetto di spettro immaginario
= Y Z
bc
= ? Y Z
aB_c
_a
Siccome valutare il modulo della funzione di trasferimento al variare di V A` (e quindi su tutti i punti della
circonferenza di raggio unitario) spesso molto complesso, si usa la formula magica per calcolare lo
spettro complesso:
= t t _% v
Nel caso particolare in cui il processo in ingresso un rumore bianco:
= t t _%
Osservazioni
Con riferimento al sistema in figura:
v~ 0,
Pag. 25
= E{ v 1 + E% v 2 =
Avremo allora:
E{ + E%
V Z = 0
Y Z = Y Z = ~ E{ E%
V Z = 1X
0
V |Z| > 1
E inoltre, essendo uguali le funzioni di covarianza, avremo anche:
z = z
Eppure risulta chiaro che le realizzazioni dei due processi saranno diverse. Si dice in questo caso che i due
processi sono indistinguibili, perch hanno la stessa media e la stessa funzione di covarianza.
Si osserva perci che uno stesso processo stazionario ha in realt diverse rappresentazioni dello stesso
tipo.
Cause della molteplicit delle rappresentazioni
Cerchiamo ora di analizzare una ad una tutte le possibili cause di molteplicit delle rappresentazioni di un
processo stazionario:
1. Consideriamo i segnali descritti dai seguenti sistemi:
v~ 0,
Con:
v~L0, M
= Ot
=
O2
1 2
= t t _% 2 = z
O
Di conseguenza, abbiamo cos individuato infinite rappresentazioni alternative dello stesso processo.
Allora:
z =t
z t
z _% 2 = Ot
Ot
Pag. 26
_%
2. Consideriamo ancora i due sistemi rappresentati nelle figure precedenti, ma ipotizziamo in questo
caso di avere:
1
=
t
= ;t ,
11
Avremo allora:
z =t
z t
z _% 2 =
_%
=t
_%
= z
Anche in questo caso quindi abbiamo individuato 1 modelli diversi che generano processi
indistinguibili.
3. Con riferimento alla solita figura, ipotizziamo adesso di avere:
1
++
++
= +2
t
=
t
=
+,
+,
Allora:
1
+
++ ++ 2 1++ + ++ 2
_% 2
=
=
z =t z t z
,
+, 1+,
1+, + +,
+ 1
1
1 1 1
+
1+ ++ +
++ ++
1++ + ++
2
+
2
2
2
_%
z =t
z t
z =
+
=
+
=
= z
,
,
+, 1+,
1+, + +,
1+, + +,
4. Possiamo poi eseguire unoperazione analoga a quella del precedente punto,ma con riferimento al
denominatore:
++
1
++
t
=
=
t
=
1
+
+,
,2
,
Allora:
1
+
++
1++ + ++
+
+
2
2
2
z = t z t z _%
=
=
,
+, 1+,
1+, + +,
z =t
z t
z
_%
1
++ ++ 1
=
1 1 1,
+
+
,
,
2
Osservazione
Si noti che se si costruisce un sistema:
v
1++ +
++ 1
=
1
1
1+ +
+ ,
, ,
,
1++ +
1+, +
++
+,
= z
++
1
++
Allora, ipotizzando che v sia un processo stazionario qualunque (non necessariamente un rumore bianco)
con spettro complesso z , abbiamo:
1
+
1++ + ++
++ ++
! z =
z =
z = + z
11 1
1
1
++ ++
1+++ ++
+
Quindi, a meno di una costante reale, i due spettri sono uguali. Si dice per tale motivo che il filtro cos
costruito un filtro passa tutto.
Con:
Pag. 27
= v
+ E v 1
Al fine di avere le due funzioni di covarianza uguali:
E{ + E%
V Z = 0
1 + E
V Z = 0
X
Y Z = Y Z = ~ E{ E%
Y Z = Y Z = ~ E
V Z = 1
V Z = 1X
0
V |Z| > 1
0
V |Z| > 1
Dovremo avere:
E%
E =
E{ X
~
= E{
2. Numeratore e denominatore devono essere dello stesso grado
Per comprendere limportanza di questa regola, consideriamo il sistema seguente:
_%
Dove:
t
= &t
*
Il sistema quindi, con ingresso un processo stocastico stazionario , ha lo scopo di ricostruire un
rumore bianco s. Come si osserva dalla formula, per fare ci dobbiamo invertire la funzione di
trasferimento t
che ha generato
; se tale operazione consentita e porta ad ottenere un
sistema stabile, allora il filtro ottenuto detto sbiancante. Tale operazione per non sempre
consentita. Ad esempio:
+ 0,5
0,7
t
=
t
=
0,7
+ 0,5
Ma si ottiene cos una funzione con il grado del numeratore maggiore del grado del denominatore, e
quindi si ha in sostanza un sistema nel quale luscita dipende anche dal valore che lingresso assume in
valori futuri. Chiamiamo grado relativo la differenza tra il grado del denominatore e il grado del
numeratore della funzione di trasferimento; sulla base di quanto appena detto, risulta chiaro che il
grado relativo di una funzione di trasferimento deve essere sempre maggiore o uguale a zero.
Possiamo inoltre affermare che il grado relativo un indicatore del ritardo delluscita rispetto
allingresso: se il grado relativo di una funzione di trasferimento 1, significa che lingresso non
influenza immediatamente luscita, ma la influenza solo a partire da 1 istanti di tempo successivi.
Infatti, considerando ancora la funzione di trasferimento t
usata nel precedente esempio, se
calcoliamo la lunga divisione tra numeratore e denominatore, otteniamo:
t
= 0 + 0 _% + 1 _ +
Ed immediato notare che 2 proprio il grado relativo della funzione di trasferimento data.
Pag. 28
=
+ 1 = 2v + 4v 1
= 1
Come abbiamo gi visto per questi due segnali sono indistinguibili, perci possiamo utilizzare la
funzione di trasferimento ottenuta a partire dallespressione di , che :
4 2 +4
= 2v + 4 _% v t
=2+ =
Pag. 29
2. Rendiamo monici i polinomi a numeratore e denominatore. Per farlo, sufficiente eseguire le seguenti
operazioni:
2 +4
+2
t
=
=2
Perci:
v
2 +4
+2
2v
+2
v = 2v~tu 0,4
3. A questo punto, dobbiamo fare in modo che gli zeri e i poli siano interni alla circonferenza di raggio
unitario. Come abbiamo gi visto, basta a tal proposito eseguire la reciprocazione degli zeri e dei poli
non interni. Otteniamo cos:
+ 0.5
t
=
Come abbiamo gi visto in passato, per necessario moltiplicare anche la varianza del processo in
ingresso per una opportuna costante, che pari allo zero reciprocato elevato al quadrato:
v ~tuL0,4 M = tu 0,16
_% 16
t
t
Possiamo in altri termini indicare:
+ 0.5
- =
t
Pag. 30
La predizione
Il problema della predizione
Come abbiamo gi accennato in passato, il problema della predizione consiste nel prevedere il valore che
un certo segnale assumer in un istante futuro, che indichiamo con + j. Supponiamo ora che il segnale
da stimare sia un processo stazionario descritto da un sistema del tipo:
w~tu 0,
Dove:
Da cui ricaviamo:
L1 >%
> ;
_%
_;
>;
_;
2 + + >;
= L1 + E%
1 + w
_%
= 1 + E%
+ + E;
+ E% w
_%
+ + E;
_;
_;
Mw
{,
1 +>
1 + + E; w 1
Sappiamo che, se eseguiamo la lunga divisione tra numeratore e denominatore di t
, otteniamo:
_%
_
+
+
t
= {+ %
Ovvero:
= >%
_%
%,
Dove il valore 1 ottenuto dovuto al fatto che i polinomi sono monici e di ugual grado. Allora, nel caso
particolare, abbiamo ottenuto:
|
_%
t
=1+
=1+
Ovvero, abbiamo ottenuto:
|%
Pag. 31
-% =
t
= >j
{w
+j +
%w
+j1 +
+ j 2 ++
>j
Pag. 32
+2 m
_% w
+1
+ 2|
_%
B{
%
Procedimento pratico
Cerchiamo a questo di vedere come si trova nella pratica la previsione di
+ j = w
+ b% w 1 + = + b% _% +
Perci possiamo vedere la predizione come luscita del sistema:
-
t
w~tu 0,
Dove:
-
= + b% _% + b _ +
t
Ora, ricordando che il risultato della lunga divisione tra numeratore e denominatore di t
ci d come
risultato:
_
t
= { + % _% +
+ + _ + b% __% + b __ +
Quindi, se consideriamo solamente i termini da _ in poi, abbiamo:
_
-
+ b% __% + b __ + = _ t
-
t
1
=
1 > _%
>
Nellipotesi in cui > sia diverso da zero, numeratore e denominatore sono coprimi; inoltre, abbiamo uno
zero nellorigine e un polo in >, che per ipotesi un numero con modulo minore di 1. Infine, i coefficienti
dei termini di grado massimo sono unitari e il denominatore ed il denominatore sono entrambi di grado 1,
perci possiamo concludere che la funzione di trasferimento individuata gi il fattore canonico:
v
=w
t
=t
Per calcolare il predittore ottimo a 1 passo basato su w, calcoliamo allora la lunga divisione:
>
>
1
>
E otteniamo:
>
t
=1+
>
E quindi il predittore ottimo :
>
>
_% -%
t%
=
t
=
>
>
Ovvero:
>
>
m + 1| =
w
=
w
1 > _%
>
Da cui ricaviamo:
m + 1| > _% m + 1| = > w m + 1| = > m | 1 + > w
Lerrore di predizione che commettiamo in questo caso ha una varianza cos calcolabile:
>j m + 1|
+ 1 = >jL { w + 1 M = { >jLw + 1 M = {
Siccome abbiamo trovato mediante la lunga divisione:
{ =1
Possiamo concludere che la varianza dellerrore di predizione :
>j m + 1|
+1 =
=>
1 +v
=>
_%
Pag. 33
+v
Se vogliamo ricavare il predittore ottimo a 2 passi basato su w, dobbiamo eseguire un ulteriore passo
della lunga divisione:
>
>
1 + > _%
>
>
> _%
> _%
Otteniamo in questo modo:
> _%
>
_%
t
=1+>
+
= 1 + > _% + _
>
>
E ricaviamo che il predittore ottimo a 2 passi caratterizzato da:
>
t
=
>
Cio:
>
m + 2| =
w
> m + 2| = > w
>
Proseguendo con la sostituzione delloperatore :
m + 3| + 1 > m + 2| = > w + 1
Che equivale a scrivere:
m + 2| = > m + 1| 1 + > w
Lerrore di predizione che commettiamo in questo caso ha varianza:
>j m + 1|
+ 1 = >jL { w + 1 + % w + 2 M =
=
>jLw
+1 M+
>jLw
+2 M=
Pag. 34
+>
= 1+>
I concetti di base
Il predittore ottimo in questo caso verr costruito mediante uno schema del tipo riportato in figura:
~tu 0,
-
t
+ j|
Lidea di base cio quella di utilizzare un filtro sbiancante che, a partire dalle misurazioni di
ci
consenta di ottenere w . In questo modo, possiamo poi riutilizzare in cascata al filtro sbiancante un
predittore del tipo appena analizzato, ovvero un predittore a partire da w .
La funzione di trasferimento del predittore ottimo dai dati quindi ottenibile nel modo seguente:
|
|
_%
-
-
t
=t
t
= &t
=
=
* t
|
|
Si nota facilmente che la funzione di trasferimento cos ottenuta risulta essere molto simile a quella
ottenuta per il predittore ottimo da w, con lunica differenza che al denominatore si ha |
anzich
.
Nel caso particolare in cui si stia cercando il predittore ottimo ad 1 passo, abbiamo:
|
-% =
t
Perci il predittore dai dati sar:
t% =
|
Possiamo anche scrivere lequazione alle differenze corrispondente:
|
m + 1| =
|
m + 1| = |
|
Ovvero:
|
m + 1| = |
+1
Si noti che apparentemente questa espressione ha in s una contraddizione, in quanto sembrerebbe voler
dire che stiamo calcolando la stima m + 1| di
+ 1 partendo proprio dal dato
+ 1 . Tuttavia
non cos perch, siccome sia |
che
sono monici ed il loro grado uguale, avremo:
|
= >% + E% _% + > + E _ +
E quindi di fatto verranno utilizzati solo i dati di rilevati fino allistante , e non fino allistante + 1.
Si pu inoltre osservare che, siccome per ipotesi tutti gli zeri e tutti i poli di t
hanno modulo minore di
1 (altrimenti non sarebbe il fattore canonico), siamo certi che anche il predittore stabile. Infatti, gli zeri
del predittore sono i valori per i quali si annulla | , ovvero i poli di t
, che abbiamo appena detto
essere in modulo minori di 1.
Pag. 35
Esempio
Consideriamo ancora lesempio che abbiamo gi utilizzato quando abbiamo parlato del predittore ottimo
a partire da w. Consideriamo cio:
t
>
E ipotizziamo di voler calcolare il predittore ottimo ad un passo e a due passi (partendo per dai dati
anzich da w).
Naturalmente, il filtro sbiancante in questo caso avr funzione di trasferimento:
>
- 1 *_% =
t
= &t
Inoltre, abbiamo gi ricavato nei precedenti paragrafi il filtro ottimo ad un passo e a due passi a partire da w
hanno, nellordine, le funzioni di trasferimento riportate di seguito:
>
>
-%
t
=
-%
t
=
>
>
Perci, il filtro ottimo ad un passo a partire dai dati ha funzione di trasferimento:
>
>
-% t
t%
=t
=
=>
>
E perci:
m + 1| = >
Il filtro ottimo a 2 passi a partire dai dati ha invece la funzione di trasferimento seguente:
>
>
t
=t
t
=
=>
>
E perci:
m + 2| = >
Osservazione
A questo punto, possiamo domandarci se i predittori cos individuati hanno senso oppure no.
Partiamo dal predittore ad un passo. Per rispondere alla domanda, possiamo osservare che di fatto il
segnale
+ 1 viene generato sommando tra loro due componenti: >
e il rumore bianco w .
Inoltre w
completamente imprevedibile: lunica cosa che sappiamo che la sua media nulla.
Intuitivamente, risulta molto sensato sostituire ad una variabile aleatoria il relativo valore medio, e
perci possiamo concludere che il predittore ad un passo individuato nellesempio appena analizzato
coerente con il sistema che genera il segnale sul quale eseguiamo la previsione stessa.
Se consideriamo invece il predittore a 2 passi, abbiamo:
=>
+ >w + 1 + w
+2 =>
+1 +w
=> >
+w +1 +w
In questo caso, la parte sulla quale non possiamo fare alcuna previsione risulta essere:
>w + 1 + w
Sostituiamo allora a questo termine la relativa media:
>w + 1 + w
=> w +1 + w => w
+ w
=0
E quindi otteniamo proprio:
m + 2| = >
Possiamo anche calcolare la varianza dellerrore di predizione che abbiamo appena individuato:
>j >w + 1 + w
= > >j w + 1 + >j w + 1 = >
+ = 1+>
Pag. 36
~tu 0,
Il sistema appena rappresentato in forma intuitiva, pu essere pi rigorosamente rappresentato nel modo
di seguito riportato:
w~tu 0,
t
+
+
Indichiamo nel modo seguente i numeratori e i denominatori delle funzioni di trasferimento introdotte:
|
t
=
=
"
Abbiamo cos:
|
=
+
w
"
In altri termini, il modello che stiamo analizzando quella rappresentato nella figura seguente, detto
anche modello di Box e Jenkins, nel quale lingresso impredicibile (il rumore bianco) considerato come un
disturbo:
h
+
+
Otteniamo allora:
"
+|
=| w
+
Un processo di questo tipo detto ARMAX, dove la lettera X aggiunta in coda allacronimo sta per
eXogeneous. In particolare, il termine esogeno il termine:
,|
e , tale processo viene indicato con:
Detti 1% , 1 e 1 , nellordine, il grado di
1% , 1 , 1
Che indichiamo per semplicit con:
Pag. 37
=2
= 1 > _%
Possiamo indicare con la media del
sul quale stiamo operando la predizione:
= >
1 +w
+2 =>
1 +2
Da cui ricaviamo:
2
= > + 2 1 >
= 2 =
1>
Possiamo poi depolarizzare
, introducendo:
=
=
+
In questo modo, ovviamente:
=
= =0
Otteniamo quindi:
+ => +1 +
+w
+2
Ovvero:
2
2>
2>
2
=> +1 +
+w
+ 2
=> +1 +w +2+
+
1>
1> 1>
1>
2 2> + 2> 2
=> +1 +w
+
=> +1 +w
1>
A questo punto, possiamo facilmente calcolare il predittore ottimo di , che sappiamo essere:
+ 1| = >
Siccome poi sappiamo che:
+1 +
Pag. 38
Possiamo ottenere tale formula in maniera pi semplice di quanto finora abbiamo fatto. A tale scopo,
partiamo dallequazione:
=| w
E dividiamo entrambi i membri per | :
Aggiungendo e sottraendo
Da cui ricaviamo:
J
|
Siccome
e|
Da cui:
=w
|
al primo membro:
+
=w
1K
=w
= J1
= 1 + q%
_%
+w
+q
= 1 1 q% _% q _
= q% _% q _
+w
+w
K
= q% _% q _
|
funzione solamente del passato di . Possiamo perci scrivere:
J1
= J1
ARMAX
Possiamo ripetere un procedimento simile per un processo ARMAX. Consideriamo:
=| w
+
, w ~tu 0,
Si noti che in realt possibile che
dipenda non direttamente da
, ma da valutato in un istante
precedente qualsiasi. In genere, la dipendenza si ha rispetto ai valori precedenti di , e non rispetto a
.
Tale situazione pu essere rappresentata, con riferimento alla precedente equazione, imponendo:
= { _% + % _ +
In alternativa, possiamo utilizzare unequazione del tipo:
=| w
+
1
Con:
= { + % _% + _
Utilizziamo allora questa seconda simbologia. Dividendo lequazione cos ottenuta per | :
=
1 +w
|
|
Pag. 39
Aggiungendo e sottraendo
Da cui:
al primo membro:
+
J
|
1K
1 +w
1 +w
K
+
1 +w
|
|
Con un ragionamento analogo a quello fatto nel caso ARMA, ricaviamo che:
Ovvero:
= J1
J1
|
una funzione del passato di . Di conseguenza:
una funzione del passato di , e che:
= J1
Ovvero:
Dove:
=
t
t
al primo membro:
= /1
1
0
t
/1
t
+
+
1 +w
1
0
t
1 +w
1 +w
1
t
funzione solamente del passato di . Infine, w un rumore bianco a media nulla, perci otteniamo:
1
+
1
m
= /1
0
t
t
Pag. 40
Lidentificazione
Introduzione: lidentificazione predittiva
Entriamo ora nel vivo della trattazione del problema dellidentificazione.
Sistema reale
Sistema reale
Modello
+
-
VjjkjV
+
+
In sostanza, si pone allingresso del modello lingresso reale e si confrontano luscita del sistema reale e
quella del modello (che perci sono sollecitati con lo stesso ingresso):
= VjjkjV
Lidea base quella di riuscire poi a trovare dei metodi che consentano di modificare i parametri del
modello per minimizzare lerrore.
Il problema fondamentale di questo approccio legato al fatto che il valore di (e quindi anche quello
dellerrore) non dipende solo dai parametri del modello e da , ma dipende anche dal rumore bianco w.
Possiamo perci affermare che un segnale casuale, confrontato con una sequenza di numeri ottenuti
dalla realt (cio ). Di conseguenza, questa strada non praticabile.
Lidea pi diffusa per risolvere il problema appena illustrato consiste nelleseguire il confronto non
direttamente con il modello di Box & Jenkins:
w
Sistema
lineare
Pag. 41
Nel cosiddetto modello in forma di predizione (che quello appena riportato) non si ha infatti alcuna
variabile aleatoria: m solamente una sequenza numerica, una volta che sono noti e . Lo schema
diventa allora il seguente:
Sistema reale
Modello in forma
di predizione
Lobiettivo quindi quello di determinare qual il miglior modello della famiglia considerata (nellesempio,
abbiamo supposto di utilizzare la famiglia dei modelli di Box & Jenkins, ma naturalmente questo vale per
qualsiasi altra scelta si decida di fare), tarando i parametri in maniera da minimizzare lerrore di predizione
del modello, cio s .
Si parla per questo motivo di identificazione predittiva: il modello buono se il corrispondente
predittore buono.
4. Ottimizzazione
Lottimizzazione consiste nellindividuare:
1
= ? s
u
oB%
1
min = min U ? s
u
oB%
Una volta trovato questo valore, possiamo facilmente individuare il modello ottimo in forma di
predizione:
5. Validazione
Questo modo di procedere potrebbe risultare in realt non soddisfacente: necessario quindi eseguire
anche una fase di validazione del modello, che consiste nelleseguire unanalisi critica finale del
risultato ottenuto. Durante questa fase potrebbero emergere dei problemi, che possono anche portare
a ripetere tutto il procedimento su una nuova famiglia di modelli, nel caso in cui quello ottenuto
dovesse risultare non accettabile.
Pag. 43
1 +>
2 + +
1 + %
1 +
2 + + ;
1 + w
=
1
Abbiamo quindi:
=
=
+w
Siccome tale risultato uno scalare, possiamo scrivere anche:
= = + w
3. Il modello in forma di predizione
- (ad un passo) pu essere cos rappresentato:
Il modello in forma di predizione
=
m
=
=
= >%
1 +>
2 + + ; 1 + %
1 +
2 + + ;
4. Il criterio di ottimizzazione
Il criterio in base al quale eseguire la minimizzazione :
1
= ? s
u
oB%
1
= ?
u
oB%
5. Lottimizzazione
A questo punto, occorre eseguire la ricerca del minimo di . Siccome per uno scalare e un
vettore, non si pu semplicemente applicare il concetto di derivata, ma occorre introdurre la matrice
gradiente, ovvero
h
h
%
h
=
h
h
h;
Il gradiente pu essere equivalentemente definito come il trasposto del vettore appena introdotto. Nel
nostro caso, considereremo
h
h
=/
h
h%
Pag. 44
h
0
h;
Per il resto si procede semplicemente come nel caso scalare: occorre cio imporre lannullamento del
gradiente, in modo da individuare i punti stazionari.
h
=0
h
Infine, necessario verificare se il punto stazionario cos individuato effettivamente un minimo
oppure no.
Per procedere nei calcoli, possiamo operare semplicemente ipotizzando che sia uno scalare,
occupandoci poi di aggiustare i trasposti in modo tale da ottenere conformabilit tra le matrici,
laddove necessario. Otteniamo cos:
h
1 h
=
?
h
u h
oB%
2
?
u
Otteniamo:
oB%
Da cui:
oB%
oB%
2
= ?
u
oB%
=
=
= =
oB%
oB%
=?
oB%
oB%
= ?L
oB%
=0
=0
= ?
= =
=
Ma siccome
uno scalare:
=
=
= =
Analogamente, anche
uno scalare, perci, applicando simili propriet anche al primo membro e
sostituendo al secondo membro il risultato appena ottenuto:
?
oB%
= ?
oB%
?
oB%
= ?
oB%
# u = ?
oB%
Pag. 45
una matrice invertibile, allora il sistema ammette una sola soluzione, rappresentata dalla formula
dei minimi quadrati:
= ?
oB%
_%
?
oB%
h
h
h
%
%
h h
h
=
= h
h
h
h h
h
h h%
h
2
= ?
h
u
oB%
Siccome questa matrice semidefinita positiva, siamo certi che effettivamente il punto stazionario
individuato un minimo.
A questo punto possiamo osservare che, eseguendo lo sviluppo di Taylor di , otteniamo:
1 h
h
[ L M + X
[ L M
= LM + X
2 h h -
Si noti che, siccome una funzione quadratica di , non possibile che vi siano altri termini nello sviluppo
di Taylor. Inoltre, siccome abbiamo calcolato proprio imponendo lannullamento della matrice gradiente
di , abbiamo:
1 h
= LM + X
[ L M
2 h h
0
h
Pag. 46
Altre osservazioni
Si noti comunque che la matrice # u sempre una matrice simmetrica, nella quale l3-esimo elemento
sulla diagonale principale il quadrato dell3-esimo elemento di . Ad esempio, se 1 = 1 = 2:
1
1
2
1
1
2
1
1
2
2
2
2
1
2
# u = ?
1
1
1
2
1
1
2
oB%
2
1
2
2
2
1
2
Si nota perci che, se u +, allora sulla diagonale principale avremo la somma di u numeri positivi, che
quindi tende a divergere. Per evitare questo fenomeno, si pu introdurre la matrice:
# u
u =
u
E si trasforma lequazione normale in:
1
?
u
oB%
1
= ?
u
oB%
Inoltre, se u +, allora:
- Gli elementi sulla diagonale principale tendono alla varianza:
1
?
u
oB%
Y 0
1
?
u
oB%
Y 0
Gli altri elementi tendono alla funzione di covarianza valutata nellistante ottenuto come differenza tra
listante in cui viene valutato e quello in cui si valuta (differenza in modulo):
1
?
u
oB%
1
?
u
1 Y 0
oB%
Otteniamo in sintesi:
1 Y 1
Y 0 Y 1 Y 0 Y 1
Y 1 Y 0 Y 1 Y 0
=
Y 0 Y 1 Y 0 Y 1
Y 1 Y 0 Y 1 Y 0
Siccome, come abbiamo detto, dobbiamo avere
u invertibile, necessario almeno che sia
invertibile. Possiamo osservare che tale matrice costituita da 4 blocchi:
=.
| "
Dove dipende solamente da , " dipende solo da e e |, che sono uno il trasposto dellaltro,
dipendono sia da che da .Tuttavia dipende sia da , sia da , perci lunico blocco che pu essere
liberamente imposto il blocco ". Condizione necessaria perch sia invertibile che " sia invertibile.
Segnale persistentemente eccitante
Il segnale si dice persistentemente eccitante di ordine q se la matrice quadrata di dimensione q q cos
definita:
Y 2 Y q 1
Y 0 Y 1
Y
1
Y
0
Y
Y q 2
Y 0 Y q 3
Y 2 Y 1
Y 0
Y q 1 Y q 2 Y q 3
invertibile. La matrice appena definita non rappresenta altro che la matrice " in nel caso generale
(prima abbiamo considerato solamente q = 2).
Si noti che la matrice appena definita del tipo di Teoplitz, perch su tutte le diagonali parallele alla
diagonale principale si hanno sempre uguali elementi.
Pag. 47
Pag. 48
= { + % _% + + ; _;
= 1 >% _% > _ >; _;
|
= 1 + E% _% + E; _;
Il vettore dei parametri perci:
= >% >; { ; E% E; =
3. Modello in forma di predizione
- :
Possiamo cos rappresentare il nostro modello in forma di predizione,
|
m
= |
+
1
4. La cifra di merito
Anche in questo caso, la cifra di merito si basa sulluso del modello in forma predittiva ed definita
come:
1
= ? s
u
oB%
j
Pag. 49
L M = L M
h
h
X
=X
h
h X
h
h
X
[
=X
[
h
h
L
h
M+X
b%
1h
[
M+ X
L
2 h
_%
h =
h
h
2
= ? Js
h u
oB%
h
2
hs
hs
= ? J
h
u
h
h
oB%
hs
K
h
+ s
h s
h
h
2
hs
hs
? J
K
u
h
h
h
oB%
b%
Pag. 50
_%
h =
h
Rimane per da stabilire come calcolare lerrore s a partire dai dati, e come si calcola dai dati il gradiente.
Alliterazione j-esima avremo i valori:
In sostanza quindi conosciamo i polinomi:
, >@ , A , E
,
,|
s
A tal scopo, possiamo riscrivere il modello in forma di predizione:
|
m
= |
+
1
Nella forma:
1
| L
m M =
Da cui ricaviamo:
| s
=
1
Come noto, abbiamo:
s
s
s
hs
s
s
s
s
s s
=J
K
>; %
; E% E
E;
h
>% >
Se allora introduciamo:
hs =
=
h
Ovvero:
s
s
s
s
s
s
s
s
s
= J
K
>;
;
E;
>%
>
%
E%
E
Possiamo chiamare gli elementi di tale vettore come di seguito mostrato:
=
+;
,;
Y;
+
,%
,
Y%
Y
= +%
A questo punto possiamo osservare che, se partiamo dallequazione:
| s
=
1
Ed eseguiamo la derivata rispetto ad >% in entrambi i membri, otteniamo:
s
=
|
>% >%
Siccome:
= 1 >% _% > _ >; _;
Quindi:
s
|
=
= _%
=
1
&1 >% _% > _ >; _; *
>% >%
Perci:
s
_%
+%
= |
1
=
>%
In maniera del tutto analoga, ricaviamo che:
s
|
=
=
= _
=
2
&1 >% _% > _ >; _; *
>
>
>
Ovvero:
s
_%
+
=
= |
2
>
Sempre con lo stesso procedimento, si trova:
s
=
1 =
=
1
|
& + _% + + ; _; *
%
% %
%
Pag. 51
Da cui:
,%
s
= |
%
_%
s
_%
= |
2
Inoltre, possiamo osservare che un discorso analogo si pu fare per gli elementi Y@ ; basta infatti derivare,
ad esempio rispetto a E% , entrambi i membri dellequazione:
| s
=
1
E otteniamo:
| s
=0
E%
Ovvero:
s
|
+/
| 0 s
=0
E%
E%
Da cui, ricordando che:
|
= 1 + E% _% + E; _;
Si ricava:
s
|
+/
=0
L1 + E% _% + E; _; M0 s
E%
E%
s
|
+ _% s
=0
E%
s
|
+ s 1 = 0
E%
s
_%
=|
s 1
E%
E quindi:
s
_%
Y%
=
= |
s 1
E%
E in maniera del tutto analoga possiamo verificare (anche se lo omettiamo) che:
s
_%
Y
=
= |
s 2
E
Abbiamo perci un sistema del tipo:
Senza ripetere i passaggi, troviamo anche:
,
&|
_%
_
,%
_%
&|
&|
_%
_%
&|
+%
+
_%
Pag. 52
_%
&|
_%
Y%
h =
h
In sostanza, mediante il procedimento appena illustrato abbiamo ricavato che, anzich calcolare:
Dove:
b%
b%
+ ?
oB%
_%
_%
?
oB%
1
1
=
|
s 1
s 2
= ?
oB%
_%
?
oB%
=
1
La differenza fondamentale rispetto al vettore che si utilizza con il metodo ML data dal fatto che, in
_%
abbiamo un blocco in meno; inoltre, non si ha il filtraggio attraverso |
.
Con:
Pag. 53
Proviamo ora ad analizzare il comportamento asintotico (cio quando il numero u dei dati tende ad
infinito) del metodo di identificazione a minimizzazione di errore di predizione. Come noto, abbiamo:
1
= ? s
u
oB%
+ m
= >j s
= >j -s
+ m
Nella formula per il calcolo della varianza non comparir il termine di covarianza, in quanto il primo
termine della somma un rumore bianco valutato allistante , ed il secondo un dato che dipende
solo dal passato. Perci:
= >j&s * + >j& m
m *
A questo punto, osserviamo che il primo termine non dipende da , perci per trovare il punto di
minimo ci basta considerare il secondo termine. Naturalmente, tale termine minimo quando vale
zero, ovvero quando = { . Perci abbiamo verificato che il punto di minimo di { , ovvero che
la stima fornita tende al valore vero del parametro, come ovviamente desideriamo:
{
Pag. 54
B. Caso B
1. Sia data una famiglia di modelli:
= |
2. Ipotizziamo che il sistema vero # che si sta identificando appartenga alla famiglia , cio # .
Questo significa che:
{ : { = #
3. Supponiamo che abbia pi punti di minimo, descritti dallinsieme . Ci accade quando i dati
sono stati raccolti fornendo degli ingressi che non eccitano a sufficienza il sistema, oppure quando
la famiglia di modelli scelta inutilmente troppo complessa.
In questo caso, quando u + possibile che la stima tenda ad uno qualsiasi dei punti
dellinsieme , oppure che la stima vari continuamente da un punto ad un altro allinterno dellinsieme
. Questo per non rappresenta un problema, in quanto i modelli di hanno tutti la stessa capacit
predittiva.
C. Caso C
1. Sia data una famiglia di modelli:
= |
2. Ipotizziamo che il sistema vero # che si sta identificando non appartenga alla famiglia , cio
# . Questo significa che:
{ : { = #
Pag. 55
La rapidit di convergenza
Supponiamo ora di trovarci nel caso che abbiamo indicato con A, e proviamo a valutare la rapidit con la
quale la stima tende al valore vero { che il parametro ha nel sistema da identificare. Se tutti i segnali in
gioco sono stazionari, allora lerrore di predizione di :
s
=
m
E possiamo calcolare il vettore colonna:
= s
= = B
Dove non dipende dal tempo, in quanto abbiamo ipotizzato che tutti i processi siano stazionari.
Abbiamo gi affermato che lerrore di stima dei parametri tende a zero:
{ 0
Per valutarne la rapidit, valutiamo quanto rapidamente tende a zero la matrice:
>j& { *
Infatti, mentre la varianza un valore deterministico, lerrore di predizione { un processo casuale,
E la matrice:
perci non ha senso studiarne direttamente la rapidit di convergenza a zero. Otteniamo poi:
1
>j& { * _%
u
Dove la varianza dellerrore di predizione quando si usa il predittore ottimo:
= >j s
B
Esempio: stima LS
Consideriamo adesso come esempio il seguente caso:
1. Stiamo cercando di identificare un certo sistema utilizzando la famiglia di modelli:
:
= =
2. Ipotizziamo che il sistema vero appartenga alla famiglia di modelli in analisi:
#:
= = {
3. Disponiamo di un vettore di dati:
1
2
1
Nel caso in cui si stia utilizzando un modello del tipo
1 , oppure:
1
=
1
Pag. 56
_%
?
o
= s
1
?
u
oB%
Quindi:
>j&s
1
* ? s-
u
oB%
oB%
1 1
>j& { * ?
u u
= /?
oB%
1
= ?&
u
=
_%
1
?&
u
oB%
=
3. Si applica la formula:
o
_%
2 ,,
6. Se lerrore risulta essere troppo colorato, si cambia la famiglia di modelli, ad esempio incrementando
1 e/o 1 , oppure passando a modelli ARMA o ARMAX.
7. Se lerrore un rumore bianco, si calcola:
>j&s- *
Pag. 57
Con:
_%
# u = ?
?
oB%
oB%
Possiamo pensare semplicemente di separare lultimo termine dalla sommatoria presente nella prima
delle due formule:
_%
?
oB%
Inoltre, siccome:
= ?
oB%
_% = # u 1
_%
oB%
?
oB%
Perci:
Ricaviamo cos:
# u = ?
oB%
?
oB%
?
oB%
= # u 1 _% + u
=
# u =# u1 + u u
_%
= # u 1 _%
_%
+ u
_%
=?
=
oB%
+ u u
# u 1 = # u u u
= # u u u
_% + u
Pag. 58
A2)
scalare (errore di predizione)
s
=
o_%
D2)
matrice 1 1
#
=# 1 + =
Vettore 1
Si noti che il sistema costituito dalle due equazioni algebriche A1 ed A2 e dalle due equazione dinamiche
D1 e D2 (le restanti sono solamente delle definizioni).
Metodo RLS formulazione n. 2
Si noti che, siccome per definizione:
o
= ? q q
B%
1 +
# 1
Quindi, per +, # diverge, mentre q
0, ovvero:
o
Ci significa che la stima converge ad un certo valore. Per evitare la divergenza di #
suo posto la matrice:
1
= #
Si ha:
=#
, si usa talvolta al
Che, per processi stazionari, al tendere di ad infinito, tende ad una costante. Si ha cos:
o = o_% + q s
1
_%
q
=
Si ha infatti:
Da cui:
#
=
1
1 +
1
1 + L
=
=
o_%
=
1 M
1 1
#
1
1 +
1
1 + L
1 M
Tuttavia, questa formulazione nella realt dei fatti, cos come la prima, non viene molto utilizzata, e la pi
usata (tra le tante esistenti, che qui non vedremo) la seguente.
Pag. 59
=#
_%
_%
M
_%
o = o_% + q s
q
=
s
=
= o_%
L1 +
,o_% = 1 +
_%
,o_%
RLS adattativo
In alcuni casi il parametro ignoto varia nel tempo, e vorremmo poterne inseguire il valore. Ci non
possibile utilizzando il metodo RLS, perci si introduce una sua variante, detta appunto RLS adattativo.
Mentre la cifra di merito che si utilizza con il metodo LS (e RLS) tradizionale, essendo del tipo:
o =
? s q
B%
Pesa di fatto tutti gli errori di predizione allo stesso modo, lidea di base dellRLS adattativo quella di
attribuire un peso maggiore agli errori rilevati negli istanti pi recenti, ed un peso inferiore allerrore
rilevato in istanti pi lontani. La cifra di merito adottata viene perci modificata nel modo seguente:
o =
0,1
? o_ s q
B%
Naturalmente, inferiore il valore attribuito a , maggiore la velocit con cui ci si dimentica del
passato. In sostanza quindi, inferiore il valore di , pi lalgoritmo sar reattivo ai cambiamenti del
parametro reale. Per contro, valori di troppo piccoli determinano effetti pi consistenti del rumore
qualora il parametro dovesse risultare in realt costante. Il metodo RLS descritto dalle formule:
o = o_% + q s
q
= # _%
s
=
= o_%
#
= #
1 +
Pag. 60
Avremo cos:
:
= = + w
- : m
= =
o = o_% + q s
q
= # _%
s
=
= o_%
#
= # 1 + =
Tuttavia, il problema quello di trovare in qualche modo il valore di w , che stato inizialmente
supposto noto ma, essendo un rumore bianco, nella realt dei fatti non misurabile. Perci si procede
supponendo:
w
=s
Si noti quindi che si tratta in realt di un metodo empirico. Questo metodo anche detto RML (metodo di
massima verosimiglianza ricorsiva).
Pag. 61
ZOH
Convertitore
DA
Convertitore
AD
Sistema da controllare
(tempo continuo)
+1
+1
Il sistema a segnali campionati appena descritto deve poi essere inserito in un sistema di controllo, come
mostrato nella figura seguente:
Pag. 62
= { + % _% + _ +
Dove, se { 0, il ritardo di un istante, mentre, se ad esempio { = % = 0 e 0, il ritardo di tre
intervalli di tempo, e cos via. Indichiamo inoltre:
Con il tempo discreto;
Con q il ritardo.
In tal modo, possiamo riscrivere lequazione nel modo seguente:
=
q +| w
Imponendo { 0: cos viene subito messo in evidenza il ritardo.
E possiamo affermare che il valore di allistante ha influenza sul valore di a partire dallistante + q.
Ipotizziamo inoltre che w sia un processo stazionario.
Il sistema di controllo
Il sistema di controllo da realizzare sar del tipo:
w
Sistema di controllo
=
Tuttavia, ovvio che non si pu agire in maniera diretta sulla variabile per ottenere tale risultato, ma
necessario intervenire su .
Dove:
Pag. 63
|
=
+ _
Dove _
semplicemente il resto della lunga divisione a q passi, nel quale stato raccolto il fattore
_
. Per poi ottenere lequazione diofantea sufficiente moltiplicare entrambi i membri per
.
Da cui, chiamando:
_
=|
Otteniamo lequazione:
|
=
q +
q +|
w
=
q +
q +
w
|
|
Pag. 64
In questo modo,
Un termine
q
|
Che dipende solamente dal passato di fino allistante q.
Un termine
|
Che dipende solamente dal passato di fino allistante q.
Siccome
il risultato della divisione a q passi tra
e
= 1 + V%
_%
+ + V_%
, avremo:
_ _%
w
= w + V% w 1 + + V_% w q + 1
Ovvero, si tratta di un termine che funzione del futuro rispetto allistante q. Siccome per w un
rumore bianco, tale valore sar del tutto imprevedibile dal passato.
Dalle precedenti osservazioni, consegue che il predittore ottimo sar:
m | q =
q +
q
|
|
A questo punto, per ottenere il controllore ottimo sufficiente imporre:
m | q =
Ovvero:
=
q +
q
|
|
| =
q +
q
1
|
q
q =
1
=
|
Pag. 65
Procedimento in sintesi
Riassumendo, il procedimento per ottenere il controllore predittivo a minima varianza:
1. Si identifica il modello ARMAX del sistema da controllare. Si otterranno cos i polinomi
,
| , oltre al ritardo q.
2. Si calcolano
e
a partire da
e | , mediante il calcolo della lunga divisione a q passi.
3. Si costruisce il controllore:
Osservazioni
1. Il metodo di progetto del controllore appena illustrato estremamente semplice. Tuttavia, si nota che
il controllore progettato con il metodo classico pi semplice, e segue la logica:
Si osserva quindi che il controllore predittivo a minima varianza pi complesso rispetto a quello
ottenuto con i metodi tradizionali.
2. Il sistema cos ottenuto stabile. Possiamo infatti verificare che il sistema complessivo:
stabile se e solo se i tre blocchi in esso evidenziati sono stabili. Siccome si ha:
|
= 1 + E% _% + E _ +
chiaro che |
sar un sistema stabile. Rimane perci da verificare solamente la stabilit dellanello
in retroazione. Siccome in un generico anello con funzione di trasferimento danello
si ha:
u
u
"
=
=
=
u
1
"
u
1
"
Dove si ha il segno + se la retroazione negativa, ed il segno se positiva. Il sistema stabile se e
solo se ha le radici del polinomio caratteristico tutte in modulo minori di 1; il polinomio caratteristico :
="
u
Pag. 66
= _
+
= |
In conclusione, il sistema sicuramente stabile se
e|
hanno le loro radici in modulo minori di
1. Se la fattorizzazione spettrale, allora |
rispetter certamente la condizione. La condizione
riguardante
risulta invece pi restrittiva, e non sempre sar verificata.
Siccome le radici di
sono gli zeri del sistema da controllare, possiamo affermare che possibile
applicare il controllo predittivo a minima varianza solo nel caso in cui il sistema di partenza sia a
sfasamento minimo.
3. Se calcoliamo la funzione di trasferimento del sistema a controllo di minima varianza da a ,
otteniamo:
#
= _
Osserviamo perci che, trascurando leffetto del rumore, si ha:
= q
Naturalmente, questo risultato eccellente (il migliore che si possa desiderare). Tuttavia, il prezzo da
pagare dato da valori di eccessivamente elevati (si dice che lenergia del controllo troppo elevata),
che rendono in molti casi inapplicabile questo metodo. Inoltre, a seguito delleccessiva energia di
controllo, le variabili di stato possono assumere valori molto elevati, che fisicamente non possono
essere raggiunti.
Fino ad ora abbiamo ipotizzato che il segnale di riferimento sia costante nel tempo. Tuttavia, non
sempre cos, e talvolta esso deve essere rappresentato come una funzione . In questo caso, la cifra
di merito deve naturalmente essere modificata in:
=
-L
M .
Dove, come noto, esiste un ritardo di q passi tra lingresso e luscita . Per minimizzare tale quantit, a
patto di conoscere la predizione di , possiamo imporre:
m | q = m | q
Nel caso invece in cui non si possa predire la grandezza di riferimento , non si potr fare altro che
imporre:
m | q = q
Siccome questa situazione si verifica spesso, molti libri definiscono sin dallinizio la cifra di merito come:
=
-L
q M .=
Pag. 67
-L
+q
M .
-L
+q
I polinomi
+q
+
+
M .
+q
=1
=0
Si ottiene nuovamente il controllo a minima varianza, come descritto nei precedenti paragrafi.
Eseguendo il procedimento di identificazione sulla base di ciascuna delle famiglie di modelli cos
individuate. Trovato il modello migliore per ogni famiglia, possiamo pensare di eseguire un confronto tra i
risultati ottenuti, in modo da poter stabilire quale tra questi abbia il comportamento migliore.
Pag. 68
Esempio
Se ad esempio consideriamo il processo:
= 1,2
1 0,32
2 +
1 + 0,5
2 + v , v ~tu 0,1 ,
~tu 0,1
Ed eseguiamo i vari calcoli, otteniamo i seguenti risultati:
Test di Anderson sul
Famiglia di modelli
Parametri calcolati
Incertezze
Cifra di merito
rumore
>m = 0,952
0,6%
Non verificato
1,1
= 3,864
2,3%
= 0,975
>m% = 1,20
2%
1%
% = 0,984
Verificato
2,2
= 0,998
>m = 0,32
3%
3%
= 0,485
>m% = 1,19
2%
1%
% = 0,93
>m = 0,29
10%
Verificato
3,3
= 0,997
5%
= 0,494
>m = 0,019
68%
120%
= 0,016
Si nota cos che la diminuzione della cifra di merito nel passaggio dalla famiglia
2,2 alla famiglia
3,3 di entit quasi trascurabile, a scapito di un aumento massiccio dellincertezza dei nuovi
parametri calcolati, che risultano essere molto vicini a zero. Si capisce quindi anche intuitivamente che in
questo caso la complessit dell 3,3 eccessiva, e quindi si dovr scegliere un modello
2,2 .
Tuttavia, questo solamente un esempio: nella maggior parte dei casi, la situazione non risulta essere cos
chiara e semplice.
Crossvalidazione
A questo punto necessario eseguire unulteriore critica al modo di procedere fino ad ora illustrato. La
cifra di merito utilizzata infatti:
1
= ? s
u
oB%
Dove s
lerrore di predizione del modello definito dal vettore dei parametri ; abbiamo poi
minimizzato tale cifra, calcolando:
= min
E considerando come modello ottimo L M. Come si nota anche dal precedente esempio, allaumentare
della complessit del modello adottato, la cifra di merito del modello stesso non pu fare altro che
diminuire, indicando cos una sempre maggiore aderenza al sistema reale. Tale andamento monotono
nasconde per un problema. Abbiamo infatti:
s-
=
-
Dove
la predizione fatta sulla base del modello stimato, e non sulla base del sistema vero. Questo
significa che il criterio per valutare la qualit del modello si basa in realt sugli stessi dati che vengono usati
per eseguire lidentificazione stessa, e ci rappresenta ovviamente un problema concettuale.
Una possibile soluzione a questo problema consiste semplicemente nel dividere i dati in due diversi
blocchi, uno da utilizzarsi per eseguire lidentificazione, ed uno da utilizzarsi per la valutazione della sua
qualit (ovvero il calcolo di ). Questi ultimi dati vengono anche detti di validazione.
In questo modo landamento di non sar necessariamente monotono non crescente rispetto allaumento
di complessit. Questo modo di procedere anche detto crossvalidazione.
Pag. 69
-L
M .=
-L
m ,
M .
Dove m la predizione ottenuta sulla base del sistema vero, e non sulla base del modello ottenuto.
Questa quantit indica perci la bont media del modello, calcolata su tutte le possibili stringhe di dati.
Inoltre, fino ad ora abbiamo sempre stimato i parametri con il vettore , ottenuto minimizzando la cifra
di merito ; tuttavia, anche dipende dal caso, ovvero dalle stringhe di dati che si scelto di utilizzare per
eseguire lidentificazione stessa. Possiamo quindi scrivere:
Che rappresenta ladesione media (a tutte le possibili stringhe di dati) di tutti i modelli che possono essere
stimati a partire dalle stringhe dei dati. Si nota perci che questa quantit non dipende dal caso. Inoltre, si
pu dimostrare che vale luguaglianza:
u+1
=
u1
Ovvero, la valutazione oggettiva viene ottenuta partendo dalla valutazione soggettiva ,
semplicemente moltiplicando questa quantit per una costante che dipende dal numero di dati u e dal
numero di parametri del modello 1. In questo modo, si crea uno svantaggio per tutti quei modelli che
hanno elevata complessit, con un andamento che non sar pi monotono, ma che avr un minimo, il
quale ci consente di calcolare qual la complessit ottima del sistema, come mostrato nel grafico
seguente (ottenuto considerando costante il numero u di dati a disposizione):
1oo@
Il criterio AIC
Un altro possibile criterio noto come Akaike Information Criterion. Il criterio dellinformazione di Akaike
prevede che la valutazione oggettiva si calcoli mediante la formula:
1
| = 2 + ln
u
Pag. 70
Il criterio MDL
Infine, un altro dei molti possibili metodi il criterio Minimal Description Length, simile ai precedenti ma
ottenuto sulla base di studi algoritmici e non sulla base della teoria della statistica. La valutazione
oggettiva viene in questo caso calcolata come:
1
" = ln + ln u
u
Confronto tra i vari metodi
Si nota che i criteri FPE ed AIC, con un elevato numero di dati u, portato allo stesso risultato. Infatti:
1
1+
u+1
u+1
1
1
u
ln = ln
= ln
+ ln = ln
+
ln
=
ln
1
+
ln
1
+ ln
1
u1
u1
u
u
1
u
Come noto dallAnalisi Matematica:
Per 0:
ln 1 + ~
E, se u 1, allora 0, perci:
;
1
1
1
+ ln = 2 + ln = |
u
u
u
Il metodo MDL risulta invece essere pi parsimonioso rispetto ai precedenti: in altri termini, tende a
suggerire una complessit ottima leggermente inferiore rispetto agli altri due metodi, specialmente se
il numero di dati a disposizione non molto elevato. Il metodo MDL viene solitamente preferito agli
altri quando si dispone di un numero di dati molto elevato.
ln
Pag. 71