You are on page 1of 71

POLITECNICO DI MILANO

Identificazione dei Modelli e


Analisi dei Dati 1
Appunti
Stefano Invernizzi
Anno accademico 2010-2011

Corso del prof. Sergio Bittanti

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Sommario
Introduzione al corso ......................................................................................................................................... 5
I modelli ......................................................................................................................................................... 5
Lidentificazione e i problemi che vogliamo risolvere ................................................................................... 5
Modelli di stato e modelli di ingresso/uscita ................................................................................................ 6
Modellistica, identificazione e predizione ..................................................................................................... 6
Richiami su variabili casuali, vettori casuali e processi casuali...................................................................... 7
Introduzione alla predizione: processi AR, MA e ARMA ................................................................................. 13
Il problema della predizione ........................................................................................................................ 13
Simbologia ................................................................................................................................................... 13
Il predittore lineare a memoria finita .......................................................................................................... 13
Problemi nella realizzazione del predittore lineare .................................................................................... 14
Lerrore di predizione .................................................................................................................................. 14
Il rumore bianco .......................................................................................................................................... 15
Descrizione del segnale come uscita di un sistema lineare......................................................................... 15
Processi MA ................................................................................................................................................. 16
Processi AR .................................................................................................................................................. 18
Processi ARMA............................................................................................................................................. 22
Spettro ......................................................................................................................................................... 24
Rappresentazioni di un processo stazionario .............................................................................................. 26
Fattorizzazione spettrale canonica .............................................................................................................. 28
La predizione ................................................................................................................................................... 31
Il problema della predizione ........................................................................................................................ 31
Ipotesi di misurabilit dellingresso ............................................................................................................. 32
Predizione a partire dalle misurazioni di

................................................................................................. 35

Predizione con variabili esogene ................................................................................................................. 37


Ricavo semplificato del predittore .............................................................................................................. 39
Lidentificazione............................................................................................................................................... 41
Introduzione: lidentificazione predittiva .................................................................................................... 41
Formalizzazione dei concetti relativi allidentificazione predittiva ............................................................. 42
Il metodo del minimo quadrato (LS, Least Square) ..................................................................................... 44
Il metodo di massima verosimiglianza (ML, Maximum Likelihood) ............................................................ 49
Asintoti di PEM (Prediction Error Minimization) ......................................................................................... 54
Algoritmi ricorsivi: RLS ................................................................................................................................. 58
RLS adattativo .............................................................................................................................................. 60
Pag. 3

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Stima ricorsiva dei parametri di un modello ARMAX: algoritmo ELS .......................................................... 61


Il controllo predittivo a minima varianza ........................................................................................................ 62
Il controllo digitale ....................................................................................................................................... 62
Il controllo predittivo a minima varianza .................................................................................................... 63
Segnale di riferimento variabile nel tempo ................................................................................................. 67
Controllo predittivo a minima varianza generalizzato (GMV) ..................................................................... 68
Scelta della complessit .............................................................................................................................. 68
Crossvalidazione .......................................................................................................................................... 69
Valutazione della bont oggettiva di un modello a partire dalla valutazione soggettiva ........................... 70

Pag. 4

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Introduzione al corso
I modelli
I modelli sono strumenti comunemente adottati per la descrizione di sistemi e fenomeni naturali.
Essi possono essere di varia natura. Una delle tipologie di modelli quella dei modelli deterministici, nei
quali si assume in sostanza che il futuro sia gi scritto, ovvero possa essere determinato in maniera
esatta a partire dai dati relativi al presente o al passato. Tuttavia il mondo reale governato
dallincertezza, e ci fa s che questi modelli risultino essere in sostanza sbagliati. A tale proposito nota la
citazione secondo la quale tutti i modelli sono sbagliati, ma alcuni sono utili.
Allinterno del nostro corso adotteremo il punto di vista secondo il quale le risposte alle domande relative
ai sistemi sono fornite dai dati, che sono in sostanza dei fenomeni visibili complessi.

Lidentificazione e i problemi che vogliamo risolvere


Lidentificazione
Lidentificazione linsieme dei metodi e degli algoritmi che ci consentono di analizzare i dati per ottenere
un certo modello.
Il modello cos individuato ci potr essere utile ad esempio per risolvere problemi di controllo (cio per far
in modo che si possano determinare gli interventi da mettere in atto sullimpianto affinch questultimo si
comporti come desiderato), oppure per eseguire delle previsioni sulle variabili del modello stesso.
Problemi
I problemi che si incontrano durante lidentificazione, e che cercheremo di risolvere durante il corso, sono
fondamentalmente suddivisibili in 3 classi:
1. Stima dei parametri di un modello noto;
2. Stima di un segnale non misurabile (es.: posizione di una nave spaziale) mediante la costruzione di un
sensore virtuale.
3. Costruzione di un modello a partire dai dati e secondo un procedimento a scatola nera (ad es.: data
mining nel settore medico). In sostanza quindi non si conosce il meccanismo che regola i dati, ma si
vuole ottenere un modello del sistema. Talvolta questo approccio viene adottato pur conoscendo il
meccanismo che regola i dati, ad esempio perch si sta cercando di risolvere un problema di controllo
che risulterebbe altrimenti troppo complesso. In tal caso si utilizza il modello esatto solo per eseguire
delle simulazioni, mentre lanalisi viene eseguita sulla base di un modello semplificato.

Pag. 5

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Modelli di stato e modelli di ingresso/uscita


Modelli di ingresso/uscita
Talvolta il sistema viene descritto per mezzo di un modello di ingresso/uscita, ovvero del tipo:
=

Dove:

la funzione di trasferimento o FdT (che di fatto caratterizza il sistema);

luscita del sistema stesso;

lingresso del sistema.


In sostanza quindi il modello descrive semplicemente una relazione tra lingresso e luscita del sistema.
Si noti che il tempo verr sempre considerato discreto nellambito di questo corso.
Modelli di stato
Il modello di stato descrive invece il sistema mediante pi parametri ,
e , secondo le seguenti
equazioni:
+1 =
+
=

Modellistica, identificazione e predizione


La modellistica
La modellistica la costruzione di un modello, eseguita partendo dalla descrizione delle sue parti
costituenti tramite le leggi che governano i fenomeni che vi hanno luogo (ad esempio, tramite le leggi della
fisica). La modellistica quindi un classico modo tramite il quale possibile costruire un modello.
Lidentificazione
Lidentificazione invece la stima dei parametri incerti del modello, o la stima dei segnali ignoti, o la
costruzione del modello eseguita a partire dai dati anzich dallo studio delle parti che costituiscono il
sistema modellato e delle leggi che le governano.
Predizione
Il principio base per lidentificazione di tipo predittivo: un modello buono se ci fornisce delle buone
predizioni. La teoria della predizione perci un concetto preliminare necessario per poter parlare di
identificazione.

Pag. 6

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Richiami su variabili casuali, vettori casuali e processi casuali


Variabile casuale (o aleatoria, o stocastica)
Una variabile casuale una funzione reale di un evento casuale, associato allesito
causale. Possiamo allora indicare la variabile casuale come:

di un esperimento

Gli unici concetti di interesse nel nostro corso tra quelli legati alle variabili casuali sono i seguenti:
Media
La media di una variabile casuale sempre un numero reale, che viene indicato con:
= = =
Varianza
La varianza di una variabile casuale sempre un numero reale non negativo. La varianza cos
definita:
=

=
=
= !!
Deviazione standard
La deviazione standard di una variabile casuale sempre un numero reale non negativo, che
rappresenta la radice quadrata della varianza:

Varianza incrociata
Date due variabili casuali

"#

=$

=$

!!

, la varianza incrociata tra % e :

% =
% %
Si noti che % = % e che %% la deviazione standard di % (come ovvio anche dalle notazioni usate).
Propriet delle variabili casuali
1. Se la distribuzione di probabilit della variabile casuale gaussiana, allora con una probabilit del
95%, il valore di appartiene allintervallo:
& 2 "# ; + 2 "# *
2. La media un operatore lineare, ovvero se sono date le variabili casuali % e , ed definita una terza
variabile casuale = + % + , , allora si ha:
=+
= + %+,
% +,
Vettore casuale (o aleatorio, o stocastico)
Un vettore casuale un insieme di variabili casuali. Per comodit, il vettore casuale viene sempre
organizzato come un vettore colonna. Quindi, date le variabili aleatorie % e , il vettore:
e

=- .

un vettore casuale. Anche in questo caso sono definiti i concetti di valor medio e di varianza:
Valor medio
Il valor medio di un vettore casule il vettore dei valori medie delle variabili casuali del vettore dato:

=/

0=-

Varianza
La varianza di un vettore casuale di dimensione 1 una matrice 1 1 cos costruita (1 = 2):
=/

%%

In altri termini, l3-esimo elemento della diagonale principale la varianza dell3-esima componente del
vettore casuale dato, mentre per le restanti posizioni, detta 3, 5 la posizione dellelemento
considerato, il corrispondente valore la varianza incrociata tra la componente 3-esima e la
componente 5-esima del vettore casuale di partenza.
Pag. 7

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Propriet della varianza di un vettore casuale


La matrice di varianza di un vettore causale sempre semidefinita positiva:
0
Memo sulle matrici semidefinite positive
Data una matrice reale quadrata di dimensione 1, diciamo che semidefinita positiva ( 0) se:
;
= =
0
Si noti infatti che, siccome un vettore colonna di dimensione 1 1, la forma quadratica
sar
certamente un numero reale. Ad esempio, se 1 = 2, abbiamo:
>%% >%
%
= ->
=- .
.
% >
E perci:
>%% >%
%
> - %. =
= %
->
. - . = % >%% + > %
% >% +
>
%
=

% >%%

>% +

>% +

>

= ?

@,AB%

@ A >@A

Memo sulle matrici definite positive


Data una matrice reale quadrata di dimensione 1, diciamo che definita positiva ( > 0) se:
; . E. 0,
= =
>0
;
Ovvero, per ogni vettore di , la forma quadratica
strettamente positiva, a patto che il vettore
considerato non sia il vettore nullo (in quel caso ovviamente si avr sempre
= 0).
Naturalmente, ogni matrice definita positiva anche semiderfinita positiva, mentre una matrice
semidefinita positiva pu essere o non essere definita positiva.
Osservazione grafica
Considerando ancora 1 = 2, notiamo che da un punto di vista grafico una matrice definita positiva
rappresenta una conica del tipo mostrato nella figura a sinistra; una matrice semidefinita positiva, ma
non definita positiva, rappresenta invece una conica come quella mostrata a destra.
y

Condizioni pratiche

> 0 se e solo se tutti i suoi autovalori sono positivi.

0 se e solo se tutti i suoi autovalori sono non negativi.


Se > 0, allora 0.
Se 0 ma non si ha > 0, allora almeno un autovalore di

Pag. 8

nullo, cio det

= 0.

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Per verificare che la matrice di varianza semidefinita positiva, possiamo osservare che:
=

=
Infatti:

% %
% %
% %

= = J-
. % %
K= /

% %
Possiamo ora portare loperatore di media allinterno dei singoli elementi della matrice, perci abbiamo:
& 1 1 2*
1 1
2 2
12

= =J
K = / 11
0=
2

21
22
2
2
1
1
2
2
Di conseguenza, possiamo cos calcolarla forma quadratica:
=
= =
= =

= =

= =
Siccome L
E siccome

-L

ML

M un numero reale, possiamo scrivere anche:


=

-L

M.

M .

, indipendentemente da , la media di quadrati di grandezze reali, avremo certamente:


0
Siccome sappiamo che una matrice semidefinita positiva se e solo se tutti i suoi autovalori sono non
negativi, possiamo concludere anche che il determinante di
certamente non negativo:
det
0
Ovvero:
% % 0 %%
% 0
%%
Coefficiente di covarianza (o di correlazione)
Il coefficiente di covarianza di un vettore casuale di dimensione 2 definito come:
O=

$ %% $
In virt del risultato appena ottenuto a partire dal fatto che la matrice di varianza semidefinita positiva,
possiamo concludere che:
|O| 1
In particolare:
Se O = 0, allora diciamo che % e sono incorrelati e scriviamo % .
Se O = 1, allora diciamo che % e sono massimamente correlati.
= + % . Proviamo a calcolare il coefficiente di
Esempio:
Consideriamo % ~ 0, %% e poniamo
correlazione tra % e . Avremo:
=
=
+ % =+
% = + %%
Inoltre:

=
+ % %
% =
% %
% % + %+ % =
Perci:
= + %%
% =+
% %
A questo punto, possiamo calcolare il coefficiente di correlazione:
1 V + < 0
+ %%
+
%
O=
=
=
=U 0
V + = 0X
|+|
$ %% $

$+
$ %%
%%
+1 V + > 0
Si noti che a rigore se + = 0,. O dovrebbe essere indefinito, ma possiamo porlo nullo
perch intuitivamente in tal caso sarebbe sempre nullo, indipendentemente dai valori di
% , perci le due variabili aleatorie sono di fatto incorrelate.

Pag. 9

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Processo casuale (o aleatorio, o stocastico)


Un processo casuale un insieme numerabile (o finito) di variabili casuali. Si ha perci di norma un insieme
di infinite variabili casuali, che vengono indicizzate con una variabile solitamente indicata con (in tal
modo si fa di solito riferimento al tempo, ma la variabile usata come indice pu talvolta assumere
significati diversi).
Il processo casuale viene indicato con:
Tuttavia, tale notazione non mette in evidenza il fatto che in realt si tratta di una funzione dipendente
non solo dal tempo, ma anche dallesito dellesperimento casuale, perci la notazione (comunque
ampiamente adottata) sottintende in realt una scrittura del tipo:
,
Valor medio
Il valor medio di un processo casuale cos definito:
,
=
=
Come si nota, il valor medio non dipende dal valore di . In sostanza quindi stiamo eseguendo la media
su tutti gli esiti possibili. Si osserva anche che il valor medio varia a seconda del tempo. Ad esempio, il
valor medio pu essere:

t
Stagionale

Varianza
La varianza di un processo casuale :

t
Un trend (o linea di tendenza)

-L

M .=

t
Fluttuante

La varianza pu essere costante nel tempo, ma in generale non cos.


Varianza incrociata (funzione di covarianza)
La varianza incrociata viene ottenuta considerando due valori di in istanti diversi % e , mediante la
formula:
Y %,
= &L %

M*
% ML
Si nota che, nel caso in cui si abbia % = = , la funzione di covarianza coincide con la varianza:
Y , =

Pag. 10

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Processo casuale stazionario


Un processo casuale stazionario un processo casuale nel quale:
1. La media
costante:
= .
costante:
=
2. La varianza
dipende solo da Z = % :
= Y Z ,Z = %
3. La covarianza Y % ,
Y %,
Si noti che in realt dovremmo usare una lettera diversa da Y: a rigore matematico la scrittura appena
adottata errata, ma risulta chiaramente pi pratica.
Propriet della funzione di covarianza di un processo stazionario
1. La covarianza per Z = 0 la varianza del processo:
Y 0 =
= .
Infatti, se si ha Z = 0, ovvero % = = , stiamo di fatto calcolando Y , =
2. La covarianza in modulo non mai superiore a Y 0 :
|Y Z | Y 0
la variabile casuale
Infatti possiamo chiamare % la variabile casuale
. Il coefficiente di
% e
covarianza tra % e , in virt della propriet precedentemente dimostrata, sar sempre non superiore
ad 1, perci:
|O| = [
[1
$ %% $
Ma % non altro che la funzione di covarianza:

= Y %,
=Y Z
% =
% %
%
La precedente disuguaglianza pu allora essere cos riscritta:
Y Z
[
[ 1 | Y Z |
=Y 0

3. La funzione di covarianza pari:
Y Z = Y Z
Funzione di covarianza normalizzata
Talvolta viene introdotta la funzione di covarianza normalizzata, che cos definita:
Y Z
O Z =
Y 0
In questo modo si ottiene una funzione sempre compresa tra 1 ed 1.
Spettro di un processo stazionario
Dato un processo stazionario con funzione di covarianza Y Z , possiamo calcolare la trasformata di Fourier
di Y Z , ottenendo:
%

bc

^ = ? Y Z V _A`a , ^
aB_c

Lo spettro di un processo stazionario ha le seguenti propriet:


1. ^ sempre reale.
2. ^ pari.
3. ^ periodica di periodo 2d. Se anzich le pulsazioni si utilizzano le frequenze, allora il periodo sar

unitario. Spesso si rappresenta il grafico dello spettro per pulsazioni tra d e d, corrispondenti a
frequenze tra 0,5 e 0,5; questultimo valore anche la massima frequenza che si pu ottenere in
campo discreto: il segnale periodico che varia pi rapidamente infatti quello fluttuante tra due valori.
Essendo pari, spesso sufficiente rappresentare lo spettro tra 0 e d.
4. ^ 0.

Pag. 11

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

La figura seguente mostra un esempio di spettro, mettendo in evidenza le propriet appena elencate:
^

Antitrasformata di Fourier
Se calcoliamo lantitrasformata di Fourier dello spettro di un processo casuale otteniamo nuovamente la
funzione di covarianza del processo stesso:
1 bi
g ^ V A`a h^ , Z 31 Vjk
Y Z =
2d _i
Si noti che le definizioni di trasformata ed antitrasformata vengono date in modi diversi tra loro: nel caso
pi generale, esse vengono definite come:
bc

^ =+ ? Y Z V
aB_c

bi

Y Z = ,g

_A`a

Dove + e , sono delle costanti reali tali che:

_i

+, =

Nel nostro caso, abbiamo semplicemente assunto:

1
2d

+=1

,=

^ V A`a h^

1
2d

Si nota inoltre che, per Z, ricaviamo dalla definizione dellantitrasformata che:


1 bi
Y 0 =
g ^ h^
2d _i
Questo significa che, a meno di una costante pari a 2d _% , larea sottesa dallo spettro (in un intervallo pari
al suo periodo) pari alla varianza del processo.

Pag. 12

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Introduzione alla predizione: processi AR, MA e ARMA


Il problema della predizione
Consideriamo una sequenza di dati ordinati con un indice (che possiamo immaginare rappresenti il
tempo, anche se non necessariamente cos).
Supponiamo di avere come dati:
1
2

1
E di voler calcolare lincognita:
Il problema pu essere rappresentato come mostrato nella figura seguente:

?
1

Supponiamo inoltre di non essere a conoscenza di come i dati siano stati generati.

Simbologia
Il dato incognito
, come gi abbiamo affermato, rappresenta il valore che assumer allistante .
Tuttavia, dobbiamo distinguere tra il valore che effettivamente assumer in tale istante e quello che si
stima possa assumere; di conseguenza, indichiamo la stima di
con il simbolo m .
Tale simbologia risulta per non sufficientemente chiara, perci si utilizza la notazione seguente:
m | 1
Che indica che stimiamo il valore di allistante , utilizzando tutti i dati misurati fino allistante 1.
Naturalmente, saranno lecite anche scritture come le seguenti (il cui significato risulta ovvio):
m | 2
m + 1| 1

Il predittore lineare a memoria finita

Per prima cosa, proviamo a costruire un predittore lineare, ovvero un predittore che calcoli m | 1
come combinazione lineare dei dati a disposizione. Possiamo scegliere di realizzare:
Un predittore lineare a memoria infinita
Ovvero un predittore nel quale m | 1 viene calcolato come combinazione di tutti i valori di a
partire da un certo istante iniziale 1, che listante relativamente al quale si possiede il primo dato:
m | 1 = +%
1 ++
1 + + +o_% 1
Come dice il nome stesso, il predittore corrispondente allequazione appena riportata necessita per di
una memoria infinita, perch indipendentemente dal valore di , bisogna conservare tutti i dati a
partire dallistante iniziale 1.
Un predittore lineare a memoria finita
Se vogliamo realizzare invece un predittore con memoria finita, che abbia bisogno di memorizzare
solamente gli ultimi 1 valori di , allora dobbiamo realizzare un predittore del tipo:
1 ++
2 + + +;
1
m | 1 = +%
Pag. 13

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Problemi nella realizzazione del predittore lineare


Nel seguito analizzeremo solamente predittori lineari a memoria finita. Tuttavia, i problemi che dobbiamo
affrontare nella realizzazione di questo predittore sono fondamentalmente 2:
1. Quale memoria utilizzare? Ovvero, come scegliere il valore 1 da utilizzare?
2. Quali valori attribuire ai parametri +% , + , , +; ?

Lerrore di predizione
Introduzione
Naturalmente, una volta individuato il predittore, ovvero dopo aver fissato tutti i parametri che compaiono
nellequazione:
1 ++
2 + + +;
1
m | 1 = +%
il predittore stesso potr essere utilizzato anche sul passato. In altri termini, possiamo calcolare:
m q|q 1 , rVj q = 1, 2,
Per ognuno dei valori considerati possiamo calcolare lerrore di predizione, che di fatto lerrore di stima.
Definizione
Lerrore di stima definito come la differenza tra il valore vero di una grandezza e il suo valore stimato m:
s
=
m | 1
Naturalmente, siccome e m variano nel tempo, anche s varier nel tempo. In particolare, siccome
consideriamo come un processo casuale, anche s sar un processo casuale.
Quali caratteristiche deve avere lerrore di predizione perch la stima sia considerata buona?
Naturalmente, la situazione ideale sarebbe quella nella quale lerrore di predizione costantemente nullo;
ci tuttavia impossibile nella realt dei fatti. Ci accontentiamo perci di un risultato molto meno
vincolante. A tale scopo, consideriamo gli andamenti dellerrore di predizione mostrati in figura:
s

1. La figura riportata a sinistra mostra chiaramente un errore di predizione con media positiva. Di
conseguenza ci rendiamo conto molto facilmente del fatto che possiamo realizzare un predittore
migliore di quello in analisi, tenendo conto semplicemente di questo dato evidente. Possiamo quindi
concludere che uno dei requisiti dellerrore di predizione che esso abbia media nulla.
2. La figura a sinistra mostra invece un errore con media nulla (ipotizziamo che sia cos), ma nonostante
questo possiamo osservare che lerrore cambia segno ad ogni istante. Anche in questo caso quindi
siamo in grado di ottenere delle informazioni pi dettagliate rispetto a quelle che ci vengono
direttamente fornite (ad ogni istante sappiamo dire se la predizione viene fornita per eccesso o per
difetto) e quindi anche in questo caso possiamo ottenere un predittore migliore. Possiamo allora
concludere che il secondo requisito necessario che il predittore non abbia una dinamica propria,
ovvero una propria logica di funzionamento.
Pi rigorosamente, questi concetti vengono formalizzati affermando che lerrore di predizione un rumore
bianco (WN, White Noise):
s ~ tu 0,
Dove il primo dei due parametri rappresenta la media (cio 0), mentre la varianza di s .
Pag. 14

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Il rumore bianco

Pi formalmente, un rumore bianco, spesso indicato con i simbolo tu, v oppure w, un processo casuale
stazionario con valor medio nullo e funzione di covarianza:
Y Z =x

Y Z

V Z 0X
V Z = 0

Il fatto che la funzione di covarianza sia nulla ovunque tranne che nel punto zero significa di fatto che la
conoscenza del passato non serve a prevedere il futuro: non c alcun legame tra ci che accade in un
istante e ci che accade in un altro.
Il calcolo della trasformata di Fourier molto semplice, perci otteniamo in maniera molto banale che lo
spettro di un rumore bianco costante e pari a :
^

^ =
d

Descrizione del segnale come uscita di un sistema lineare

Immaginiamo ora che effettivamente s sia un rumore bianco. Per la definizione di errore di predizione:
s
=
m | 1
Modificando poi tale equazione con banali passaggi algebrici, otteniamo:
= m | 1 +s
A questo punto, sostituendo a m | 1 la formula nota per un predittore lineare a memoria finita:
= +%
1 ++
2 + + +;
1 +s
Abbiamo cos ottenuto unequazione alle differenze avente come incognita il processo casuale , che
rappresenta la grandezza sulla quale stiamo cercando di eseguire la predizione. Nellequazione compare
inoltre lerrore di predizione s . Per quanto noto dal corso di Automatica, questo significa che la
grandezza pu essere vista come luscita di un sistema lineare avente come ingresso s :
s

Lequazione alle differenze precedente quindi lequazione che descrive il comportamento del sistema
rappresentato nella figura sopra riportata. A partire da tale equazione, possiamo ricavare la funzione di
trasferimento
, semplicemente introducendo loperatore di ritardo unitario , e ricordando che _%
loperatore di anticipo unitario. Abbiamo infatti:
= +% _%
++ _
+ + +; _;
+s
Da cui si ottiene facilmente:
1 +% _% + _ +; _; = s
E quindi:
;
1
=
= ;
t
=
1 +% _% + _ +; _;
+% ;_% + ;_ +;
s
Pag. 15

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Possiamo ora calcolare gli zeri e i poli della FdT cos ottenuta:
Gli zeri si ottengono annullando il numeratore, e perci abbiamo 1 zeri tutti nellorigine:
= 0 1 ky V
Gli zeri vengono rappresentati nel piano dei numeri complessi con il simbolo .
I poli si ottengono annullando il denominatore, e perci avremo 1 poli. A priori, non possiamo sapere in
quale regione del piano dei numeri complessi si troveranno i poli della funzione di trasferimento
precedentemente riportata. Il simbolo usato per indicare i poli nel piano complesso .
In conclusione, per trovare un buon predittore lineare, dobbiamo cercare di descrivere il segnale esatto
come luscita di un sistema avente una funzione di trasferimento del tipo:
t

+% ;_% + ;_ +;
e che sia alimentato da un rumore bianco. Vediamo ora che caratteristiche avr il processo duscita
relazione alle caratteristiche del processo dingresso.
;

in

Processi MA
Il processo MA(1)
Sia dato un sistema dinamico lineare come quello mostrato nella figura seguente:
v

Supponiamo inoltre che il segnale dingresso v sia un rumore bianco di media v e varianza :
v~tu v ,
Supponiamo per praticit che si abbia v = 0 (ma tale ipotesi non in realt necessaria). Analizziamo il
sistema nel caso in cui il suo comportamento imponga la validit della seguente equazione:
= E{ v + E% v 1 , E{ , E%
Allora:
= E{ v , perci:
1. Se E% = 0, abbiamo semplicemente
a)
= E{ v
= E{ v
=0
b)

>j

c) |k

%,

2. Se
3. Se

=
=

%,

-L

= :Y ,

= E{

M .=

+ E21

1: Y , + 1 = E{ E%
% 2: Y , + 2 = 0
%

-LE{ v

Pag. 16

M . = E{ -Lv

M . = E{

=
=
%
V % X
= E{ v % v
= E{ Y % ,
=}
E{
V % =
Siccome valgono tutte le relative propriet, il segnale di uscita ancora un processo stazionario, ed in
particolare si tratta ancora di un rumore bianco.
2. Se E% 0 e E{ qualsiasi, allora:
a)
= E{ v + E% v 1 = E{ v
+ E% v 1 = 0
b) >j
=
= E{ v
+ E% v
1 + 2E{ E% v v 1 =
= E{ v
+ E% v
1 + 2E{ E% v v 1
Ricordando la definizione di covarianza:
>j
= E{ + E% + Y , 1 = E{ + E%
c) Y % ,
=
=
&LE
+ E% v 1 M* =
%
{ v % + E% v % 1 MLE{ v
= E{ v % v
+ E{ E% v % v 1 + E{ E% v % 1 v
+ E% v % 1 v 1
Abbiamo ora vari casi:
1. Se

=Y

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

In sostanza quindi, nel caso in analisi, si ottiene ancora un processo stazionario, ma in questo caso non
si tratta di un rumore bianco, perch la covarianza non si annulla nei valori 1. Diciamo in questi casi
che il processo in analisi un rumore colorato.
Y Z =~

E{ + E%
E{ E%
0

V Z = 0

V Z = 1
V Z = q, q > 1

E{ E%

Y Z

E{ + E%
E{ E%

Un processo di questo tipo noto con il nome di processo MA(1), dove lacronimo MA sta per Moving
Average, ovvero media mobile. Il nome giustificato dal fatto che in sostanza il processo in uscita
viene costruito calcolando la media dei 2 precedenti valori, sempre utilizzando gli stessi 2 coefficienti.
Il caso generale: processo MA(n)
Procedendo in maniera analoga, il processo MA(n), ottenuto con un sistema del tipo:
= E{ v + E% v 1 + + E; v 1 , E{ , E% , , E;
Sar ancora un processo casuale stazionario, con:
=0
= E{ + E% + + E;
e sar nuovamente un rumore colorato. In particolare, la sua funzione di covarianza sar del tipo:
Y 0 = E{ + E% + + E;
Y 1 = E{ E% + E% E + + E;_% E;
Y 2 = E{ E + E% E + + E;_ E;

Y 1 = E{ E;
Y q = 0, q > 1
Possiamo ora provare a calcolare la funzione di trasferimento di un generico processo MA(n):
= E{ v + E% _% v + + E; _; v
= E{ + E% _% + + E; _; v
E{ ; + E% ;_% + + E;
=
= E{ + E% _% + + E; _; =
;
v
Osserviamo che si tratta di una funzione di trasferimento lineare, perci potremo calcolarne zeri e poli; gli
1 poli saranno tutti coincidenti e posizionati nellorigine, mentre la posizione degli zeri dipende
chiaramente dai valori che si attribuiscono ai vari coefficienti E{ , E% , , E; .
Il processo MA()
Consideriamo ora ci che accade se, anzich considerare un segnale che sia dato dalla media pesata tra i
valori assunti dallingresso v negli ultimi 1 istanti (dove 1 un numero finito), consideriamo il caso in cui il
segnale duscita sia la combinazione lineare di v valutato in un numero infinito di istanti del passato:
= E{ v + E% v 1 + + E;_% v 1 + E; v 1 + E;b% v 1 1 +
Avremo allora:
Y 0 = E{ + E% + + E; +
Allora, affinch Y 0 sia una quantit finita, necessario che sia finita la serie:
bc

E{ + E% + = ? E@
@B{

In tale ipotesi, Y sar finita in ogni suo punto: sappiamo infatti che:
|Y Z | Y 0
Perci sufficiente verificare che la covarianza sia finita per Z = 0.
Pag. 17

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Processi AR
Il processo AR(n)
Un processo AR (autoregressivo) di ordine 1, indicato con AR(1), viene ottenuto come uscita di un sistema
dinamico lineare avente come ingresso un rumore bianco v:
t

Dove il comportamento del sistema descritto da unequazione del tipo:


= >%
1 +>
2 + + >;
1 +v
Di conseguenza, la funzione di trasferimento corrispondente si potr cos ottenere:
= >% _%
+> _
+ + >; _;
+v
_%
_
_;
1 >%
>
>;
=v
;
1
t
=
=
; > ;_% > ;_ >
1 >% _% > _ >; _;
%
;
Il processo AR(1)
Consideriamo ora un processo
di tipo AR(1), e stabiliamo se si tratta di un processo stazionario. Ci
dipende dal valore che assume il parametro reale >% . La funzione di trasferimento :
1
t
=
=
1 >% _%
>%
Analisi del processo AR(1) primo metodo
Per la nostra analisi, risulta utile osservare che un segnale AR(1) pu sempre essere espresso come un
particolare segnale MA(). Infatti:
= >%
1 +v
= >% >%
2 +v 1 +v
= >%
1 + >% v 1 + v
=
= >% >%
3 + v 2 + >% v 1 + v
=
All3-esima iterazione del procedimento appena illustrato avremo allora:
= v + >% v 1 + >% v 2 + + >%;
1
Perci, se il procedimento viene iterato facendo tendere ad infinito il valore di 1, otteniamo unespressione
del tipo MA(). tuttavia necessario verificare che tale processo sia ben definito, ovvero che Y 0 sia
finito. Nel nostro caso, il coefficiente 3-esimo del processo MA() :
E@ = >%@
Perci:
bc

bc

@B{

@B{

bc

1
1 >%

? E@ = ? >% @

Quella cos ottenuta una serie geometrica di ragione >% , perci noto dallAnalisi Matematica che la
serie convergente se:
>% < 1
O, equivalentemente:
|>% | < 1
Sotto tale ipotesi, la somma della serie
? >% @ =
@B{

Pag. 18

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Possiamo cos concludere che, se |>% | < 1, allora il processo AR(1) equivalente ad un processo MA()
ben definito, e perci stazionario, perch abbiamo gi dimostrato che tutti i processi MA sono stazionari.
La varianza del processo AR(1) pu essere calcolata utilizzando la formula data per i processi MA():
>j

= Y 0 = E{ + E% + + E; +

bc

= ? >% @
bc

Inoltre, possiamo valutare la funzione di covarianza nei restanti punti:


Y 1 = E{ E% + E% E +

In maniera del tutto analoga:


Y 2 = E{ E + E% E +

E cos via. Si ottiene cos:

= L>% +

>%

= >% +

>%

@B{

1 >%

bc

>%

+ M

= >% ? >%

= ? >% @

= >% Y 0

>%

= >% ? >%

= ? >% @

= >% Y 0

Y Z = >%a Y 0 =

@B{
bc

@B{

@
@

@B{
bc

@B{

>a
1 >% %
Da un punto di vista grafico allora la funzione di covarianza sar rappresentata da un esponenziale
negativo simmetrico a tempo discreto:
0 < >% < 1
Y Z

1 < >% < 0


Y Z

Come mostra la figura a destra, nel caso >% < 0, il segnale generato oscilla visivamente in modo molto pi
significativo. Con il termine segnale generato si intende quello che, in maniera pi rigorosa, dovrebbe
essere chiamato realizzazione del processo, ovvero linsieme dei valori che il processo realmente assume se
lo si osserva. In sostanza, considerare una realizzazione di un processo significa fissare un certo valore di ,
che ricordiamo essere la variabile che indica lesito dellesperimento casuale:
dovrebbe infatti essere
espresso come
, . Diciamo allora che:
, , ovvero una variabile casuale.
Se fissiamo il valore di = , otteniamo
Se fissiamo il valore si = , otteniamo
, , ovvero una realizzazione del processo.

Pag. 19

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Analisi del processo AR(1) secondo metodo: la lunga divisione


La stessa analisi pu in realt essere condotta in maniera diversa, adottando cio un punto di vista
differente. Lobiettivo ancora quello di esprimere la funzione di trasferimento nella forma:
t
= E{ + E% _% + E _ +
Per ottenere tale risultato, possiamo eseguire la lunga divisione tra il numeratore e il denominatore di:
t

La lunga divisione si esegue come di seguito mostrato:

>%

>%
>%
>%
E cos via. Al primo passo otteniamo allora:

Al secondo passo, otteniamo:

>%
1 + >% _%

>% _%
>% _%
=1+

>%
>

>% _%
>%
Cio, ad ogni passo indichiamo il risultato della divisione, cui si somma il resto diviso per il denominatore
della funzione di trasferimento iniziale. Il procedimento viene iterato allinfinito, e si ottiene, se |>% | < 1:
t
= 1 + >% _% + >% _ +
Che equivale alla funzione di trasferimento di un processo MA(), a patto di porre E@ = >%@ :
t
= E{ + E% _% + E _ +
Analisi del processo AR(1) terzo metodo: le equazioni di Yule-Walker
Un terzo metodo di analisi quello che prevede di ricorrere alluso delle equazioni di Yule-Walker:
1. Per prima cosa, calcoliamo la varianza Y 0 di .
Y 0 = >j
=

Siccome si ha:
v
=0
Allora avremo, per ogni valore di :
=0
E quindi possiamo scrivere:
t

Y 0 =

-L

M .=

>%

= 1 + >%

1 +v

_%

>%

1 +v

+ 2>%

1 v

= >%
1 + v
+ 2>%
1 v
= >% >j
1 + + 2>%
1 v
Dove
1 v
la correlazione tra
1 e v . Come evidente dallequazione che
descrive
,
dipende da
1 e da v ; a sua volta,
1 dipende da
2 ev
1 , e cos via. Possiamo allora affermare che
dipende dal passato di v fino allistante , mentre
1 dipende dal passato di v fino a 1.
Se per v un rumore bianco, allora v
incorrelato con tutti i valori precedenti, e perci anche
con
1 . Ne ricaviamo allora:
Y 0 = >% >j
1 +
Inoltre, siccome un processo stazionario:
>j
1 = >j
=Y 0
Perci:
Y 0 = >% Y 0 +

Y 0 =

Pag. 20

1 >%

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

2. Calcoliamo ora il valore Y 1 :

Y 1 =
1 =
+1
Utilizziamo, tra le due precedenti definizioni, la prima:
Y 1 =
1 = &L>%
1 +v M
1 *=
= >%
1 +v
1 = >%
1 + v
1 = >% Y 0
3. Calcoliamo ora il valore Y 2 :
Y 2 =
2 =
+2
Utilizziamo ancora, tra le due precedenti definizioni, la prima:
Y 2 =
2 = &L>%
1 +v M
2 *=
1
2 +v
2 = >% >%
1
2 + v
2
= >%
= >% >%
1
2 = >% >%
1 = >% Y 1 = >% Y 0
Procedendo sempre nello stesso modo, si ottengono le equazioni di Yule e Walker:
Y 0 =

Y Z = >% Y Z 1 ,

1 >%

Z: |Z| 1

Con queste equazioni:


1. Data la varianza di v siamo in grado di calcolare la funzione di correlazione Y Z .
2. Data la funzione di correlazione Y Z , siamo in grado di risalire a e >% . Ad esempio, se consideriamo
le prime due tra le infinite equazioni di Yule e Walker:

Y 1
Y 1
Y 0 =
V = Y 0 1 >% = 1
Y 0
~
1 >% X >% =
Y 0
Y 0
Y 1 = >% Y 0
Quello appena descritto un primo esempio di procedimento di identificazione. Immaginiamo ad esempio
di avere una certa serie di dati, e supponiamo di volerla modellare come luscita di un sistema dinamico
lineare del tipo AR(1): dobbiamo naturalmente stimare i valori di >% e di . A tale scopo, dalla serie
temporale stimiamo direttamente i valori di Y 0 e Y 1 e poi, utilizzando le relazioni appena individuate,
possiamo calcolare i parametri ignoti.
Equazioni di Yule-Walker per un generico processo AR(n)
Dato un generico processo AR(n):
= >%
1 +>
2 + + >;
1 +v
Possiamo generalizzare il procedimento delle equazioni di Yule-Walker, in modo da individuare la funzione
di correlazione Y del processo stesso. Infatti possiamo:
1. Calcolare i primi 1 valori di Y mediante la risoluzione di un sistema di 1 equazioni in 1 incognite. Ad
esempio, se 1 = 2, calcoliamo:
Y 0 =

-L>%

1 +>

2 +v

M . = >%

1 +>

2 +

+ v
+ 2>% >
1
2 + 2>%
1 v
+ 2>
2 v
=
= >% Y 0 + > Y 0 +
v
+ 2>% > Y 1 = >% Y 0 + > Y 0 + + 2>% > Y 1
Y 1 =
1 = &L>%
1 +>
2 +v M
1 *=
= >%
1 +>
2
1 + v
1 = >% Y 0 + > Y 1
Si ottiene allora il sistema:
Y 0 = >% Y 0 + > Y 0 + + 2>% > Y 1 X
}
Y 1 = >% Y 0 + > Y 1
Che, una volta risolto, ci permette di conoscere Y 0 e Y 1 .
2. Calcolare poi i restanti valori mediante la formula:
Y Z = >% Y Z 1 + > Y Z 2 + + >; Y Z 1 , Z: |Y| 1
Pag. 21

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Processi ARMA

Il processo ,
I processi
1 , 1 sono una famiglia di processi, che contiene tra laltro anche tutti i processi AR e
tutti i processi MA. Se consideriamo ancora il processo come uscita di un sistema dinamico lineare avente
come ingresso un rumore bianco v~ 0,
:
v

Allora lequazione che ci permette di definire un processo ARMA la seguente:


1 +>
2 + + >;
1 +
= >%
+E{ v + E% v 1 + E v 2 + + E; 1
Dove:
>@ , EA

(parte AR)
(parte MA)

Allora, la funzione di trasferimento sar cos calcolabile:


= >% _%
+> _
+ + >;
1 + E{ v + E% _% v + + E; _;
Da cui ricaviamo lespressione seguente, nota anche come rappresentazione operativa del modello
ARMA.
_;
= E{ + E% _% + + E; _; v
L1 >% _% > _ >; M
Tale espressione viene spesso indicata, per ovvie ragioni di praticit, utilizzando:
|
= E{ + E% _% + + E; _;
= 1 >% _% > _ >; _;
E quindi scriviamo:
=| v
da cui:
E{ + E% _% + + E; _;
|
t
=
=
_;
1 >% _% > _ >;
Volendo, la funzione di trasferimento pu essere riscritta con esponenti positivi:
;_;
E{ ; + E% ;_% + + E;
t
= ;
;_;
>% ;_% > ;_ >;

Come mette in evidenza questa espressione, si hanno sempre 1 zeri e 1 poli, dove:
1 = max 1 , 1
evidente inoltre che
I coefficienti E@ determinano gli zeri della funzione di trasferimento;
I poli sono determinati dai coefficienti >@ ;
La differenza 1 1 determina il numero di zeri nellorigine (o, se negativa, il numero di poli
nellorigine).
Se 1 = 0, allora il processo del tipo
1 , e quindi ha 1 zeri nellorigine (come si ricava anche
dalla precedente osservazione).

Pag. 22

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Stazionariet del processo ARMA


Il processo generato nel modo descritto, ovvero mediante un sistema del tipo:
v~ 0,

E{

>%

+ E%

;_%

;_%

>

;_;

+ + E;

;_

;_;

>;

non , nel caso generale, un processo stazionario. A tal proposito, opportuno innanzitutto distinguere tra
il concetto di modello ARMA, che un sistema descritto dallequazione alle differenze del tipo:
_;
= E{ + E% _% + + E; _; v
L1 >% _% > _ >; M
e il concetto di processo ARMA, ovvero il processo generato dal modello ARMA, solo nel caso in cui il
processo generato sia stazionario.
Naturalmente, vogliamo ora determinare quali sono le condizioni necessarie affinch il processo generato
dal modello ARMA con un rumore bianco al proprio ingresso sia effettivamente stazionario.
Per farlo, possiamo osservare che, eseguendo la lunga divisione tra il numeratore ed il denominatore della
t , otteniamo:
_
t
= { + % _% +
+
Dove i coefficienti @ sono dei numeri reali (il cui significato verr specificato in seguito). Avremo allora:
_
=t v
= { + % _% +
+ v
= {v + %v 1 + v 2 +
Lespressione individuata quella di un processo e, come noto, tale processo stazionario se:
bc

?
@B{

< +

< +

Di conseguenza, stabilire la stazionariet equivale a stabilire sotto quali ipotesi tale condizione verificata.
Possiamo ora osservare che, se supponessimo che il segnale di ingresso v
fosse non un rumore bianco,
ma un impulso discreto, ovvero un segnale del tipo:
1
V = 0 X
v
=x
0 >y j3 V1 3
Allora avremmo:
0 = {v 0 = {
1 = %v 0 = %

q = v 0 =
Perci i coefficienti @ non sono altro che i valori della risposta impulsiva del sistema nei vari istanti. Di
conseguenza, individuare la condizione di stazionariet equivale anche ad individuare quali sono le
condizioni sotto le quali la risposta impulsiva del sistema a quadrato sommabile:
bc

?
@B{

Come noto, affinch ci accada, la risposta impulsiva deve tendere a 0 in maniera sufficientemente rapida,
e ci accade quando il sistema stabile.
In conclusione, se il modello ARMA stabile:
1. La somma dei quadrati della risposta impulsiva limitata.
2. Il modello che esprime il modello ARMA dopo la lunga divisione genera un processo
stazionario;
3. Il processo generato dal modello ARMA stazionario, ovvero un processo ARMA.
Inoltre, si ricorda che, come noto dai Fondamenti di Automatica, un sistema dinamico a tempo discreto
stabile se i suoi poli hanno tutti modulo minore di uno. Si osserva perci che la stazionariet del processo
generato dipende solamente dai coefficienti >@ e non dai coefficienti E@ .

Pag. 23

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Osservazioni
I processi MA finiti, come gi noto, sono sempre processi stazionari. Infatti, possono essere modellati
come processi ARMA nei quali tutti i coefficienti >@ sono nulli:
= E{ + E% _% + + E; _; v
E quindi gli zeri sono tutti nellorigine:
E{ ; + E% ;_% + + E;
t
=
;

In un processo AR invece la funzione di trasferimento sar del tipo:


t

>% ;_% > ;_ >;;


E quindi, come abbiamo visto, la stazionariet dipende dai valori dei coefficienti >@ . Si nota inoltre che,
solo nel caso in cui tali valori siano tali da rendere stabile il sistema, il processo viene detto
1 .
;

Spettro
Consideriamo ancora una volta il sistema:
v~ 0,

Ipotizzando ora che sia un processo stazionario. Chiamiamo inoltre Y Z la funzione di covarianza. Allora,
lo spettro :
^ = Y Z

bc

= ? Y Z V _A`a
aB_c

Tuttavia, trovare la funzione di covarianza Y Z talvolta molto complicato.


Esempio
Consideriamo un esempio particolarmente fortunato, nel quale riusciamo ad individuare facilmente la
funzione di covarianza e, da essa, lespressione dello spettro. Tale situazione quella che si verifica in caso
di processo 1 :
= E{ v + E% v 1
Come abbiamo gi dimostrato:
E{ + E% 2
Z=0
X
2
Y Z = ~ E{ E%
Z=1
0
Z = q, q 2
Allora abbiamo:
bc

^ = ? Y Z V _A`a = Y 0 + Y 1 V _A` + Y 1 V A` = Y 0 + Y 1 V _A` + Y 1 V A` =


aB_c

= Y 0 + Y 1 LV _A` + V A` M = Y 0 + 2Y 1 cos ^ = E{ + E%
^

Caso E{ E% > 0

+ 2E{ E%

Caso E{ E% < 0
Pag. 24

cos ^

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Lo spettro complesso
Introduciamo ora il concetto di spettro immaginario

= Y Z

bc

, che risulter molto utile a breve:

= ? Y Z
aB_c

_a

Teorema fondamentale dellanalisi spettrale (formula magica)


Un procedimento alternativo che ci permette di ottenere lo spettro senza passare attraverso il calcolo della
funzione di covarianza, dato dallapplicazione del teorema fondamentale dellanalisi spettrale, noto in
maniera informale anche come formula magica. Tale teorema afferma che:
Dato un sistema dinamico con funzione di trasferimento t
alimentato da un processo di ingresso
stazionario v, se il sistema stabile, luscita un processo stazionario , e gli spettri dei due processi sono
tra loro legati dalla relazione:
^ = tLV A` M v ^ = tLV A` MtLV _A` Mv ^
Nel caso particolare in cui il processo in ingresso un rumore bianco:
^ = tLV A` M

= tLV A` MtLV _A` M

Siccome valutare il modulo della funzione di trasferimento al variare di V A` (e quindi su tutti i punti della
circonferenza di raggio unitario) spesso molto complesso, si usa la formula magica per calcolare lo
spettro complesso:

= t t _% v
Nel caso particolare in cui il processo in ingresso un rumore bianco:

= t t _%
Osservazioni
Con riferimento al sistema in figura:

v~ 0,

E ipotizzando che il sistema sia stabile, si osserva che:


Se { uno zero della funzione di trasferimento t , allora risulta chiaro dal teorema fondamentale
dellanalisi spettrale che si ha:
{ = 0
Se r{ un polo della funzione di trasferimento invece si ricava (ancora una volta dal teorema
fondamentale dellanalisi spettrale) che si ha:
{ =
Se t
ha uno zero (o un polo) in , allora ha uno zero (o un polo) in _% .

Pag. 25

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Rappresentazioni di un processo stazionario


Un processo stazionario pu essere rappresentato in diversi modi:
1. Fornendone il valor medio e la funzione di covarianza Y Z .
2. Fornendone la media e lo spettro (sia esso reale o complesso).
3. Descrivendolo come uscita di un sistema dinamico stabile alimentato da un rumore bianco, del quale
nota la funzione di trasferimento t .
Se si desidera passare dalla rappresentazione 3 alla rappresentazione 2, abbiamo gi visto che possibile
utilizzare il teorema fondamentale dellanalisi spettrale. Ad oggi, non noto invece alcun modo per
passare direttamente dalla rappresentazione del tipo 3 alla rappresentazione del tipo 1.
Esempio introduttivo: i processi indistinguibili
Consideriamo ora un esempio che ci sar utile per ricavarne importanti osservazioni. In particolare,
prendiamo in analisi il processo 1 , rappresentato nel modo indicato con il numero 3 nel precedente
elenco:
= E{ v + E% v 1
Come gi noto, la relativa funzione di covarianza sar:
V Z = 0
E{ + E%
Y Z = ~ E{ E%
V Z = 1X
0
V |Z| > 1
Prendiamo ora in analisi il processo seguente:
1

= E{ v 1 + E% v 2 =
Avremo allora:
E{ + E%
V Z = 0
Y Z = Y Z = ~ E{ E%
V Z = 1X
0
V |Z| > 1
E inoltre, essendo uguali le funzioni di covarianza, avremo anche:
z = z

Eppure risulta chiaro che le realizzazioni dei due processi saranno diverse. Si dice in questo caso che i due
processi sono indistinguibili, perch hanno la stessa media e la stessa funzione di covarianza.
Si osserva perci che uno stesso processo stazionario ha in realt diverse rappresentazioni dello stesso
tipo.
Cause della molteplicit delle rappresentazioni
Cerchiamo ora di analizzare una ad una tutte le possibili cause di molteplicit delle rappresentazioni di un
processo stazionario:
1. Consideriamo i segnali descritti dai seguenti sistemi:
v~ 0,

Con:

v~L0, M

= Ot

=
O2

1 2
= t t _% 2 = z
O
Di conseguenza, abbiamo cos individuato infinite rappresentazioni alternative dello stesso processo.
Allora:

z =t
z t
z _% 2 = Ot

Ot

Pag. 26

_%

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

2. Consideriamo ancora i due sistemi rappresentati nelle figure precedenti, ma ipotizziamo in questo
caso di avere:
1
=

t
= ;t ,
11
Avremo allora:

z =t
z t
z _% 2 =

_%

=t

_%

= z

Anche in questo caso quindi abbiamo individuato 1 modelli diversi che generano processi
indistinguibili.
3. Con riferimento alla solita figura, ipotizziamo adesso di avere:
1
++
++
= +2
t
=

t
=
+,
+,
Allora:
1
+
++ ++ 2 1++ + ++ 2
_% 2
=

=
z =t z t z
,
+, 1+,
1+, + +,
+ 1
1
1 1 1
+
1+ ++ +
++ ++
1++ + ++
2
+
2
2
2
_%
z =t
z t
z =

+
=
+
=
= z
,
,
+, 1+,
1+, + +,
1+, + +,

4. Possiamo poi eseguire unoperazione analoga a quella del precedente punto,ma con riferimento al
denominatore:
++
1
++
t
=
=
t
=
1
+
+,
,2
,
Allora:
1
+
++
1++ + ++
+
+
2
2
2
z = t z t z _%
=

=
,
+, 1+,
1+, + +,
z =t
z t
z

_%

1
++ ++ 1
=

1 1 1,
+
+
,
,
2

Osservazione
Si noti che se si costruisce un sistema:
v

1++ +

++ 1
=
1
1
1+ +
+ ,
, ,
,

1++ +

1+, +

++

+,

= z

++
1
++
Allora, ipotizzando che v sia un processo stazionario qualunque (non necessariamente un rumore bianco)
con spettro complesso z , abbiamo:
1
+
1++ + ++
++ ++
! z =
z =
z = + z
11 1
1
1
++ ++
1+++ ++
+
Quindi, a meno di una costante reale, i due spettri sono uguali. Si dice per tale motivo che il filtro cos
costruito un filtro passa tutto.
Con:

Pag. 27

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Fattorizzazione spettrale canonica

Il problema della fattorizzazione spettrale consiste nellindividuare la funzione di trasferimento t


del
sistema stabile che genera un processo stocastico stazionario, conoscendone lo spettro complesso z .
Come evidente dalle osservazioni che abbiamo esposto nel precedente paragrafo, questo problema ha
infinite soluzioni. Tra tutte le possibile soluzioni, si individuer allora una funzione di trasferimento
canonica, che ha le seguenti caratteristiche:
1. Numeratore e denominatore sono monici
Ovvero, sia al numeratore che al denominatore il coefficiente del termine di grado massimo unitario.
Esempio:
Considerando ad esempio un processo 1 rappresentato nel modo consueto:
= E{ v + E% v 1
Dovremo porre E{ = 1, ottenendo cos:

= v
+ E v 1
Al fine di avere le due funzioni di covarianza uguali:
E{ + E%
V Z = 0
1 + E
V Z = 0
X
Y Z = Y Z = ~ E{ E%
Y Z = Y Z = ~ E
V Z = 1
V Z = 1X
0
V |Z| > 1
0
V |Z| > 1
Dovremo avere:
E%
E =
E{ X
~
= E{
2. Numeratore e denominatore devono essere dello stesso grado
Per comprendere limportanza di questa regola, consideriamo il sistema seguente:

_%

Dove:
t
= &t
*
Il sistema quindi, con ingresso un processo stocastico stazionario , ha lo scopo di ricostruire un
rumore bianco s. Come si osserva dalla formula, per fare ci dobbiamo invertire la funzione di
trasferimento t
che ha generato
; se tale operazione consentita e porta ad ottenere un
sistema stabile, allora il filtro ottenuto detto sbiancante. Tale operazione per non sempre
consentita. Ad esempio:

+ 0,5
0,7

t
=
t
=
0,7
+ 0,5
Ma si ottiene cos una funzione con il grado del numeratore maggiore del grado del denominatore, e
quindi si ha in sostanza un sistema nel quale luscita dipende anche dal valore che lingresso assume in
valori futuri. Chiamiamo grado relativo la differenza tra il grado del denominatore e il grado del
numeratore della funzione di trasferimento; sulla base di quanto appena detto, risulta chiaro che il
grado relativo di una funzione di trasferimento deve essere sempre maggiore o uguale a zero.
Possiamo inoltre affermare che il grado relativo un indicatore del ritardo delluscita rispetto
allingresso: se il grado relativo di una funzione di trasferimento 1, significa che lingresso non
influenza immediatamente luscita, ma la influenza solo a partire da 1 istanti di tempo successivi.
Infatti, considerando ancora la funzione di trasferimento t
usata nel precedente esempio, se
calcoliamo la lunga divisione tra numeratore e denominatore, otteniamo:
t
= 0 + 0 _% + 1 _ +
Ed immediato notare che 2 proprio il grado relativo della funzione di trasferimento data.

Pag. 28

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

3. Zeri e poli devono avere modulo inferiore ad uno


Al fine di inibire la reciprocazione di poli e zeri, che la causa di molteplicit di rappresentazioni
indicata con i numeri 3 e 4 in precedenza, imponiamo che tutti i poli e gli zeri si trovino, quando
rappresentati sul piano complesso, allinterno della circonferenza di raggio unitario.
Infatti, gli zeri di una funzione di trasferimento t
sono sempre i poli della sua funzione di
_%

, e affinch questultima sia stabile necessario che i suoi


trasferimento reciproca, t
= t
poli (e perci gli zeri di t
, come abbiamo appena ricordato) siano interni alla circonferenza di
raggio unitario. In questo modo, il sistema:

Avr in uscita un rumore bianco, una volta raggiunta la situazione di regime.


4. Numeratore e denominatore della funzione di trasferimento devono essere coprimi
Ci significa che il numeratore e il denominatore della funzione di trasferimento non devono avere
alcun fattore in comune.
Se t
ha le caratteristiche appena esposte, e se vale la relazione:
z = t t _%
Allora diciamo che t
la fattorizzazione canonica di z , e la indichiamo anche con t
.
Esempio n. 1
Consideriamo ora la seguente rappresentazione di un processo:
= 2v 1 + 4v 2
v~tu 0,
Cerchiamo di verificare se si tratta della sua rappresentazione canonica e, in caso negativo, vogliamo
individuare tale rappresentazione. Introducendo loperatore di anticipo:
2 4
2 +4
= + =
= 2 _% v + 4 _ v t

Naturalmente, non si tratta della rappresentazione canonica, perch:


1. Il numeratore non monico;
2. Numeratore e denominatore sono di gradi diversi;
3. Lo zero della FdT { = 2, perci non appartiene alla circonferenza di raggio unitario.
Possiamo allora cercare di ottenere la rappresentazione canonica.
1. Rendiamo uguali tra loro il grado del numeratore e il grado del denominatore; per farlo, introduciamo
il segnale
traslato di un passo, che chiamiamo :

=
+ 1 = 2v + 4v 1
= 1
Come abbiamo gi visto per questi due segnali sono indistinguibili, perci possiamo utilizzare la
funzione di trasferimento ottenuta a partire dallespressione di , che :
4 2 +4

= 2v + 4 _% v t
=2+ =

Pag. 29

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

2. Rendiamo monici i polinomi a numeratore e denominatore. Per farlo, sufficiente eseguire le seguenti
operazioni:
2 +4
+2

t
=
=2
Perci:
v

2 +4

+2

2v

+2

Possiamo inoltre rappresentare questa situazione nel modo seguente:


v

v = 2v~tu 0,4

3. A questo punto, dobbiamo fare in modo che gli zeri e i poli siano interni alla circonferenza di raggio
unitario. Come abbiamo gi visto, basta a tal proposito eseguire la reciprocazione degli zeri e dei poli
non interni. Otteniamo cos:
+ 0.5

t
=

Come abbiamo gi visto in passato, per necessario moltiplicare anche la varianza del processo in
ingresso per una opportuna costante, che pari allo zero reciprocato elevato al quadrato:
v ~tuL0,4 M = tu 0,16

La fattorizzazione canonica perci t


, e lo spettro sar:

_% 16
t
t
Possiamo in altri termini indicare:
+ 0.5
- =
t

Pag. 30

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

La predizione
Il problema della predizione
Come abbiamo gi accennato in passato, il problema della predizione consiste nel prevedere il valore che
un certo segnale assumer in un istante futuro, che indichiamo con + j. Supponiamo ora che il segnale
da stimare sia un processo stazionario descritto da un sistema del tipo:
w~tu 0,

Si noti che nel precedente schema t


= 1 >%
Abbiamo quindi:

Dove:

Da cui ricaviamo:

L1 >%

> ;

_%

_;

>;

_;

2 + + >;

= L1 + E%

1 + w

_%

= 1 + E%

+ + E;
+ E% w

_%

+ + E;

_;

_;

Mw

, sono i coefficienti della risposta impulsiva del sistema. Abbiamo allora:


_
_
= { + % _% +
+ w
= { w + % _% w +
w +=
= {w + %w 1 + w 2 +
Ricaviamo quindi:
+ j = {w + j + %w + j 1 + w + j 2 + +
+ _% w + 1 + w + b% w 1 +
Possiamo inoltre fermarci nelleseguire la lunga divisione ad un certo passo j, ottenendo cos il risultato
seguente, dove |
un opportuno polinomio che, come vedremo con i prossimi esempi, pu facilmente
essere calcolato
|
_
_
t
= { + % _% +
++
Dove

{,

1 +>

la rappresentazione canonica della funzione di trasferimento:


|
t
=

1 + + E; w 1
Sappiamo che, se eseguiamo la lunga divisione tra numeratore e denominatore di t
, otteniamo:
_%
_
+
+
t
= {+ %
Ovvero:

= >%

_%

%,

In particolare, se ci fermiamo al primo passo, otteniamo:


|

Dove il valore 1 ottenuto dovuto al fatto che i polinomi sono monici e di ugual grado. Allora, nel caso
particolare, abbiamo ottenuto:
|

_%
t
=1+
=1+
Ovvero, abbiamo ottenuto:

|%

Pag. 31

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Ipotesi di misurabilit dellingresso


I concetti di base
Supponiamo per un istante che la misurazione del rumore dingresso sia attendibile (questo nella realt
non possibile). Allora, dovremo analizzare un problema preliminare, pi semplice rispetto a quello che
analizzeremo in seguito: conoscendo tutti i valori che w assume tra listante e listante , dobbiamo
stimare il valore di
+ j . Lobiettivo quello di individuare un sistema che ci permetta di ottenere tale
risultato, la cui funzione di trasferimento verr indicata con:
-
t
Riscriviamo ora, per praticit:
+ j = + + ,
Dove:
+
= w
+ b% w 1 +
,
= { w + j + % w + j 1 + w + j 2 + + _% w + 1
Siccome sotto lipotesi precedentemente esposta possiamo conoscere tutti i valori di w per gli istanti non
superiori a , saremo certamente in grado di calcolare + , mentre, ovviamente, non possibile calcolare
il termine , , in quanto dipende dai valori che w assumer nel futuro. Inoltre, siccome w un rumore
bianco, la conoscenza del passato non pu in alcun modo essere utilizzata per calcolarne levoluzione
futura, perci , incalcolabile. Possiamo allora considerare ragionevole una predizione del tipo:
m + j| = +
Riassumendo, possiamo affermare che il predittore in avanti di q passi, sotto lipotesi di misurabilit
dellingresso, sar del tipo:
m + j| = w + b% w 1 +
Dove @ sono i coefficienti della lunga divisione. Questo significa anche che il predittore ottimo avr
funzione di trasferimento:
|
-
t
=
Sulla base dei calcoli precedentemente svolti, se ad esempio stiamo cercando il predittore ottimo ad 1
passo, dovremo calcolare:
|

-% =
t

Siccome per ipotesi tutti gli zeri e tutti i poli di t


hanno modulo minore di 1 (altrimenti non sarebbe il
-% , che sono gli stessi di t
fattore canonico), siamo certi che i poli di t
, hanno modulo minore di 1,
quindi il predittore stabile.
Lerrore di predizione
Possiamo inoltre definire lerrore di predizione come la differenza tra il valore che realmente assume e
quello che era stato previsto che avrebbe assunto. Se stiamo considerando un predittore ad j passi, allora
lerrore di predizione sar semplicemente:
+ j m + j|
Riprendendo lanalisi che stavamo eseguendo, se prevediamo m + j = + , allora risulta chiaro che
lerrore di predizione dato proprio da , . Naturalmente, tale quantit non pu per essere calcolata in
maniera esatta: si tratta di una variabile casuale, della quale risulta essere molto utile valutare la varianza:
>j ,

= >j

{w

+j +

Quindi abbiamo ad esempio:


>j
+ 1 m + 1|

%w

+j1 +

+ j 2 ++
>j

Pag. 32

+2 m

_% w

+1

+ 2|

_%

B{
%

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Procedimento pratico
Cerchiamo a questo di vedere come si trova nella pratica la previsione di
+ j = w
+ b% w 1 + = + b% _% +
Perci possiamo vedere la predizione come luscita del sistema:
-
t

w~tu 0,

+ j . Abbiamo visto che:


_
+ w
b

Dove:

-
= + b% _% + b _ +
t

Ora, ricordando che il risultato della lunga divisione tra numeratore e denominatore di t
ci d come
risultato:
_
t
= { + % _% +
+ + _ + b% __% + b __ +
Quindi, se consideriamo solamente i termini da _ in poi, abbiamo:
_
-
+ b% __% + b __ + = _ t

Riassumendo, partendo da t , calcoliamo la lunga divisione tra numeratore e denominatore di t


,
limitandoci a considerare i primi r passi. Otteniamo in tal modo:
_
t
= { + % _% +
+
il predittore ottimo.
Dove t
Esempio:
Consideriamo il caso di seguito illustrato, dove 0 < |>| < 1.

-
t

1
=
1 > _%
>
Nellipotesi in cui > sia diverso da zero, numeratore e denominatore sono coprimi; inoltre, abbiamo uno
zero nellorigine e un polo in >, che per ipotesi un numero con modulo minore di 1. Infine, i coefficienti
dei termini di grado massimo sono unitari e il denominatore ed il denominatore sono entrambi di grado 1,
perci possiamo concludere che la funzione di trasferimento individuata gi il fattore canonico:
v
=w
t
=t
Per calcolare il predittore ottimo a 1 passo basato su w, calcoliamo allora la lunga divisione:


>
>
1

>

E otteniamo:
>
t
=1+
>
E quindi il predittore ottimo :
>
>
_% -%
t%
=
t
=

>
>
Ovvero:
>
>
m + 1| =
w
=
w
1 > _%
>
Da cui ricaviamo:
m + 1| > _% m + 1| = > w m + 1| = > m | 1 + > w
Lerrore di predizione che commettiamo in questo caso ha una varianza cos calcolabile:
>j m + 1|
+ 1 = >jL { w + 1 M = { >jLw + 1 M = {
Siccome abbiamo trovato mediante la lunga divisione:
{ =1
Possiamo concludere che la varianza dellerrore di predizione :
>j m + 1|
+1 =
=>

1 +v

=>

_%

Pag. 33

+v

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Se vogliamo ricavare il predittore ottimo a 2 passi basato su w, dobbiamo eseguire un ulteriore passo
della lunga divisione:
>
>
1 + > _%
>
>
> _%
> _%
Otteniamo in questo modo:
> _%
>
_%

t
=1+>
+
= 1 + > _% + _
>
>
E ricaviamo che il predittore ottimo a 2 passi caratterizzato da:
>
t
=
>
Cio:
>
m + 2| =
w

> m + 2| = > w
>
Proseguendo con la sostituzione delloperatore :
m + 3| + 1 > m + 2| = > w + 1
Che equivale a scrivere:
m + 2| = > m + 1| 1 + > w
Lerrore di predizione che commettiamo in questo caso ha varianza:
>j m + 1|
+ 1 = >jL { w + 1 + % w + 2 M =
=

>jLw

+1 M+

>jLw

+2 M=

Pag. 34

+>

= 1+>

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Predizione a partire dalle misurazioni di


Introduzione
Come abbiamo gi visto, nella realt dei fatti lingresso del sistema, ovvero il rumore bianco w, risulta
essere impossibile da misurare, perci la teoria appena vista non potr essere applicabile in maniera
diretta. Cerchiamo allora di vedere come possibile prevedere in un sistema del tipo in figura:
w~tu 0,

Avendo come ingresso solamente i valori che


sia il fattore canonico.

ha assunto in passato. Supponiamo sempre che t

I concetti di base
Il predittore ottimo in questo caso verr costruito mediante uno schema del tipo riportato in figura:

~tu 0,

-
t

+ j|

Lidea di base cio quella di utilizzare un filtro sbiancante che, a partire dalle misurazioni di
ci
consenta di ottenere w . In questo modo, possiamo poi riutilizzare in cascata al filtro sbiancante un
predittore del tipo appena analizzato, ovvero un predittore a partire da w .
La funzione di trasferimento del predittore ottimo dai dati quindi ottenibile nel modo seguente:
|
|
_%

-
-
t
=t
t
= &t
=

=
* t
|
|
Si nota facilmente che la funzione di trasferimento cos ottenuta risulta essere molto simile a quella
ottenuta per il predittore ottimo da w, con lunica differenza che al denominatore si ha |
anzich
.
Nel caso particolare in cui si stia cercando il predittore ottimo ad 1 passo, abbiamo:
|

-% =
t
Perci il predittore dai dati sar:

t% =

|
Possiamo anche scrivere lequazione alle differenze corrispondente:
|

m + 1| =
|
m + 1| = |

|
Ovvero:
|
m + 1| = |

+1
Si noti che apparentemente questa espressione ha in s una contraddizione, in quanto sembrerebbe voler
dire che stiamo calcolando la stima m + 1| di
+ 1 partendo proprio dal dato
+ 1 . Tuttavia
non cos perch, siccome sia |
che
sono monici ed il loro grado uguale, avremo:
|

= >% + E% _% + > + E _ +
E quindi di fatto verranno utilizzati solo i dati di rilevati fino allistante , e non fino allistante + 1.
Si pu inoltre osservare che, siccome per ipotesi tutti gli zeri e tutti i poli di t
hanno modulo minore di
1 (altrimenti non sarebbe il fattore canonico), siamo certi che anche il predittore stabile. Infatti, gli zeri
del predittore sono i valori per i quali si annulla | , ovvero i poli di t
, che abbiamo appena detto
essere in modulo minori di 1.

Pag. 35

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Esempio
Consideriamo ancora lesempio che abbiamo gi utilizzato quando abbiamo parlato del predittore ottimo
a partire da w. Consideriamo cio:
t

>
E ipotizziamo di voler calcolare il predittore ottimo ad un passo e a due passi (partendo per dai dati
anzich da w).
Naturalmente, il filtro sbiancante in questo caso avr funzione di trasferimento:
>

- 1 *_% =
t
= &t

Inoltre, abbiamo gi ricavato nei precedenti paragrafi il filtro ottimo ad un passo e a due passi a partire da w
hanno, nellordine, le funzioni di trasferimento riportate di seguito:
>
>
-%
t
=
-%
t
=
>
>
Perci, il filtro ottimo ad un passo a partire dai dati ha funzione di trasferimento:
>
>
-% t

t%
=t
=
=>
>
E perci:
m + 1| = >
Il filtro ottimo a 2 passi a partire dai dati ha invece la funzione di trasferimento seguente:
>
>

t
=t
t
=
=>
>
E perci:
m + 2| = >
Osservazione
A questo punto, possiamo domandarci se i predittori cos individuati hanno senso oppure no.
Partiamo dal predittore ad un passo. Per rispondere alla domanda, possiamo osservare che di fatto il
segnale
+ 1 viene generato sommando tra loro due componenti: >
e il rumore bianco w .
Inoltre w
completamente imprevedibile: lunica cosa che sappiamo che la sua media nulla.
Intuitivamente, risulta molto sensato sostituire ad una variabile aleatoria il relativo valore medio, e
perci possiamo concludere che il predittore ad un passo individuato nellesempio appena analizzato
coerente con il sistema che genera il segnale sul quale eseguiamo la previsione stessa.
Se consideriamo invece il predittore a 2 passi, abbiamo:
=>
+ >w + 1 + w
+2 =>
+1 +w
=> >
+w +1 +w
In questo caso, la parte sulla quale non possiamo fare alcuna previsione risulta essere:
>w + 1 + w
Sostituiamo allora a questo termine la relativa media:
>w + 1 + w
=> w +1 + w => w
+ w
=0
E quindi otteniamo proprio:
m + 2| = >
Possiamo anche calcolare la varianza dellerrore di predizione che abbiamo appena individuato:
>j >w + 1 + w
= > >j w + 1 + >j w + 1 = >
+ = 1+>

Pag. 36

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Predizione con variabili esogene


Introduzione: il modello di Box e Jenkins e i processi ARMAX
Fino ad ora abbiamo considerato solamente dei segnali isolati. Proviamo ora ad ipotizzare che il segnale
sul quale vogliamo eseguire la predizione dipenda anche da unaltra variabile dingresso, che viene detta
variabile esogena, e che indicheremo con
. La variabile esogena rappresenta quindi una variabile
manipolabile: a differenza di w non dipendente dal caso, ma viene fissata in maniera deterministica dal
progettista.

~tu 0,

Il sistema appena rappresentato in forma intuitiva, pu essere pi rigorosamente rappresentato nel modo
di seguito riportato:
w~tu 0,
t

+
+
Indichiamo nel modo seguente i numeratori e i denominatori delle funzioni di trasferimento introdotte:
|
t
=
=
"
Abbiamo cos:
|
=
+
w
"
In altri termini, il modello che stiamo analizzando quella rappresentato nella figura seguente, detto
anche modello di Box e Jenkins, nel quale lingresso impredicibile (il rumore bianco) considerato come un
disturbo:
h

+
+
Otteniamo allora:

"

+|

=| w
+
Un processo di questo tipo detto ARMAX, dove la lettera X aggiunta in coda allacronimo sta per
eXogeneous. In particolare, il termine esogeno il termine:

,|
e , tale processo viene indicato con:
Detti 1% , 1 e 1 , nellordine, il grado di
1% , 1 , 1
Che indichiamo per semplicit con:

Pag. 37

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Il procedimento per trovare il predittore


Esempio
Innanzitutto, consideriamo come esempio il caso in cui si abbia:
=>
1 +w
+2
In questo caso abbiamo quindi assunto di avere:
|
=1

=2
= 1 > _%
Possiamo indicare con la media del
sul quale stiamo operando la predizione:
= >
1 +w
+2 =>
1 +2
Da cui ricaviamo:
2
= > + 2 1 >
= 2 =
1>
Possiamo poi depolarizzare
, introducendo:

=

=
+
In questo modo, ovviamente:

=
= =0
Otteniamo quindi:

+ => +1 +
+w
+2
Ovvero:
2
2>
2>
2
=> +1 +
+w
+ 2
=> +1 +w +2+

+
1>
1> 1>
1>
2 2> + 2> 2

=> +1 +w
+

=> +1 +w
1>
A questo punto, possiamo facilmente calcolare il predittore ottimo di , che sappiamo essere:
+ 1| = >
Siccome poi sappiamo che:

Possiamo facilmente intuire che il predittore ottimo per


dato da:
m = > m
E quindi:
m
= >m + 1>
Sostituendo poi il valore di :
2
m
= >m + 1 >
m
= >m + 2
1>
Ovvero:
m
= >m +
Generalizzazione
In generale, il predittore ottimo ad un passo per:
=| w
+
dato da:
|
m + 1| = |

+1 +

Pag. 38

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Ricavo semplificato del predittore


ARMA
Consideriamo un generico modello ARMA:
= | w , w ~tu 0,
Come noto, il predittore :
|
m
= |

Possiamo ottenere tale formula in maniera pi semplice di quanto finora abbiamo fatto. A tale scopo,
partiamo dallequazione:
=| w
E dividiamo entrambi i membri per | :
Aggiungendo e sottraendo

Da cui ricaviamo:

J
|
Siccome

e|

Da cui:

Si nota quindi che:

=w

|
al primo membro:
+

=w

1K

=w

= J1

sono monici e di ugual grado:


|

= 1 + q%

_%

+w

+q

= 1 1 q% _% q _
= q% _% q _

+w
+w

K
= q% _% q _
|
funzione solamente del passato di . Possiamo perci scrivere:
J1

= J1

ARMAX
Possiamo ripetere un procedimento simile per un processo ARMAX. Consideriamo:
=| w
+
, w ~tu 0,
Si noti che in realt possibile che
dipenda non direttamente da
, ma da valutato in un istante
precedente qualsiasi. In genere, la dipendenza si ha rispetto ai valori precedenti di , e non rispetto a
.
Tale situazione pu essere rappresentata, con riferimento alla precedente equazione, imponendo:

= { _% + % _ +
In alternativa, possiamo utilizzare unequazione del tipo:
=| w
+
1
Con:

= { + % _% + _
Utilizziamo allora questa seconda simbologia. Dividendo lequazione cos ottenuta per | :

=
1 +w
|
|
Pag. 39

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Aggiungendo e sottraendo

Da cui:

al primo membro:
+

J
|

1K

1 +w

1 +w

K
+
1 +w
|
|
Con un ragionamento analogo a quello fatto nel caso ARMA, ricaviamo che:
Ovvero:

= J1

J1

|
una funzione del passato di . Di conseguenza:
una funzione del passato di , e che:

= J1

Box & Jenkins


Consideriamo adesso il modello di Box & Jenkins
riportato a lato e cerchiamo di ripetere anche in
questo caso il procedimento usato nei casi appena
analizzati.
1
Ipotizziamo che t
sia il fattore spettrale
canonico:
t
=t
Abbiamo:
=
1 +t
Da cui, dividendo entrambi i membri per t :
Aggiungendo e sottraendo

Ovvero:

Dove:

=
t
t
al primo membro:

= /1

1
0
t

/1

funzione solamente del passato di , mentre

t
+
+

1 +w

1
0
t

1 +w

1 +w

1
t
funzione solamente del passato di . Infine, w un rumore bianco a media nulla, perci otteniamo:
1
+
1
m
= /1
0
t
t
Pag. 40

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Lidentificazione
Introduzione: lidentificazione predittiva
Entriamo ora nel vivo della trattazione del problema dellidentificazione.

Sistema reale

In sostanza, a partire dalle misurazioni dellingresso controllabile :


1 , 2 , 3 ,, 1
E dalle misurazioni delluscita negli stessi istanti:
1 , 2 , 3 ,, 1
Vogliamo ricavare un modello lineare del sistema dato, in modo da ottenere uninterpretazione di tali dati,
prescindendo per dalla fisica che regola il sistema stesso. Ad esempio, potremmo voler ricavare un
modello di Box & Jenkins che rappresenti tale sistema:

Sistema reale

Modello

+
-

VjjkjV

+
+

In sostanza, si pone allingresso del modello lingresso reale e si confrontano luscita del sistema reale e
quella del modello (che perci sono sollecitati con lo stesso ingresso):
= VjjkjV
Lidea base quella di riuscire poi a trovare dei metodi che consentano di modificare i parametri del
modello per minimizzare lerrore.
Il problema fondamentale di questo approccio legato al fatto che il valore di (e quindi anche quello
dellerrore) non dipende solo dai parametri del modello e da , ma dipende anche dal rumore bianco w.
Possiamo perci affermare che un segnale casuale, confrontato con una sequenza di numeri ottenuti
dalla realt (cio ). Di conseguenza, questa strada non praticabile.
Lidea pi diffusa per risolvere il problema appena illustrato consiste nelleseguire il confronto non
direttamente con il modello di Box & Jenkins:
w

Sistema
lineare

Pag. 41

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Ma con il relativo predittore:


Sistema
lineare

Nel cosiddetto modello in forma di predizione (che quello appena riportato) non si ha infatti alcuna
variabile aleatoria: m solamente una sequenza numerica, una volta che sono noti e . Lo schema
diventa allora il seguente:

Sistema reale

Modello in forma
di predizione

Lobiettivo quindi quello di determinare qual il miglior modello della famiglia considerata (nellesempio,
abbiamo supposto di utilizzare la famiglia dei modelli di Box & Jenkins, ma naturalmente questo vale per
qualsiasi altra scelta si decida di fare), tarando i parametri in maniera da minimizzare lerrore di predizione
del modello, cio s .
Si parla per questo motivo di identificazione predittiva: il modello buono se il corrispondente
predittore buono.

Formalizzazione dei concetti relativi allidentificazione predittiva


Cerchiamo ora di formalizzare i concetti che abbiamo finora introdotto. Le fasi da seguire sono di fatto le
seguenti:
1. Raccolta dei dati
I dati dai quali partire sono rappresentati dallinsieme:
1 , 2 ,, u , 1 , 2 ,, u
2. Individuazione della famiglia di modelli
Si considera una famiglia di modelli, che indichiamo con la simbologia:
|
Dove il vettore dei parametri del modello. Stabilire la complessit della famiglia da utilizzare un
importante problema preliminare da risolversi.
Esempio di famiglia di modelli
Un esempio di famiglia di modelli il seguente:
1 > _%
=
1 + 1 + E _% w
Dove i parametri sono rappresentati dal vettore:
>
= J K
E
Dalle informazioni date, possiamo stabilire anche alcuni vincoli per lo spazio nel quale tali parametri
possono assumere valori, ovvero . Infatti, se sappiamo che il sistema stabile (come ragionevole
supporre), allora dobbiamo avere:
|>| < 1
Pag. 42

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Altrimenti, avremmo un polo instabile. Inoltre, se vogliamo ottenere la fattorizzazione spettrale,


dobbiamo imporre:
|E| < 1
Su invece non possiamo dire nulla. Abbiamo perci ricavato:
= : |>| < 1 V |E| < 1
3. Scelta del criterio di ottimizzazione
Si deve poi avere un criterio per scegliere qual il miglior modello tra quelli della famiglia considerata.
Il criterio che si utilizza nel nostro caso predittivo: per prima cosa, si ottiene la famiglia dei modelli in
forma di predizione:
-

Dopodich si costruisce lerrore di predizione:


s
=
m-
Il criterio in base al quale minimizzare lerrore sar una cifra di merito:

4. Ottimizzazione
Lottimizzazione consiste nellindividuare:

1
= ? s
u
oB%

1
min = min U ? s
u
oB%

Una volta trovato questo valore, possiamo facilmente individuare il modello ottimo in forma di
predizione:

5. Validazione
Questo modo di procedere potrebbe risultare in realt non soddisfacente: necessario quindi eseguire
anche una fase di validazione del modello, che consiste nelleseguire unanalisi critica finale del
risultato ottenuto. Durante questa fase potrebbero emergere dei problemi, che possono anche portare
a ripetere tutto il procedimento su una nuova famiglia di modelli, nel caso in cui quello ottenuto
dovesse risultare non accettabile.

Pag. 43

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Il metodo del minimo quadrato (LS, Least Square)


Un primo metodo che si pu utilizzare per eseguire concretamente lidentificazione dei modelli quello
noto come metodo LS (Least Square, minimo quadrato).
1. La famiglia dei modelli
Questo metodo considera come famiglia di modelli tutti i modelli ARX, del tipo:
= >%

1 +>

2 + +

1 + %

1 +

I parametri del modello sono allora rappresentati dal vettore:


= >% > >; %
A tali parametri, necessario aggiungere la varianza di w :

2 + + ;

1 + w

2. Il vettore delle osservazioni


Introduciamo adesso il vettore delle osservazioni (che in pratica il vettore dei dati):
1

=
1

Abbiamo quindi:
=
=
+w
Siccome tale risultato uno scalare, possiamo scrivere anche:
= = + w
3. Il modello in forma di predizione
- (ad un passo) pu essere cos rappresentato:
Il modello in forma di predizione
=
m
=
=
= >%
1 +>
2 + + ; 1 + %
1 +
2 + + ;
4. Il criterio di ottimizzazione
Il criterio in base al quale eseguire la minimizzazione :

1
= ? s
u
oB%

1
= ?
u
oB%

5. Lottimizzazione
A questo punto, occorre eseguire la ricerca del minimo di . Siccome per uno scalare e un
vettore, non si pu semplicemente applicare il concetto di derivata, ma occorre introdurre la matrice
gradiente, ovvero
h

h
%
h
=
h
h
h;
Il gradiente pu essere equivalentemente definito come il trasposto del vettore appena introdotto. Nel
nostro caso, considereremo

h
h
=/
h
h%

come un vettore riga:

Pag. 44

h
0
h;

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Per il resto si procede semplicemente come nel caso scalare: occorre cio imporre lannullamento del
gradiente, in modo da individuare i punti stazionari.
h
=0
h
Infine, necessario verificare se il punto stazionario cos individuato effettivamente un minimo
oppure no.
Per procedere nei calcoli, possiamo operare semplicemente ipotizzando che sia uno scalare,
occupandoci poi di aggiustare i trasposti in modo tale da ottenere conformabilit tra le matrici,
laddove necessario. Otteniamo cos:

h
1 h
=
?
h
u h

oB%

Uguagliando a zero il risultato:

2
?
u

Otteniamo:

oB%

Da cui:

oB%

oB%

2
= ?
u

oB%

=
=

Che equivale a scrivere:

= =

oB%

oB%

=?

oB%

Possiamo eseguire la trasposta di entrambi i membri:

oB%

= ?L

oB%

=0

=0

= ?

= =

Ricordando le propriet delle matrici, possiamo scrivere:


=
=
= = =

=
Ma siccome
uno scalare:
=
=
= =

Analogamente, anche
uno scalare, perci, applicando simili propriet anche al primo membro e
sostituendo al secondo membro il risultato appena ottenuto:

?
oB%

= ?
oB%

Lequazione ottenuta semplicemente scambiando tra loro i due membri:

?
oB%

= ?
oB%

nota come equazione normale. In sostanza, si tratta di un sistema lineare in u equazioni ed u


incognite. Se la matrice al primo membro:

# u = ?
oB%

Pag. 45

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

una matrice invertibile, allora il sistema ammette una sola soluzione, rappresentata dalla formula
dei minimi quadrati:

= ?
oB%

_%

?
oB%

Altrimenti, le soluzioni saranno infinite.


Osservazione: verifica che il punto sia un minimo
Come accennato, occorre poi verificare che effettivamente il punto stazionario sia un minimo. A tale
scopo, dobbiamo calcolare la derivata seconda, o meglio, la matrice hessiana:
h
h

h
h
h

%
%
h h
h

=
= h
h

h
h h

h
h h%

Nel nostro caso, otteniamo:

h
2
= ?
h
u

oB%

Siccome questa matrice semidefinita positiva, siamo certi che effettivamente il punto stazionario
individuato un minimo.
A questo punto possiamo osservare che, eseguendo lo sviluppo di Taylor di , otteniamo:
1 h
h
[ L M + X
[ L M
= LM + X
2 h h -

Si noti che, siccome una funzione quadratica di , non possibile che vi siano altri termini nello sviluppo
di Taylor. Inoltre, siccome abbiamo calcolato proprio imponendo lannullamento della matrice gradiente
di , abbiamo:
1 h
= LM + X
[ L M
2 h h
0
h

Ma siccome abbiamo detto che:

Allora abbiamo due possibilit:


1. Se la matrice definita positiva, abbiamo un paraboloide con vertice in .
2. Se invece semidefinita positiva ma non definita positiva, allora le soluzioni sono infinite, come
mostrato nella figura pi a destra.

Pag. 46

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Altre osservazioni
Si noti comunque che la matrice # u sempre una matrice simmetrica, nella quale l3-esimo elemento
sulla diagonale principale il quadrato dell3-esimo elemento di . Ad esempio, se 1 = 1 = 2:
1
1
2
1
1
2
1

1
2
2
2
2
1
2

# u = ?
1
1
1
2
1
1
2
oB%
2
1
2
2

2
1
2
Si nota perci che, se u +, allora sulla diagonale principale avremo la somma di u numeri positivi, che
quindi tende a divergere. Per evitare questo fenomeno, si pu introdurre la matrice:
# u
u =
u
E si trasforma lequazione normale in:

1
?
u
oB%

1
= ?
u
oB%

Inoltre, se u +, allora:
- Gli elementi sulla diagonale principale tendono alla varianza:

1
?
u

oB%

Y 0

1
?
u

oB%

Y 0

Gli altri elementi tendono alla funzione di covarianza valutata nellistante ottenuto come differenza tra
listante in cui viene valutato e quello in cui si valuta (differenza in modulo):

1
?
u
oB%

1
?
u

1 Y 0

oB%

Otteniamo in sintesi:

1 Y 1

Y 0 Y 1 Y 0 Y 1

Y 1 Y 0 Y 1 Y 0

=
Y 0 Y 1 Y 0 Y 1

Y 1 Y 0 Y 1 Y 0
Siccome, come abbiamo detto, dobbiamo avere
u invertibile, necessario almeno che sia
invertibile. Possiamo osservare che tale matrice costituita da 4 blocchi:

=.
| "
Dove dipende solamente da , " dipende solo da e e |, che sono uno il trasposto dellaltro,
dipendono sia da che da .Tuttavia dipende sia da , sia da , perci lunico blocco che pu essere
liberamente imposto il blocco ". Condizione necessaria perch sia invertibile che " sia invertibile.
Segnale persistentemente eccitante
Il segnale si dice persistentemente eccitante di ordine q se la matrice quadrata di dimensione q q cos
definita:
Y 2 Y q 1
Y 0 Y 1

Y
1
Y
0
Y
Y q 2

Y 0 Y q 3
Y 2 Y 1

Y 0
Y q 1 Y q 2 Y q 3
invertibile. La matrice appena definita non rappresenta altro che la matrice " in nel caso generale
(prima abbiamo considerato solamente q = 2).
Si noti che la matrice appena definita del tipo di Teoplitz, perch su tutte le diagonali parallele alla
diagonale principale si hanno sempre uguali elementi.
Pag. 47

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Condizione necessaria per linvertibilit di


A questo punto, possiamo cos riformulare la condizione necessaria per linvertibilit di : affinch tale
matrice sia invertibile, necessario che il segnale sia persistentemente eccitante di ordine 1 .
Lidea di base data dal fatto che, per stimare gli zeri e i poli del sistema reale, necessario fornire un
segnale che sia sufficientemente variabile nel tempo. Se ad esempio pensassimo di utilizzare un segnale
costante nel tempo:
= 1
Allora il segnale stesso non sarebbe persistentemente eccitante, e quindi non potremmo individuare un
modello unico. Se invece avessimo:
~tu 0,
Allora il segnale sarebbe persistentemente eccitante per ogni q. Si noti comunque che la condizione
appena esposta necessaria, ma non sufficiente.
Esempio
Consideriamo adesso un esempio. Supponiamo che il sistema reale sul quale eseguire la predizione sia:
+ 0,8
+5
= 10
+ 0,5
+ 0,8
0,2
Il sistema in analisi un modello
3,2 nel quale abbiamo 5 parametri da stimare. Tuttavia, il modello
appena riportato equivale anche ad un modello
2,1 , perch possiamo eseguire la banale
semplificazione dello zero con il corrispondente polo:
+5
= 10
+ 0,5
0,2
Perci ovvio che non si potranno stimare con esattezza tutti i parametri: se ad esempio creassimo un
modello di questo sistema con il parametro 0,6 al posto di 0,8, otterremo un modello di fatto equivalente;
questo significa che si hanno infinite quintuple di parametri che consentono di minimizzare la cifra di
merito, indipendentemente dal tipo di segnale in ingresso che si utilizza (e quindi questo vale anche se si
usa un ingresso persistentemente eccitante di ordine sufficientemente grande).
Condizione necessaria e sufficiente per linvertibilit di
La matrice invertibile se e solo se valgono le seguenti condizioni:
1. Condizione di identificabilit sperimentale
Lingresso persistentemente eccitante di ordine sufficientemente elevato, ovvero almeno pari al
numero di parametri 1 da stimare relativi ad .
2. Condizione di identificabilit strutturale
Nel modello non ci sono semplificazioni.
Si noti che la prima condizione riguarda lesperimento eseguito per effettuare la predizione, mentre la
seconda condizione relativa alla struttura del modello. Di fatto questa condizione impone che la famiglia
di modelli scelti non sia inutilmente troppo complicata rispetto alla realt.
Si noti comunque che, nel caso in cui si ottenga una stima non unica, questo non indice di un errore, ma
solo del fatto che il modello utilizzato pi complesso del necessario.

Pag. 48

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Il metodo di massima verosimiglianza (ML, Maximum Likelihood)


Un secondo metodo per lidentificazione di un modello il cosiddetto metodo di massima verosimiglianza,
che si differenzia dal precedente solamente per la famiglia di modelli che si utilizza. In particolare, il
metodo ML prevede che si scelga la famiglia dei modelli ARMAX. Vediamo per di andare per gradi.
1. Dati
I dati sulla base dei quali il modello verr costruito sono ovviamente i valori dellingresso e delluscita,
rilevati per un certo numero u di istanti consecutivi:
1 , 2 ,., u
1 , 2 ,, u
2. Famiglia dei modelli
In base a quanto appena detto, la famiglia dei modelli del tipo:
=
1 + | w w~tu 0,
Dove:

= { + % _% + + ; _;
= 1 >% _% > _ >; _;
|
= 1 + E% _% + E; _;
Il vettore dei parametri perci:
= >% >; { ; E% E; =
3. Modello in forma di predizione
- :
Possiamo cos rappresentare il nostro modello in forma di predizione,
|
m
= |

+
1
4. La cifra di merito
Anche in questo caso, la cifra di merito si basa sulluso del modello in forma predittiva ed definita
come:

1
= ? s
u
oB%

5. Lottimizzazione: uso di metodi iterativi


Nel caso particolare in cui il modello considerato sia un modello ARX, sappiamo gi che si ottiene:
=
=
m
=
= >%
1 +>
2 + + ; 1 + %
1 +
2 + + ;
1
Tuttavia, nel caso generale ovviamente non cos, e non si in grado di ottenere le equazioni normali.
Non esistono dei metodi universali che consentano di trovare i minimi delle funzioni non lineari, e di
conseguenza si costretti a utilizzare dei metodi numerici di ottimizzazione di tipo iterativo.
Il metodo di Newton
Vediamo ora come primo metodo di ottimizzazione il metodo di Newton, che di fatto il pi utilizzato.
Supponiamo per praticit che sia scalare, ma lo stesso metodo pu in realt essere usato anche nel caso
pi generale in cui sia un vettore. Lidea di base quella di approssimare con una funzione quadratica
:

j
Pag. 49

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

In particolare, alliterazione j-esima imponiamo:

Lapprossimazione sar poi (Taylor):


= L

Quindi il minimo si ha per:

L M = L M

h
h
X
=X

h
h X
h
h
X
[
=X
[
h
h

L
h

M+X

b%

1h
[
M+ X
L
2 h

_%

h =

h

A questo punto, si cerca il punto minimo della forma quadratica L

M; il punto di minimo individuato

verr usato come valore


. Il procedimento viene iterato fino al raggiungimento di una certa forma di
convergenza, che determina quindi una opportuna condizione di arresto.
Questo metodo presenta per alcuni problemi:
1. Anzich individuare un punto di minimo globale, si potrebbe individuare un minimo locale, a seconda
solamente del punto dal quale lalgoritmo viene avviato.
2. A volte, il problema ancor pi grave: anzich individuare un punto di minimo si individua un punto di
massimo.
Per risolvere questi problemi (almeno parzialmente) in genere si avvia lalgoritmo pi volte, partendo da
punti diversi, e si confrontano poi i minimi cos individuati, scegliendo poi il pi piccolo.
Vediamo ora pi nel dettaglio come si calcolano le derivate:
Il calcolo della derivata prima della cifra di merito sar del tipo:
b%

h
2
= ? Js
h u
oB%

Il calcolo della derivata seconda invece del tipo:

h
2
hs
hs
= ? J

h
u
h
h
oB%

hs
K
h
+ s

h s
h

Molto spesso, per semplificare i calcoli, si esegue la seguente approssimazione:

h
2
hs
hs
? J
K

u
h
h
h
oB%

In questo caso si parla di metodo di Gauss-Newton, e si evita di calcolare la derivata seconda di s ,


0 meglio, la matrice Hessiana:
h s
h
E si deve solamente calcolare il gradiente:
hs
h
Inoltre, la matrice cos ottenuta sempre semidefinita positiva, perci si evita il problema
rappresentato dalla possibile individuazione di un massimo anzich di un minimo.
Si calcola quindi, ad ogni iterazione:

b%

Pag. 50

_%

h =

h

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Rimane per da stabilire come calcolare lerrore s a partire dai dati, e come si calcola dai dati il gradiente.
Alliterazione j-esima avremo i valori:
In sostanza quindi conosciamo i polinomi:

, >@ , A , E
,

,|

s
A tal scopo, possiamo riscrivere il modello in forma di predizione:
|
m
= |

+
1
Nella forma:

1
| L
m M =
Da cui ricaviamo:
| s
=

1
Come noto, abbiamo:
s
s
s
hs
s
s
s
s
s s

=J
K
>; %
; E% E
E;
h
>% >
Se allora introduciamo:
hs =

=
h
Ovvero:
s
s
s
s
s
s
s
s
s


= J
K

>;
;
E;
>%
>
%

E%
E
Possiamo chiamare gli elementi di tale vettore come di seguito mostrato:
=
+;
,;
Y;
+
,%
,
Y%
Y

= +%
A questo punto possiamo osservare che, se partiamo dallequazione:
| s
=

1
Ed eseguiamo la derivata rispetto ad >% in entrambi i membri, otteniamo:
s

=
|
>% >%
Siccome:
= 1 >% _% > _ >; _;
Quindi:
s

|
=
= _%
=
1
&1 >% _% > _ >; _; *
>% >%
Perci:
s
_%
+%
= |
1
=
>%
In maniera del tutto analoga, ricaviamo che:
s

|
=
=
= _
=
2
&1 >% _% > _ >; _; *
>
>
>
Ovvero:
s
_%
+
=
= |
2
>
Sempre con lo stesso procedimento, si trova:

s
=

1 =
=
1
|
& + _% + + ; _; *
%
% %
%

Dai quali vogliamo ricavare:

Pag. 51

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Da cui:

,%

s
= |
%

_%

s
_%
= |
2

Inoltre, possiamo osservare che un discorso analogo si pu fare per gli elementi Y@ ; basta infatti derivare,
ad esempio rispetto a E% , entrambi i membri dellequazione:
| s
=

1
E otteniamo:

| s
=0
E%
Ovvero:
s

|
+/
| 0 s
=0
E%
E%
Da cui, ricordando che:
|
= 1 + E% _% + E; _;
Si ricava:
s

|
+/
=0
L1 + E% _% + E; _; M0 s
E%
E%
s
|
+ _% s
=0
E%
s
|
+ s 1 = 0
E%
s
_%
=|
s 1
E%
E quindi:
s
_%
Y%
=
= |
s 1
E%
E in maniera del tutto analoga possiamo verificare (anche se lo omettiamo) che:
s
_%
Y
=
= |
s 2
E
Abbiamo perci un sistema del tipo:
Senza ripetere i passaggi, troviamo anche:
,

&|

_%
_

,%

_%

&|

&|

_%

_%

&|

+%
+

_%

Pag. 52

_%

&|

_%

Y%

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

h =

h

In sostanza, mediante il procedimento appena illustrato abbiamo ricavato che, anzich calcolare:

Possiamo eseguire il calcolo:

Dove:

b%

b%

+ ?

oB%

_%

_%

?
oB%


1
1
=

|

s 1
s 2

Confronto con il metodo LS


Come abbiamo visto, nel caso del metodo LS si ottiene unequazione del tipo:

= ?
oB%

_%

?
oB%

=
1

La differenza fondamentale rispetto al vettore che si utilizza con il metodo ML data dal fatto che, in
_%
abbiamo un blocco in meno; inoltre, non si ha il filtraggio attraverso |
.

Con:

Pag. 53

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Asintoti di PEM (Prediction Error Minimization)

Proviamo ora ad analizzare il comportamento asintotico (cio quando il numero u dei dati tende ad
infinito) del metodo di identificazione a minimizzazione di errore di predizione. Come noto, abbiamo:

1
= ? s
u
oB%

Il cui minimo .Tuttavia possiamo facilmente notare che:


lim = s
=
bc

E perci, per u +, il minimo di tende ad un valore , che rappresenta appunto il minimo di .


Tuttavia, lespressione che abbiamo appena usato in realt imprecisa: infatti possibile che non
abbia un unico punto di minimo, ma un certo insieme di punti di minimo, che indichiamo con . Si hanno
cos diverse possibilit:
A. Caso A
1. Sia data una famiglia di modelli:
= |
2. Ipotizziamo che il sistema vero # che si sta identificando appartenga alla famiglia , cio # .
Questo significa che:
{ : { = #

3. Supponiamo che abbia un unico punto di minimo, .


Allora, lerrore di predizione, che cos definito:
s =
m
Pu anche essere riscritto nella forma:
s =
m
m
+ m
Ottenuta semplicemente addizionando e sottraendo la predizione delluscita del sistema che si ottiene
se si usano i parametri esatti del sistema reale.
Possiamo riscrivere la precedente espressione, con semplici passaggi algebrici, come segue:
s =

+ m

In modo tale da riconoscere che si tratta della somma tra:


1. Un termine
m , che rappresenta lerrore di predizione commesso conoscendo il
meccanismo di generazione dei dati (ovvero il modello vero).
Tale errore pu anche essere indicato con:
s
E, siccome si tratta dellerrore ottenuto con il predittore ottimo, sar un rumore bianco.
2. Un termine m
m , che una funzione solamente dei dati passati, fino allistante 1, in
quanto sono presenti i valori ottenuti per mezzo di due predittori.
Abbiamo cos:
=

= >j s

= >j -s

+ m

Nella formula per il calcolo della varianza non comparir il termine di covarianza, in quanto il primo
termine della somma un rumore bianco valutato allistante , ed il secondo un dato che dipende
solo dal passato. Perci:
= >j&s * + >j& m
m *
A questo punto, osserviamo che il primo termine non dipende da , perci per trovare il punto di
minimo ci basta considerare il secondo termine. Naturalmente, tale termine minimo quando vale
zero, ovvero quando = { . Perci abbiamo verificato che il punto di minimo di { , ovvero che
la stima fornita tende al valore vero del parametro, come ovviamente desideriamo:
{
Pag. 54

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

B. Caso B
1. Sia data una famiglia di modelli:
= |
2. Ipotizziamo che il sistema vero # che si sta identificando appartenga alla famiglia , cio # .
Questo significa che:
{ : { = #
3. Supponiamo che abbia pi punti di minimo, descritti dallinsieme . Ci accade quando i dati
sono stati raccolti fornendo degli ingressi che non eccitano a sufficienza il sistema, oppure quando
la famiglia di modelli scelta inutilmente troppo complessa.
In questo caso, quando u + possibile che la stima tenda ad uno qualsiasi dei punti
dellinsieme , oppure che la stima vari continuamente da un punto ad un altro allinterno dellinsieme
. Questo per non rappresenta un problema, in quanto i modelli di hanno tutti la stessa capacit
predittiva.
C. Caso C
1. Sia data una famiglia di modelli:
= |
2. Ipotizziamo che il sistema vero # che si sta identificando non appartenga alla famiglia , cio
# . Questo significa che:
{ : { = #

3. Supponiamo che abbia un unico punto di minimo.


In questo caso, quando u +, la stima tenda alla migliore approssimazione di # nella famiglia
dei modelli scelta, che indichiamo con .
Naturalmente per in questo caso avremo:
#
E ci si potr ricavare da unanalisi dellerrore di predizione, che non sar un rumore bianco. A tale
scopo, possono essere eseguiti dei test di bianchezza, come ad esempio i test di Anderson, la cui idea
base quella di valutare Y Z per valori di Z diversi da zero e, se i valori ottenuti sono circa nulli, si
considera lerrore di predizione come un rumore bianco.
D. Caso D
1. Sia data una famiglia di modelli:
= |
2. Ipotizziamo che il sistema vero # che si sta identificando non appartenga alla famiglia , cio
# . Questo significa che:
{ : { = #

3. Supponiamo che abbia pi punti di minimo, descritti dallinsieme .


In questo caso, quando u +, di norma la stima tende ad uno dei modelli dellinsieme , che
sono tutti i modelli meglio approssimanti il sistema vero #, tra quelli in . Tra i modelli di non esiste
quindi un modello che possa essere considerato migliore rispetto agli altri: tutti hanno la stessa
capacit predittiva.
I casi pi frequenti nella realt sono il caso C ed il caso D.

Pag. 55

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

La rapidit di convergenza
Supponiamo ora di trovarci nel caso che abbiamo indicato con A, e proviamo a valutare la rapidit con la
quale la stima tende al valore vero { che il parametro ha nel sistema da identificare. Se tutti i segnali in
gioco sono stazionari, allora lerrore di predizione di :
s
=
m
E possiamo calcolare il vettore colonna:

= s

= = B

Dove non dipende dal tempo, in quanto abbiamo ipotizzato che tutti i processi siano stazionari.
Abbiamo gi affermato che lerrore di stima dei parametri tende a zero:
{ 0
Per valutarne la rapidit, valutiamo quanto rapidamente tende a zero la matrice:
>j& { *
Infatti, mentre la varianza un valore deterministico, lerrore di predizione { un processo casuale,
E la matrice:

perci non ha senso studiarne direttamente la rapidit di convergenza a zero. Otteniamo poi:
1
>j& { * _%
u
Dove la varianza dellerrore di predizione quando si usa il predittore ottimo:
= >j s
B
Esempio: stima LS
Consideriamo adesso come esempio il seguente caso:
1. Stiamo cercando di identificare un certo sistema utilizzando la famiglia di modelli:
:
= =
2. Ipotizziamo che il sistema vero appartenga alla famiglia di modelli in analisi:
#:
= = {
3. Disponiamo di un vettore di dati:
1
2

1
Nel caso in cui si stia utilizzando un modello del tipo
1 , oppure:
1

=
1

Se il modello usato del tipo 1 , 1 .


4. Supponiamo che abbia un solo punto di minimo.
La stima LS sar, come gi abbiamo visto:
= /?
o

Pag. 56

_%

?
o

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Inoltre, sappiamo che sotto le ipotesi specificate:


Lerrore di predizione :
Inoltre, ricaviamo facilmente:

= s

Perci la matrice appena ottenuta non dipende dal parametro . Detta:


= =
Come abbiamo affermato poco fa:
1
>j& { * _%
u
Perci, otteniamo:
1
>j& { *
= _% >j&s *
u
Tuttavia, questa formula solamente teorica, perch non conosciamo il valore di:
=
Sostituiamo allora a tale valore la varianza campionaria:

1
?
u
oB%

Inoltre, stimiamo la varianza dellerrore di predizione ottimo come:

Quindi:

>j&s

1
* ? s-
u
oB%

oB%

1 1
>j& { * ?
u u

= /?

oB%

1
= ?&
u
=

_%

1
?&
u
oB%

Riassumendo, il procedimento per lidentificazione LS nel caso in cui:


a) Si voglia stimare un modello 1 , 1 a partire dai dati 1 , 2 , , u , 1 ,
b) Oppure si voglia stimare un modello
1 a partire dai dati 1 , 2 , , u .
il seguente:
1. Si scelgono gli ordini 1 e 1 del modello (oppure solo 1 ).
2. Si costruisce il vettore delle osservazioni:
1
1
1
1 =

=
3. Si applica la formula:
o

_%

Che consente di calcolare la stima dei parametri.


4. Si calcola lerrore di predizione:
s- =

2 ,,

5. Si esegue un test di bianchezza sullerrore di predizione s- .

6. Se lerrore risulta essere troppo colorato, si cambia la famiglia di modelli, ad esempio incrementando
1 e/o 1 , oppure passando a modelli ARMA o ARMAX.
7. Se lerrore un rumore bianco, si calcola:
>j&s- *
Pag. 57

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Algoritmi ricorsivi: RLS


Tutti gli algoritmi introdotti finora sono a lotti, ovvero utilizzano in blocco tutti i dati. Tuttavia, questo
modo di operare complesso dal punto di vista dei calcoli, ed molto pi comodo utilizzare degli algoritmi
ricorsivi, che consentano di aggiornare di volta in volta la stima, aggiungendo dei dati.
Algoritmo RLS prima formulazione
Lalgoritmo RLS la forma ricorsiva dellalgoritmo LS. Come abbiamo pi volte ribadito, la forma non
ricorsiva dellalgoritmo del tipo:
= # u

Con:

_%

# u = ?

?
oB%

oB%

Possiamo pensare semplicemente di separare lultimo termine dalla sommatoria presente nella prima
delle due formule:

_%

?
oB%

Inoltre, siccome:

Possiamo anche scrivere:

= ?
oB%

_% = # u 1

_%
oB%

?
oB%

Inoltre, procedendo in maniera analoga:

Perci:
Ricaviamo cos:

# u = ?
oB%

?
oB%

?
oB%

= # u 1 _% + u
=

# u =# u1 + u u

_%

= # u 1 _%

E sostituendo nella precedente formula:

_%

+ u

_%

=?
=

oB%

+ u u

# u 1 = # u u u

= # u u u

_% + u

Da cui, sostituendo nella formula iniziale:


= # u _% # u u u = _% + u u =
= # u _% # u _% # u _% u u = _% + # u _% u u =
_% + # u _% u & u u = _% *

Pag. 58

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Si noti che in questa formula si ha:


_% , che la stima al passo precedente;
u = _%, che luscita prevista nellistante u sulla base del modello individuato al passo
precedente: m- u .

u u = _% , che lerrore di predizione commesso con il modello stimato al tempo u 1.


Perci abbiamo espresso come una funzione del tipo:

(stima al passo precedente) + k (errore di predizione dellultimo modello stimato)


Un procedimento simile dunque di tipo ricorsivo; nel caso in cui lerrore di predizione sia nullo, come
ovvio, la stima non viene aggiornata.
Pi formalmente, il modello pu essere espresso mediante il seguente sistema, che rappresenta lintero
metodo (si noti che di seguito si usa una simbologia leggermente diversa rispetto a quella finora adottata):
D1)
vettore 1
o = o_% +
vettore 1
= q s
A1)
vettore 1, detto guadagno dellalgoritmo
q
= # _%
=

A2)
scalare (errore di predizione)
s
=

o_%
D2)
matrice 1 1
#
=# 1 + =
Vettore 1

Si noti che il sistema costituito dalle due equazioni algebriche A1 ed A2 e dalle due equazione dinamiche
D1 e D2 (le restanti sono solamente delle definizioni).
Metodo RLS formulazione n. 2
Si noti che, siccome per definizione:
o

= ? q q
B%

1 +

# 1
Quindi, per +, # diverge, mentre q
0, ovvero:
o
Ci significa che la stima converge ad un certo valore. Per evitare la divergenza di #
suo posto la matrice:
1
= #
Si ha:

=#

, si usa talvolta al

Che, per processi stazionari, al tendere di ad infinito, tende ad una costante. Si ha cos:
o = o_% + q s
1
_%
q
=

Si ha infatti:

Da cui:

#
=

1
1 +

1
1 + L

=
=

o_%
=

1 M

1 1
#
1

1 +

1
1 + L

1 M

Tuttavia, questa formulazione nella realt dei fatti, cos come la prima, non viene molto utilizzata, e la pi
usata (tra le tante esistenti, che qui non vedremo) la seguente.

Pag. 59

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Metodo RLS formulazione n. 3


Premessa: Lemma di inversione di matrice
Data una matrice nella forma +
, la sua inversa +
_% pu essere cos calcolata:
_%
+
_% = _% _%
+ _% _% _%
Il lemma riportato nel precedente riquadro consente di ottenere una terza formulazione del metodo RLS,
nella quale non occorre calcolare ad ogni passo linversa di una matrice (operazione costosa e che perci
auspicabile eliminare).
Possiamo infatti applicare il lemma per il calcolo di
# 1 + = _%
Semplicemente ponendo:
=# 1
=
=1
= =
E otteniamo:
# 1 _% # 1 _%
Introduciamo adesso a matrice ausiliaria:

Si noti che, per +, si ha:

=#

_%

_%

M
_%

o = o_% + q s
q
=

s
=
= o_%

Le equazioni diventano cos:

L1 +

,o_% = 1 +

_%

,o_%

RLS adattativo
In alcuni casi il parametro ignoto varia nel tempo, e vorremmo poterne inseguire il valore. Ci non
possibile utilizzando il metodo RLS, perci si introduce una sua variante, detta appunto RLS adattativo.
Mentre la cifra di merito che si utilizza con il metodo LS (e RLS) tradizionale, essendo del tipo:
o =

? s q

B%

Pesa di fatto tutti gli errori di predizione allo stesso modo, lidea di base dellRLS adattativo quella di
attribuire un peso maggiore agli errori rilevati negli istanti pi recenti, ed un peso inferiore allerrore
rilevato in istanti pi lontani. La cifra di merito adottata viene perci modificata nel modo seguente:
o =

0,1

? o_ s q

B%

Naturalmente, inferiore il valore attribuito a , maggiore la velocit con cui ci si dimentica del
passato. In sostanza quindi, inferiore il valore di , pi lalgoritmo sar reattivo ai cambiamenti del
parametro reale. Per contro, valori di troppo piccoli determinano effetti pi consistenti del rumore
qualora il parametro dovesse risultare in realt costante. Il metodo RLS descritto dalle formule:
o = o_% + q s
q
= # _%
s
=
= o_%
#

= #

1 +

Pag. 60

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Stima ricorsiva dei parametri di un modello ARMAX: algoritmo ELS


Consideriamo il modello seguente:
= >%
1 +>
2 + + >;
1 + %
1 +
2 + ;
1 +
+w + E% w 1 + E w 2 + + E; w 1
In questo caso, i parametri da stimare sono dati dal vettore:
= >% > >; % ; E% E E; =
Lalgoritmo che si usa in questi casi detto algoritmo ELS (algoritmo dei minimi quadrati estesi).
Ipotizziamo di conoscere come dati i valori di , e w negli istanti da 1 ad u. Possiamo allora costruire il
vettore delle osservazioni:

Avremo cos:

Applicando poi il metodo LS:

:
= = + w
- : m

= =

o = o_% + q s
q
= # _%
s
=
= o_%
#
= # 1 + =
Tuttavia, il problema quello di trovare in qualche modo il valore di w , che stato inizialmente
supposto noto ma, essendo un rumore bianco, nella realt dei fatti non misurabile. Perci si procede
supponendo:
w
=s
Si noti quindi che si tratta in realt di un metodo empirico. Questo metodo anche detto RML (metodo di
massima verosimiglianza ricorsiva).

Pag. 61

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Il controllo predittivo a minima varianza


Il controllo digitale
La maggior parte dei sistemi che necessitano di essere controllati nel mondo reale sono sistemi tempocontinui; tuttavia, i controllori utilizzati sono in genere a tempo discreto, come tutti quelli fino ad ora
studiati. necessario perci introdurre un sistema a segnali campionati, che il sistema a tempo discreto
pi diffuso al mondo. Tale sistema, rappresentato nella figura seguente, pu poi essere descritto mediante
un modello ARMA, ARMAX, .

ZOH
Convertitore
DA

Convertitore
AD

Sistema da controllare
(tempo continuo)

In tale schema a blocchi si identificano, oltre al sistema da controllare:


Il convertitore digitale analogico
Si tratta di un dispositivo che, ricevuto un segnale digitale, lo converte in analogico. Tali convertitori
possono avere funzionamenti diversi tra loro, ma uno dei pi frequenti quello che prevede
semplicemente che il dispositivo mantenga la propria uscita costante al valore
in tutto lintervallo
di tempo , + 1 . In questo caso, si parla di convertitore zero order holder (ZOH), o di mantenitore di
ordine zero.

+1

Il convertitore analogico digitale


Il convertitore A D un sistema che, ricevuto un segnale analogico, si occupa di campionarlo ad
intervalli di tempo regolari, ottenendo cos un segnale a tempo discreto. Tale dispositivo detto pi
precisamente campionatore a cadenza uniforme.

+1

Il sistema a segnali campionati appena descritto deve poi essere inserito in un sistema di controllo, come
mostrato nella figura seguente:

Pag. 62

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Tornando al funzionamento del sistema campionatore-mantenitore, occorre soffermarsi su un problema


di particolare rilevanza: per determinare il valore dellingresso q , risulta essere abbastanza ovvio
pensare di utilizzare tutti i valori di fino a quello rilevato nellistante q stesso, ovvero:
q , q1 , q 2 ,
Tuttavia, il calcolo di q richiede lintervento del campionatore, e quindi, per poter utilizzare tale valore,
q deve in realt essere emesso con un certo ritardo s rispetto allistante q (si noti comunque che nella
realt s potrebbe essere anche molto piccolo).
In ogni caso, q non potr dipendere da q , ma al massimo da q 1 .

Il controllo predittivo a minima varianza


Ipotesi di partenza
Ipotizziamo di disporre di un modello ARMAX del sistema a segnali campionati (ottenuto ad esempio per
mezzo di un procedimento di identificazione). Tale modello sar cos del tipo:
=
1 +| w
Dove si supposto che esista un ritardo tra lingresso e luscita, sulla base dellosservazione precedente.
Avremo quindi:

= { + % _% + _ +
Dove, se { 0, il ritardo di un istante, mentre, se ad esempio { = % = 0 e 0, il ritardo di tre
intervalli di tempo, e cos via. Indichiamo inoltre:
Con il tempo discreto;
Con q il ritardo.
In tal modo, possiamo riscrivere lequazione nel modo seguente:
=
q +| w
Imponendo { 0: cos viene subito messo in evidenza il ritardo.
E possiamo affermare che il valore di allistante ha influenza sul valore di a partire dallistante + q.
Ipotizziamo inoltre che w sia un processo stazionario.
Il sistema di controllo
Il sistema di controllo da realizzare sar del tipo:
w

Sistema di controllo

= V1>yV h3 j3Vj3 V1 k, E3 > = ,


Lo scopo del sistema di controllo in figura quello di:
Far in modo che il sistema complessivo risulti essere stabile, in modo tale che i disturbi non abbiano un
effetto determinante sulluscita del sistema stesso. In tal caso, luscita sar luscita di un sistema
stabile avente come ingresso un PSS, e perci anche sar un processo stocastico stazionario.
Far in modo che luscita assomigli il pi possibile allingresso . Nel caso pi semplice (e pi
frequente), il segnale di riferimento costante nel tempo:

=
Tuttavia, ovvio che non si pu agire in maniera diretta sulla variabile per ottenere tale risultato, ma
necessario intervenire su .

Dove:

Pag. 63

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

I principi sui quali si basa il procedimento


Il risultato precedentemente introdotto non pu tradursi in una richiesta di ottenere unuscita
esattamente uguale al segnale di riferimento: infatti, non si pu in alcun modo ottenere unuscita
costante nel tempo, perch nonostante lipotesi precedente sul segnale di riferimento si deve sempre
tenere presente lazione dei disturbi. Perci, si impone:
=
La qualit del sistema di controllo viene misurata valutando la varianza dellerrore tra e :
=

Naturalmente, tale cifra di merito deve essere minimizzata, calcolando cio:
min
Proprio per questo motivo si parla di controllo a minima varianza.
Siccome per agisce su con un ritardo pari a q, potremo esprimere luscita
come somma tra il
predittore di stessa a q passi ed il relativo errore di predizione s, ovvero:
= m | +q +s
La cifra di merito diventa quindi:
=
m | +q +s

Siccome sappiamo gi che s
risulta essere non governabile, il comportamenti pi ovvio quello di
costruire il sistema di controllo imponendo:
m | +q =
Proprio da questa osservazione nasce il termine controllo predittivo.
Lequazione diofantea
Da un punto di vista pratico, la condizione appena ottenuta pu essere imposta mediante lequazione
diofantea (detta anche diofantina):
|
=
+ _
Che viene ottenuta semplicemente calcolando la lunga divisione tra |
e
: si otterr infatti:

|
=
+ _

Dove _
semplicemente il resto della lunga divisione a q passi, nel quale stato raccolto il fattore
_
. Per poi ottenere lequazione diofantea sufficiente moltiplicare entrambi i membri per
.

Per individuare i polinomi


e
, possiamo anche procedere in altro modo. Partendo dallequazione
che esprime il sistema da controllare :
:
=
q +| w
Possiamo moltiplicare entrambi i membri per
:
=
q +|
w
Aggiungendo e sottraendo al primo membro il termine |
:
+|
|
=
q +|
w
Possiamo poi scrivere, con un banale passaggio algebrico:
+
q +|
w
|
= |

Da cui, chiamando:
_
=|

Otteniamo lequazione:
|
=
q +
q +|
w

=
q +
q +
w
|
|

Pag. 64

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

In questo modo,
Un termine

espressa come funzione di:

q
|
Che dipende solamente dal passato di fino allistante q.
Un termine

|
Che dipende solamente dal passato di fino allistante q.
Siccome
il risultato della divisione a q passi tra
e
= 1 + V%

_%

+ + V_%

, avremo:

_ _%

w
= w + V% w 1 + + V_% w q + 1
Ovvero, si tratta di un termine che funzione del futuro rispetto allistante q. Siccome per w un
rumore bianco, tale valore sar del tutto imprevedibile dal passato.
Dalle precedenti osservazioni, consegue che il predittore ottimo sar:

m | q =
q +
q
|
|
A questo punto, per ottenere il controllore ottimo sufficiente imporre:
m | q =
Ovvero:

=
q +
q
|
|
| =
q +
q
1
|
q
q =

1
=
|

Lo schema a blocchi corrispondente a tale sistema :


Quindi, lultimo termine :

Pag. 65

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Procedimento in sintesi
Riassumendo, il procedimento per ottenere il controllore predittivo a minima varianza:
1. Si identifica il modello ARMAX del sistema da controllare. Si otterranno cos i polinomi
,
| , oltre al ritardo q.
2. Si calcolano
e
a partire da
e | , mediante il calcolo della lunga divisione a q passi.
3. Si costruisce il controllore:

Osservazioni
1. Il metodo di progetto del controllore appena illustrato estremamente semplice. Tuttavia, si nota che
il controllore progettato con il metodo classico pi semplice, e segue la logica:

Si osserva quindi che il controllore predittivo a minima varianza pi complesso rispetto a quello
ottenuto con i metodi tradizionali.
2. Il sistema cos ottenuto stabile. Possiamo infatti verificare che il sistema complessivo:

stabile se e solo se i tre blocchi in esso evidenziati sono stabili. Siccome si ha:
|
= 1 + E% _% + E _ +
chiaro che |
sar un sistema stabile. Rimane perci da verificare solamente la stabilit dellanello
in retroazione. Siccome in un generico anello con funzione di trasferimento danello
si ha:
u

u
"
=
=
=
u
1
"
u
1
"
Dove si ha il segno + se la retroazione negativa, ed il segno se positiva. Il sistema stabile se e
solo se ha le radici del polinomio caratteristico tutte in modulo minori di 1; il polinomio caratteristico :

="
u
Pag. 66

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Nel nostro caso, abbiamo:

Siccome poi la retroazione negativa:

= _
+
= |
In conclusione, il sistema sicuramente stabile se
e|
hanno le loro radici in modulo minori di
1. Se la fattorizzazione spettrale, allora |
rispetter certamente la condizione. La condizione
riguardante
risulta invece pi restrittiva, e non sempre sar verificata.
Siccome le radici di
sono gli zeri del sistema da controllare, possiamo affermare che possibile
applicare il controllo predittivo a minima varianza solo nel caso in cui il sistema di partenza sia a
sfasamento minimo.
3. Se calcoliamo la funzione di trasferimento del sistema a controllo di minima varianza da a ,
otteniamo:
#
= _
Osserviamo perci che, trascurando leffetto del rumore, si ha:
= q
Naturalmente, questo risultato eccellente (il migliore che si possa desiderare). Tuttavia, il prezzo da
pagare dato da valori di eccessivamente elevati (si dice che lenergia del controllo troppo elevata),
che rendono in molti casi inapplicabile questo metodo. Inoltre, a seguito delleccessiva energia di
controllo, le variabili di stato possono assumere valori molto elevati, che fisicamente non possono
essere raggiunti.

Segnale di riferimento variabile nel tempo

Fino ad ora abbiamo ipotizzato che il segnale di riferimento sia costante nel tempo. Tuttavia, non
sempre cos, e talvolta esso deve essere rappresentato come una funzione . In questo caso, la cifra
di merito deve naturalmente essere modificata in:
=

-L

M .

Dove, come noto, esiste un ritardo di q passi tra lingresso e luscita . Per minimizzare tale quantit, a
patto di conoscere la predizione di , possiamo imporre:
m | q = m | q
Nel caso invece in cui non si possa predire la grandezza di riferimento , non si potr fare altro che
imporre:
m | q = q
Siccome questa situazione si verifica spesso, molti libri definiscono sin dallinizio la cifra di merito come:
=

-L

q M .=

Pag. 67

-L

+q

M .

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Controllo predittivo a minima varianza generalizzato (GMV)


Per risolvere il problema delleccessiva energia di controllo, il metodo del controllo predittivo a minima
varianza viene modificato nel metodo GMV (metodo di controllo a minima varianza generalizzato), il quale
prevede che si tenga conto dellenergia di controllo per mezzo di una cifra di merito del tipo:
Dove

-L

+q

+ q generato come mostrato nella figura seguente:

I polinomi

+q

+
+

M .

+q

possono essere scelti arbitrariamente dal progettista. Nel caso particolare:

=1

=0
Si ottiene nuovamente il controllo a minima varianza, come descritto nei precedenti paragrafi.

Scelta della complessit


Fino ad ora sempre stata considerata valida lassunzione secondo la quale si conosce anticipatamente il
tipo di modello in gioco; tuttavia, necessario considerare anche il problema che consiste nellindividuare
quali e quanti sono i parametri da introdurre, ovvero qual la complessit del modello. Tale problema,
come al solito, dovr essere risolto partendo solo dalla conoscenza dei dati.
Lidea di base
In altri termini, utilizzando solamente i dati raccolti sul sistema reale, vogliamo scegliere qual il modello
1 , 1 che lo rappresenta, ovvero vogliamo individuare i valori di 1 e di 1 . Possiamo pensare di
scegliere varie combinazioni di valori diversi tra loro, come ad esempio:
1, 1
1, 2
2,1
2,2

Eseguendo il procedimento di identificazione sulla base di ciascuna delle famiglie di modelli cos
individuate. Trovato il modello migliore per ogni famiglia, possiamo pensare di eseguire un confronto tra i
risultati ottenuti, in modo da poter stabilire quale tra questi abbia il comportamento migliore.

Pag. 68

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Esempio
Se ad esempio consideriamo il processo:
= 1,2
1 0,32
2 +
1 + 0,5
2 + v , v ~tu 0,1 ,
~tu 0,1
Ed eseguiamo i vari calcoli, otteniamo i seguenti risultati:
Test di Anderson sul
Famiglia di modelli
Parametri calcolati
Incertezze
Cifra di merito
rumore
>m = 0,952
0,6%
Non verificato
1,1
= 3,864

2,3%
= 0,975
>m% = 1,20
2%

1%
% = 0,984
Verificato
2,2
= 0,998
>m = 0,32
3%
3%
= 0,485
>m% = 1,19
2%

1%
% = 0,93
>m = 0,29
10%
Verificato
3,3
= 0,997

5%
= 0,494
>m = 0,019
68%

120%
= 0,016
Si nota cos che la diminuzione della cifra di merito nel passaggio dalla famiglia
2,2 alla famiglia
3,3 di entit quasi trascurabile, a scapito di un aumento massiccio dellincertezza dei nuovi
parametri calcolati, che risultano essere molto vicini a zero. Si capisce quindi anche intuitivamente che in
questo caso la complessit dell 3,3 eccessiva, e quindi si dovr scegliere un modello
2,2 .
Tuttavia, questo solamente un esempio: nella maggior parte dei casi, la situazione non risulta essere cos
chiara e semplice.

Crossvalidazione
A questo punto necessario eseguire unulteriore critica al modo di procedere fino ad ora illustrato. La
cifra di merito utilizzata infatti:

1
= ? s
u
oB%

Dove s
lerrore di predizione del modello definito dal vettore dei parametri ; abbiamo poi
minimizzato tale cifra, calcolando:
= min

E considerando come modello ottimo L M. Come si nota anche dal precedente esempio, allaumentare
della complessit del modello adottato, la cifra di merito del modello stesso non pu fare altro che
diminuire, indicando cos una sempre maggiore aderenza al sistema reale. Tale andamento monotono
nasconde per un problema. Abbiamo infatti:
s-
=
-

Dove

la predizione fatta sulla base del modello stimato, e non sulla base del sistema vero. Questo

significa che il criterio per valutare la qualit del modello si basa in realt sugli stessi dati che vengono usati
per eseguire lidentificazione stessa, e ci rappresenta ovviamente un problema concettuale.
Una possibile soluzione a questo problema consiste semplicemente nel dividere i dati in due diversi
blocchi, uno da utilizzarsi per eseguire lidentificazione, ed uno da utilizzarsi per la valutazione della sua
qualit (ovvero il calcolo di ). Questi ultimi dati vengono anche detti di validazione.
In questo modo landamento di non sar necessariamente monotono non crescente rispetto allaumento
di complessit. Questo modo di procedere anche detto crossvalidazione.
Pag. 69

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Valutazione della bont oggettiva di un modello a partire dalla


valutazione soggettiva
Il criterio FPE
Unalternativa rispetto alla crossvalidazione, che consenta di non sprecare alcuni dei dati raccolti, la
valutazione della bont oggettiva di un modello a partire dalla valutazione soggettiva, che viene eseguita
valutando lerrore di predizione sugli stessi dati usati per lidentificazione stessa. Questo modo di
procedere dovuto al ricercatore giapponese Akaike.
Il nostro obiettivo quello di calcolare la quantit:
=

-L

M .=

-L

m ,

M .

Dove m la predizione ottenuta sulla base del sistema vero, e non sulla base del modello ottenuto.
Questa quantit indica perci la bont media del modello, calcolata su tutte le possibili stringhe di dati.
Inoltre, fino ad ora abbiamo sempre stimato i parametri con il vettore , ottenuto minimizzando la cifra
di merito ; tuttavia, anche dipende dal caso, ovvero dalle stringhe di dati che si scelto di utilizzare per
eseguire lidentificazione stessa. Possiamo quindi scrivere:

E calcolare il final prediction error:


= - .

Che rappresenta ladesione media (a tutte le possibili stringhe di dati) di tutti i modelli che possono essere
stimati a partire dalle stringhe dei dati. Si nota perci che questa quantit non dipende dal caso. Inoltre, si
pu dimostrare che vale luguaglianza:
u+1

=
u1
Ovvero, la valutazione oggettiva viene ottenuta partendo dalla valutazione soggettiva ,
semplicemente moltiplicando questa quantit per una costante che dipende dal numero di dati u e dal
numero di parametri del modello 1. In questo modo, si crea uno svantaggio per tutti quei modelli che
hanno elevata complessit, con un andamento che non sar pi monotono, ma che avr un minimo, il
quale ci consente di calcolare qual la complessit ottima del sistema, come mostrato nel grafico
seguente (ottenuto considerando costante il numero u di dati a disposizione):

1oo@

Il criterio AIC
Un altro possibile criterio noto come Akaike Information Criterion. Il criterio dellinformazione di Akaike
prevede che la valutazione oggettiva si calcoli mediante la formula:
1
| = 2 + ln
u

Pag. 70

Appunti di Identificazione dei Modelli e Analisi dei Dati 1

Il criterio MDL
Infine, un altro dei molti possibili metodi il criterio Minimal Description Length, simile ai precedenti ma
ottenuto sulla base di studi algoritmici e non sulla base della teoria della statistica. La valutazione
oggettiva viene in questo caso calcolata come:
1
" = ln + ln u
u
Confronto tra i vari metodi
Si nota che i criteri FPE ed AIC, con un elevato numero di dati u, portato allo stesso risultato. Infatti:
1
1+
u+1
u+1
1
1
u
ln = ln
= ln
+ ln = ln
+
ln

=
ln
1
+

ln
1

+ ln
1
u1
u1
u
u
1
u
Come noto dallAnalisi Matematica:
Per 0:
ln 1 + ~
E, se u 1, allora 0, perci:
;

1
1
1
+ ln = 2 + ln = |
u
u
u
Il metodo MDL risulta invece essere pi parsimonioso rispetto ai precedenti: in altri termini, tende a
suggerire una complessit ottima leggermente inferiore rispetto agli altri due metodi, specialmente se
il numero di dati a disposizione non molto elevato. Il metodo MDL viene solitamente preferito agli
altri quando si dispone di un numero di dati molto elevato.
ln

Pag. 71

You might also like