Professional Documents
Culture Documents
Probabilit`a e informazione
Note per il corso di Teoria dei fenomeni aleatori
N APOLI 2002
Indice
1
Probabilit`a elementare
1.1 Introduzione . . . . . . . . . . . . . . . . . . .
1.2 Richiami di teoria degli insiemi . . . . . . . .
1.3 Definizioni preliminari di probabilit`a . . . . .
1.4 Probabilit`a assiomatica . . . . . . . . . . . . .
1.4.1 Campi e -campi (campi di Borel) . .
1.4.2 Assiomi di Kolmogorov . . . . . . . .
1.4.3 Propriet`a elementari della probabilit`a
1.5 Altri approcci alla teoria della probabilit`a . .
1.5.1 Approccio frequentista . . . . . . . . .
1.5.2 Approccio classico . . . . . . . . . . .
1.5.3 Vantaggi dellapproccio assiomatico .
1.6 Esempi di spazi di probabilit`a . . . . . . . . .
1.6.1 Spazi di probabilit`a discreti . . . . . .
1.6.2 Spazi di probabilit`a continui . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
3
5
7
7
9
9
11
12
13
13
14
14
17
.
.
.
.
.
.
.
.
.
.
.
.
.
23
23
23
26
27
28
31
33
34
34
36
39
43
47
ii
INDICE
3
Variabili aleatorie
3.1 Introduzione . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Definizione di variabile aleatoria . . . . . .
3.2 Funzione di distribuzione cumulativa (CDF) . . .
3.2.1 Propriet`a della CDF . . . . . . . . . . . . .
3.2.2 Variabili aleatorie discrete, continue, miste
3.2.3 Percentile e mediana . . . . . . . . . . . .
3.3 Funzione densit`a di probabilit`a (pdf) . . . . . . . .
3.3.1 Propriet`a della pdf . . . . . . . . . . . . . .
3.4 Funzione distribuzione di probabilit`a (DF) . . . .
3.4.1 Propriet`a della DF . . . . . . . . . . . . . .
3.5 Esempi di variabili aleatorie . . . . . . . . . . . . .
3.5.1 Variabili aleatorie discrete . . . . . . . . . .
3.5.2 Variabili aleatorie continue . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
53
53
56
57
59
61
62
64
65
67
69
70
70
75
.
.
.
.
.
.
.
.
.
.
.
.
81
81
82
83
83
89
90
95
98
102
102
103
105
.
.
.
.
.
.
.
.
.
109
109
109
113
114
114
117
119
120
122
INDICE
6
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
127
127
128
129
130
131
133
134
138
141
141
143
147
150
.
.
.
.
.
.
.
.
.
.
.
153
153
153
155
156
156
156
158
159
161
162
164
.
.
.
.
.
.
.
.
.
.
.
.
.
.
167
167
167
168
168
169
169
170
173
175
176
177
178
179
183
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
iv
INDICE
8.6.1
8.6.2
9
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
191
191
191
191
193
194
197
198
199
201
202
202
205
207
208
209
211
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
217
217
219
220
221
222
223
225
225
226
228
229
230
230
231
231
233
235
236
239
240
241
INDICE
251
C Limpulso di Dirac
255
Bibliografia
259
vi
INDICE
Capitolo 1
Probabilit`a elementare
1.1
Introduzione
La teoria della probabilit`a e` uno strumento matematico utile per lo studio dei cosiddetti
fenomeni aleatori, che sono fenomeni complessi o di difficile modellizzazione, che tuttavia presentano una qualche forma di regolarit`a, ed il cui comportamento puo` essere
descritto solo attraverso opportune grandezze globali o medie.
Per esempio, il lancio di una moneta su un tavolo e` un fenomeno fisico che puo` essere certamente descritto in termini delle equazioni matematiche tipiche della cinematica
e della dinamica; tuttavia e` estremamente difficile, se non praticamente impossibile, pur
supponendo di conoscere esattamente la forma, il peso, la quantit`a di moto iniziale della moneta, le caratteristiche del tavolo, e ogni altro parametro del problema, prevedere
` la nostra
quale faccia della moneta si manifester`a in un singolo lancio. Nonostante cio,
intuizione ci dice che se lanciamo la moneta (supposta non truccata) un numero sufficientemente elevato di volte, la percentuale di volte che si presenter`a la faccia testa o la
faccia croce sar`a prossima al 50%. Quindi, pur non essendo possibile prevedere il risultato di un singolo lancio, riconosciamo che il fenomeno aleatorio presenta una qualche
forma di regolarit`a se si considera un numero elevato di lanci o ripetizioni dellesperimento. La teoria della probabilit`a si occupa proprio di individuare, studiare e modellare tali
regolarit`a.1
Un altro esempio di fenomeno aleatorio e` un fluido gassoso, composto da un numero elevato di particelle in moto casuale. E` praticamente impossibile descrivere il
comportamento del gas descrivendo il comportamento di ogni particella che lo compone; tuttavia laggregato delle particelle tende ad esibire propriet`a regolari: ad esempio,
la pressione del gas stesso e` una quantit`a perfettamente definita e misurabile. La disci1
Lesempio del lancio di una moneta non e` scelto a caso: per lungo tempo, una delle principali applicazioni della teoria della probabilit`a e` stato il calcolo delle percentuali di vittoria o di sconfitta per i piu`
comuni giochi dazzardo (lancio di dadi, roulette, poker, etc.).
Probabilit`a elementare
plina che studia il comportamento dei gas con un approccio basato sulla teoria della
probabilit`a prende il nome di meccanica statistica.
Altri fenomeni aleatori che possono essere utilmente modellati attraverso la teoria
della probabilit`a sono, ad esempio, larrivo di utenti ad uno sportello di una banca,
nel quale e` impossibile prevedere con esattezza listante di arrivo di ciascun utente, ma
il comportamento globale dellinsieme degli utenti (ad esempio, la lunghezza media
della coda allo sportello) puo` essere modellato con una certa esattezza. In un ambito
completamente differente, gli arrivi possono essere le telefonate che giungono ad una
centrale telefonica, e la teoria della probabilit`a puo` servire a dimensionare opportunamente il numero di linee di tale centrale. Lapplicazione della teoria della probabilit`a
a tali problemi ha determinato la nascita di una disciplina denominata teoria delle code,
ampiamente utilizzata nellanalisi e nel progetto delle reti di telecomunicazioni.
In ambito economico, la teoria della probabilit`a e` stata utilizzata con successo per
modellare aggregati composti da un gran numero di soggetti economici, quali ad esempio i mercati nei quali avvengono le transazioni di borsa. Se infatti e` impossibile prevedere con esattezza il comportamento del singolo investitore, tuttavia il comportamento globale di un gran numero di investitori tende ad esibire regolarit`a che rendono
possibile una descrizione basata sui modelli della teoria della probabilit`a.
Un altro campo nel quale la teoria della probabilit`a trova unimportante applicazione e` lelaborazione e la trasmissione dellinformazione; bisogna infatti osservare che, per
sua natura, il concetto di informazione e` intrinsecamente legato a quello di impredicibilit`a. Ad esempio, laffermazione stanotte far`a buio non convoglia nessuna informazione, semplicemente perch`e e` una affermazione certa. Viceversa, una affermazione
poco probabile, quale domani il pianeta Terra sar`a invaso dai marziani convoglia una
grande quantit`a di informazione, perche poco probabile. La disciplina che studia i problemi associati allinformazione con approccio probabilistico prende il nome di teoria
dellinformazione; alcuni aspetti basilari di tale disciplina saranno introdotti e discussi
nel capitolo 10.
Abbiamo fornito alcuni esempi, certamente non esaustivi, di applicazione della teoria della probabilit`a, che dovrebbero evidenziare lampia portata e la rilevanza di tale
disciplina. Siamo adesso pronti a porre le basi di tale teoria, che ha un forte contenuto
matematico, ma che cercheremo di trattare in modo semplice, e con continuo ricorso ad
esempi. In particolare, prima di addentrarci nel vivo delle studio della teoria della probabilit`a, richiamiamo brevemente alcuni concetti della teoria degli insiemi, che peraltro
dovrebbero essere gi`a noti al lettore, principalmente per familiarizzare con la notazione
che utilizzeremo nel seguito.
A
A
A
Fig. 1.1. Linsieme B e` sottoinsieme dellinsieme A (B A).
1.2
Probabilit`a elementare
AB
AB
nente tutti gli elementi di che non appartengono ad A (Fig. 1.2), ovvero A = A.
Nella logica formale, il complemento corrisponde alloperazione di NOT.
Lunione o somma di due insiemi e` linsieme (Fig. 1.3). che contiene tutti gli elementi
di A, di B, o di entrambi. Lunione di due insiemi si denota con A B oppure A +
B, e gode delle propriet`a commutativa e associativa. Nella logica formale, lunione
corrisponde alloperazione di OR (non esclusivo).
Lintersezione o prodotto di due insiemi e` linsieme (Fig. 1.4). che contiene tutti gli
elementi comuni ad A e B. Lintersezione di due insiemi si denota con A B oppure
AB, e gode delle propriet`a commutativa, associativa e distributiva rispetto allunione.
Nella logica formale, lintersezione corrisponde alloperazione di AND.
Le operazioni di unione ed intersezione possono essere estese a piu` di due insiemi,
ed anche al caso di infiniti insiemi.
Due insiemi A e B si dicono mutuamente esclusivi o disgiunti se A B = . Piu`
insiemi A1 , A2 , . . . si dicono mutuamente esclusivi o disgiunti se Ai Aj = per ogni
i = j. Dati n insiemi A1 , A2 , . . . , An mutuamente esclusivi, si dice che essi costituiscono
una partizione di se nk=1 Ak = .
La cardinalit`a card(A) di un insieme A e` il numero degli elementi di A. Se A contiene
infiniti elementi, card(A) = . La cardinalit`a di un insieme infinito puo` essere infinita
numerabile o infinita continua; si dice numerabile se comunque gli infiniti elementi di
A si possono porre in corrispondenza biunivoca con linsieme N dei numeri naturali,
altrimenti si dir`a continua. Ad esempio, linsieme A dei numeri non negativi e pari e`
un insieme con cardinalit`a infinita numerabile; viceversa linsieme A = [0, 1] = {x
R tali che 0 x 1} e` un insieme con cardinalit`a infinit`a continua. E facile verificare
(1.1)
AB =AB.
(1.2)
Tali leggi possono essere estese anche allunione e allintersezione di uninfinit`a numerabile di insiemi.
1.3
Probabilit`a elementare
Definizione (evento). Dato uno spazio campione , si dice evento un
qualunque sottoinsieme A di .
Esempio 1.3. Nel lancio di una moneta un possibile evento e` A = {T } (evento elementare, costituito da un solo elemento); nel lancio di un dado, un possibile evento
e` A = {pari} = {2, 4, 6}; nellestrazione di un numero al lotto, un possibile evento e`
A = {minore di 10} = {1, 2, 3, . . . , 9}.
Supponiamo allora di effettuare lesperimento e di ottenere il risultato : diremo
allora che si e` verificato levento A se A. Allo stesso modo, diremo che:
- non si e` verificato levento A, se A o, equivalentemente, se A;
- si sono verificati gli eventi A e B, se A B;
- si e` verificato levento A oppure B, se A B (gli eventi A e B potrebbero
verificarsi anche entrambi, ovvero lOR non e` esclusivo).
Ad esempio, poich`e sempre, levento (evento certo) si verifica ad ogni prova,
mentre levento (evento impossibile) non si verifica in nessuna prova.
Possiamo adesso introdurre i concetti di spazio degli eventi ed una prima definizione
di probabilit`a. Per spazio degli eventi intendiamo linsieme B di tutti gli eventi di interesse
(`e una collezione di insiemi). La probabilit`a e` una funzione P definita sullo spazio degli
eventi B e a valori in [0, 1]:
P : A B P (A) [0, 1] .
A questo punto sorge un problema fondamentale: dato un qualsiasi esperimento, e`
abbastanza semplice identificare in maniera non ambigua lo spazio campione , gli
eventi A, lo spazio dei possibili eventi B. Ma come e` possibile specificare la legge di
probabilit`a? Vediamo un semplice esempio.
Esempio 1.4. Consideriamo il lancio di una moneta, il cui spazio campione denotiamo
con = {T, C}. Come spazio degli eventi, consideriamo B = {{T }, {C}, {T, C}, {}},
ovvero linsieme contenente tutti i sottoinsiemi di che, per un insieme con n elementi,
sono in numero pari a 2n . 3 Possiamo assegnare la probabilit`a a tutti gli eventi di B nel
3
Tale risultato si puo` facilmente motivare, se pensiamo che individuare un particolare sottoinsieme
di , che ha n elementi, equivale a costruire una stringa di n bit, nella quale ai simboli 0 si associa la
mancanza nel sottoinsieme dellelemento di corrispondente, mentre ai simboli 1 si associa la sua presenza. Poich`e e` possibile costruire 2n distinte stringhe di n bit, tale sar`a il numero dei distinti sottoinsiemi
di .
seguente modo:
P ({T }) = P ({C}) = 1/2, per simmetria;
P ({T, C}) = 1,
evento certo;
P ({}) = 0,
evento impossibile.
In questo caso, allora, abbiamo assegnato un valore numerico di probabilit`a ad un
qualunque evento dello spazio degli eventi.
Nel semplice esempio precedente una plausibile legge di probabilit`a si e` ottenuta sulla
base di considerazioni intuitive e per motivi di simmetria. Tuttavia, per trattare casi piu`
complicati e` necessario ricorrere ad un approccio sistematico. In particolare, e` possibile
introdurre degli assiomi o dei postulati4 a cui deve soddisfare una legge di probabilit`a;
questa strada e` quella seguita dallapproccio assiomatico, introdotto dal matematico russo
A. N. Kolmogorov (19031987), ed e` quella ritenuta piu` soddisfacente dal punto di vista
matematico. Tuttavia, lapproccio assiomatico soffre di una limitazione fondamentale, e
cio`e che si tratta di un approccio incompleto, come discuteremo piu` approfonditamente
nel seguito.
1.4
Probabilit`a assiomatica
Per costruire una legge di probabilit`a secondo lapproccio assiomatico dobbiamo richiedere qualche propriet`a particolare allo spazio B degli eventi di interesse. In particolare,
dobbiamo richiedere che B possieda la struttura algebrica di campo o, piu` precisamente,
di -campo o campo di Borel.
2. A, B B A B B
Sulla base delle propriet`a 12, e` facile dimostrare che, se B e` un campo, si ha:
4
Ricordiamo che, in una teoria formale, un assioma o un postulato e` unasserzione che non devessere
dimostrata. Ad esempio, lassioma fondamentale della geometria euclidea e` il cosiddetto assioma delle
rette parallele: per un punto non appartenente ad una retta, passa una ed una sola retta parallela alla retta
data.
Probabilit`a elementare
1 . , B.
Prova. Infatti, poich`e B e` non vuoto, contiene almeno un elemento A A B (per la propriet`a 1)
A A = B (per la propriet`a 2) = B (per la propriet`a 1).
2 . se A, B B, allora A B B.
Prova. Se A, B B A, B B (per la propriet`a 1) A B B (per la propriet`a 2) A B B
(per la propriet`a 1). Ma A B = A B per le leggi di de Morgan.
Lapplicazione ripetuta delle propriet`a 2 e 2 mostra che ogni insieme che possa essere
espresso come unione e/o intersezione di un numero finito di elementi di B appartiene
anchesso ad B. Tale propriet`a non rimane valida, tuttavia, se si considera un numero
infinito di insiemi, che e` un caso di interesse nella teoria della probabilit`a. E allora necessario estendere il concetto di campo al caso di infiniti insiemi, definendo il cosiddetto
-campo o campo di Borel.
Definizione (-campo o campo di Borel). Un -campo B o campo di Borel di
eventi e` un campo che soddisfa, oltre alle propriet`a 1 e 2, anche la seguente:
3. {Ai }
i=1 B i=1 Ai B (chiusura rispetto allunione numerabile).
, i = j) di B, allora P (i=1 Ai ) =
i=1 P (Ai ) (assioma di numerabile
additivit`a).
Lintera teoria della probabilit`a discende dai precedenti assiomi in maniera deduttiva.
i=1
P (Ai ) = P () +
P ()
i=2
3. P (A) = 1 P (A), A B.
Prova. Poich`e A A = e A A = , per la propriet`a 2 e per lassioma II si ha:
P (A A) = P (A) + P (A) = P () = 1 P (A) = 1 P (A) .
10
Probabilit`a elementare
4. P (A B) = P (A) + P (B) P (A B).
Prova. Utilizzando i diagrammi di Venn (Fig. 1.5) e` facile verificare che:
A B = A AB
con A e AB mutuamente esclusivi. Allo stesso modo (Fig. 1.5, si ha:
B = S B = (A + A) B = A B A B
con A B e A B mutuamente esclusivi. Applicando la propriet`a 2 si ha:
P (A B) = P (A) + P (AB) ,
P (B) = P (AB) + P (AB) .
Eliminando P (AB) tra le due equazioni si ottiene il risultato.
6. P (A) 1, A B.
Prova. Segue direttamente dalla propriet`a precedente e dallassioma II scegliendo B = .
In sostanza, per definire una legge di probabilit`a, occorre specificare: 1) uno spazio
campione ; 2) un -campo B di eventi di ; 3) una funzione P definita su B e a valori in [0, 1] che soddisfi gli assiomi I-III di Kolmogorov. La terna (, B, P ) prende il
nome di spazio di probabilit`a. Si noti che, nellapproccio assiomatico, tutta la teoria della
probabilit`a viene costruita in maniera deduttiva a partire dagli assiomi di Kolmogorov.
Esempio 1.5. Riprendiamo lesempio del lancio di una moneta. Abbiamo definito lo
spazio campione = {T, C} ed il -campo B = {{T }, {C}, {T, C}, {}}. Per definire
una legge di probabilit`a bisogna allora assegnare le probabilit`a agli eventi. A tale scopo
e` sufficiente assegnare le probabilit`a ai cosiddetti eventi elementari {T } e {C}. Una scelta
ragionevole e` :
P ({T }) = P ({C}) = 1/2 ,
AB
11
AB
AB
P ({C}) = 2/3 ;
e` facile vedere che anche tale assegnazione soddisfa gli assiomi di Kolmogorov. Allora
qual e` la legge di probabilit`a corretta?
Lesempio precedente mette in luce la principale limitazione dellapproccio assiomatico
di Kolmogorov, ovvero il fatto che esso e` un sistema di assiomi incompleto, non consente
cio`e di determinare univocamente quali debbano essere le probabilit`a degli eventi. Come si fa allora a capire quale sia la legge di probabilit`a corretta? In pratica una volta
definita una legge di probabilit`a che soddisfa allapproccio assiomatico, si utilizza tale
legge per effettuare previsioni sullesperimento (ad esempio, per calcolare probabilit`a di
eventi piu` complessi a partire da probabilit`a di eventi semplici). Se le previsioni sono
accurate (validazione sperimentale) le probabilit`a ipotizzate sono corrette, altrimenti e`
necessario modificare la legge (i valori) di probabilit`a. Il processo si puo` iterare fino ad
avere un accordo soddisfacente tra valori teorici e valori sperimentali.
1.5
Lapproccio assiomatico e` quello piu` recentemente proposto per la teoria della probabilit`a. Storicamente, nel corso degli anni, oltre allapproccio assiomatico si sono sviluppati
almeno altri due importanti approcci: lapproccio frequentista e lapproccio classico.5
12
Probabilit`a elementare
P (A) = lim
(1.3)
Lapproccio frequentista e` un approccio induttivo, cio`e un approccio che si basa (o vorrebbe basarsi) sullesperienza, e presenta il vantaggio innegabile di essere vicino al nostro concetto intuitivo di probabilit`a; tuttavia non e` del tutto soddisfacente per fornire
una definizione operativa di probabilit`a, perch`e non e` possibile ripetere un esperimento un numero infinito di volte. Inoltre, dal punto di vista teorico, lesistenza stessa del
limite nella (1.3) puo` essere messa in discussione.
E` interessante interpretare gli assiomi di Kolmogorov in senso frequentista, visto che
la nostra interpretazione intuitiva di probabilit`a e` proprio quella frequentista. Infatti, se
interpretiamo la probabilit`a come frequenza di successo dellevento A su n prove, cio`e
trascuriamo loperazione di limite nella (1.3), ponendo
P (A) =
nA
,
n
si ha:
I. P (A) 0, banalmente perch`e nA 0 ed n > 0;
II. P () = 1, perch`e n = n (levento certo si verifica ad ogni prova);
III. se A B = , allora nA+B = nA + nB perch`e non possono verificarsi entrambi
simultaneamente. Allora:
P (A + B) =
nA nB
nA+B
=
+
= P (A) + P (B) .
n
n
n
Si noti che abbiamo scritto il terzo assioma per semplicit`a nella forma finita, per evitare
lastrazione insita nel considerare infiniti eventi.
5
Non consideriamo qui, perch`e poco scientifico, lapproccio soggettivista, secondo il quale la probabilit`a esprime il grado di aspettativa soggettiva di un individuo relativamente al verificarsi di un
evento.
NA
,
N
13
14
Probabilit`a elementare
e` stato riconosciuto dai matematici come lapproccio piu` soddisfacente alla teoria della
probabilit`a, e sar`a quello considerato nella trattazione che segue.
Tuttavia anche gli approcci frequentista e classico presentano alcuni vantaggi. In
sintesi, e` possibile affermare che:
lapproccio frequentista e` quello piu` vicino al nostro concetto intuitivo di probabilit`a, e spesso e` daiuto per interpretare intuitivamente i risultati ottenuti;
lapproccio classico serve ad assegnare i valori di probabilit`a in molti casi pratici (es. giochi, scommesse, etc.), in cui i risultati possibili si possono ritenere
equiprobabili;
lapproccio assiomatico e` quello piu` soddisfacente dal punto di vista formale (matematico), ma non consente di fissare univocamente i valori numerici delle probabilit`a da assegnare agli eventi (incompletezza).
1.6
Per concludere questo primo capitolo, consideriamo alcuni esempi di spazi di probabilit`a; per semplicit`a di trattazione, considereremo prima il caso piu` semplice di spazi di
probabilit`a discreti, e successivamente quello piu` astratto di spazi di probabilit`a continui.
P ({ij }) .
j=1
Pertanto, per assegnare la probabilit`a di un qualunque evento A, e` sufficiente assegnare le probabilit`a degli eventi elementari pi P ({i }), i , garantendo che, per
15
lassioma II,
P () =
P ({i }) =
i=1
pi = 1 .
(1.4)
i=1
Consideriamo il caso di un insieme di cardinalit`a finita (card() = N ): se e` possibile assumere gli eventi elementari equiprobabili (per motivi di simmetria o applicando
il cosiddetto principio di ragione insufficiente 6 ) risulta necessariamente, per la (1.4),
pi =
1
N
card(A)
.
card()
(1.5)
Si osservi, peraltro, che tale risultato e` esattamente equivalente alla definizione di probabilit`a secondo lapproccio classico, che quindi puo` riguardarsi come lapplicazione
dellapproccio assiomatico a spazi campione finiti con eventi elementari equiprobabili, un caso tipico della teoria dei giochi e delle scommesse. Osserviamo inoltre esplicitamente che determinare la probabilit`a di un evento A secondo la (1.5) e` equivalente a
contare gli elementi di A e quelli di . Evidentemente, se card() = non e` possibile
assumere gli eventi equiprobabili, in quanto avrei P () = in tal caso!
In definitiva, la (1.5) mostra che in molti casi il calcolo delle probabilit`a di eventi si
riduce ad un problema puramente combinatorio, consistente cio`e nel contare gli elementi
di un insieme, problema semplice in linea di principio, ma la cui applicazione a casi
reali puo` giungere a notevoli livelli di complessit`a. Per problemi non troppo difficili, le
principali formule del calcolo combinatorio sono spesso
n sufficienti, e sono riportate in
Tab. 1.1. La definizione di coefficiente binomiale k e di fattoriale n!, insieme con le
principali propriet`a, sono riportate in Appendice A.
Esempio 1.7. Consideriamo il lancio di una moneta. In tal caso lo spazio campione
e` = {T, C}, e come -campo B e` possibile scegliere linsieme di tutti i possibili sottoinsiemi di (pari a 22 = 4). Per assegnare la legge di probabilit`a, basta assegnare la
probabilit`a degli eventi elementari {T } e {C}. Per simmetria, poniamo:
P ({T }) = P ({C}) = 1/2
e le probabilit`a di tutti gli altri eventi in B si ricavano da queste.
6
Tale principio, noto anche come rasoio di Occam, dal nome del filosofo inglese William of Ockham
` stabilisce che, se si deve scegliere tra diverse ipotesi riguardanti un fenomeno,
(1280-1349) che lo formulo,
bisogna scegliere la piu` semplice.
16
Probabilit`a elementare
senza sostituzione
con sostituzione
n!
(n k)!
nk
ordinate
n
k
non ordinate
n+k1
k
Esempio 1.9. Consideriamo il lancio di due monete uguali, o di una moneta due volte.
In tal caso, lo spazio campione e` = {T T, T C, CT, CC}, e come -campo B e` possibile
scegliere linsieme di tutti i possibili sottoinsiemi di (pari a 24 = 16). Osserviamo che
levento
A = {esce testa al primo lancio}
non e` un evento elementare. Infatti:
A = {T T } {T C} .
Per assegnare la legge di probabilit`a basta assegnare la probabilit`a degli eventi elementari {T T }, {T C}, {CT }, {CC}. Per simmetria, poniamo:
P ({T T }) = P ({T C}) = P ({CT }) = P ({CC}) = 1/4
e le probabilit`a di tutti gli altri eventi in B si ricavano da queste. Ad esempio, per
levento A definito precedentemente, si ha:
P (A) = P ({T T }) + P ({T C}) = 1/4 + 1/4 = 1/2
17
P (A) = P ({x A})
f (x) dx .
A
Si puo` facilmente osservare che una tale legge di probabilit`a rispetta gli assiomi di
18
Probabilit`a elementare
Notiamo che se A = [y, y + y] e se f (x) e` limitata, si ha:
lim P (A) = lim P ({y x y + y}) = P ({x = y}) = lim
y0
y0
y0
y+y
f (x) dx = 0 ,
y
quindi gli eventi elementari {x = y} hanno probabilit`a nulla. Questo risultato, apparentemente sorprendente, non e` in contrasto con lassioma di normalizzazione (P () = 1)
e con lassioma di numerabile additivit`a perch`e non e` numerabile.
Daltra parte, se f (x) e` continua, si ha anche:
y+y
P (A) =
f (x) dx f (y) y
y
f (y) = lim
per cui la funzione f (y) si puo` interpretare come densit`a di probabilit`a. Notiamo che tale
densit`a di probabilit`a e` diversa da zero, anche se la probabilit`a dellevento {x = y} e`
nulla.
Nellesempio precedente, un punto non completamente chiaro e` la scelta della funzione
f (x). Anche qui emerge lincompletezza dellapproccio assiomatico, ovvero ogni funzione f (x) 0 che soddisfi la (1.6) definisce una valida legge di probabilit`a. Ma, se
vogliamo invocare il principio di ragione insufficiente, qual e` la scelta piu` semplice da
fare? A prima vista, sembrerebbe che, in mancanza di altre informazioni, scegliere f (x)
costante sia la cosa piu` semplice. Tale scelta non e` tuttavia lecita se non e` limitato,
perch`e una funzione costante e positiva avrebbe integrale infinito su un insieme non
limitato, e quindi non potrebbe soddisfare la (1.6). La scelta di una funzione costante
e` viceversa perfettamente legittima se e` limitato, ad esempio se = [x1 , x2 ], come
discusso nel seguente esempio.
Esempio 1.11. Si consideri lesperimento consistente nellarrivo a caso di una telefonata ad una centrale telefonica nellintervallo [t1 , t2 ]. In tal caso, il risultato dellesperimento e` un numero reale x [t1 , t2 ], che rappresenta listante di arrivo della telefonata,
per cui lo spazio campione e` = [t1 , t2 ]. Come -campo, tenendo conto dellosservazione fatta nel precedente esempio, scegliamo il piu` piccolo -campo che contiene
tutti gli intervalli aperti ]a, b[ [t1 , t2 ]. Come legge di probabilit`a, in mancanza di altre
informazioni, scegliamo una funzione f (x) cos` definita:
, se x [t1 , t2 ];
f (x) =
0, altrimenti.
19
Tale f (x) si dice uniforme in [t1 , t2 ]. Imponiamo ora che la (1.6) sia soddisfatta:
t2
1
f (x) dx = 1 =
.
t2 t1
t1
In base a questa definizione, la probabilit`a che giunga una telefonata in un intervallo
A = [a, b] e` :
b
1
ba
P (A) =
dx =
.
t2 t1 a
t2 t1
Osserviamo che, poich`e b a e` la misura dellintervallo [a, b], e t2 t1 e` la misura
dellintervallo = [t1 , t2 ], la probabilit`a P (A) si puo` interpretare come una misura
normalizzata:
P (A) =
misura(A)
.
misura()
Tale interpretazione della probabilit`a mostra i legami della teoria della probabilit`a con
la teoria della misura, e prende il nome di probabilit`a geometrica.
Esempio 1.12 (problema dellincontro). Un esempio di spazio di probabilit`a continuo su
un sottoinsieme di R2 e` il cosiddetto problema dellincontro, una cui possibile formulazione e` la seguente: due amici, Tizio e Caio, si recano, per caso e indipendentemente
luno dallaltro, nello stesso bar nellintervallo [0, T ], e ciascuno si trattiene per t1 e t2
secondi.
Tale esperimento puo` essere descritto in termini probabilistici come segue. Il risultato dellesperimento e` una coppia ordinata di numeri (x, y), con x [0, T ] e y [0, T ],
dove x ed y rappresentano rispettivamente gli istanti di arrivo del primo e del secondo amico. Lo spazio campione e` allora il quadrato = [0, T ] [0, T ] R2 . Come
-campo, potremo scegliere il piu` piccolo -campo che contiene tutti i rettangoli aperti
A =]a, b[]c, d[. Come legge di probabilit`a, infine, in analogia al precedente esempio,
utilizzeremo la misura normalizzata, corrispondente a scegliere una densit`a di probabilit`a uniforme nel quadrato; se cio`e A e` un evento, ovvero e` un sottoinsieme del quadrato
appartenente ad B, e se misura(A) rappresenta la sua misura (unarea, in questo caso),
allora porremo:
P (A) =
misura(A)
,
misura()
(b a)(d c)
.
T2
20
Probabilit`a elementare
y=x + t1
T
T1
C
D
t1
y=x
t2
T2
t2
Una volta individuato un corretto modello probabilistico, possiamo affrontare il calcolo della probabilit`a di un qualsiasi evento, e data la definizione della probabilit`a come misura normalizzata, il calcolo si puo` effettuare utilizzando semplici considerazioni
geometriche.
Ad esempio, sia C il seguente evento: Tizio arriva prima di Caio. In termini numerici, risulta evidentemente C = {x y}, per cui levento C e` il triangolo rappresentato
in Fig. 1.7. Si ha allora:
P (C) =
1
T 2 /2
misura(C)
= .
=
2
misura()
T
2
21
misura(T1 ) =
misura()
T
t21 + t22
2T2
.
22
Probabilit`a elementare
Capitolo 2
Probabilit`a condizionale e indipendenza
2.1
Introduzione
Nel precedente capitolo abbiamo introdotto le basi della teoria della probabilit`a, ed in
particolare abbiamo visto come calcolare la probabilit`a di un evento A appartenente
ad uno spazio di probabilit`a (, B, P ), o di unioni, complementazioni e intersezioni di
piu` eventi. Tuttavia, anche nelle relazioni che coinvolgono piu` eventi di uno spazio di
probabilit`a, non abbiamo approfondito le relazioni di dipendenza o indipendenza tra tali
eventi. Approfondiremo tale analisi nel corso di questo capitolo, introducendo dapprima il concetto di probabilit`a condizionale, che costituisce il punto di partenza delle nostre
considerazioni.
2.2
Probabilit`a condizionale
Siano A e B due eventi di uno spazio di probabilit`a (, B, P ). Vogliamo mettere in relazione, in senso probabilistico, gli eventi A e B, introducendo una misura dellincertezza
residua su A sapendo che B si e` verificato. Tale misura e` fornita dalla cosiddetta probabilit`a
condizionale di A dato B, definita nel modo seguente:
Definizione (probabilit`a condizionale). Sia (, B, P ) uno spazio di probabilit`a, e siano A, B B due eventi, con P (B) = 0. La probabilit`a condizionale (o
condizionata) di A dato B e` :
P (A|B) =
P (AB)
.
P (B)
(2.1)
24
2. se A B, allora P (A|B) =
25
I. P (A|B) 0, A B banalmente;
II. P (|B) =
P (B)
P ( B)
=
= 1;
P (B)
P (B)
P (A1 B A2 B)
P [(A1 A2 )B]
=
.
P (B)
P (B)
P (A1 B) + P (A2 B)
= P (A1 |B) + P (A2 |B) .
P (B)
E
A2B
A1B
E
B
A2
A1
Una interpretazione leggermente differente e` quella che la probabilit`a condizionale definisce una legge di probabilit`a PB su un nuovo spazio campione = B, con eventi del
tipo E = A B (A B).
Prova. Consideriamo il nuovo spazio campione B = B, come -campo linsieme BB composto da tutti
gli insiemi del tipo E = A B, con A B, e come legge di probabilit`a su B la PB definita dalla seguente:
PB (E)
P (AB)
.
P (B)
26
P (B)
P (B B)
=
= 1;
P (B)
P (B)
P (A1 B A2 B)
P [(A1 A2 )B]
=
.
P (B)
P (B)
P (A1 B) + P (A2 B)
= PB (E1 ) + PB (E2 ) .
P (B)
(2.2)
A rigore, per ricavare tale legge dalla definizione (2.1), e` necessario supporre che P (A)
e P (B) siano non nulle. Tuttavia, si osservi che essa vale formalmente anche se P (A)
e/o P (B) e` zero, e quindi la probabilit`a condizionale non e` ben definita. Infatti, in tal
caso, dalla relazione A B A e A B B si ricava necessariamente P (A B) = 0. Si
osservi, infine, che la probabilit`a P (A B) prende il nome di probabilit`a congiunta degli
eventi A e B.
Esercizio 2.2. Una scatola contiene 3 palle bianche (w1 , w2 , w3 ) e 2 rosse (r1 , r2 ). Si rimuovono due palle in successione. Qual e` la probabilit`a che la prima sia bianca e la
seconda rossa?
Svolgimento. Lo spazio campione e` costituito da tutte le coppie ordinate di palle, che
sono esattamente venti:
= {w1 w2 , w1 w3 , w1 r1 , w1 r2 , w2 w1 , w2 w3 , . . . , r1 r2 } .
Infatti, la prima palla puo` essere scelta in 5 modi differenti; fissata la prima palla, la
seconda puo` essere scelta in 4 modi differenti, per cui ho un totale di 5 4 = 20 differenti
27
3
3 1
=
.
5 2
10
Notiamo che con questo approccio non e` stato necessario determinare (contare) il numero di elementi di .
P (ABC)
,
P (BC)
P (BC) = 0 .
28
n
P (B|Ai )P (Ai ) .
i=1
Prova. Si faccia riferimento al diagramma di Venn in Fig. 2.3. Poich`e B ni=1 Ai B = B {ni=1 Ai }
B = ni=1 (B Ai ). Ma se gli Ai sono mutuamente esclusivi, anche gli eventi B Ai lo sono. Allora per
il III assioma si ha:
P (B) =
n
P (B Ai ) .
i=1
Nella pratica puo` essere complicato verificare la condizione B ni=1 Ai , per cui spesso
si assume che gli insiemi A1 , A2 , . . . , An , mutuamente esclusivi, costituiscano una partizione di . In tal caso ni=1 Ai = per cui la condizione precedente risulta senzaltro
verificata.
29
A2
A1
A3
A 2B
A 1B
A 3B
A 4B
A4
Fig. 2.3. Diagramma di Venn del teorema della probabilit`a totale (n = 4).
P (B|Ai ) P (Ai )
.
P (B)
Sostituendo P (B) come espresso dal teorema della probabilit`a totale nella precedente si ha lasserto.
Il teorema di Bayes vale nelle stesse ipotesi del teorema della probabilit`a totale; inoltre
entrambi i teoremi possono estendersi al caso in cui gli eventi Ai condizionanti siano
uninfinit`a numerabile.
Esercizio 2.3. Si considerino 3 scatole che contengono componenti elettronici:
nella scatola 1, ci sono 2000 componenti, di cui il 5% (100 componenti) difettosi;
nella scatola 2, ci sono 1000 componenti, di cui il 40% (400 componenti) difettosi;
30
P (B|A2 ) P (A2 )
0.73 .
P (B)
Notiamo che la probabilit`a a posteriori che il componente provenga dalla scatola 2, sapendo che e` difettoso, e` molto maggiore della probabilit`a a priori che il componente
provenga dalla stessa scatola, che e` pari ad 1/3.
31
Esercizio 2.4. Si dispone di un test per individuare una malattia molto rara, che colpisce 1 persona su 100 000. Il test e` abbastanza affidabile: se la malattia e` presente, la
individua con probabilit`a 0.95; se la malattia non e` presente, il test e` falsamente positivo
con probabilit`a 0.005. Se il test dice che la malattia e` presente, qual e` la probabilit`a che
il paziente abbia effettivamente la malattia?
Svolgimento. Definiamo i tre eventi:
A1 = {il paziente ha la malattia} ,
A2 = {il paziente non ha la malattia} ,
B = {il test e` positivo} .
Dobbiamo allora calcolare la probabilit`a:
P (A1 |B) = P (il paziente ha la malattia|il test e` positivo) .
Poich`e gli eventi A1 ed A2 sono mutuamente esclusivi, e A1 A2 = , possiamo adoperare il teorema di Bayes, e scrivere:
P (A1 |B) =
P (B|A1 )P (A1 )
.
P (B|A1 ) P (A1 ) + P (B|A2 ) P (A2 )
P (B|A2 ) = 0.005 .
Sostituendo i valori numerici, si trova P (A1 |B) 2 103 ; nonostante il test sembri
abbastanza affidabile, la rarit`a della malattia lo rende praticamente inutile. Pertanto,
effettuare uno screening di massa per individuare una malattia rara e` economicamente
poco conveniente.
2.3
32
(2.3)
33
Abbiamo gi`a osservato che la definizione di indipendenza implica che P (A|B) = P (A)
e P (B|A) = P (B). Inoltre, se A e B sono indipendenti, e` facile provare che risultano
indipendenti anche A e B, A e B, A e B.
Prova. Infatti, si ha:
P (AB) = P (B|A) P (A) = [1 P (B|A)] P (A) = [1 P (B)] P (A) = P (B) P (A) .
P (AB) = P (A|B) P (B) = [1 P (A|B)] P (B) = [1 P (A)] P (B) = P (A) P (B) .
P (A B) = P (A|B) P (B) = [1 P (B|A)] P (A) = [1 P (B)] P (A) = P (B) P (A) .
i = j .
34
2.4
Esperimenti combinati
In molti casi interessa affrontare il seguente problema: dati piu` esperimenti, ognuno dei
quali descritto in termini probabilistici, descrivere lesperimento combinato, risultante
dalla combinazione dei singoli esperimenti. Per far questo, e` necessario costruire un
nuovo spazio di probabilit`a, denominato spazio di probabilit`a prodotto, sullesperimento
combinato. Tale concetto e` sviluppato nellesempio seguente.
Esempio 2.4. Supponiamo di avere due esperimenti, cui siano associati due spazi di
probabilit`a (1 , B1 , P1 ) e (2 , B2 , P2 ). Per fissare le idee, si consideri come primo esperimento il lancio di una moneta, con spazio campione 1 = {T, C}, e come secondo
35
esperimento il lancio di un dado, con spazio campione 2 = {1, 2, 3, 4, 5, 6}. Gli spazi di
probabilit`a associati a ciascuno di tali esperimenti si costruiscono nel modo consueto.
Consideriamo adesso lesperimento combinato (lancio di una moneta e di un dado),
che ha come spazio campione il prodotto cartesiano di 1 ed 2 :
= 1 2 = {(T, 1), (T, 2), . . . , (T, 6), (C, 1), (C, 2), . . . , (C, 6)}
costituito da 2 6 = 12 coppie ordinate. Poich`e e` un insieme finito, possiamo considerare come -campo B linsieme di tutti i 212 sottoinsiemi di . Notiamo che tale
-campo B conterr`a, tra gli altri, eventi del tipo A B, con A B1 e B B2 . Ad
esempio, se A = {T } e B = {pari}, si avr`a A B = {(T, 2), (T, 4), (T, 6)}. Possiamo interpretare levento A B nel modo seguente: si verifica levento A B nellesperimento
combinato se si verifica levento A nellesperimento 1 e levento B nellesperimento 2.
Tuttavia non tutti gli eventi di B sono del tipo A B: si pensi ad esempio allevento
C = {(T, 1), (C, 2)}, che non puo` essere interpretato come A B.
A questo punto per completare la descrizione probabilistica dellesperimento combinato resta da fissare la legge di probabilit`a su B. Osserviamo che si ha:
P (A 2 ) = P1 (A)
P (1 B) = P2 (B)
dove P1 e` la legge di probabilit`a su 1 e P2 e` la legge di probabilit`a su 2 . Infatti A 2 e`
levento dellesperimento combinato corrispondente al fatto che nel primo esperimento
si verifichi levento A e nel secondo si verifichi levento certo 2 . Pertanto la probabilit`a devessere pari a quella relativa al solo esperimento 1, ovvero a P1 (A). In maniera
analoga si ragiona per la seconda relazione.
Dallesempio precedente, abbiamo osservato che non tutti gli eventi di 1 2 sono
del tipo A B, e quindi B non e` semplicemente dato da B1 B2 : daltra parte, se 1
ed 2 sono insiemi finiti di cardinalit`a n1 ed n2 , e se B1 e B2 sono linsieme di tutti i
sottoinsiemi di 1 e 2 , rispettivamente, si ha che card(B1 ) = 2n1 e card(B2 ) = 2n2 , per
cui card(B1 B2 ) = 2n1 +n2 mentre card(B) = 2n1 n2 . In generale e` possibile costruire il
-campo B partendo da B1 B2 e aggiungendo complementi, unioni e intersezioni di
un numero finito o infinito numerabile di insiemi. I precedenti concetti possono essere
formalizzati dalla seguente definizione:
36
A B1 ;
B B2 .
(2.4)
(2.5)
Notiamo che tale definizione puo` apparire piu` elaborata della precedente definizione di indipendenza di eventi, vale a dire P (AB) = P (A) P (B), ma non e` sostanzialmente differente: bisogna infatti
osservare che per parlare di indipendenza tra due eventi bisogna che i due eventi A e B appartengono
ad uno stesso spazio di probabilit`a. Pertanto, bisogna prima costruire lo spazio di probabilit`a prodotto.
37
si ha:
P (A B) = P [(A 2 ) (1 B)] = P (A 2 )P (1 B) = P1 (A) P2 (B) .
In particolare, osserviamo che per gli eventi elementari di si ha (1 , 2 ) = {1 } {2 },
per cui P (1 , 2 ) = P1 (1 ) P2 (2 ).
E` facile dimostrare che lipotesi di indipendenza consente di calcolare completamente le probabilit`a dello spazio prodotto in termini delle probabilit`a degli spazi componenti. Infatti, dalla definizione di -campo costruito sullo spazio di probabilit`a prodotto, un
qualunque evento di B si potr`a esprimere come complemento, unione o intersezione (al
piu` numerabile) di eventi del tipo A B; allora e` possibile completamente specificare
la legge di probabilit`a P sullo spazio prodotto semplicemente a partire dalle leggi di
probabilit`a P1 e P2 definite sugli spazi componenti.
Esempio 2.5. Torniamo al caso del lancio di una moneta e di un dado. Se supponiamo
che gli esperimenti siano indipendenti, e la moneta ed il dado non siano truccati, avro`
ad esempio:
P (T, 1) = P1 (T ) P2 (1) =
1 1
1
=
.
2 6
12
Esempio 2.6. Lancio di una moneta 2 volte (i lanci sono assunti indipendenti):
1 = {T, C} ,
2 = {T, C} ,
= 1 2 = {T T, T C, CT, CC} .
1 1
1
=
2 2
4
Notiamo che nella pratica lindipendenza statistica tra due o piu` esperimenti si giustifica
con considerazioni di natura fisica o intuitiva.
38
misura(A)
ba
=
misura(1 )
T
misura(B)
dc
=
.
misura(2 )
T
(b a)(d c)
,
T2
39
Si ha allora:
P (si estrae una palla bianca da S1 ed una rossa da S2 ) = P (A B)
2 1
1
= P1 (A) P2 (B) = = .
3 2
3
n volte
40
La denominazione bernoulliane deriva dal matematico svizzero J. Bernoulli (16541705), autore del
fondamentale trattato di probabilit`a Ars Conjectandi.
41
0.2
0.18
0.16
0.14
pn (k)
0.12
0.1
0.08
0.06
0.04
0.02
10
12
14
16
18
20
k
Fig. 2.4. Probabilit`a binomiale pn (k), al variare di k, per n = 20 e p = 0.4. Si noti che tale
probabilit`a e` massima per k = n p = 8.
42
120
k=80 {X
120
120
120
1000 k 1000k
p q
= k} =
P (X = k) =
p1000 (k) =
0.9695 .
k
k=80
k=80
k=80
Esercizio 2.7. Un test a risposte multiple prevede n = 20 domande, con tre possibili
risposte per ciascuna domanda. Uno studente poco preparato risponde a caso a tutte le
domande; qual e` la probabilit`a che totalizzi un punteggio maggiore o uguale a 12, che e`
la soglia minima per lammissione?
Svolgimento. Anche qui possiamo modellare il problema mediante prove di Bernoulli.
Rispondendo a caso a ciascuna domanda, lo studente individuer`a la risposta esatta con
probabilit`a p = 1/3, e sbaglier`a con probabilit`a q = 1 p = 2/3. A questo punto, se X
e` il numero di risposte esatte, dobbiamo determinare la probabilit`a P (X 12), che con
considerazioni analoghe a quelle dellesempio precedente e` data da:
P (X 12) =
20
20
k=12
pk q nk 0.0130 ,
che e` una probabilit`a inferiore al 2%, per cui e` estremamente difficile che lo studente
superi il test.
3
Per effettuare il calcolo numerico che segue, come anche per gli altri che ricorrono in questo esercizio
ed in quello seguente, e` indispensabile ricorrere ad un calcolatore, ad esempio scrivendo un semplice
script Matlab.
43
(2.6)
pn (k) ,
k=k1
che e` difficoltoso quando il numero di termini della somma e` elevato. Per valori elevati
di n, tuttavia, e` possibile trovare approssimazioni che semplificano il calcolo.
La prima approssimazione, nota come teorema locale di de Moivre-Laplace, 4 afferma
che se npq 1, allora:
(knp)2
n k nk
1
e 2npq ,
pn (k) =
p q
(2.7)
k
2npq
sua caratteristica forma a campana, centrata in np e di larghezza circa pari a npq; per
questo motivo, lapprossimazione del teorema di de Moivre-Laplace e` buona nel centro
della campana, e peggiora spostandosi verso le code della funzione esponenziale.
Una volta introdotta lapprossimazione del teorema locale di de Moivre-Laplace,
possiamo trovare una approssimazione della (2.6). Si ha infatti, utilizzando la (2.7),
k2
k=k1
pn (k)
k2
k=k1
(knp)2
1
e 2npq .
2npq
Poich`e npq rappresenta la larghezza della curva gaussiana, per npq 1 possiamo
ritenere che tale curva sia praticamente costante in ogni intervallo di ampiezza unitario.
Allora la sommatoria tra k1 e k2 e` una buona approssimazione dellintegrale, e si ha:
k2
k=k1
1
pn (k)
2npq
k2
(xnp)2
2npq
dx .
k1
44
0.18
0.16
0.14
pn (k)
0.12
0.1
0.08
0.06
0.04
0.02
10
12
14
16
18
20
k
Fig. 2.5. Approssimazione del teorema locale di de Moivre-Laplace (tratto continuo) alla
probabilit`a binomiale pn (k), per n = 20 e p = 0.4.
k2 np
npq
u2
k1 np
npq
xnp
,
npq
1
du =
2
lintegrale si riscrive:
k2 np
npq
u2
1
du
2
u2
2
k1 np
npq
u2
2
du
du ,
pn (k) G
k2 np
npq
G
k1 np
npq
.
Questa e` lespressione desiderata, che va sotto il nome di teorema integrale di de MoivreLaplace e ci consente di calcolare la (2.6) come differenza della funzione G(x) in due
punti. 5
5
45
Dobbiamo osservare, tuttavia, che la funzione G(x) non e` comunque una funzione
elementare, per cui, per determinarne i valori, e` necessario ricorrere a grafici, a tabelle o
a programmi al calcolatore. Un grafico della funzione G(x), in scala naturale, e` riportato
in Fig. 2.6; notiamo tuttavia che tale grafico non consente la determinazione accurata
dei valori della funzione. Si veda lAppendice B per un grafico piu` accurato (Fig. B.1) e
per una tabella dei valori (Tab. B.1); nella stessa Appendice sono riportate le principali
propriet`a della funzione G(x) e le relazioni con altre funzioni frequentemente utilizzate.
1
0.9
0.8
0.7
G(x)
0.6
0.5
0.4
0.3
0.2
0.1
0
4
x
Fig. 2.6. Grafico in scala naturale della funzione G(x).
p1000 (k) G
80 100
9.49
G
0 100
9.49
46
p1000 (k) G
120 100
9.49
G
80 100
9.49
n(p + )
n(p )
P (|
p p| ) =
pn (k) G
G
npq
npq
k=n(p)
n
n
n
=G
G
= 2G
1.
npq
npq
pq
n(p+)
Se, ad esempio, p = 0.1 e = 0.1 p, cio`e lo scostamento e` pari al 10% del valore di p,
allora si trova che:
per n = 100, la probabilit`a e` pari a 0.2611;
per n = 1000, la probabilit`a e` pari a 0.7063;
47
X
Sorgente
Y
Canale
Destinazione
Questa regolarit`a della frequenza di successo e` nota come legge dei grandi numeri, e la approfondiremo
piu` in dettaglio nel 8.6.
48
49
il canale binario si dir`a simmetrico (binary symmetric channel, BSC), e sar`a descritto dal
solo parametro . Osserviamo che per la condizione di normalizzazione, risulta anche:
P (0|0) = P (1|1) = 1 ,
dove evidentemente P (0|0) e P (1|1) rappresentano probabilit`a di non scambio. Un canale
binario simmetrico e` convenientemente rappresentato da un grafo orientato (Fig. 2.8).
1-
1
1-
Fig. 2.8. Grafo di un canale binario simmetrico (BSC) con ingresso X, uscita Y e parametro di
scambio ; i valori indicati sugli archi del grafo rappresentano le probabilit`a condizionali dei
simboli di uscita dati i simboli di ingresso.
50
(1 ) q
(1 ) p
Se i simboli di ingresso sono equiprobabili (P1 (0) = P1 (1) = 1/2, ovvero p = q = 1/2),
si ricava facilmente che anche i simboli di uscita sono equiprobabili (P2 (0) = P2 (1) =
1/2); si noti che questa propriet`a consegue dalla simmetria del canale, oltre che dalla
equiprobabilit`a dei simboli di ingresso.
Poich`e laffidabilit`a di un canale di comunicazione dipende da quanto frequentemente il canale introduca errori, calcoliamo la probabilit`a di errore P (e):
P (e) = P (Y = X) = P (01 10) = P (01) + P (10) = P (1|0) P1 (0) + P (0|1) P1 (1)
= q + p = (p + q) = .
Notiamo allora che P (e) = , ovvero la probabilit`a di errore coincide con la probabilit`a di scambio, indipendentemente dalla distribuzione di probabilit`a della sorgente. E`
chiaro allora che determina laffidabilit`a del canale di comunicazione; quanto piu` e`
piccolo (valori tipici sono nellambito da 103 a 109 ), tanto piu` il canale e` affidabile. 7
Possiamo utilizzare il canale binario simmetrico per chiarire meglio il significato di
probabilit`a a priori e a posteriori. Se non osserviamo luscita del canale, potremo dire
che il simbolo emesso dalla sorgente e` 0 con probabilit`a P1 (0) oppure 1 con probabilit`a
P1 (1) (probabilit`a a priori). Se pero` osserviamo luscita del canale, sia ad esempio Y = 1,
tali probabilit`a a priori si trasformano nelle probabilit`a a posteriori:
P (01)
q
=
,
P2 (1)
q + (1 )p
P (11)
(1 ) p
P (X = 1|Y = 1) =
=
.
P2 (1)
q + (1 )p
P (X = 0|Y = 1) =
A dire il vero, osserviamo che un canale con prossimo ad 1, ad esempio = 1 103 , e` altrettanto
affidabile di un canale con = 103 ; infatti il primo canale inverte sistematicamente i simboli, ma questo
puo` facilmente essere compensato alla destinazione. Per evitare questo comportamento paradossale,
considereremo solo valori di in [0, 1/2].
7
51
P (X = 0|Y = 1)
52
Capitolo 3
Variabili aleatorie
3.1
Introduzione
Nei precedenti capitoli abbiamo mostrato come costruire spazi di probabilit`a a partire da esperimenti i cui risultati non sono necessariamente numerici, quali ad esempio
il lancio di un dado o lestrazione di una carta da un mazzo di carte francesi. Nelle
scienze fisiche e nellingegneria, tuttavia, nasce la necessit`a di descrivere i risultati di
un esperimento e gli eventi associati ad esso in maniera numerica. Un modo semplice di
ottenere cio` consiste nellassociare ad ogni risultato dellesperimento un numero reale;
cio` conduce al fondamentale concetto di variabile aleatoria.
Esempio 3.1. Consideriamo il lancio di una moneta, il cui spazio campione e` =
{T, C}. Un semplice esempio di variabile aleatoria si ottiene associando al risultato
T il numero 1, ed al risultato C il numero 0.
Esempio 3.2. Consideriamo il lancio di un dado, e denotiamo lo spazio campione come = {1 , 2 , . . . , 6 }, dove con i abbiamo indicato il risultato che nel lancio si
presenti la i-esima faccia del dado. Possiamo costruire una variabile aleatoria semplicemente associando a i il valore i. Si noti che abbiamo gi`a implicitamente fatto questa
corrispondenza, quando abbiamo assunto come spazio campione per il lancio di un
dado linsieme = {1, 2, . . . , 6}.
54
Variabili aleatorie
calcolarlo sulla vostra calcolatrice tascabile!). Tuttavia, nella pratica quello che interessa sapere e` quante persone rispondono s` e quante no. Allora ad ogni punto (stringa)
dello spazio campione possiamo associare il numero dei simboli S presenti nella stringa
stessa, ottenendo un numero intero tra 0 e 1000. In questo modo abbiamo descritto il
problema in maniera piu` semplice e soprattutto piu` aderente alle nostre finalit`a.
Generalizzando, per un dato esperimento, una variabile aleatoria X (Fig. 3.1) e` una
funzione costruita su e che assume valori nellinsieme R = R {, }:
X : X() X R
dove abbiamo denotato con X il codominio della funzione X, ovvero linsieme dei possibili valori assunti da X. Tale funzione deve soddisfare certe condizioni di regolarit`a,
come vedremo meglio nel seguito.
R
3
X( 1 )
X( 3)
X( 2)
Fig. 3.1. Una variabile aleatoria X e` una funzione definita nello spazio campione e a valori in
R = R {, }.
Esempio 3.4. Consideriamo ancora il lancio di un dado, per il quale lo spazio campione e` = {1 , 2 , . . . , 6 }. Tre diverse variabili aleatorie definite su sono:
1. X(i ) = i;
2. X(i ) = 10 i;
1, se i e` pari;
3. X(i ) =
0, se i e` dispari.
3.1 Introduzione
55
Notiamo che qui e nel seguito, in analogia alla notazione comunemente utilizzata in matematica, indicheremo con X la legge di corrispondenza (funzione o variabile aleatoria),
e con X() il valore della funzione in corrispondenza del risultato .
Il successivo passo per una corretta definizione di variabile aleatoria e` capire come, se
e` un insieme dotato di struttura di spazio di probabilit`a, una variabile aleatoria X
costruita su conservi informazioni sulle probabilit`a degli eventi di . A tale scopo,
di fondamentale importanza e` chiarire il significato della notazione
{X x}
(3.1)
per un dato x R. Dal punto di vista numerico, linsieme dei valori reali minori o
uguali di un dato valore x e` una semiretta sinistra (chiusa a destra), che si denota anche
con ] , x]. Tuttavia, il senso della notazione (3.1) e` completamente differente: con
R
3
2
4
{X x}
X( 1)
X( 3)
X( 4)
X( 2)
56
Variabili aleatorie
Se allora A = {X x} e` un evento x R, e` possibile calcolarne la probabilit`a.
Inoltre e` possibile calcolare la probabilit`a di {X T }, se tale insieme si puo` ottenere
come complemento, unione o intersezione numerabile di eventi del tipo {X x}, il che
equivale a dire che linsieme numerico T si puo` ottenere come complemento, unione o
intersezione di semirette sinistre.
Esempio 3.5. Con riferimento allesempio precedente (lancio di un dado) e alla variabile aleatoria definita al punto 2, vale a dire X(i ) = 10 i, si ha:
{X 35} = {1 , 2 , 3 } P (X 35) = 1/2
{X 5} = {} P (X 5) = 0
{20 X 35} = {2 , 3 } P (20 X 35) = 2/6 = 1/3
Osserviamo che il termine variabile aleatoria e` fuorviante, trattandosi piuttosto di una funzione
aleatoria; tuttavia esso e` quello piu` comunemente utilizzato.
3.2
57
x R .
Ha senso calcolare questa probabilit`a perch`e nella definizione di variabile aleatoria abbiamo richiesto (propriet`a 1) che {X x} sia un evento, x R. Notiamo anche che,
sebbene il codominio di X sia X, la CDF e` definita in tutto R.
In alternativa alla notazione F (x), useremo la notazione FX (x) quando vorremo specificare esplicitamente che si tratta della CDF della variabile aleatoria X (quindi, ad
esempio, quando avremo a che fare con piu` variabili aleatorie). Osserviamo esplicitamente che il pedice X (maiuscolo) rappresenta la variabile aleatoria (ovvero la legge di
corrispondenza), mentre la variabile indipendente della funzione x (minuscolo) e` un
numero reale. Notazioni come FX (y) oppure FX (w) sono ovviamente lecite.
Esempio 3.6. Si consideri la variabile aleatoria definita su = {T, C} nel seguente
modo:
X(T ) = 1 ,
X(C) = 0 .
Se P (T ) = p e P (C) = q, con p + q = 1, la CDF di X e` la seguente:
0, x < 0 ;
F (x) = q, 0 x < 1 ;
1, x > 1 .
Infatti:
- per x < 0, si ha F (x) = P (X x) = P (X x < 0) = P () = 0;
- per 0 x < 1, si ha F (x) = P (X x) = P (X = 0) = P (C) = q;
- per x 1, si ha F (x) = P (X x) = P ({X = 0} {X = 1}) = P (C) + P (T ) =
q + p = 1.
Osserviamo che tale CDF (Fig. 3.3) ha un andamento costante a tratti. Si parla in questo
caso di variabile aleatoria discreta (cfr. 3.2.2).
58
Variabili aleatorie
F(x)
F(x)
q
1/6
1
10
20
30
40
50
60
0,
x < 10 ;
1/6,
10 x < 20 ;
20 x < 30 ;
2/6,
F (x) = 3/6,
30 x < 40 ;
4/6,
40 x < 50 ;
5/6,
50 x < 60 ;
1,
x 60 ;
ed, anche in questo caso, ha un andamento costante a tratti (Fig. 3.4) per cui X e` una
variabile aleatoria discreta (cfr. 3.2.2).
Esempio 3.8. Consideriamo lesperimento consistente nellarrivo a caso di una telefonata nellintervallo [0, T ], e denotiamo con t listante di arrivo della telefonata. Lo spazio
campione e` = [0, T ], gli eventi sono complementi, unioni ed intersezioni numerabili
di intervalli aperti ]a, b[ . Come legge di probabilit`a, porremo (legge uniforme):
P (t (a, b)) =
ba
,
T
con 0 a b T .
59
F(x)
60
Variabili aleatorie
1. F (+) = 1, F () = 0.
Prova. Si ha, banalmente, F (+) = P (X +) = P () = 1 e F () = P (X ) = P (X =
) = 0 (per la seconda, si sfrutta la propriet`a 2 della definizione di variabile aleatoria).
cio`e lasserto.
La denominazione di funzione di affidabilit`a deriva dal fatto che, se si interpreta la variabile aleatoria X come il tempo di vita di un dispositivo, la funzione F (x) descrive la probabilit`a che il dispositivo
viva per un tempo maggiore o uguale a x, e quindi misura laffidabilit`a del dispositivo stesso.
61
nella quale i due eventi a primo membro sono mutuamente esclusivi, per cui:
P (X x1 ) +P (x1 < X x2 ) = P (X x2 )
=F (x1 )
=F (x2 )
da cui si ha lasserto.
6. P (X = x) = F (x) F (x ).
Prova. Dalla propriet`a 5, per x1 = x e x2 = x, si ha:
P (x < X x) = F (x) F (x )
con > 0. Passando al limite per 0, levento {x < X x} tende a {X = x}, per cui:
P (X = x) = F (x) F (x )
cio`e lasserto.
7. P (x1 X x2 ) = F (x2 ) F (x
1 ).
Prova. Si ha, banalmente,
{x1 X x2 } = {x1 < X x2 } {X = x1 }
e gli eventi a secondo membro sono mutuamente esclusivi. Si ha allora, per le propriet`a 5 e 6,
P (x1 X x2 ) = P (x1 < X x2 ) + P (X = x1 ) = F (x2 ) F (x1 ) + F (x1 ) F (x
1)=
= F (x1 ) F (x
)
1
cio`e lasserto.
P (X = x) = F (x) F (x ) =
pi , se x = xi e` un punto di discontinuit`a.
Quindi in pratica una variabile aleatoria discreta X assume i valori xi con probabilit`a pi
date dai valori dei salti di discontinuit`a della sua CDF, e pertanto linsieme X dei valori
assunti da X e` un insieme discreto, cio`e X = {x1 , x2 , . . . }.
Un caso particolare di variabili aleatorie discrete sono quelle di tipo reticolare, caratterizzate dal fatto che i valori assunti xi sono equispaziati (appartengono, cio`e, ad un
reticolo monodimensionale), e si puo` porre quindi xk = a + bk, con a, b R e k K Z.
62
Variabili aleatorie
La variabile aleatoria X si dir`a continua se la sua CDF F (x) e` una funzione continua
(Fig. 3.5). La continuit`a di F (x) implica che F (x) = F (x+ ) = F (x ) e quindi P (X =
x) = 0, x R. In altri termini, una variabile aleatoria continua assumer`a ogni valore
con probabilit`a nulla. Linsieme X dei valori assunti da una variabile aleatoria continua
e` un insieme continuo, quale ad esempio un intervallo (a, b), o anche tutto R.
Infine, la variabile aleatoria X si dir`a mista se la sua CDF F (x) e` discontinua, ma non
costante a tratti. Linsieme X dei valori assunti da X sar`a lunione di un insieme continuo, ad esempio un intervallo, e di un insieme discreto. Esempi di variabili aleatorie
miste saranno presentati nel Cap. 4.
Esempio 3.10 (variabile aleatoria indicatrice di un evento). Sia uno spazio campione qualunque, e sia A un evento di . Definiamo una variabile aleatoria XA su come
segue:
1, se A;
XA () =
0, se A.
Tale variabile aleatoria XA e` di tipo discreto, in quanto assume solo i valori 0 ed 1 con le
seguenti probabilit`a:
P (XA = 1) = P ( A) = P (A) ;
P (XA = 0) = P ( A) = 1 P (A) ;
e quindi la sua CDF e` a costante a tratti e, se poniamo p = P (A), e` la stessa di quella
dellesempio 3.6 (Fig. 3.3). Tale variabile aleatoria prende il nome di variabile aleatoria
indicatrice dellevento A.
Lultimo esempio mette in evidenza che e` possibile costruire variabili aleatorie discrete
su un qualunque spazio di probabilit`a (discreto o continuo). Osserviamo infatti che, se
e` uno spazio di probabilit`a discreto, tutte le variabili aleatorie costruite su saranno
necessariamente discrete. Se invece e` uno spazio di probabilit`a continuo, su di esso
e` possibile costruire sia variabili aleatorie continue che discrete (e ovviamente anche
miste).
63
F(x)
F(x)
1
0.75
1
0.5
u
xu
x 0.75
Fig. 3.7. Il percentile u-esimo della variabile aleatoria X con CDF F (x) e` xu ; x0.75 rappresenta il valore che non e` superato con
probabilit`a 0.75 (quartile superiore).
m=x 0.5
Fig. 3.8. La mediana m della variabile aleatoria X con CDF F (x) e` il valore che non e`
superato con probabilit`a 0.5 (coincide con
il percentile x0.5 ).
Osserviamo che u deve necessariamente assumere valori in [0, 1], perch`e rappresenta un
valore di probabilit`a. Linterpretazione del percentile e` la seguente (Fig. 3.7): il percentile xu rappresenta quel valore della variabile aleatoria che non e` superato con probabilit`a
pari ad u. Ad esempio, posto u = 0.75, il percentile x0.75 rappresenta quel valore che non
e` superato nel 75% dei casi, e viene chiamato quartile superiore. Similmente, il percentile x0.25 rappresenta il valore che non e` superato con probabilit`a 0.25, e viene chiamato
quartile inferiore. E` chiaro che se F (x) e` una funzione invertibile, allora si ha
xu = F 1 (u) ,
e quindi la curva che fornisce i percentili si ottiene semplicemente considerando linversa della CDF, ovvero scambiando gli assi del diagramma cartesiano di F (x). In pratica e` sufficiente che la CDF sia localmente invertibile in corrispondenza del punto u.
Se la CDF non e` invertibile, e` possibile ancora determinare il percentile graficamente
scambiando gli assi della CDF.
Definizione (mediana). La mediana e` il percentile per u = 0.5, ovvero e` il piu`
piccolo numero m che soddisfa la relazione:
F (m) = 0.5 .
Per determinare la mediana (Fig. 3.8) valgono considerazioni analoghe a quelle effettuate per il percentile, essendo di fatto m = x0.5 . Osserviamo che la mediana e` un primo
esempio di grandezza media relativa ad una variabile aleatoria: nel seguito incontreremo
altre grandezze simili, quali la media statistica e la moda.
Esempio 3.11. Consideriamo la CDF F (x) dellesempio 3.8, diagrammata in Fig. 3.5.
Poich`e landamento di F (x), per x [0, T ], e` lineare, e` immediato invertirla per ottenere
64
Variabili aleatorie
il percentile. Si ha:
u = F (xu ) =
xu
xu = T u
T
per cui il quartile inferiore e` x0.25 = 0.25 T , quello superiore e` x0.75 = 0.75 T , e la mediana
e` m = 0.5 T .
3.3
Accanto alla CDF, la funzione densit`a di probabilit`a (pdf) gioca un ruolo fondamentale
nella descrizione di una variabile aleatoria X.
Definizione (densit`a di probabilit`a). La funzione densit`a di probabilit`a (pdf)
di una variabile aleatoria X e` la derivata della CDF F (x):
f (x)
d
F (x) .
dx
(3.2)
Per quanto riguarda la notazione, useremo anche qui la notazione fX (x) quando vorremo specificare esplicitamente che si tratta della pdf di X.
Nella (3.2), la derivata va intesa in senso generalizzato, ovvero possono comparire
degli impulsi di Dirac5 in corrispondenza delle discontinuit`a di F (x). A tale proposito,
osserviamo che se la variabile aleatoria X e` continua, F (x) e` una funzione continua, e
quindi la pdf f (x) non puo` contenere impulsi. Viceversa, se X e` discreta, F (x) e` costante
a tratti, con salti di discontinuit`a in corrispondenza dei valori xi : lampiezza dei salti di
discontinuit`a rappresenta (per la propriet`a 6 della CDF) la probabilit`a pi che la variabile
aleatoria assuma il valore xi . Pertanto, derivando tale CDF, si ottiene una pdf costituita
da soli impulsi di Dirac, centrati nei valori discreti xi X:
f (x) =
pi (x xi ) ,
xi X
dove pi P (X = xi ). Infine, se X e` mista, la pdf conterr`a una parte continua (la derivata
convenzionale) e impulsi di Dirac in corrispondenza delle discontinuit`a di F (x).
Esempio 3.12. Consideriamo la CDF F (x) dellesempio 3.6, diagrammata in Fig. 3.3.
Poich`e si tratta di una variabile aleatoria discreta (CDF costante a tratti), la pdf sar`a
5
Si suppone che il lettore conosca la definizione e le propriet`a dellimpulso di Dirac; tali propriet`a sono
comunque brevemente richiamate nellAppendice C.
65
f(x)
f(x)
area = q
area = p
1/T
1 , se x ]0, T [;
f (x) = T
0 , se x ] , 0[]T, [;
che e` raffigurata in Fig. 3.10. Notiamo che la derivata (e quindi la pdf) non e` definita
` tuttavia, non rapnei punti x = 0 e x = T (punti angolosi della curva della CDF). Cio,
presenta un problema perch`e, come vedremo, la pdf viene utilizzata sempre allinterno
di un integrale, e quindi i valori assunti in punti isolati non giocano alcun ruolo.
66
Variabili aleatorie
2. F (x) =
f (y) dy.
d
dx F (x),
f (y) dy =
d
F (y) dy = F (x) F () .
dy
3.
f (x) dx = 1.
4. P (x1 < X x2 ) = F (x2 ) F (x1 ) =
x2
f (x) dx.
x1
x2
f (y) dy
x1
x+x
f (y) dy f (x) x .
P (x X x + x)
x
e quindi il valore f (x) nel punto x rappresenta la probabilit`a che X assuma valori
in un intervallo (x, x + x) di x, divisa per lampiezza dellintervallo x, cio`e
67
f(x)
f(x)
massimi locali
massimo locale
xm
Fig. 3.11. La moda xm della variabile aleatoria X corrisponde ad un massimo locale. La pdf f (x) in figura ha una sola moda,
quindi e` unimodale.
x m1
x m2
proprio una densit`a di probabilit`a. Per questo motivo, poiche f (x) e` una densit`a di
probabilit`a e non una probabilit`a, puo` assumere valori maggiori di 1.
Osserviamo inoltre che, per la stessa propriet`a, la probabilit`a che X [x, x + x] e`
proporzionale (se x 1) a f (x) ed e` (localmente) massima se [x, x+x] contiene
il valore xm dove f (x) e` (localmente) massima. Ognuno di tali punti xm si dice un
valore modale o una moda, e rappresenta un valore (localmente) piu` probabile di X
(Fig. 3.11). Una variabile aleatoria si dice unimodale se ha un solo valore modale
(Fig. 3.11), altrimenti si dice multimodale (Fig. 3.12).
Notiamo in conclusione che, come gi`a osservato, definire una variabile aleatoria significa, in sostanza, sostituire allo spazio di probabilit`a (, B, P ) un nuovo spazio di probabilit`a, in cui lo spazio campione e` X R. Se, in particolare, la variabile aleatoria e`
continua, allora X R e` un insieme continuo, per cui la definizione di una legge di
probabilit`a su tale insieme avviene, come descritto nel 1.6.2, definendo una funzione
densit`a di probabilit`a f (x) che, di fatto, possiamo adesso interpretare come la pdf di
una variabile aleatoria X (si noti in particolare che vale la condizione di normalizzazione (1.6) tipica delle pdf). In definitiva, allora, definire una legge di probabilit`a su uno
spazio continuo e` equivalente ad assegnare la pdf di una variabile aleatoria X. Il lettore
e` invitato a rileggere il 1.6.2 alla luce di questa interpretazione.
3.4
Abbiamo visto che, se X e` una variabile aleatoria discreta, essa assume solo i valori
xi X con probabilit`a pi , e pertanto la sua pdf e` di tipo puramente impulsivo (esempio
3.6). In tal caso, appare piu` semplice e immediato, in luogo della CDF o pdf, definire
68
Variabili aleatorie
p(x)
p
q
una funzione che restituisca direttamente le probabilit`a con cui la variabile aleatoria
assume i suoi valori. Tale funzione prende il nome di funzione distribuzione di probabilit`a
(DF).
Definizione (distribuzione di probabilit`a). La funzione distribuzione di probabilit`a (DF) di una variabile aleatoria discreta X a valori in X e` :
p(x) = P (X = x)
(3.3)
con x X.
Anche per la DF, come per la CDF e la pdf, utilizzeremo la notazione pX (x) quando
vorremo esplicitamente denotare che essa si riferisce alla variabile aleatoria X.
Esempio 3.14. Si consideri la variabile aleatoria dellesempio 3.6, che assume i due
valori X = 1 con probabilit`a p e X = 0 con probabilit`a q. La DF di X e` :
q, x = 0 ;
p(x) =
p, x = 1 ;
ed e` raffigurata in Fig. 3.13. Si noti che la pdf (Fig. 3.9) della stessa variabile aleatoria e` :
f (x) = q (x) + p (x 1)
Il vantaggio nelluso della DF e` quello di disporre di una funzione che non contiene
impulsi di Dirac.
Notiamo esplicitamente che per una variabile aleatoria continua non ha senso introdurre la DF, in quanto essa risulterebbe identicamente nulla, x X, perche una variabile
aleatoria continua assume tutti i valori di X con probabilit`a zero. Per lo stesso motivo, la DF fornisce una descrizione incompleta di una variabile aleatoria mista, e non e`
utilizzata neanche in questo caso.
69
2. F (x) =
p(u).
uX,ux
P (X = u) =
uX,ux
p(u) .
uX,ux
3.
p(xi ) = 1.
xi X
p(u) =
uX,u+
p(u) .
uX
4. p(x1 < X x2 ) =
p(u).
u]x1 ,x2 ]X
Prova. Si ha:
P (x1 < X x2 ) = P (u]x1 ,x2 ]X {X = u}) =
u]x1 ,x2 ]X
P (X = u) =
p(u) .
u]x1 ,x2 ]X
Concludiamo osservando che la CDF, pdf e DF di una variabile aleatoria sono collettivamente denominate funzioni di distribuzione della variabile aleatoria: per caratterizzazione
statistica di una variabile aleatoria, allora, si intende la conoscenza di almeno una tra le
sue funzioni di distribuzione.
70
Variabili aleatorie
3.5
Nel corso del capitolo, abbiamo introdotto le variabili aleatorie come funzioni definite
su uno spazio campione , dotato di struttura di spazio di probabilit`a. Tale definizione richiede lindividuazione esplicita di un esperimento aleatorio e la descrizione dello
spazio di probabilit`a costruito su di esso. Daltra parte, nella pratica spesso si introducono variabili aleatorie semplicemente assegnando la loro funzioni di distribuzione:
tale semplificazione e` possibile in virtu` del seguente teorema di esistenza, che enunciamo
senza dimostrazione (gli interessati vedano [3, cap. 4.3]).
Teorema 3.1 (teorema di esistenza). Data una funzione F (x) che soddisfa
le propriet`a
x
di CDF (o alternativamente data una funzione f (x) tale che F (x) = f (y) dy soddisfi
le propriet`a di CDF, o una funzione p(x) tale che F (x) = uX,ux p(u) soddisfi le propriet`a di CDF), e` possibile costruire uno spazio di probabilit`a (, , P ) e una variabile
aleatoria X con CDF F (x) (o pdf f (x), o DF p(x)).
Sulla base di questo teorema, generalmente introdurremo le variabili aleatorie attraverso le loro funzioni di distribuzione (CDF, pdf o DF), senza specificare esplicitamente lesperimento su cui sono definite. In particolare, nel seguito del paragrafo introdurremo
alcune delle variabili aleatorie piu` comunemente utilizzate.
71
0.2
0.9
0.18
0.16
0.7
0.14
0.6
0.12
p(x)
p(x)
0.8
0.5
0.1
0.4
0.08
0.3
0.06
0.2
0.04
0.1
0.02
0
1
0
0
10
x
15
20
72
Variabili aleatorie
0.1
0.09
0.08
0.07
p(x)
0.06
0.05
0.04
0.03
0.02
0.01
0
0
10
15
20
x
25
30
35
40
k=0
p(k) = p
r+k1
k=0
q k = pr (1 q)r = 1 .
Esempio 3.15. Come la variabile aleatoria binomiale, anche la variabile aleatoria binomiale negativa e` associata al problema delle prove ripetute. Supponiamo infatti di voler
calcolare la distribuzione di probabilit`a della variabile aleatoria Y che rappresenta la
prova in cui si verifica lr-esimo successo. Evidentemente, Y potr`a assumere i valori
r, r + 1, r + 2, . . . , in quanto, per avere r successi e` , necessario effettuare almeno r prove.
Daltra parte, lr-esimo successo si verificher`a nella prova h r se e solo se si verificano
i seguenti due eventi:
A = {nelle h 1 prove precedenti, si hanno r 1 successi};
ha una
r1evento
tale
hr
p
probabilit`a, descritta dalla legge binomiale, pari a P (A) = h1
q
;
r1
B = {nella h-esima prova, si ha un successo}; tale evento ha probabilit`a pari a
P (B) = p.
Poiche gli eventi A e B sono indipendenti, si ha:
h 1 r hr
h 1 r1 hr
p=
p q
P (Y = h) = P (A) P (B) =
p q
r1
r1
per h = r, r + 1, . . . , che puo` essere semplicemente espressa in termini di una variabile
aleatoria binomiale negativa. Infatti, poiche h r, basta porre h = r + k, con k 0, e
73
0.5
0.45
0.4
0.35
p(x)
0.3
0.25
0.2
0.15
0.1
0.05
0
0
10
15
k X = {1, 2, . . . , } ,
con q = 1 p. Per provare che i valori della DF hanno somma unitaria, basta sfruttare
la formula per la somma di una serie geometrica:
k=1
p(k) = p
k=1
q k1 = p
k=0
qk =
p
=1.
1q
Esempio 3.16. Come la variabile aleatoria binomiale negativa, anche la variabile aleatoria geometrica e` associata al problema delle prove ripetute. Infatti, se denotiamo con
74
Variabili aleatorie
0.2
0.18
0.16
0.14
p(x)
0.12
0.1
0.08
0.06
0.04
0.02
0
0
10
15
X il numero di prove che intercorrono tra due successi consecutivi, tale variabile aleatoria assumer`a valori in 1, 2, . . . . Evidentemente, ci saranno k prove tra due successi
consecutivi se e solo se si presenter`a una sequenza di k 1 insuccessi seguiti da un successo, il che avviene con probabilit`a q k1 p, data lindipendenza tra i successi in prove
distinte. Pertanto, X e` proprio una variabile aleatoria geometrica X Geom(p).
k
e ,
k!
k X = {0, 1, . . . } .
k=0
p(k) = e
k
k=0
k!
= e e = 1 .
E` possibile mostrare che anche la variabile aleatoria di Poisson e` legata al problema delle
prova ripetute; in particolare, essa rappresenta unapprossimazione della distribuzione
binomiale per p piccolo al divergere di n, con il prodotto = n p costante (vedi [1, pagg.
153154]).
6
75
1.5
1.2
0.8
f(x)
F(x)
0.5
0.6
0.4
0.2
0
1
0.5
0.5
x
1.5
0
1
0.5
0.5
x
1.5
1 , x [a, b] ;
f (x) = b a
0,
altrove.
La CDF (Fig. 3.20) si calcola facilmente per integrazione, e vale:
0,
x ] , a[ ;
x a
, x [a, b] ;
F (x) =
ba
1,
x ]b, [ .
76
Variabili aleatorie
0.5
1.2
0.45
0.4
0.35
0.8
F(x)
f(x)
0.3
0.25
0.6
0.2
0.4
0.15
0.1
0.2
0.05
0
4
0
x
0
4
0
x
con , R e > 0. Osserviamo che non e` possibile calcolare la CDF in forma chiusa,
per cui scriviamo:
F (x) =
(y)2
1
e 22 dy = G
2
(3.4)
dove, dopo un banale cambio di variabile, abbiamo espresso la F (x) (Fig. 3.22) in
termini della funzione G(x), gi`a definita nel 2.4.3,
1
G(x)
2
y2
e 2 dy .
In particolare, dalla (3.4), notiamo che G(x) rappresenta la CDF di una variabile aleatoria gaussiana standard con = 0 e = 1. Le principali propriet`a della funzione G(x)
sono riportate in Appendice B, insieme con grafici, tabelle e programmi Matlab utili per
il calcolo.
Una forma alternativa per la CDF di una variabile aleatoria gaussiana si puo` ottenere
definendo la funzione Q(x) (piu` nota, con terminologia inglese, come Q-function)
1
Q(x) = 1 G(x) =
2
y2
e 2 dy
(3.5)
=1Q
.
77
1.5
1.2
0.8
f(x)
F(x)
0.5
0.6
0.4
0.2
0
0
0.5
1.5
2
x
2.5
3.5
0
0
0.5
1.5
2
x
2.5
3.5
Per calcolare la funzione Q(x), e` possibile utilizzare grafici, tabelle e programmi per il
calcolo della G(x), tenendo conto della relazione (3.5). Inoltre, per ogni x > 0, vale la
coppia di disuguaglianze
1
1
1
2
x2 /2
e
1 2 < Q(x) < ex /2 .
x
x 2
x 2
Poich`e il rapporto fra i due limiti vale 1 1/x2 , al crescere di x essi diventano sempre
piu` vicini e quindi entrambi approssimano la Q(x) con notevole accuratezza.
Variabile aleatoria esponenziale
La variabile aleatoria X si dice esponenziale (monolatera), e si denota X Exp(), se
la sua pdf (Fig. 3.23) e` :
f (x) = ex u(x)
con > 0. La CDF (Fig. 3.24) si calcola per integrazione:
FX (x) = (1 ex ) u(x) ,
dove u(x) rappresenta la funzione gradino unitario, definita come:
1, x 0 ;
u(x) =
0, x < 0 .
Osserviamo infine che si tratta di una variabile aleatoria positiva.
Variabili aleatorie
0.6
1.2
0.5
0.4
0.8
F(x)
f(x)
78
0.3
0.6
0.2
0.4
0.1
0.2
0
4
0
x
0
4
0
x
|x|
,
e
2
1
2
ex ,
x<0;
1 x
1 2 e , x0.
2 x x2
e b u(x) ,
b
F (x) = (1 e b ) u(x) .
Osserviamo che si tratta di una variabile aleatoria positiva.
79
1.2
0.9
1
0.8
0.7
0.8
F(x)
f(x)
0.6
0.5
0.6
0.4
0.4
0.3
0.2
0.2
0.1
0
0
0.5
1.5
x
2.5
0
0
0.5
1.5
x
2.5
(3.6)
con [0, 1]. Osserviamo che effettivamente la (3.6) definisce una valida pdf, in quanto:
f (x) 0;
f (x)dx = 1 .
La variabile aleatoria X avente tale pdf viene chiamata mixture (mistura) delle variabili
aleatorie X1 ed X2 . Ovviamente, la CDF F (x) sar`a la combinazione lineare delle CDF
F1 (X) ed F2 (x), con gli stessi coefficienti 1 e 2 . In Figg. 3.29 e 3.30 sono riportate le pdf
e CDF della variabile aleatoria ottenuta come mixture di due pdf (o CDF) gaussiane. Si
noti in particolare dalla Fig. 3.29 la natura multimodale (in particolare, bimodale) della
pdf risultante.
La definizione precedente puo` essere facilmente estesa al caso piu` generale di una
pdf f (x) ottenuta come mixture di n > 2 pdf:
f (x) =
n
i fi (x) ,
i=1
dove i > 0 e
n
i=1
i = 1.
Variabili aleatorie
1.2
1.2
0.8
0.8
F(x)
f(x)
80
0.6
0.6
0.4
0.4
0.2
0.2
0
4
0
x
Fig. 3.29. La pdf f (x) di una variabile aleatoria mixture di due pdf gaussiane, con
1 = 0 2 = 2, 1 = 0.5, 2 = 0.2,
1 = 2 = 0.5.
0
4
0
x
Esempio 3.17. Una variabile aleatoria X Lap() di tipo Laplace si puo` vedere come
mixture delle seguenti pdf (per = 0.5):
f1 (x) = ex u(x)
(esponenziale);
f2 (x) = ex u(x)
(esponenziale negativa).
Infatti, si ha:
f (x) = 0.5 ex u(x) + 0.5 ex u(x) =
|x|
,
e
2
Capitolo 4
Trasformazioni di una variabile
aleatoria
4.1
Introduzione
Nella pratica, si presentano spesso casi in cui, a partire da una variabile aleatoria X,
si ottiene una nuova variabile aleatoria Y mediante una opportuna trasformazione Y =
g(X). I seguenti esempi chiariranno meglio questo concetto.
Esempio 4.1. La variabile aleatoria X rappresenta lintensit`a di corrente che passa attraverso una resistenza (ideale) di 1 ohm. La potenza dissipata dalla resistenza si puo`
scrivere come Y = X 2 ; poich`e X e` una variabile aleatoria, anche Y sar`a una variabile
aleatoria.
Esempio 4.2. La variabile aleatoria X rappresenta un angolo scelto a caso in (0, 2). Il
coseno Y = cos(X) di tale angolo e` una variabile aleatoria ottenuta a partire da X.
Formalizzando, possiamo dare la seguente definizione di trasformazione di una variabile aleatoria.
Definizione (trasformazione di una variabile aleatoria). Sia X una variabile
aleatoria definita sullo spazio di probabilit`a (, B, P ), e g(x) una funzione definita in R e a valori in R, tale che linsieme di definizione di g(x) contenga il codominio X della funzione X(). La trasformazione Y = g(X) definisce una nuova variabile aleatoria ottenuta associando a il valore
Y () = g[X()] R.
In sostanza la nuova variabile aleatoria Y e` definita su (, B, P ) mediante una legge
(Fig. 4.1) che e` la funzione composta di X e g. La condizione richiesta sullinsieme di definizione di g(x) ed il codominio X di X() serve a garantire che tale funzione composta
abbia un insieme di definizione non nullo.
82
Y()=g[X()]
X()
Fig. 4.1. La trasformazione Y = g(X) definisce una nuova variabile aleatoria Y sullo spazio
campione .
(4.1)
83
1. per ogni y R, linsieme Ry = {x tali che g(x) y} delle soluzioni della disequazione g(x) y devessere la complementazione, unione e/o intersezione (al
piu` numerabile) di semirette chiuse a destra, cosicch`e {Y y} sia un evento; una
funzione g(x) che possiede tale propriet`a prende il nome di funzione di Baire [1];
2. gli eventi {g(X) = +} e {g(X) = } devono avere probabilit`a zero.
Mentre la prima propriet`a coinvolge solo la funzione g(x), per la seconda entra in gioco
anche la variabile aleatoria X. Peraltro, notiamo che praticamente tutte le funzioni elementari soddisfano la prima propriet`a, mentre la seconda propriet`a e` quasi sempre non
entra in gioco, in quanto la funzione g(x) assume valori in R e non in R. Nel seguito,
per le trasformazioni che considereremo, riterremo sempre verificate le propriet`a 1 e 2.
4.2
Data una trasformazione Y = g(X), il problema che si pone in pratica e` il seguente: nota
la CDF (o la pdf, o la DF) di X, calcolare la CDF (o la pdf, o la DF) di Y . In breve, si parla di caratterizzare statisticamente la variabile aleatoria Y , nota la caratterizzazione
statistica di X.
yb
X
a
= FX
yb
a
.
84
Y=g(X)
a<0
x = ( y-b)/a
x = ( y-b)/a
b
a>0
yb
FY (y) = P (Y y) = P (a X + b y) = P X
a
yb
yb
= 1 FX
.
=1P X <
a
a
yb
a
,
yb
a
.
yb
a
.
85
Y=g(X)
1
Y=g(X)
y
0
-y 1/2
y 1/2
x1
x2
-1
Esempio 4.4. Consideriamo la trasformazione Y = X 2 , che e` rappresentata graficamente da una parabola (Fig. 4.3). Se y < 0, evidentemente P (Y y) = P (X 2 y <
0) = P () = 0. Viceversa, se y 0, si ha che P (Y y) = P (X 2 y) = P (X
[ y, y]) = FX ( y) FX ( y). In definitiva, si ha:
Esempio 4.5. Consideriamo la trasformazione Y = cos(X), che e` rappresentata graficamente in Fig. 4.4, e supponiamo in particolare che sia X U(0, 2). Se y < 1, si ha
evidentemente FY (y) = P (Y y) = P (cos(X) y < 1) = P () = 0. Viceversa, se
y 1, risulta FY (y) = P (cos(X) y) = P () = 1. Infine, per 1 y < 1, si ha (vedi
Fig. 4.4) che la disequazione cos(X) y e` soddisfatta, allinterno dellintervallo (0, 2),
dai valori di X [x1 , x2 ], con x1 = arccos(y) e x2 = 2 arccos(y).2 Pertanto, per tali
valori di y si ha, poiche X e` uniforme in (0, 2),
FY (y) = P (X [x1 , x2 ]) =
x2 x1
1
= 1 arccos(y) .
2
86
5
4.5
4
3.5
2.5
f (y)
FY(y)
2
0.5
1.5
1
0.5
0
2
1.5
0.5
0
y
0.5
1.5
0
2
1/
1.5
0.5
0
y
0.5
1.5
Fig. 4.6. La pdf f (x) della variabile aleatoria Y = cos(X), con X U(0, 2).
0,
1
FY (y) = 1 arccos(y),
1,
y < 1 ;
1 y < 1 ;
y 1;
ed e` raffigurata in Fig. 4.5 (si noti che e` una funzione continua). La pdf si ottiene
derivando la FY (y):
0,
y < 1 ;
1
1
, 1 < y < 1 ;
fY (y) =
1 y2
0,
y >1;
ed e` raffigurata in Fig. 4.6. Si noti che tale pdf non contiene impulsi, perche la CDF e`
continua; inoltre, essa non e` definita (diverge) nei punti 1, tuttavia ha comunque area
unitaria.
Esempio 4.6 (amplificatore con saturazione). Consideriamo la trasformazione in Fig. 4.7,
che puo` essere espressa matematicamente come segue:
dy , x < dx ;
g(x) = a x, dx x < dx ;
dy ,
x dx .
con a ddxy > 0. Tale legge e` quella caratteristica di un dispositivo che amplifica (se
a > 1) a patto che X [dx , dx ], altrimenti luscita e` limitata (satura) al valore dy
oppure dy .
87
Y=g(X)
dy
tg() = d y /d x = a
-d x
dx
-d y
F Y(y)
fY(y)
area = 1- F X (d x )
h(y)
1
salto = F X (-d x )
salto = 1- F X (d x )
-d y
dy
Fig. 4.8. La CDF FY (y) della variabile aleatoria Y alluscita di un amplificatore con
saturazione.
-d y
dy
Fig. 4.9. La pdf fY (y) della variabile aleatoria Y alluscita di un amplificatore con
saturazione.
y < dy ;
0,
FY (y) = FX (y/a), dy y < dy ;
1,
y dy ;
ed e` riportata in Fig. 4.8. Notiamo che per y = dy tale CDF e` discontinua, perche il suo
limite da sinistra vale 0, mentre il limite da destra vale FX (dx ). Allo stesso modo, la
CDF e` discontinua nel punto y = dy , in quanto il limite da destra vale 1, mentre il limite da destra vale FX (dx ). Pertanto, quando calcoliamo la pdf, compariranno, oltre alla
88
-d y
= g(X)
derivata convenzionale, due impulsi di Dirac, centrati in y = dy e y = dy , e di area rispettivamente pari a FX (dx ) ed 1 FX (dx ). Pertanto, poiche la derivata convenzionale
vale (notiamo che la funzione non e` derivabile nei punti y = dy ):
0,
y < dy ;
1
y
h(y) =
fX
, dy < y < dy ;
a
0,
y > dy ;
la pdf si ottiene come:
fY (y) = h(y) + FX (dx ) (y + dy ) + [1 FX (dx )] (y dy )
ed e` raffigurata in Fig. 4.9. Notiamo in conclusione che la variabile aleatoria Y ha una
CDF discontinua ma non costante a tratti, per cui costituisce un primo esempio di una
variabile aleatoria mista.
Esempio 4.7 (hard limiter). Consideriamo la trasformazione in Fig. 4.10, che puo` essere
espressa matematicamente come
g(x) = dy sgn(x) ,
dove dy > 0, e sgn(x) e` la funzione signum:
1,
sgn(x)
1,
x0;
x<0.
89
F Y(y)
fY(y)
area = 1- F X (0)
1
salto = F X (0)
area = F X (0)
F X (0)
-d y
salto = 1- F X (0)
dy
-d y
dy
y < dy ;
0,
FY (y) = FX (0), dy y < dy ;
1,
y dy .
ed e` raffigurata in Fig. 4.11; si noti che e` una funzione costante a tratti, per cui Y e` una
variabile aleatoria discreta, e la sua pdf, puramente impulsiva,
fY (y) = FX (0) (y + 1) + [1 FX (0)] (y 1)
90
p Y(y)
4/9
1/3
2/9
1/3
2/9
1/9
-2
2/9
1/9
-1
Esempio 4.8. Si consideri la seguente variabile aleatoria discreta X, che assume i valori
X = {2, 1, 0, 1, 2} con la seguente DF (Fig. 4.13):
1/3, x = 0 ;
pX (x) = 2/9, x = 1 ;
1/9, x = 2 .
Calcoliamo la DF della variabile aleatoria Y = X 2 . La variabile aleatoria Y e` ancora
discreta, e assume i valori y Y = {0, 1, 4}. Applicando la (4.2), si ha:
pY (0) = P (Y = 0) = P (X = 0) = 1/3 ;
pY (1) = P (Y = 1) = P (X = 1) + P (X = 1) = 2/9 + 2/9 = 4/9 ;
pY (4) = P (Y = 4) = P (X = 2) + P (X = 2) = 1/9 + 1/9 = 2/9 ;
per cui la DF si scrive in forma compatta (Fig. 4.13) come:
1/3, y = 0 ;
pY (y) = 4/9, y = 1 ;
2/9, y = 4 .
Si noti che Y e` una variabile aleatoria positiva.
91
|g (xi )|
i
Prova. La pdf fY (y) si puo` ottenere sulla base della seguente relazione (per dy > 0):
fY (y) dy = P (y < Y y + dy) = P (y < g(X) y + dy) .
Se y e` un valore tale che lequazione g(x) = y non ammette soluzioni, allora fY (y) = 0. Infatti, se y non
appartiene alla frontiera del codominio di g(x), e` possibile scegliere dy sufficientemente piccolo tale che
{y < g(X) y + dy} = fY (y) = 0 .
Viceversa, se y appartiene alla frontiera del codominio, posso comunque porre fY (y) = 0, perch`e la
frontiera e` un insieme di misura nulla, e quindi il valore della pdf su un insieme di misura nulla e`
inessenziale.
Y=g(X)
derivata = g'(x 1 ) > 0
x1
x2
x 1 + dx 1
x 2 + dx 2
x3
x 3 + dx 3
Fig. 4.14. Dimostrazione del teorema fondamentale sulle trasformazioni di variabili aleatorie.
Le soluzioni dellequazione y = g(x) sono x1 , x2 , ed x3 .
Viceversa, si consideri il caso in cui y appartenga al codominio di g(x), cio`e sia un valore tale che
lequazione g(x) = y ammette una o piu` soluzioni. Per semplicit`a, supponiamo che le soluzioni siano tre,
x1 , x2 , x3 , come in Fig. 4.14. Allora:
fY (y) dy = P (y < Y y + dy) =
= P (x1 < X x1 + dx1 ) + P (x2 + dx2 < X x2 ) + P (x3 < X x3 + dx3 ) ,
dove dx1 > 0, dx2 < 0, dx3 > 0. (Fig. 4.14) e, per dy sufficientemente piccolo, i tre insiemi cui appartiene
X sono mutuamente esclusivi. Poich`e:
P {x1 < X x1 + dx1 } = fX (x1 ) dx1 ;
P {x2 + dx2 < X x2 } = fX (x2 ) |dx2 | ;
P {x3 < X x3 + dx3 } = fX (x3 ) dx3 ;
92
= dy/g (x1 ) ;
dx2
dx3
= dy/g (x2 ) ;
= dy/g (x3 ) ;
dove (Fig. 4.14) g (x1 ) > 0, g (x2 ) < 0, e g (x3 ) > 0, risulta
fY (y) dy =
fX (x2 )
fX (x3 )
fX (x1 )
dy +
dy +
dy ,
g (x1 )
|g (x2 )|
g (x3 )
yb
,
a
ed inoltre risulta
|g (x)| = |a| ,
per cui:
1
fX
fY (y) =
|a|
yb
a
y,
x2 = y
ed inoltre
|g (x)| = 2|x| ,
93
per cui:
1
fY (y) = fX ( y) u(y) =
ey/2 u(y)
y
2y
che e` la pdf di una variabile aleatoria di tipo chi-square con un grado di libert`a, che si
denota Y 2 (1).
Esempio 4.11. Consideriamo la trasformazione iperbolica:
Y = 1/X .
Per y = 0, lequazione y = g(x) = 1/x ha lunica soluzione
x=
1
,
y
ed inoltre si ha
|g (x)| =
1
,
x2
per cui:4
1
fY (y) = 2 fX
y
1
y
(4.3)
/
.
+ 2
x2
94
1/()
.
+ 1/2
y2
Notiamo che sebbene la (4.3) sia stata ricavata per y = 0, la fY (y) puo` essere prolungata
per continuit`a in y = 0.
Negli esempi precedenti, abbiamo incontrato casi in cui il teorema non e` applicabile, e
precisamente per quei valori di y = g(x) in corrispondenza dei quali la derivata g (x)
si annulla. Se tali punti y sono isolati, il valore di fY (y) e` inessenziale, in quanto la
pdf compare solo in relazioni integrali, e quindi il suo valore in un punto isolato non
e` rilevante (lintegrale della pdf non cambia). Puo` accadere che, nei punti y in cui il
teorema non e` applicabile, la pdf sia divergente (cfr. la variabile aleatoria chi-square
dellesempio 4.10 per y = 0), oppure che essa si possa prolungare per continuit`a (cfr. la
variabile aleatoria Cauchy dellesempio 4.11 per y = 0).
Diversa e` la situazione se, per un determinato y, lequazione y = g(x) ammette una
infinit`a continua di soluzioni, come accade ad esempio se g(x) presenta uno o piu` tratti
costanti con ordinata pari ad y (si noti che in tal caso si ha anche g (x) = 0 per tutti i
valori x corrispondenti al tratto costante). In tal caso, generalmente la pdf di Y presenta nel punto y un impulso di Dirac, la cui area va determinata direttamente calcolando
P (Y = y). Lesempio che segue chiarir`a meglio questo concetto.
Esempio 4.12. Consideriamo nuovamente la trasformazione (amplificatore con saturazione) dellesempio 4.6, raffigurata in Fig. 4.7. Tale trasformazione ha due tratti costanti, di ordinata y = dy e y = dy ; anticipiamo pertanto la presenza di due impulsi di
Dirac, centrati in y = dy , le cui aree dobbiamo determinare. Applichiamo comunque il
teorema nei punti dove e` consentito. Per |y| > dy , lequazione y = g(x) non ha soluzioni,
per cui fY (y) = 0. Per |y| < dy , lequazione y = g(x) ha una sola soluzione x = y/a. Il
calcolo della derivata prima per |y| < a fornisce
|g (x)| = a ;
pertanto per tutti i valori y = dy lapplicazione del teorema fondamentale fornisce la
parte convenzionale h(y) della pdf (corrispondente alla derivata convenzionale della
CDF):
0,
y < dy ;
y
1
h(y) =
fX
, dy < y < dy ;
a
a
0,
y > dy ;
95
4.3
Lipotesi di invertibilit`a delle CDF non e` strettamente necessaria, nel paragrafo 4.3.1 vedremo una
importante generalizzazione.
96
U uniforme
g 1 (x)= F X (x)
g 2 (x)= F Y(x)
passo 1
passo 2
-1
Fig. 4.15. La trasformazione di una variabile aleatoria X in una variabile aleatoria Y si articola
in due passi: a partire da X, si genera una variabile aleatoria U U(0, 1); successivamente, da
U si genera la variabile aleatoria Y .
in quanto i valori assunti da una CDF sono sempre non superiori ad 1. Infine, se u [0, 1[, si ha:
1
1
FU (u) = P (U u) = P [FX (X) u] = P [X FX
(u)] = FX [FX
(u)] = u
1
Si noti che abbiamo applicato la FX
() ad entrambi i membri della disuguaglianza perch`e abbiamo
supposto che la CDF di X sia strettamente monotona (crescente) e quindi invertibile. In definitiva,
mettendo insieme i tre casi, la CDF di U e` data da:
0, u < 0 ;
FU (u) = u, u [0, 1[ ;
1, u 0 ;
ed e` proprio la CDF di una variabile aleatoria U U(0, 1), per cui resta dimostrato lasserto.
(ii) Da una variabile aleatoria uniforme a Y : abbiamo a disposizione una variabile aleatoria U U(0, 1) e vogliamo trasformarla in una variabile aleatoria Y = g2 (U ) con
preassegnata CDF FY (y). Si puo` verificare in tal caso che la trasformazione cercata
e` g2 (x) = FY1 (x), coincide cio`e con linversa (che abbiamo supposto esistente) della
CDF desiderata.
Prova. Per verificarlo, denotiamo con FY (y) la CDF di Y = FY1 (U ) e dimostriamo che essa
coincide con FY (y). Si ha:
FY (y) = P (Y y) = P [FY1 (U ) y] = P [U FY (y)] = FU [FY (y)] = FY (y)
perch`e FY (y) [0, 1] ed U e` una variabile aleatoria uniforme in (0, 1), quindi con CDF FU (u) = u
per u [0, 1]. Resta pertanto dimostrato che FY (y) = FY (y), e quindi la trasformazione g2 (x)
coincide proprio con linversa della CDF di Y .
97
(ii) nel secondo passo, dalla variabile aleatoria uniforme U U(0, 1), si ottiene Y
mediante la trasformazione g2 (x) = FY1 (x).
La trasformazione g complessiva e` chiaramente la funzione composta di g1 (funzione
interna) e g2 (funzione esterna), e cio`e:
g(x) = g2 [g1 (x)] = FY1 [FX (x)]
(4.4)
Esercizio 4.1. Determinare la trasformazione g(x) che consente di passare da una variabile aleatoria esponenziale X Exp() ad una variabile aleatoria Rayleigh Y
Rayleigh(b).
Svolgimento. La CDF di X e` :
FX (x) = (1 ex ) u(x)
mentre quella di Y e` :
y2
FY (y) = (1 e b ) u(y) .
Per individuare la g(x), conviene riscrivere la (4.4) nella forma:
FY [g(x)] = FX (x) ,
che va riguardata come unequazione nellincognita g(x) e risolta rispetto allincognita.
Sostituendo le espressioni delle CDF, e tralasciando le funzioni gradino, si ha:
1 e
g 2 (x)
b
= 1 ex ,
xb .
Si noti che nella risoluzione abbiamo scelto la soluzione positiva per g(x) perch`e la variabile aleatoria Y = g(X) e` positiva.
98
Generatore
variabili aleatorie
uniformi in (0,1)
U uniforme
X
g(x)= F X (x)-1
Fig. 4.16. La generazione di una variabile aleatoria X con CDF FX (x) invertibile si puo` effettuare
a partire da un generatore di variabili aleatorie uniformi U U(0, 1), applicando alluscita di
questultimo la trasformazione g(x) = FX1 (x).
Osserviamo pero` che, se U U(0, 1), allora anche 1 U U(0, 1). Allora, piu` semplicemente, possiamo scrivere:
1
g(x) = ln(x) .
Esercizio 4.3. Determinare la trasformazione che consente di generare una variabile
aleatoria Rayleigh X Rayleigh(b) a partire da una v.a. uniforme U U(0, 1).
99
Svolgimento. Poich`e:
x2
FX (x) = (1 e b ) u(x) ,
allora si ha:
g(x) = FX1 (x) =
b ln(1 x) ,
(4.5)
In tal caso, se FX (x) e` strettamente monotona, la FX1 (y) definita dalla (4.5) si riduce
allinversa convenzionale; altrimenti, se ad esempio la CDF FX (x) presenta un tratto
costante nellintervallo [x1 , x2 ] di altezza pari a y, e` facile verificare che FX1 (y) = x1 .
La funzione definita dalla (4.5) viene a volte denominata inversa sinistra, in quanto si
puo` facilmente verificare che FX [FX1 (y)] = y, mentre in generale risulta FX1 [FX (x)] = x;
100
F X -1 (y)
F X (x)
1
1
q
0
1
inoltre poich`e FX (x) e` monotona crescente, anche la funzione FX1 (y) definita dalla (4.5)
e` monotona crescente. Si puo` allora facilmente verificare che la dimostrazione sviluppata nel 4.3 al punto (ii) rimane valida, a patto di sostituire allinversa convenzionale
linversa sinistra. In particolare, il metodo della trasformazione percentile risulta ancora
applicabile, come mostrato dal seguente esempio.
Esempio 4.13. Si vuole generare una variabile aleatoria X Bern(p), la cui CDF e`
raffigurata in Fig. 4.17. Calcoliamo prima linversa sinistra FX1 (y), in accordo alla (4.5).
Si ha:
y = 0 inf{x R tali che FX (x) y} =
y ]0, q] inf{x R tali che FX (x) y} = 0
y ]q, 1] inf{x R tali che FX (x) y} = 1
per cui:
,
1
FX (y) = 0,
1,
y =0;
y ]0, q] ;
y ]q, 1] ;
raffigurata in Fig. 4.18. Si puo` osservare che linversa sinistra FX1 (x) e` continua da
sinistra (mentre la CDF e` continua da destra), e che si puo` ottenere con una procedura
grafica molto semplice: a partire dalla CDF, si scambiano gli assi x ed y.
Pertanto, a partire da U U(0, 1) e tenendo conto della forma dellinversa sinistra,
la tecnica di generazione e` molto semplice:
101
F X (x)
F X -1 (y)
x3
p 1 +p 2 +p 3
x2
p 1 +p 2
x1
p1
x1
x2
x3
p1
p 1 +p 2
p 1 +p 2 +p 3
102
103
conservano le 4 cifre intermedie (si eliminano le ultime due cifre); tali cifre costituiscono
il numero x1 , che viene nuovamente elevato al quadrato, e cos` via. Ad esempio, la
sequenza generata a partire dal seme 5232 e` la seguente:
x0 = 5232
52322 = 27|3738|24 x1 = 3738
37382 = 13|9726|44 x2 = 9726
97262 = 94|5950|76 x3 = 5950
...
Dalla sequenza intera ottenuta e` possibile ottenere numeri interi in (0, 1) semplicemente spostando la virgola in prima posizione: ad esempio, la sequenza del precedente
esempio genera la seguente successione di valori in (0, 1):
0.5232
0.3738
0.9726
0.5950
...
E` chiaro che, essendo solo 10 000 i numeri di quattro cifre, e poich`e ogni numero dipende
solo da quello precedentemente generato, la sequenza ottenuta sar`a necessariamente
periodica, con periodo al piu` pari a 10 000. In realt`a, il principale svantaggio di tale
procedura e` che le propriet`a della sequenza generata dipendono in maniera critica dalla
scelta del seme iniziale; ad esempio, la scelta x0 = 0000 produce la sequenza banale
0000
0000
0000
...
Ma anche scelte meno banali del seme possono portare a risultati altrettanto sgradevoli:
ad esempio, scegliendo x0 = 2100, si ottiene la sequenza composta dai soli quattro valori
interi
2100
4100
8100
6100
che si ripetono indefinitamente. Proprio a causa della sensibilit`a rispetto alla scelta del
seme iniziale, il metodo middle-square e` stato presto abbandonato, e lattenzione degli studiosi si e` spostata verso tecniche ricorsive che fossero al tempo stesso piu` efficienti
computazionalmente (lalgoritmo middle-square ricorre ad una elevazione al quadrato, che ha una complessit`a non trascurabile) e tali da garantire propriet`a ottimali o quasi
ottimali delle sequenze generate.
(4.6)
104
...
che risulta chiaramente periodica di periodo 4. Tale periodicit`a e` una propriet`a generale
del generatore lineare congruente: tutte le sequenze generate in base alla (4.6) saranno
periodiche di periodo minore o uguale ad m, in quanto composte al piu` da m valori.
Per avere un buon generatore, allora, dovremo scegliere m molto grande: in pratica
converrebbe scegliere m pari al massimo numero intero rappresentabile nella parola
macchina del calcolatore, quindi m = 216 per un calcolatore a 16 bit, oppure m = 232
per un calcolatore a 32 bit. Inoltre dobbiamo assicurarci che la sequenza generata sia a
massimo periodo: affinche cio` accada, devono valere le seguenti condizioni [7]:
1. c ed a devono essere primi tra loro;
2. a 1 devessere multiplo di ogni fattore primo di m;
3. a 1 devessere multiplo di 4 se m e` multiplo di 4.
E` chiaro che, nel caso di sequenze a massimo periodo, il periodo m dovr`a eccedere significativamente la lunghezza tipica delle sequenze che utilizzeremo in una singola simulazione; se cos` non fosse, la periodicit`a della sequenza generata sarebbe chiaramente
individuabile, e cio` ne comprometterebbe la natura pseudo-aleatoria.6
Una volta progettato un buon generatore di numeri casuali interi xn tra 0 ed m
1, possiamo ottenere un generatore di numeri casuali yn tra 0 ed 1,7 semplicemente
dividendo xn per m:
xn
yn =
.
m
I numeri yn cos` generati non riempiono tutto lintervallo (0, 1), ma si dispongono su un
reticolo monodimensionale con spaziatura 1/m; in pratica, non otterremo tutti i numeri
reali tra 0 ed 1, ma soltanto i numeri razionali del tipo p/m, con p {0, 1, . . . , m 1}. Se
pero` m e` molto grande, il reticolo e` sufficientemente fitto da potersi ritenere una buona
approssimazione dei numeri nellintervallo (0, 1).8
6
Una regola pratica [9] e` che il periodo del generatore deve eccedere il quadrato della massima
lunghezza delle sequenza generate in una simulazione.
7
Tali generatori fanno parte delle funzioni di libreria dei moderni linguaggi di programmazione, nei
quali assumono la denominazione di funzione rand, o similari.
8
Consideriamo anche che se m e` il massimo numero rappresentabile in macchina, la differenza 1/m
tra due numeri razionali consecutivi e` la minima che posso rappresentare su una macchina con registri
di dimensione finita.
105
mod m .
(4.7)
Un numero intero a si dice [3] [7] radice primitiva di m se il piu` piccolo valore di n tale che an 1 = 0
mod m e` n = m 1.
10
Fino alla versione 4: nella versione 5 e successive si utilizza un generatore basato su un algoritmo piu` sofisticato di quello lineare congruente, che assicura un periodo pari a 21492 (si veda
http://www.mathworks.com/company/newsletter/pdf/Cleve.pdf per maggiori dettagli sui generatori
impiegati in Matlab).
9
106
m1
...
...
0.1
0.1
f (x)
0.15
f (x)
0.15
0.05
0
0
0.05
0.2
0.4
0.6
x
0.8
0
0
0.2
0.4
0.6
0.8
Fig. 4.21. Istogrammi di N = 4000 valori generati dal generatore good (a sinistra) e dal
generatore bad (a destra).
Tuttavia, abbiamo osservato che non basta che la distribuzione sia uniforme, ma occorre verificare che non ci sia una regolarit`a facilmente identificabile nella sequenza
generata. Un test semplice per individuare tali regolarit`a consiste nel diagrammare su
un piano cartesiano le coppie di valori (xn , xn+1 ) generate: poich`e xn+1 = f (xn ), un cattivo generatore tender`a a presentare delle configurazioni regolari abbastanza evidenti.
107
(1, 2)
(2, 3)
(3, 4)
...
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
yn+1
n+1
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0
0.2
0.4
0.6
y
0.8
0
0
0.2
0.4
0.6
0.8
yn
Fig. 4.22. Diagrammi delle coppie (yn , yn+1 ) di valori consecutivi generati in (0, 1) per il
generatore good(a sinistra) ed il generatore bad (a destra).
108
Capitolo 5
Caratterizzazione sintetica di una
variabile aleatoria
5.1
Introduzione
Abbiamo visto che una variabile aleatoria X e` completamente caratterizzata dalla conoscenza della sua CDF, pdf, o DF. In molti casi pratici, tuttavia, si e` interessati a conoscere
solo alcuni parametri numerici della variabile aleatoria, che vanno genericamente sotto
il nome di momenti, i quali forniscono informazioni sintetiche sulla variabile aleatoria
(rispetto alla conoscenza della CDF, pdf, o DF): si parla in tal caso di caratterizzazione
sintetica della variabile aleatoria in oggetto.
5.2
La definizione dei momenti di una variabile aleatoria discende in maniera diretta del
concetto fondamentale di media (statistica).
Definizione (media di una variabile aleatoria). La media (statistica) E(X) di
una variabile aleatoria X con pdf f (x) e` :
x f (x) dx
(5.1)
E(X)
110
2 x=b
1
a+b
1
x
x
=
dx =
,
ba
b a 2 x=a
2
per cui la media di X coincide con il punto medio dellintervallo [a, b].
Esempio 5.2 (media di una variabile aleatoria esponenziale). Sia X Exp(), allora si ha:
d
x
xe
dx =
x [ex ] dx = (per parti) =
E(X) =
dx
0
0
1
x=
= xex x=0 +
ex dx = ,
0
per cui la media di X coincide con il reciproco del parametro .
Che cosa rappresenta la media, o valore atteso? Dal punto di vista matematico, lintegrale nella (5.1) effettua una media pesata dei valori x, dove la pesatura e` rappresentata dal valore f (x) della pdf nel punto x, e quindi i valori x in corrispondenza
dei quali la pdf e` piu` grande vengono pesati maggiormente. Con una similitudine tratta dalla fisica, possiamo pensare alla media E(X) come al valore baricentrico della
distribuzione (pdf) di probabilit`a (e difatti la definizione di media e` formalmente identica alla definizione del baricentro di una distribuzione lineare di masse). In pratica, la
media e` una grandezza deterministica che si puo` interpretare come rappresentativa
dei valori assunti dalla variabile aleatoria ed in questo senso di parla di valore atteso; e` questo luso che si fa correntemente della media quando si fanno affermazioni
del tipo i maschi italiani sono alti in media 172 cm oppure uno studente di Ingegneria impiega in media 2.3 mesi a preparare un esame. Si noti tuttavia che, a dispetto
dellinterpretazione precedente, per particolari forme della pdf la media potrebbe non
coincidere con alcuno dei valori assunti dalla variabile aleatoria (cio` accade spesso per
variabili aleatorie discrete). Altre grandezze deterministiche che possono essere assunte come rappresentative della variabile aleatoria sono la mediana (ovvero il valore che
non e` superato con probabilit`a pari a 0.5, vedi 3.2.3) e la moda (ovvero il valore in cui
la pdf ha un massimo locale, vedi 3.3.1).
Esempio 5.3 (media di una variabile aleatoria di Cauchy). Per particolari pdf la media potrebbe non essere definita, nel senso che la funzione integranda nella (5.1) potrebbe non
essere sommabile. E` questo il caso di una variabile aleatoria X Cauchy(), che ha pdf
, per la quale lintegrale nella (5.1) si scrive esplicitamente come:
f (x) = x2/
+2
/
x f (x) dx =
x 2
dx .
E(X)
x + 2
111
La funzione integranda non e` sommabile, in quanto decade a zero allinfinito come 1/x.
Pertanto, la media E(X) di una variabile aleatoria di Cauchy non e` definita.1
Osserviamo che se la media E(X) esiste, e se la retta verticale di equazione x = a e` un
asse di simmetria per f (x), cio`e se
f (a + x) = f (a x),
x R,
allora e` facile dimostrare che E(X) = a.2 In particolare, se f (x) e` una funzione pari,
x = 0 e` un asse di simmetria, per cui E(X) = 0 (variabile aleatoria a media nulla).
Esempio 5.4 (media di una variabile aleatoria gaussiana). Sia X N(, ), ricordiamo che
la sua pdf e` (cfr. 3.5.2)
(x)2
1
f (x) = e 22 .
2
Poich`e tale funzione ha chiaramente x = come asse di simmetria, allora risulta necessariamente E(X) = . Pertanto il parametro di una variabile aleatoria gaussiana ne
rappresenta la media statistica.
Vediamo come si particolarizza la definizione di media al caso in cui X e` una variabile
aleatoria discreta. In tal caso, la pdf f (x) si riduce (cfr. 3.3) ad una somma discreta di
impulsi di Dirac, del tipo
pi (x xi ) ,
f (x) =
xi X
dove pi = P (X = xi ), per cui, sostituendo nella definizione di media, si ottiene con facili
passaggi:
E(X) =
x f (x) dx =
x
pi (x xi ) dx
x
X
i
=
pi
x (x xi ) dx =
p i xi
xi X
xi X
xi P (X = xi ) =
xi X
xi p(xi ) ,
xi X
ovvero la media si puo` esprimere, anziche attraverso un integrale, mediante una sommatoria dei valori xi X della variabile aleatoria discreta X, ciascuno pesato per la DF
p(x) calcolata nel punto xi (somma pesata). Se i valori xi sono in numero finito ed
equiprobabili, la media statistica si riduce alla semplice media aritmetica dei valori xi .
1
Notiamo che se, viceversa, si adoperasse nella (5.1) la definizione di integrale a valor principale secondo
Cauchy, la media risulterebbe nulla.
2
In questo caso, si puo` anche verificare facilmente che, se x = a e` anche un punto di massimo locale
della pdf, allora media, moda e mediana coincidono.
112
e pertanto E(a) = a.
113
y fY (y) dy .
Pertanto, per determinare E(Y ), sembra necessario calcolare la pdf fY (y), il che puo` farsi
adoperarando il teorema fondamentale 4.1 sulle trasformazioni di variabili aleatorie.
Tale conclusione non e` pero` del tutto corretta, in virtu` del seguente teorema fondamentale
della media, che enunciamo senza dimostrazione.
Teorema 5.1 (teorema fondamentale della media). Sia Y = g(X) una trasformazione
della variabile aleatoria X avente pdf fX (x), si ha:
E(Y ) = E[g(X)] =
g(x) fX (x) dx
g(xi ) P (X = xi ) =
xi X
g(xi ) pX (xi )
xi X
ovvero in termini della DF pX (x) di X. In questo caso si puo` fornire una dimostrazione
semplice del teorema (si veda [5] oppure [4]).
Esempio 5.9. Sia X U(0, 2), e si voglia calcolare la media di Y = cos(X). Applicando il teorema fondamentale, scriviamo:
1
E(Y ) = E[cos(X)] =
2
cos(x) dx =
0
1
[sin(x)]x=2
x=0 = 0
2
per cui E(Y ) = 0 e non e` stato necessario calcolare esplicitamente la pdf di Y , la cui
espressione abbiamo peraltro derivato nellesempio 4.5 (si tratta di una pdf pari, per cui
effettivamente E(Y ) = 0).
114
5.3
Passiamo ora a definire un altro importante parametro sintetico di una variabile aleatoria X, ovvero la sua varianza.3
Definizione (varianza di una variabile aleatoria). La varianza 2 = VAR(X)
di una variabile aleatoria X con media = E(X) e` :
2
2
(x )2 f (x) dx ,
= VAR(X) E[(X ) ] =
La definizione che segue si puo` interpretare anche come lapplicazione del teorema fondamentale
della media al calcolo della media di Y = g(X) = (X )2 .
115
(5.2)
= E(X 2 ) E 2 (X) .
La quantit`a E(X 2 ) (anchessa non negativa) prende il nome di valore quadratico medio
(vqm), e si calcola, sulla base del teorema fondamentale della media, come:
2
E(X ) =
x2 f (x) dx .
La radice quadrata xrms E(X 2 ) del valore quadratico medio prende il nome di valore
efficace della variabile aleatoria X, ed e` dimensionalmente affine ad X.4
La relazione (5.2) tra varianza, media e valor quadratico medio e` fondamentale, e
mostra che solo due tra questi tre parametri possono essere assegnati arbitrariamente, in
quanto il terzo dipende univocamente dagli altri due. Inoltre, la relazione (5.2) mostra
che, per variabili aleatorie a media nulla, la varianza coincide con il valor quadratico
medio, e quindi la deviazione standard coincide con il valore efficace.
Esempio 5.10 (varianza di una variabile aleatoria uniforme a media nulla). Consideriamo il
caso di X U(/2, /2), allora = E(X) = 0, e si ha:
x=/2
2
1 x3
1
x
=
dx =
.
= E[X ] =
3 x=/2
12
/2
/2
Il pedice rms sta per root mean square, che e` la denominazione inglese per radice del valor
quadratico medio.
116
f (x) dx = 1 ,
(x)2
1
e 22 dx = 1 ,
2
ovvero:
(x)2
2 2
dx = 2 .
(x)2
2 2
(x )2
dx = 2
3
da cui:
VAR(X) =
(x)2
1
(x )2 e 22 dx = 2
2
Un legame quantitativo piu` preciso tra il valore della varianza e la probabilit`a con cui la variabile
aleatoria assume valori nellintorno della media e` fornito dalla fondamentale disuguaglianza di Chebishev
(vedi 5.5).
117
xi X
(5.3)
118
(b a)2
2
=
.
12
12
In molti casi, a partire da una variabile aleatoria X, si desidera ottenere una variabile
aleatoria standard, ovvero una variabile aleatoria Z a media nulla e varianza unitaria. E`
allora sufficiente dividere la variabile aleatoria centrata Y = X X per la deviazione
standard di X, costruendo Z come:
Z=
X X
.
X
Infatti, e` banale verificare che E(Z) = 0, mentre applicando la propriet`a (5.3) si ha:
Var(Z) =
1
Var(X) = 1 .
2
X
Notiamo che, poiche Z si ottiene da X attraverso una trasformazione lineare del tipo
Z = aX + b, la pdf di Z sar`a data da
fZ (z) = X fX (X z + X ) ,
e pertanto tale trasformazione non modifica sostanzialmente la famiglia a cui la pdf
appartiene (nel senso che una variabile aleatoria uniforme resta uniforme, una variabile
aleatoria gaussiana resta gaussiana, e cos` via) ma cambia solo la posizione della pdf
sullasse dellascisse (per effetto della traslazione di X ) e la scala della pdf (per effetto
della moltiplicazione per X sia dellargomento che dei valori assunti). In particolare, se
X
N(0, 1) e` ancora gaussiana con media
X N(X , X ), la variabile aleatoria Z = X
X
nulla e varianza unitaria, e prende il nome di normale standard (la sua CDF e` proprio la
funzione G(x) riportata in Appendice B).
5.4
119
|x a|n f (x) dx ,
La definizione delle grandezze che seguono si pu`o sempre ricondurre allapplicazione del teorema
fondamentale della media ad opportune trasformazioni della variabile aleatoria X.
120
Il discorso e` diverso se si suppone di conoscere tutti i momenti; in tal caso, sotto opportune ipotesi, e`
possibile risalire alla CDF, pdf o DF attraverso luso della funzione caratteristica (vedi ad esempio [3, 5-5])
121
Iniziamo con il calcolo dei momenti della normale standard Z N(0, 1). Infatti, poich`e possiamo esprimere una generica gaussiana X N(, ) in termini della normale
standard Z, come X = Z + , potremo poi esprimere i momenti di X in funzione dei
momenti di Z.
Poiche Z e` a media nulla, momenti e momenti centrali coincidono: dobbiamo allora
calcolare il generico momento di ordine n, dato da:
n
xn fZ (x) dx ,
n = n = E[Z ] =
dove
1 2
1
fZ (x) = e 2 x .
2
Osserviamo subito che, poiche fZ (x) e` una funzione pari, i momenti per n dispari risultano nulli, essendo definiti attraverso lintegrale di una funzione dispari; il calcolo
va allora affrontato solo per n pari. Tuttavia, poiche il calcolo diretto dellintegrale per
n pari e` complicato, utilizziamo un artificio simile a quello dellesempio 5.12, ovvero
partiamo dallidentit`a
2
ex dx = 1/2 ,
valida per ogni > 0, che si puo` ottenere a partire dalla condizione di normalizzazione
della pdf per una variabile aleatoria X N (0, ) con 2 = 1/(2). Derivando k volte
rispetto ad tale identit`a, si ottiene:
1
x2
2
e
(x ) dx =
3/2
2
1
3
2
ex (x2 )(x2 ) dx =
5/2
2
2
...
1
3
2k 1
x2
2
2
2
e
(x )(x ) (x ) dx =
(2k+1)/2
2
2
2
k termini
k termini
Lultima relazione puo` essere riscritta, con semplici manipolazioni algebriche, nella
forma:
x2 2k
e
x dx =
1 3 (2k 1) (2)k
da cui, portando al primo membro e ponendo = 1/2 si ottiene:
1
2
122
5.5
Disuguaglianze notevoli
E(Y )
Si noti che abbiamo utilizzato il simbolo !! (doppio fattoriale) per denotare il prodotto dei soli numeri
dispari fino ad un numero specificato.
123
P (Y ) (Markov) P (Y ) (esatto)
2
5 101
1.35 101
1
5
2 10
6.74 103
10
1 101
4.54 105
20
5 102
2.06 109
50
2 102
1.93 1022
2
100
5 10
3.72 1044
Tab. 5.1. Confronto tra i valori di probabilit`a previsti dalla disuguaglianza di Markov e quelli
esatti per una variabile aleatoria esponenziale Y di parametro .
Prova. Si ha, con facili passaggi, la seguente catena di disuguaglianze:
E(Y ) =
y fY (y) dy
y fY (y) dy
fY (y) dy = P (Y ) ,
0
da cui lasserto.
Lutilit`a della disuguaglianza di Markov consiste nella possibilit`a di valutare approssimativamente la probabilit`a che una variabile aleatoria positiva ecceda un dato valore .
In effetti, essa fornisce un limite superiore per landamento della CDF complementare
di una variabile aleatoria positiva, che non puo` decrescere piu` lentamente di 1/. Tuttavia, in molti casi pratici la rapidit`a di decadimento a zero della CDF complementare e`
molto piu` rapido di quello previsto dalla disuguaglianza di Markov, come mostrato dal
seguente esempio.
Esempio 5.16. Sia Y Exp(), con E(Y ) = 1 . Essendo FY (y) = [1 ey ] u(y), possiamo calcolare direttamente P (Y ) = 1 FY () = e . La disuguaglianza di Markov
si scrive allora esplicitamente nella forma:
e
1
.
Tale disuguaglianza e` senzaltro verificata, ma lerrore relativo tra primo membro (che
decade con legge esponenziale) e secondo membro (che decade con legge iperbolica)
cresce senza limiti al crescere di , come dimostrato dai valori riportati in Tab. 5.5.
124
2
,
2
(5.6)
Sulla base della disuguaglianza di Chebishev, la varianza puo` essere interpretata come
il piu` semplice indice di dispersione dei valori assunti da una variabile aleatoria intorno
alla sua media. Infatti, ponendo = k, possiamo anche riscrivere la (5.6) come
P (|X | k)
1
,
k2
(5.7)
o equivalentemente come:
P (|X | < k) 1
1
.
k2
(5.8)
125
intervallo
2
3
4
5
P (X intervallo)
0
0.75
0.89
0.9375
0.96
Tab. 5.2. Probabilit`a che la variabile aleatoria X appartenga ad un intervallo centrato intorno
alla media previsti dalla disuguaglianza di Chebishev.
intorno alla media , ed e` questo il motivo per cui, in ultima analisi, 2 e` denominata
varianza.
Osserviamo infine che poiche la disuguaglianza di Chebishev discende da quella di
Markov, valgono per essa considerazioni analoghe a quelle gi`a effettuate per la disuguaglianza di Markov relativamente allo scostamento tra i valori effettivi di probabilit`a
ed il limite previsto dalla disuguaglianza. Lutilit`a della disuguaglianza di Chebishev
non sta tanto nellaccuratezza con la quale e` in grado di fornire i valori della probabilit`a
che la variabile aleatoria X appartenga ad un intervallo centrato intorno alla media, ma
nella sua generalit`a e semplicit`a, in quanto consente di ottenere stime di tale probabilit`a
senza richiedere la conoscenza esplicita della pdf o CDF della variabile aleatoria, ma
solo della sua varianza.
126
Capitolo 6
Coppie di variabili aleatorie
6.1
Introduzione
Nei precedenti capitoli abbiamo affrontato lo studio di una singola variabile aleatoria
X; anche quando ci siamo occupati di trasformazioni di variabili aleatorie, del tipo
Y = g(X), mediante le quali a partire da una variabile aleatoria X e` possibile generare unaltra variabile aleatoria Y , ci siamo limitati a caratterizzare singolarmente Y
(calcolandone ad esempio la CDF o la pdf).
E` chiaro che, se Y si ottiene a partire da X mediante una trasformazione g(X), il
legame esistente tra X ed Y e` semplice, essendo di tipo deterministico; tuttavia esistono molti casi pratici in cui e` possibile definire due variabili aleatorie su uno stesso
esperimento di probabilit`a ed il legame tra esse non e` semplicemente deterministico.
Ad esempio, lesperimento probabilistico puo` consistere nello scegliere una persona
a caso in un insieme di persone, e la variabile aleatoria X puo` rappresentarne laltezza,
mentre la variabile aleatoria Y puo` rappresentarne il peso. E` chiaro che esiste una dipendenza tra X ed Y , ma non e` espressa da una semplice relazione del tipo Y = g(X), in
quanto il legame tra peso ed altezza dipende dal tutta una serie di altri parametri, quali
conformazione fisica della persona, sesso, et`a, etc. Daltra parte appare impensabile individuare una formula esatta che descrive la relazione tra peso ed altezza e tenga conto
di tutti i parametri del problema. E` ragionevole invece descrivere in maniera approssimata tale relazione utilizzando le leggi della probabilit`a, il che costituisce loggetto del
presente capitolo. Dovremo allora essere in grado di calcolare la probabilit`a che laltezza di una persona sia compresa, diciamo, tra 180 e 190 cm, mentre il suo peso sia
compreso tra 70 ed 80 kg. Tale problema e` concettualmente simile a quello di descrivere
congiuntamente due o piu` esperimenti probabilistici (esperimento combinato) discusso
in dettaglio nel 2.4.
128
Y
y
Fig. 6.1. Levento {X x, Y y} e` costituito dai punti di le cui immagini (X, Y ) cadono nella
regione in grigio.
6.2
129
(x, y) R R .
La CDF congiunta e` chiaramente una funzione reale di due variabili reali, a valori in
[0, 1] (trattandosi di una probabilit`a). Essendo una funzione di due variabili, essa risulta
piu` difficile da interpretare e manipolare matematicamente, rispetto alle CDF FX (x) ed
FY (y): le sue principali propriet`a sono elencate nel paragrafo seguente. Notiamo che
nel seguito, per brevit`a, utilizzeremo sia la notazione FXY (x, y), sia quella piu` sintetica
F (x, y).
130
y2
y1
x1
x2
x1
x2
6.3
131
(6.1)
Notiamo che nella definizione di pdf congiunta compare la derivata mista (rispetto a
x ed y) della funzione di due variabili FXY (x, y); poiche la pdf e` unica, assumeremo
che tale derivata mista non dipenda dallordine di derivazione, ovvero che la funzione
FXY (x, y) soddisfi la seguente condizione di Schwartz per lo scambio dellordine di derivazione: le derivate miste di FXY (x, y) rispetto ad x ed y devono esistere ed essere
continue.2 Notiamo che nel seguito utilizzeremo per la pdf congiunta sia la notazione
fXY (x, y), sia quella piu` snella f (x, y).
f (u, v) du dv =
2
F (u, v) du dv ,
uv
v=y
F (u, v) dv du =
[F (u, v)]v= du
u
v
u
x
=
F (u, y) F (u, ) du
u
=0
u=x
Salvo nel caso in cui la pdf presenti un impulso nel punto (x, y), caso che peraltro non considereremo
mai in pratica
132
y+dy
dy
dx
x+ dx
(6.3)
cio`e f (x, y) rappresenta la probabilit`a che la coppia di variabili aleatorie (X, Y ) appartenga ad un rettangolino di lati infinitesimi, divisa per larea dx dy del rettangolino
(Fig. 6.4). Questo risultato giustifica, anche nel caso bidimensionale, la denominazione
di densit`a di probabilit`a, e prova anche implicitamente che f (x, y) 0.
Prova. Applicando la propriet`a 3 della CDF vista in precedenza, si ha:
P (x < X x + dx, y < Y y + dy) = F (x, y) + F (x + dx, y + dy) F (x, y + dy) F (x + dx, y) ,
che possiamo riscrivere anche come:
P (x < X x + dx, y < Y y + dy) = [F (x + dx, y + dy) F (x, y + dy)] [F (x + dx, y) F (x, y)] ,
133
da cui, dividendo e moltiplicando per dx dy e sfruttando la definizione di derivata parziale come limite
del rapporto incementale rispetto alla variabile dinteresse (con laltra variabile fissa), si ha:
P (x <"X x + dx, y < Y y + dy) =
#
1 F (x + dx, y + dy) F (x, y + dy) F (x + dx, y) F (x, y)
=
dx dy =
dy
dx
dx
1 F (x, y + dy) F (x, y)
=
dx dy =
dy
x
x
2 F (x, y)
dx dy ,
=
yx
da cui, ricordando lassunzione che la derivata mista rispetto ad x ed y non dipende dallordine di
derivazione, si ha lasserto.
Piu` in generale, se D e` un dominio qualsiasi di R2 , posso vederlo come la sovrapposizione di rettangolini di area infinitesima (Fig. 6.5), e quindi scrivere:
P ((X, Y ) D) =
fXY (x, y) dx dy ,
D
P (X Y ) =
dy
f (x, y) dx
6.4
Nel caso in cui le variabili aleatorie X ed Y siano entrambi discrete, anziche descriverle in termini di CDF o pdf congiunta, risulta piu` semplice fornire la loro descrizione
134
y
x=y
D = {x y}
x
Fig. 6.6. La probabilit`a che X Y si ottiene integrando la pdf congiunta sul dominio D = {x
y} (regione in grigio).
(6.4)
dove (x, y) X Y.
6.5
Per una coppia di variabili aleatorie (X.Y ), le CDF, pdf e DF congiunte sono dette statistiche congiunte, mentre quelle delle singole variabili aleatorie sono dette statistiche
marginali. Si pone allora il seguente problema: abbiamo visto che non e` possibile ricavare le statistiche congiunte da quelle marginali. Ci chiediamo se sia possibile il
viceversa: in effetti vedremo che e` possibile ricavare le statistiche marginali da quelle
congiunte. Per le CDF si ha, infatti,
FX (x) = FXY (x, +) ,
FY (y) = FXY (+, y) ;
135
fX (x) =
fY (y) =
fXY (x, y) dy ,
fXY (x, y) dx ;
pXY (x, y) ,
yY
pY (y) =
pXY (x, y) .
xX
cio`e lasserto. La seconda relazione per le pdf si ottiene con ragionamento analogo, scambiando i ruoli di
X ed Y .
Infine, per quanto riguarda le DF, il ragionamento e` semplice. Infatti, si ha:
{X = x} = yY {X = x} {Y = y} ,
da cui si ha lasserto, essendo gli eventi a secondo membro mutuamente esclusivi. La seconda relazione
Esempio 6.2. Una coppia di variabili aleatorie (X, Y ) si dicono congiuntamente gaussiane, e si denotano con (X, Y ) N(X , Y , X , Y , ), se la loro pdf congiunta ha le
seguente espressione:
1
1
2
fXY (x, y) =
e 2(1 )
2X Y 1 2
(xX )2
(xX )(yY )
(yY )2
2
+
X Y
2
2
X
Y
(6.5)
136
2
+
= costante
2
X
X Y
Y2
e sono raffigurate in Fig. 6.8 e Fig. 6.9. per due diverse scelte del parametro . Gli assi
maggiori e minori di tali ellissi sono inclinati rispetto allasse x di due angoli 1 ed 2
(che differiscono di /2) e che si ottengono dalla seguente equazione trigonometrica:
tan(2) =
2 X Y
.
2
X
Y2
(6.6)
Manipoliamo la pdf congiunta per scriverla in una forma che consenta la semplice
risoluzione dellintegrale. Si ha
(xX )
(xX )(yY )
(yY )
1
2
+
1
2
2
X Y
2
Y
e 2(1 ) X
fXY (x, y) =
2X Y 1 2
(yY )2
(xX )(yY )
(xX )2
1
1
2
1
2
2
2
2
X Y
=
e 2(1 ) X e 2(1 ) Y
.
2X Y 1 2
2
X)
nellargomento del secondo esponenziaAggiungiamo e sottraiamo la quantit`a (x
2
X
le, cos` da far comparire un quadrato perfetto. Dopo alcune manipolazioni algebriche
si ha:
$
%2
12 (xX )2
2 1 2 yY Y (xX )
1
1
X
e 2X
.
fXY (x, y) =
e 2Y (1 )
X 2
Y 1 2 2
137
0.2
0.1
XY
(x,y)
0.15
0.05
0
3
2
2
0
1
0
2
3
Fig. 6.7. La pdf fXY (x, y) di due variabili aleatorie congiuntamente gaussiane (X, Y )
N(0, 0, 1, 1, 0.5).
Osserviamo che il primo fattore (tra parentesi quadre) rappresenta la pdf di una variabile aleatoria X N(X , X ); per quanto riguarda il secondo, per un fissato valore di x, e` facile verificare
che esso rappresenta la pdf di una variabile aleatoria Y
N(Y + XY (x X ), Y 1 2 ), vale a dire con media Y + XY (x X ) e deviazione
standard Y 1 2 .
Se adesso integriamo la pdf congiunta rispetto ad y per ottenere la pdf marginale fX (x), osserviamo che il secondo fattore, essendo una pdf per ogni valore di x, ha
integrale rispetto ad y unitario. Pertanto, si ha semplicemente:
12 (xX )2
1
e 2X
fXY (x, y) dy =
,
fX (x) =
X 2
138
3
3
3
3
6.6
(x, y) R2 .
(6.7)
139
Come si vede, cos` come nella teoria della probabilit`a elementare lindipendenza tra
eventi si puo` esprimere come fattorizzazione della probabilit`a congiunta, ovvero P (AB) =
P (A) P (B), cos` per le variabili aleatorie lindipendenza si puo` esprimere come fattorizzazione della CDF congiunta nel prodotto delle CDF marginali.
Nel caso di variabili aleatorie discrete, la definizione di indipendenza si puo` dare
direttamente in termini di probabilit`a:
P (X = x, Y = y) = P (X = x) P (Y = y) ,
ovvero in termini di DF, come:
pXY (x, y) = pX (x) pY (y) .
Enunciamo e dimostriamo alcune semplici propriet`a delle variabili aleatorie indipendenti, che sono diretta conseguenza della definizione (6.7).
1. Se X ed Y sono statisticamente indipendenti, allora fXY (x, y) = fX (x)fY (y), (x, y)
R2 (fattorizzazione della pdf congiunta).
I1 I2
fXY (x, y) dx dy =
= P (X I1 ) P (Y I2 ) .
fX (x) dx
I1
fY (y) dy
I2
140
X 2
1
2 2
X
(xX )2
1
2 2
Y
(yY )2
per cui e` facile verificare che essa e` una pdf del tipo gaussiano bidimensionale (6.5), con
= 0. Viceversa, se si hanno due variabili aleatorie X, Y congiuntamente gaussiane e
con = 0, si vede che esse sono indipendenti, in quanto la loro pdf congiunta fXY (x, y)
si fattorizza nel prodotto di due pdf gaussiane monodimensionali. Quindi, sebbene non
ne abbiamo ancora dato una interpretazione rigorosa, intuiamo che misura il grado
di dipendenza tra due variabili aleatorie congiuntamente gaussiane: quando = 0 le
variabili aleatorie sono statisticamente indipendenti; quando || = 1 le due variabili
aleatorie sono massimamente dipendenti.
6.7
141
6.7.1 Trasformazione 21
In questo caso, abbiamo una coppia (X, Y ) di variabili aleatorie, caratterizzate dalle
loro CDF congiunta FXY (x, y) e pdf congiunta fXY (x, y), e a partire da esse costruiamo
una nuova variabile aleatoria Z = g(X, Y ), dove g(x, y) e` una funzione di due variabili.
Vogliamo caratterizzare statisticamente Z, in particolare calcolandone la CDF FZ (z) e la
pdf fZ (z). Il problema formalmente si risolve in maniera semplice, in quanto si ha:
FZ (z) = P (Z z) = P (g(X, Y ) z)
fXY (x, y) dx dy ,
= P ((X, Y ) Dz ) =
(6.8)
Dz
(6.9)
fXY (x, y) dx dy ,
Dz
142
x=zy
xzy
x+y=z
DZ = {x + y z}
DZ
x
xzy
dx
zx
fXY (x, y) dy =
fXY (x, z x) dx =
fXY (z x, x) dx ,
dove lultimo integrale si ottiene con un semplice cambio di variabile. Osserviamo che,
se X ed Y sono indipendenti, allora fXY (x, y) = fX (x) fY (y), e quindi la pdf di Z =
X + Y diventa:
fX (x) fY (z x) dx ,
fZ (z) =
ovvero e` data dal prodotto di convoluzione o semplicemente dalla convoluzione tra le funzioni fX (x) ed fY (y), che si denota sinteticamente con fX fY . Pertanto, la pdf della
somma di due variabili aleatorie indipendenti si ottiene effettuando la convoluzione delle
rispettive pdf.
143
FZ (z) =
dy
zy
fXY (x, y) dx +
dy
fXY (x, y) dx .
zy
y fXY (zy, y) dy
y fXY (zy, y) dy =
1 1 (z2 y2 +y2 )
1 1 [y2 (z2 +1)]
2
|y|
dy =
ye 2
dy =
e
2
0
1 2 2
1
1
y(z 2 + 1) e 2 [y (z +1)] dy =
2
0 z + 1
1 1
d $ 1 [y2 (z2 +1)] %
dy =
e 2
z 2 + 1 0 dy
1 1 $ 1 [y2 (z2 +1)] %y=
e 2
z2 + 1
y=0
1/
,
z2 + 1
cio`e risulta Z Cauchy(1). Pertanto il rapporto X/Y tra due variabili aleatorie gaussiane standard e indipendenti e` una variabile aleatoria di Cauchy.
6.7.2 Trasformazione 22
In questo caso abbiamo una coppia (X, Y ) di variabili aleatorie, caratterizzate dalle loro
CDF congiunta FXY (x, y) e pdf congiunta fXY (x, y), e a partire da esse costruiamo una
nuova coppia di variabili aleatorie (Z, W ), con Z = g(X, Y ) e W = h(X, Y ), dove g(x, y)
e h(x, y) sono funzioni di due variabili. Il problema in tal caso e` quello di determinare la
CDF FZW (z, w) o la pdf congiunta fZW (z, w) di Z e W . E` possibile applicare il seguente
teorema fondamentale sulle trasformazioni di coppie di variabili aleatorie, che generalizza al
caso di coppie di variabili aleatorie il teorema 4.1, valido per trasformazioni di una
singola variabile aleatoria.
3
(x)
f (x, y) dy
(x) x
(x)
(x)
144
z
x
w
x
z
y
w
y
1
.
det[J (x, y)]
R =
X2 + Y 2
,
= tan1 (Y /X)
dove la funzione tan1 (Y /X) (da non confondere con la funzione arctan()), determina univocamente, per ogni valore della coppia (X, Y ), langolo [0, 2[ formato dal
145
y
Y
R
segmento di estremi (0, 0) ed (X, Y ) con il semiasse positivo delle x, misurato in senso antiorario (Fig. 6.12). Se vogliamo ricavare la pdf di (R, ), applicando il teorema
fondamentale 6.1 consideriamo il seguente sistema di equazioni, nelle incognite (x, y):
"
r = x2 + y 2
,
= tan1 (y/x)
che ha se r 0 e [0, 2[ una sola soluzione, data da
"
x = r cos
,
y = r sin
mentre non ha nessuna soluzione se r < 0. Il calcolo della matrice jacobiana, inoltre,
fornisce:
(x, y)
cos r sin
J(r, ) =
=
,
sin r cos
(r, )
e quindi
|J(r, )| = |r| = r 0 .
Si ha allora:
0,
fR (r, ) =
rfXY (r cos , r sin ),
se r < 0;
se r 0;
ovvero:
fR (r, ) = rfXY (r cos , r sin ) u(r) ,
(6.11)
146
Si noti la scelta degli intervalli di integrazione: [0, [ per lintegrale in dr, [0, 2[ per
lintegrale in d, corrispondenti ai valori assunti da R e da , rispettivamente.
Esempio 6.9. Applichiamo i risultati della trasformazione da coordinate cartesiane a
coordinate polari al caso in cui le variabili aleatorie X ed Y siano congiuntamente
gaussiane, ed in particolare siano statisticamente indipendenti ( = 0), a media nulla
(X = Y = 0) e con la stessa deviazione standard (X = Y = ), il che sinteticamente
si denota come (X, Y ) N(0, 0, , , 0).
Per lipotesi di indipendenza, la pdf congiunta fXY (x, y) si scrive semplicemente
come prodotto di due pdf gaussiane marginali a media nulla e con la stessa deviazione
standard:
1
2
2
1
fXY (x, y) =
e 22 (x +y ) .
2
2
Applicando la (6.11), si ha:
fR (r, ) = rfXY (r cos , r sin ) u(r)
1
2
2
2
1
e 22 r (cos ()+sin () u(r)
=r
2
2
2
r
r2
2 u(r) .
=
e
2 2
Se ricaviamo le due pdf marginali, otteniamo per R:
2
2
2
r
r2
2 u(r) dr =
fR (r, ) d =
e
fR (r) =
2 2
0
0
r r22
= 2 e 2 u(r) ,
In pratica, e` possibile utilizzare un unico generatore di numeri pseudo-casuali inizializzato con due
semi differenti.
147
148
149
ma fX (x) = 1 per x [0, 1], e fY (y) = 1 per y [0, 1]. Allora fY (z/w) = 1 se z/w [0, 1],
ovvero se 0 z w. Pertanto, lintervallo di integrazione per w va da z a 1, e quindi
lintegrale si scrive:
fZ (z) =
z
1
dw = [ln w]w=1
w=z = ln z .
w
La pdf di Z e` pertanto:
ln z ,
fZ (z) =
0,
se z [0, 1];
altrove.
150
6.8
Possiamo definire formalmente la media di una variabile aleatoria complessa, applicando la propriet`a di linearit`a. Infatti, se Z = X+jY e` una variabile aleatoria complessa,
si ha:
E(Z) E(X) + jE(Y ) .
Come si vede, la media di Z si esprime attraverso la media di X (reale) e quella di Y
(reale).
Il discorso si complica quando passiamo a definire il valore quadratico medio. In linea di principio, si potrebbe pensare che una definizione appropriata sia E(Z 2 ), tuttavia
se Z e` complesso la quantit`a E(Z 2 ) non e` ne reale ne positiva. Pertanto una definizione appropriata di valor quadratico medio di una variabile aleatoria complessa Z e` la
seguente:
E(|Z|2 ) = E(X 2 + Y 2 ) = E(X 2 ) + E(Y 2 ) .
Anche qui, il valor quadratico medio si ottiene combinando (sommando) i valori quadratici medi di X ed Y .
Infine, per la varianza una definizione appropriata e` , in accordo a quella per il valor
quadratico medio, la seguente:
Var(Z) = E[|Z E(Z)|2 ] = E[(X X )2 ] + E[(Y Y )2 ] = Var(X) + Var(Y ) ,
151
e coincide con la somma delle varianze di X ed Y . Notiamo che vale anche in questo
caso la relazione fondamentale tra varianza, valor quadratico medio e media, che si
scrive:
Var(X) = E(|Z|2 ) |E(Z)|2
Naturalmente, e` possibile definire un qualunque momento di Z, semplicemente
sviluppando lespressione risultante in termini di X ed Y . Ad esempio, per E(Z 2 ) si
ha:
E(Z 2 ) = E[(X + jY )2 ] = E(X 2 ) E(Y 2 ) + 2jE(XY ) .
Come si vede, oltre ai valori quadratici medi di X ed Y , compare anche un momento
congiunto E(XY ) (correlazione) di X ed Y , che introdurremo nel prossimo capitolo.
Esempio 6.13. Data la variabile aleatoria U(0, 2), consideriamo come esempio di
variabile aleatoria complessa la seguente:
Z = ej .
Per lidentit`a di Eulero, si ha anche:
Z = cos() + j sin() ,
per cui possiamo identificare la coppia (X, Y ) come X = cos() e Y = sin(). Il calcolo della media e della varianza di Z si conduce semplicemente applicando il teorema
fondamentale della media. Infatti, si ha:
2
1 j 2
1
E(Z) =
ej
d =
e 0 =0,
2
2j
0
per la periodicit`a (di periodo 2) della funzione ej ; inoltre, banalmente, si ha E(|Z|2 ) =
E(1) = 1, per cui Var(Z) = 1. Si noti, invece, che sempre lapplicazione del teorema
fondamentale della media ci consente di riconoscere che E(Z 2 ) = 0. Infatti:
2
1 j2 2
1
2
E(Z ) =
ej2
d =
e 0 =0,
2
4j
0
stavolta per la periodicit`a (di periodo ) della funzione ej2 .
152
Capitolo 7
Caratterizzazione sintetica di una coppia
di variabili aleatorie
7.1
Introduzione
Nel capitolo 5, abbiamo introdotto i momenti di una singola variabile aleatoria X, tra i
quali la media, la varianza ed il valor quadratico medio sono sicuramente i piu` utilizzati.
Abbiamo visto come attraverso tali momenti sia possibile fornire una caratterizzazione
sintetica della variabile aleatoria X, che non si basa cio`e sulla conoscenza precisa della
sua CDF e pdf. In questo capitolo, vogliamo estendere la definizione di momenti al
caso di coppie (X, Y ) di variabili aleatorie, cos` da poter fornire una caratterizzazione
sintetica anche in questo caso: i momenti associati ad una coppia di variabili aleatorie
prendono il nome di momenti congiunti. Osserviamo peraltro che nel caso di coppie di
variabili aleatorie la caratterizzazione sintetica appare ancora piu` interessante rispetto
al caso di una singola variabile aleatoria, vista la difficolt`a di manipolare, e talvolta di
interpretare, le funzioni (di due variabili) che forniscono la caratterizzazione completa,
quali la CDF, la pdf e la DF congiunta.
7.2
Il primo e fondamentale passo da seguire per definire i momenti congiunti per coppie
di variabili aleatorie e` quello di estendere al caso di una coppia di variabili aleatorie il
teorema fondamentale della media (teorema 5.1), che abbiamo introdotto nel capitolo 5
per una singola variabile aleatoria.
Iniziamo col considerare la trasformazione (cosiddetta 2 1, cfr. 6.7.1) mediante
la quale a partire da una coppia (X, Y ) di variabili aleatorie si ottiene una nuova variabile aleatoria Z = g(X, Y ). Nel precedente capitolo, abbiamo studiato vari metodi per
154
Tuttavia, non e` necessario conoscere la pdf di Z per calcolarne la media, poiche e` sufficiente la conoscenza della pdf congiunta di (X, Y ), come affermato dal seguente teorema, il quale estende il teorema fondamentale della media al caso di coppie di variabili
aleatorie, e che enunciamo senza dimostrazione.
Teorema 7.1 (teorema fondamentale della media per coppie di variabili aleatorie). Sia
Z = g(X, Y ) una trasformazione della coppia di variabili aleatorie (X, Y ) aventi pdf
congiunta fXY (x, y); si ha:
E(Z) = E[g(X, Y )] =
g(x, y) fXY (x, y) dx dy ,
7.3
Sulla base del teorema fondamentale della media, possiamo definire i momenti congiunti
della coppia di variabili aleatorie (X, Y ).
Definizione (momento congiunto di ordine n = k + r). Il momento congiunto (di ordine n = k + r) di una coppia di variabili aleatorie (X, Y )
e` :
k
r
xk y r fXY (x, y) dx dy ,
kr E(X Y ) =
x fX (x) dx = E(X)
=
155
156
7.4
Tra i momenti congiunti di una coppia di variabili aleatorie (X, Y ), quelli piu` utilizzati sono quelli del secondo ordine (n = 2), che vanno sotto il nome di correlazione e
covarianza.
7.4.1 Correlazione
Definizione (correlazione). La correlazione di una coppia di variabili aleatorie
(X, Y ) e` il momento congiunto 11 di ordine n = 2, ovvero:
x y fXY (x, y) dx dy ,
Corr(X, Y ) 11 = E(X Y ) =
Anche qui, come accade per il caso di una singola variabile aleatoria, il discorso e` diverso se si suppone di conoscere tutti i momenti congiunti; in tal caso, sotto opportune ipotesi, e` possibile risalire alla
CDF, pdf o DF congiunta attraverso luso della funzione caratteristica congiunta (si veda ad esempio [3,
7-2])
157
e` vero.
158
Y cos()
(7.1)
dove e` langolo (compreso tra 0 e 2) formato dai due vettori.2 Si trova allora che
tale prodotto scalare e` massimo (in modulo) quando = 0 (vettori allineati e nello
stesso verso) oppure quando = (vettori allineati ma di verso opposto). Viceversa,
il prodotto scalare e` nullo, e quindi minimo in modulo, quando cos() = 0, ovvero per
= /2 o 3/2; in questo caso i vettori X ed Y sono ortogonali. Possiamo allora fornire
la seguente definizione di ortogonalit`a tra due variabili aleatorie X ed Y .
Definizione (ortogonalit`a). Due variabili aleatorie X ed Y si dicono ortogonali
(X Y ) se e solo se:
E(XY ) = 0 ,
ovvero se la loro correlazione e` nulla.
7.4.3 Covarianza
Definizione (covarianza). La covarianza di una coppia di variabili aleatorie
(X, Y ) e` il momento congiunto centrale 11 di ordine n = 2, ovvero:
Cov(X, Y ) 11 = E[(X
X )(Y Y )] =
(x X ) (y Y ) fXY (x, y) dx dy ,
=
(7.2)
Una prima interpretazione della covarianza e` che essa compare naturalmente se proviamo a calcolare la varianza della somma di due variabili aleatorie X ed Y . Infatti si ha,
con semplici passaggi
Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X, Y ) .
2
(7.3)
In realt`a la (7.1) consente di definire langolo tra due vettori sulla base del prodotto scalare, anche
in casi in cui i concetti geometrici non sono direttamente applicabili.
Cov(X, Y )
.
X Y
159
160
Per risolvere tale integrale, conviene decomporre la fXY (x, y) come gi`a fatto nellesempio 6.2, e precisamente come
fXY (x, y) =
X 2
1
2 2
X
(xX )2
Y
1
1
1
2 2 (12 )
Y
yY Y (xX )
%2
Cov(X, Y ) =
(x X )
X 2
(y Y )
1
2 2
X
(xX )2
e
1 2 2
1
2 2 (12 )
Y
yY Y (xX )
%2
(7.5)
dy dx
2 1 2 yY Y (xX )
Y
1
2 (1 )
X
y Y (x X )
dy +
e Y
X
Y 1 2 2
%2
$
2 1 2 yY Y (xX )
Y
1
2 (1 )
X
dy .
+ (x X )
e Y
X
1 2 2
Y
Dei due integrali risultanti, il primo e` nullo per la definizione di media, mentre il secondo e` unitario, per la condizione di normalizzazione della pdf. In definitiva, il risultato
per cui, se le variabili aleatorie sono indipendenti, risulta fXY (x, y) = fX (x) fY (y), e quindi:
E(X Y ) =
x fX (x) dx
y fX (y) dy = E(X) E(Y ) ,
161
162
E` altrettanto ovvio che, viceversa, lincorrelazione non implica lindipendenza: infatti se si fattorizzano le medie (gli integrali), non e` detto che si fattorizzino le pdf (le
funzioni integrande). Una eccezione degna di nota e` il caso delle variabili aleatorie
congiuntamente gaussiane, come mostrato dallesempio che segue.
Esempio 7.2. Siamo (X, Y ) N(X , Y , X , Y , ) due variabili aleatorie congiuntamente gaussiane. Supponiamo che (X, Y ) siano incorrelate, il che equivale alla condizione = 0, poich`e tale parametro e` il coefficiente di correlazione. Se allora si considera
lespressione della pdf bidimensionale gaussiana (6.5) per = 0, si vede che essa si
fattorizza nel prodotto delle pdf marginali di due variabili aleatorie X N(X , X ) e
Y N(Y , Y ), per cui X ed Y sono statisticamente indipendenti.
Unaltra propriet`a interessante delle variabili aleatorie incorrelate e` che risulta
Var(X + Y ) = Var(X) + Var(Y ) ,
ovvero la varianza della somma e` pari alla somma delle varianze. Tale risultato si
ottiene banalmente dalla (7.3) ponendovi Cov(X, Y ) = 0.
Notiamo infine che, nonostante una terminologia poco felice, non bisogna confondere i concetti di ortogonalit`a ed incorrelazione: lortogonalit`a corrisponde allannullarsi
della correlazione, lincorrelazione corrisponde allannullarsi della covarianza o del coefficiente di correlazione. Stante la relazione (7.2), ortogonalit`a e incorrelazione coincidono se
almeno una delle due variabili aleatorie e` a media nulla. Inoltre, dire che X ed Y sono
incorrelate equivale a dire che le variabili centrate X X e Y Y sono ortogonali.
7.5
163
(7.6)
(7.7)
Il criterio di stima a minimo errore quadratico medio (MMSE) consiste nel determinare lo
stimatore che minimizza lerrore quadratico medio; nel caso di stima lineare, si tratta
semplicemente di determinare i parametri a e b che minimizzano lerrore quadratico
medio. Si ha:
a = XY
Y
,
X
(7.8)
b = Y X XY
Y
.
X
(7.9)
Prova. Si consideri lerrore quadratico medio (7.7): sostituendo lespressione dello stimatore data dalla
(7.6) nella (7.7) si trova:
MSE = E[(Y aX b)2 ] .
Per determinare i valori di a e b che rendono minimo lMSE, si calcolano le derivate parziali dellMSE
rispetto ad a e b e si eguagliano a zero (derivando sotto il segno di media):
MSE =
a
MSE =
b
2E[(Y aX b)X] = 0 ,
2 E[(Y aX b)] = 0 ,
= E(XY )
= E(Y )
Y
Y
X + Y X XY
= Y
X
X
164
Y
.
X
Y-Y
=aX
Y
165
Y-Y
=aX
Y
Fig. 7.1. Principio di ortogonalit`a: lerrore quadratico medio (MSE) rappresenta la norma del
vettore Y Y (a sinistra); al variare di a, il valore minimo dellMSE si ottiene quando il vettore
Y Y e` ortogonale ad X (a destra).
= E(Y ) E(Y Y ) =
2
=0
2
Y [1
(7.10)
2XY ] ,
che e` lo stesso valore trovato per il caso b = 0, e per il quale valgono le stesse considerazioni, adesso suscettibili di una chiara interpretazione geometrica. Infatti, se osserviamo
166
Capitolo 8
Vettori di variabili aleatorie
8.1
Introduzione
Abbiamo visto nel capitolo 6 come descrivere probabilisticamente una coppia di variabili aleatorie X ed Y . Tuttavia, e` evidente che esistono casi in cui si presenta la necessit`a
di descrivere congiuntamente piu` di due variabili aleatorie. Ad esempio, un insieme di
misure di tensione effettuate su un circuito elettrico potrebbe essere rappresentato da
una n-pla di variabili aleatorie, in cui X1 rappresenta la tensione nel punto 1, X2 rappresenta la tensione nel punto 2, e cos` via. Allo stesso modo, unanalisi medica volta
a individuare una malattia potrebbe essere modellata come una n-pla di variabili aleatorie, in cui X1 rappresenta il livello di glucosio del sangue, X2 il livello di azoto, e cos`
via. E` necessario allora introdurre gli strumenti matematici per caratterizzare statisticamente n variabili aleatorie, con n > 2. Fortunatamente, vedremo che la maggior parte
dei concetti necessari si ottengono generalizzando semplicemente definizioni e risultati
gi`a ottenuti per il caso di coppie di variabili aleatorie.
In alcuni casi, poi, interessa studiare il comportamento limite o asintotico di n variabili
aleatorie quando si faccia tendere n allinfinito, ottenendo cos` una sequenza di variabili
aleatorie. I principali risultati sono raccolti nei cosiddetti teoremi limite (legge dei grandi
numeri e teorema limite fondamentale o CLT), sulla base dei quali e` tra laltro possibile approfondire il legame tra la teoria assiomatica della probabilit`a e linterpretazione
frequentista.
8.2
Sia (, B, P ) uno spazio di probabilit`a, e siano X1 , X2 , . . . , Xn n variabili aleatorie costruite su tale spazio. Per adoperare una notazione sintetica, possiamo organizzare le n
168
dove (x1 , x2 , . . . , xn ) R .
La CDF congiunta e` una funzione reale di n variabili reali, e spesso viene denominata
CDF di ordine n. Per adoperare una notazione sintetica, possiamo utilizzare una notazione vettoriale anche per i valori x1 , x2 , . . . , xn , ponendo x = [x1 , x2 , . . . , xn ], e denotare la CDF congiunta con FX (x). Va notato che, poiche la rappresentazione grafica di
una funzione di n variabili avviene in uno spazio (n + 1)-dimensionale, per n > 2 tale
rappresentazione e` praticamente impossibile.
n
FX1 X2 Xn (x1 , x2 , . . . , xn ) .
x1 x2 xn
In questo capitolo, faremo sovente uso di nozioni elementari di algebra lineare, quali vettori, matrici,
prodotti matrici-vettori, etc; si assume pertanto che il lettore abbia familiarit`a con tali concetti.
fX (u) du .
FX (x) =
dove abbiamo utilizzato una notazione sintetica per lintegrale n-plo. Pertanto la pdf ha
volume unitario nello spazio n-dimensionale.
169
170
Ponendo pari a + uno o piu` argomenti della CDF, e` poi possibile ottenere tutte
le statistiche di ordine k < n a partire da quelle di ordine n. Consideriamo, ad esempio, il caso di tre variabili aleatorie X1 , X2 , X3 , caratterizzate dalla loro CDF congiunta
FX1 X2 X3 (x1 , x2 , x3 ). E` facile verificare che si ha, ad esempio:
FX1 X2 (x1 , x2 ) = FX1 X2 X3 (x1 , x2 , +) ,
FX1 (x1 ) = FX1 X2 X3 (x1 , +, +) .
E` possibile procedere analogamente con le pdf, semplicemente integrando rispetto alle
variabili che non interessano. Le relazioni precedenti si scrivono, in termini di pdf,
come:
fX1 X2 X3 (x1 , x2 , x3 ) dx3
fX1 X2 (x1 , x2 ) =
fX1 (x1 ) =
fX1 X2 X3 (x1 , x2 , x3 ) dx2 dx3
Analoghe relazioni valgono per le DF, per le quali, anziche integrare rispetto alle variabili che non interessano, si effettua la somma.
In definitiva, osserviamo che assegnare le CDF, pdf o DF congiunte di ordine n
equivale ad assegnare implicitamente tutte le CDF, pdf e DF congiunte di ordine k < n.
8.3
Generalizzamo adesso i concetti gi`a presentati per il caso di una e due variabili aleatorie, considerando trasformazioni di n variabili aleatorie. Il caso piu` generale e` che
possiamo considerare e` quello in cui, a partire da un vettore di n variabili aleatorie X =
171
[X1 , X2 , . . . , Xn ]T , si ottiene un vettore di k variabili aleatorie Y = [Y1 , Y2 , . . . , Yk ]T , utilizzando k funzioni g1 , g2 , . . . , gk di n variabili. Tale trasformazione di variabili aleatorie
si esprime esplicitamente come:
Y1 = g1 (X1 , X2 , . . . , Xn )
Y2 = g2 (X1 , X2 , . . . , Xn )
.
.. ..
..
.
.
.
Y = g (X , X , . . . , X )
k
Y1 = g1 (X1 , X2 , . . . , Xn )
Y2 = g2 (X1 , X2 , . . . , Xn )
.
.. ..
..
.
.
.
Y = g (X , X , . . . , X )
n
n
1
2
n
172
y1 = g1 (x1 , x2 , . . . , xn )
y2 = g2 (x1 , x2 , . . . , xn )
.
.. ..
..
.
.
.
y = g (x , x , . . . , x )
n
n 1
2
n
La pdf congiunta di Y e` data da:
0,
fY1 Y2 Yn (y1 , y2 , . . . , yn ) =
fX X X (xi , xi , . . . , xi )
n
1 2
1
2
n
i
i
i
|det[J (x1 , x2 , . . . , xn ))]|
i
in cui det() denota il determinante, e
J (x1 , x2 , . . . , xn ) =
(8.1)
x1
y2
x1
y1
x2
y2
x2
...
...
y1
xn
y2
xn
yn
x1
yn
x2
...
yn
xn
y1
(y1 , y2 , . . . , yn )
=
(x1 , x2 , . . . , xn ) ...
..
.
..
.
. .
.
Y = a X + a X + ...a X
n
n1
n2
nn
A = ..
..
.. .
.
.
.
an1 an2 . . . ann
173
1
fX (A1 y) ,
|det(A)|
dove y = [y1 , y2 , . . . , yn ] Rn .
8.4
(8.2)
174
Y1 = g1 (X1 )
Y2 = g2 (X2 )
.. ..
..
. .
.
Y = g (X )
n
n
n
e le variabili aleatorie X1 , X2 , . . . , Xn sono indipendenti, allora sono indipendenti anche
le variabili aleatorie Y1 , Y2 , . . . , Yn . La prova e` semplice e ricalca quella per il caso di due
variabili (cfr. 6.6).
Anche per le variabili aleatorie, cos` come per gli eventi (cfr. 2.3.1), si puo` definire
il concetto di indipendenza a coppie.
Definizione (variabili aleatorie indipendenti a coppie). Le variabili aleatorie
X1 , X2 , . . . , Xn si dicono indipendenti a coppie se
FXi Xj (xi , xj ) = FXi (xi ) FXj (xj ) ,
i = j
(xi , xj ) R2 .
E` evidente che lindipendenza implica sempre lindipendenza a coppie, mentre il viceversa non e` vero. E` possibile anche definire lindipendenza tra gruppi di variabili
aleatorie appartenenti ad un vettore X.
175
(8.3)
i {1, 2, . . . , n} .
In altri termini, variabili aleatorie identicamente distribuite sono caratterizzate dallavere la stessa CDF del primo ordine (ad esempio, sono tutte gaussiane con la stessa media
e la stessa varianza). Spesso si considerano n variabili aleatorie che sono sia indipendenti sia identicamente distribuite; in tal caso si parla di variabili aleatorie indipendenti ed
identicamente distribuite (iid). Si noti che per caratterizzare completamente n variabili iid
e` sufficiente assegnare la CDF del primo ordine F (x), che e` la stessa per tutte le variabili.
Infatti, data lindipendenza, qualsiasi CDF di ordine k > 1 si ottiene moltiplicando tra
loro k CDF del primo ordine.
8.5
Il punto di partenza per definire i momenti di n variabili aleatorie e` introdurre la generalizzazione del teorema fondamentale della media.
Teorema 8.2 (teorema fondamentale della media per n variabili aleatorie). Sia Z =
g(X1 , X2 , . . . , Xn ) una trasformazione delle variabili aleatorie X1 , X2 , . . . , Xn aventi pdf
congiunta fX1 X2 Xn (x1 , x2 , . . . , xn ); si ha:
E(Z) = E[g(X1 , X2 , . . . , Xn )] =
=
(8.4)
176
k=1
k=1
n
Xi ,
i=1
n
E(Xi ) = n p ,
i=1
177
per i = 1, 2, . . . , n, e raccoglierle in un vettore colonna X [X1 , X2 , . . . , Xn ]T . Tale vettore prende il nome di vettore delle medie, e formalmente possiamo scrivere X =
E(X), dove per media di un vettore intendiamo loperatore che calcola la media di ciascuna componente del vettore, restituendo un vettore di uguale dimensione. Notiamo
che, per calcolare il vettore delle medie, non e` necessario conoscere la pdf di ordine n,
ma e` sufficiente conoscere la pdf del primo ordine di ciascuna componente del vettore.
Questo e` in accordo con il fatto che la media e` un momento del primo ordine.
(8.5)
178
n
ak Xk = aT X ,
(8.6)
k=1
a Rn ,
che si esprime dicendo che la matrice RX e` semidefinita positiva. Se vale la disuguaglianza stretta, ovvero se aT RX a > 0, a Rn {0}, allora la matrice RX e` definita positiva.
Si noti che la differenza tra i due casi e` la seguente: se la matrice e` solo semidefinita
positiva, allora esiste un valore di a = 0 tale che la forma quadratica aT RX a = 0. Poich`e
tale forma quadratica coincide con il valor quadratico medio della combinazione lineare (8.6), allora una condizione sufficiente affinch`e cio` accada e` che le variabili aleatorie
siano linearmente dipendenti, cio`e che esista un vettore a di coefficienti non tutti nulli tali
che:
Y = a1 X1 + a2 X2 + . . . + an Xn = 0 .
In questo caso, allora, almeno una variabile aleatoria puo` essere espressa come combi
nazione lineare delle restanti. Viceversa, se risulta E[( nk=1 ak Xk )2 ] > 0 per ogni a = 0,
le variabili si diranno linearmente indipendenti, e la loro matrice di correlazione sar`a definita positiva. Si puo` dimostrare che una matrice definita positiva e` di rango pieno, e
quindi e` invertibile, mentre una matrice semidefinita positiva non ha tale propriet`a.
179
(8.7)
8.5.4 Incorrelazione
Concludiamo questa sezione estendendo il concetto di incorrelazione ad un vettore di
variabili aleatorie.
Definizione (incorrelazione). Le variabili aleatorie X1 , X2 , . . . , Xn si dicono
incorrelate se Cov(Xi , Xj ) = 0, i = j.
180
i=1
i=1
i=1
i=1 j=1
i=1 j=1
Se le variabili aleatorie sono incorrelate, allora Cov(Xi , Xj ) = 0 per i = j, mentre Cov(Xi , Xi ) = Var(Xi );
in tal caso, la doppia sommatoria si riduce ad una singola sommatoria, per cui si ha lasserto.
Esempio 8.3 (varianza di una variabile aleatoria binomiale). Come applicazione del precedente risultato, osserviamo che la varianza di una variabile aleatoria X B(n, p) e` pari
a Var(X) = n p q, dove q = 1 p. Infatti, una variabile aleatoria binomiale si puo` esprimere (cfr. esempio 8.2) come somma di n variabili aleatorie bernoulliane Xi indipendenti: poich`e lindipendenza implica lincorrelazione, tali variabili aleatorie bernoulliane saranno anche incorrelate, e quindi, poiche la varianza di una variabile aleatoria
Xi Bern(p) e` pari a Var(Xi ) = p q, si ha:
, n
n
Var(X) = Var
Xi =
Var(Xi ) = n p q .
i=1
i=1
Esempio 8.4 (n variabili aleatorie congiuntamente gaussiane). Un esempio particolarmente interessante di n variabili aleatorie e` la generalizzazione del concetto di coppie di
variabili aleatorie congiuntamente gaussiane al caso n-dimensionale. Le variabili aleatorie X = [X1 , X2 , . . . , Xn ]T si diranno congiuntamente gaussiane se la loro pdf congiunta
ammette la seguente espressione:
1
1
1
T
fX (x) =
exp (x X ) C X (x X ) ,
(8.8)
(2)n/2 det(C X )1/2
2
181
X 2
1
2 2
X
(xX )2
Per n = 2, possiamo porre X = [X, Y ]T , X = [X , Y ]T , mentre la matrice di covarianza e` una matrice 2 2, data da
2
X
Cov(X, X) Cov(X, Y )
X Y
,
CX =
=
X Y
Y2
Cov(Y, X) Cov(Y, Y )
per cui la sua inversa si calcola facilmente come:
1
Y2
1
CX =
det(C X ) X Y
X Y
2
X
,
2 2
dove det(C X ) = X
Y (12 ). Sostituendo lespressione di C X , dellinversa e del determinante nella (8.8), si ottiene una pdf bidimensionale di tipo gaussiano, come espressa
dalla (6.5).
Piu` in generale, si puo` mostrare che se n variabili aleatorie sono congiuntamente
gaussiane, allora qualsiasi sottoinsieme composto da k < n tra queste variabili aleatorie
sono ancora congiuntamente gaussiane. In particolare, X1 e` marginalmente gaussiana, di
parametri X1 e X1 , ed analogamente per X2 , X3 , . . . , Xn . Notiamo che il viceversa non
e` vero: n variabili aleatorie marginalmente gaussiane non sono necessariamente anche
congiuntamente gaussiane, salvo nel caso in cui siano statisticamente indipendenti.
Unaltra importante propriet`a delle variabili aleatorie congiuntamente gaussiane e`
la seguente: se n variabili aleatorie congiuntamente gaussiane sono incorrelate, allora
esse sono statisticamente indipendenti. Questo e` un risultato che non vale in generale,
ma solo nel caso gaussiano; infatti lindipendenza in generale e` una propriet`a piu` forte
dellincorrelazione, nel senso che lindipendenza implica lincorrelazione, ma non vale
il viceversa.
182
exp 2 (x Xi ) ,
exp
=
fX (x) =
n
2
2 i=1
X
2Xi
(2)n/2 i=1 Xi
2
i
i=1 Xi
cio`e al prodotto delle pdf marginali, per cui le X1 , X2 , . . . , Xn sono indipendenti.
Probabilmente la propriet`a piu` importante delle variabili aleatorie congiuntamente gaussiane e` la chiusura rispetto alle trasformazioni lineari, nel senso che una trasformazione
lineare trasforma vettori gaussiani in vettori gaussiani. Sia X un vettore gaussiano, e
consideriamo la trasformazione lineare (non omogenea)
Y = AX + b ,
dove A e` una matrice quadrata nn, invertibile, e b e` un vettore colonna n-dimensionale.
Il calcolo della pdf di Y si ottiene facilmente applicando il teorema fondamentale sulle
trasformazioni (si noti che questa e` una generalizzazione dellesempio 8.1). La soluzione
del sistema numerico y = Ax + b e` unica, ed e` data da:
x = A1 (y b) ,
mentre la matrice jacobiana J della trasformazione e` pari ad A, per cui la pdf del vettore
Y si scrive come:
fY (y) =
1
fX [A1 (y b)] .
|det(A)|
(8.9)
8.6
183
n
n k=1
n
Si ha:
n | < ) = 1 ,
lim P (|
> 0 .
(8.10)
E(
n ) =
k=1
inoltre, sfruttando le propriet`a della varianza e lipotesi di indipendenza (che implica lincorrelazione), si
ha:
Var(
n ) =
n
1
1
2
2
.
Var(X
)
=
n
=
k
n2
n2
n
k=1
Var(
n )
2
=
1
2
n 2
Al tendere di n si ha P (|
n | < ) 1 e quindi necessariamente P (|
n | < ) = 1.
Dal punto di vista matematico, il teorema3 afferma in sostanza che la probabilit`a di avere
n converge
Il teorema e` stato enunciato e dimostrato per la prima volta dal matematico svizzero J. Bernoulli
(16541705) nel trattato Ars Conjectandi.
184
185
Teorema 8.4 (legge forte dei grandi numeri). Siano X1 , X2 , . . . , Xn variabili aleatorie indipendenti, aventi la stessa media E(Xk ) = e la stessa varianza Var(Xk ) = 2 < , e
si consideri la variabile aleatoria
1
Xk .
n
n k=1
n
Si ha:
P
lim |
n | < = 1 ,
> 0 .
(8.11)
La tesi (8.11) della legge forte dei grandi numeri (per una dimostrazione si veda ad
esempio [1]) sembra quasi identica a quella della legge debole, ma fondamentale e` lo
scambio tra loperazione di limite e la probabilit`a (si confrontino la (8.10) e la (8.11)) La
convergenza definita dalla (8.11) e` un tipo di convergenza piu` forte della convergenza
in media quadratica o in probabilit`a, e prende il nome di convergenza con probabilit`a 1 o
convergenza quasi certa. E` altres` interessante notare che la legge forte dei grandi numeri
vale nelle stesse ipotesi della legge debole.
Le leggi dei grandi numeri (sia la versione forte che quella debole) descrivono il
comportamento della media aritmetica di n variabili aleatorie al divergere di n. E` tuttavia semplice verificare che tali leggi possono applicarsi anche per dimostrare che la
frequenza di successo di un evento A in n prove indipendenti e ripetute sotto identiche
condizioni tende alla probabilit`a p = p(A) dellevento al divergere di n (si noti che questo
problema e` esattamente quello delle prove ripetute, affrontato nel 2.4.2). Per mostrare
` e` sufficiente associare, ad ogni ripetizione dellesperimento, la variabile aleatoria
cio,
indicatrice dellevento A, definita come:
1, se A si verifica nella k-esima ripetizione;
Xk =
0, altrimenti.
E` chiaro che le variabili aleatorie cos` definite sono Xk Bern(p), e inoltre sono iid. Si
ha, per le propriet`a delle variabili aleatorie bernoulliane:
E(Xk ) = p ,
Var(Xk ) = p q .
Osserviamo che in questo caso la media aritmetica delle variabili aleatorie X1 , X2 , . . . , Xn ,
ovvero
1
Xk
pn =
n k=1
n
186
E(
pn ) = p ,
pq
;
Var(
pn ) =
n
(8.13)
per cui possiamo affermare che pn e` uno stimatore non polarizzato e consistente della
probabilit`a p.
Poich`e ci troviamo esattamente nelle ipotesi delle leggi dei grandi numeri, possiamo
affermare che pn tende a p, al divergere di n, sia in probabilit`a (legge debole) che con probabilit`a 1 (legge forte). Questo risultato e` di grande importanza, in quanto costituisce il
legame tra la teoria assiomatica della probabilit`a e linterpretazione frequentista.
Esempio 8.5. Unapplicazione estremamente importante della legge dei grandi numeri e` la seguente. Supponiamo di voler stimare la probabilit`a p con una certa affidabilit`a:
sappiamo che per n laffidabilit`a puo` essere migliorata a piacere, ma vogliamo
avere unindicazione su quale devessere il valore effettivo di n per avere un determinato livello di affidabilit`a. Come misura di affidabilit`a potremmo prendere la varianza
(8.13) dello stimatore pn ; tuttavia notiamo che una misura assoluta non ha molto senso, mentre e` piu` significativo considerare una misura relativa, ottenuta normalizzando
la varianza al valore da stimare. Piu` precisamente, poiche la varianza e` un momento
quadratico, e` opportuno normalizzare la sua radice (la deviazione standard) alla media
dello stimatore, in modo da avere due quantit`a dimensionalmente omogenee. Si ottiene
cos` la seguente misura di qualit`a, denominata coefficiente di variazione di pn :
Var(
pn )
=
.
E(
pn )
Sostituendo i valori, si trova:
=
pq
n
=
q
=
np
1p
.
np
Un caso tipico e` quello in cui levento A e` poco probabile, ovvero p 1, per cui
possiamo approssimare nella precedente 1 p 1 e scrivere:
1
.
np
Se allora imponiamo che il coefficiente di variazione sia 0.1, che corrisponde ad un
errore relativo del 10%, troviamo:
n=
100
,
p
(8.14)
187
cio`e il numero di prove deve eccedere di due ordini di grandezza linverso della probabilit`a da stimare. Ad esempio, se p = 102 , allora n = 104 , e cos` via.
Un problema che puo` sorgere in pratica e` il seguente: poich`e non conosciamo in
anticipo p, come facciamo a determinare a priori il numero di prove da effettuare? Osserviamo che se effettuiamo n prove, e levento A si verifica k volte, allora pn = nk .
Sostituendo pn in luogo di p nella (8.14), troviamo k = 100. Questo significa che per
avere laffidabilit`a desiderata levento A si deve verificare almeno 100 volte. Pertanto,
sebbene non sappiamo calcolare a priori il numero di prove da effettuare, abbiamo una
condizione di arresto del nostro algoritmo: ripetere lesperimento finche levento A
non si e` verificato 100 volte.
Var(
n )
2
=
.
2
n 2
(8.15)
Tuttavia nel 5.5 abbiamo verificato che la disuguaglianza di Chebishev fornisce risultati anche assai lontani dal vero, cio`e non e` una disuguaglianza stretta. Per una valutazione piu` accurata della probabilit`a (8.15), allora, bisogna necessariamente conoscere
la pdf di
n , eventualmente per valori elevati di n. La determinazione di tale pdf e`
loggetto proprio dal teorema limite fondamentale,4 che fornisce un risultato per certi versi
sorprendente: la pdf di
n , per n , tende a diventare gaussiana, indipendentemente dalle pdf delle variabili aleatorie X1 , X2 , . . . , Xn . Cio` giustifica lenfasi che abbiamo
dato alle variabili aleatorie gaussiane durante tutta la nostra trattazione.
Teorema 8.5 (teorema limite fondamentale). Siano X1 , X2 , . . . , Xn variabili aleatorie indipendenti, aventi la stessa media E(Xk ) = e la stessa varianza Var(Xk ) = 2 < , e
si consideri la variabile aleatoria
n
1
n
Xk
n k=1
4
In inglese, tale teorema viene denominato Central Limit Theorem (CLT), che spesso viene tradotto
come teorema del limite centrale. Tale terminologia e` quella adottata in quasi tutti i testi italiani di
probabilit`a e statistica.
188
n E(
.
Zn =
Var(
n )
Detta FZn (x) la CDF di Zn , si ha:
1
lim FZn (x) = G(x) =
n
2
u2
2
du .
Notiamo anche che la formulazione precedente del teorema e` una formulazione integrale, perch`e
riguarda la CDF che si puo` esprimere come un integrale; vedremo successivamente poi che e` possibile
darne anche una formulazione locale, con riferimento cio`e alla pdf.
189
quanto risulta Sn B(n, p), cio`e e` una variabile aleatoria binomiale. Poich`e E(Xk ) = p
e Var(Xk ) = p q, allora E(Sn ) = n p e Var(Sn ) = n p q, per cui la variabile aleatoria
normalizzata si scrive:
Sn n p
.
Zn =
npq
Se allora vogliamo calcolare la probabilit`a che k1 Sn k2 , per n sufficientemente
grande, possiamo scrivere:
Sn n p
k2 n p
k1 n p
=
P (k1 Sn k2 ) = P
n
p
q
n
p
q
n
p
q
k2 n p
k1 n p
=G
G
,
npq
npq
cio`e ritroviamo il teorema di de Moivre-Laplace (cfr. 2.4.3) nella forma integrale, che
adesso possiamo riguardare come una semplice applicazione del teorema limite fondamentale alla somma di n variabili aleatorie bernoulliane.
Come accennato precedentemente, e` possibile anche fornire una formulazione locale del
teorema limite fondamentale. Nelle stesse ipotesi gi`a enunciate per la formulazione
integrale, con in piu` lassunzione che le variabili aleatorie X1 , X2 , . . . , Xn siano continue,
si puo` mostrare che la variabile aleatoria Zn ha, per n , ha la pdf di una variabile
aleatoria Z N(0, 1) (normale standard), ovvero:
x2
1
lim fZn (x) = e 2
n
2
Per variabili aleatorie discrete, la pdf e` una somma di impulsi di Dirac, per cui
non puo` convergere ad una pdf ordinaria, qual e` la distribuzione gaussiana. Tuttavia, per variabili aleatorie discrete di tipo reticolare, che assumono cio`e i valori a + bk,
con a, b R e k K Z, vale un risultato molto interessante. Infatti, osserviamo
che se X1 , X2 , . . . , Xn sono variabili aleatorie di tipo reticolare, anche la loro somma
Sn = nk=1 Xk e` di tipo reticolare, in quanto puo` assumere i valori n a + b k. Nellipotesi che le X1 , X2 , . . . , Xn siano statisticamente indipendenti, con medie k = E(Xk ) e
varianze Var(Xk ) = k2 < , posto E(Sn ) = nk=1 k e 2 Var(Sn ) = nk=1 k2 , si
ha:
1
2
1
lim P (Sn = a + b k) = e 2 2 (a+b k)
n
2
(8.16)
per cui in pratica la DF, nei punti x = a + b k, puo` essere approssimata dai campioni di
una pdf gaussiana, avente media e varianza uguali a quelle di X.
190
(knp)2
1
e 2npq
2 n p q
che esprime proprio il teorema di de Moivre-Laplace nella forma locale (cfr. equazione
(2.7)).
In conclusione, qualche considerazione critica dellutilit`a pratica del teorema limite fondamentale. In primo luogo, notiamo che la bont`a dellapprossimazione gaussiana, per
n finito, non e` quantificabile a priori, e dipende criticamente dalla distribuzione delle
variabili aleatorie X1 , X2 , . . . , Xn . Cio` nonostante, nel passato anche recente il teorema
limite fondamentale era ampiamente utilizzato nelle applicazioni, in quanto il calcolo della pdf di un gran numero di variabili aleatorie risultava un problema matematicamente poco trattabile. Al giorno doggi, la disponibilit`a di calcolatori sempre piu`
veloci ha reso tale problema relativamente semplice da affrontare con tecniche numeriche, per cui lutilit`a pratica del teorema limite fondamentale e` diminuita. Tuttavia, per
motivi teorici, esso resta uno dei risultati piu` importanti e noti dellintera teoria della
probabilit`a.
Capitolo 9
Distribuzioni e medie condizionali
9.1
Introduzione
La CDF, sia essa di una singola variabile aleatoria, di una coppia di variabili aleatorie, o
piu` in generale di un vettore di variabili aleatorie, rappresenta in ultima analisi la probabilit`a di un evento, semplice o composto. Poich`e la probabilit`a condizionale definita
nel capitolo 2 e` una valida legge di probabilit`a, ci chiediamo se sia possibile definire
valide CDF anche in termini di probabilit`a condizionali. La risposta e` affermativa, e
conduce allintroduzione delle cosiddette distribuzioni condizionali (CDF, pdf e DF). Tali
distribuzioni condizionali1 consentono di approfondire le relazioni esistenti tra variabili
aleatorie ed eventi dello spazio campione su cui sono definite, nonche le relazioni esistenti tra le variabili aleatorie stesse. Ovviamente, a tali distribuzioni condizionali sono
associati i corrispondenti momenti, cosiddetti momenti condizionali, la cui definizione si
basa sul concetto fondamentale di media condizionale.
9.2
P (AB)
.
P (B)
192
f(x|B)
area =1/3
1
2/3
1/3
20
40
60
20
40
60
Definizione (CDF condizionale di una variabile aleatoria). Sia X una variabile aleatoria definita su uno spazio di probabilit`a (, B, P ), e sia B un evento
di , con P (B) = 0. La CDF condizionale di X dato levento B e` :
F (x|B) P (X x|B) =
P (X x, B)
.
P (B)
Osserviamo subito che, poiche la probabilit`a condizionale e` una valida legge di probabilit`a, ne consegue che la CDF condizionale e` una valida CDF, e pertanto gode di tutte le
propriet`a caratteristiche della CDF di una variabile aleatoria (cfr. 3.2.1). In particolare,
essa e` una funzione continua da destra, e si ha:
1. F (+|B) = 1, F (|B) = 0;
2. P (x1 < X x2 |B) = F (x2 |B) F (x1 |B) =
P (x1 < X x2 , B)
.
P (B)
Per denotare che la CDF condizionale di una variabile aleatoria, dato B, e` F (x|B), si
scrive X|B F (x|B).
Esempio 9.1. Consideriamo lo spazio = {1 , 2 , . . . , 6 } (lancio di un dado) e la
variabile aleatoria
X(i ) = 10 i ,
che abbiamo gi`a considerato nellesempio 3.7. Sia B = {pari} = {2 , 4 , 6 } e calcolia-
193
mo la F (x|B). Si ha:
x < 20 {X x} B = F (x|B) = 0 ;
1/6
= 1/3 ;
1/2
1/3
40 x < 60 {X x} B = {2 , 4 } F (x|B) =
= 2/3 ;
1/2
1/2
x 60 {X x} B = {2 , 4 , 6 } F (x|B) =
=1;
1/2
20 x < 40 {X x} B = {2 } F (x|B) =
per cui la CDF condizionale F (x|B) e` costante a tratti ed e` mostrata in Fig. 9.1.
d
F (x|B) .
dx
Valgono per la pdf condizionale considerazioni analoghe a quelle per la CDF condizionale: poich`e essa e` a tutti gli effetti una pdf, gode di tutte le propriet`a della pdf (cfr.
3.3.1). In particolare, essa gode della propriet`a di normalizzazione, cio`e si ha
f (x|B) dx = 1 .
1
1
1
(x 20) + (x 40) + (x 60) ,
3
3
3
194
1/3
20
40
60
p(x|B) = P (X = x|B) =
La variabile aleatoria X assume valori in X = {10, 20, 30, 40, 50, 60}; si verifica immediatamente che per x = 10, 30, 50 (corrispondenti a risultati dispari dellesperimento)
risulta P (X = x, B) = 0, mentre per x = 20, 40, 60 (corrispondenti a risultati pari) si ha:
P (X = x, B) = P (X = x) =
e quindi in definitiva la DF cercata e` :
p(x|B) =
1
3
,
0,
1
,
6
P {X x, X a}
.
P {X a}
Se x a, allora {X x, X a} = {X a} e quindi
F (x|B) =
P {X a}
=1.
P {X a}
P {X x}
F (x)
=
.
P {X a}
F (a)
F (x) , x < a ;
F (x|X a) = F (a)
1,
xa.
f (x) , x < a ;
f (x|X a) = F (a)
0,
xa.
1
F (a ) = 1 = F (a+ |B)
F (a)
per lipotesi di continuit`a di F (x). Pertanto, F (x|B) e` continua e quindi la pdf condizionale non contiene impulsi. Piu` in generale, bisogna applicare qualche cautela nella
derivazione, per non ignorare possibili discontinuit`a della CDF.
195
196
P (X x, a < X b)
.
P (a < X b)
P (a < X b)
=1.
P (a < X b)
F (x) F (a)
P (a < X x)
=
.
P (a < X b)
F (b) F (a)
F (x|a < X b) =
0,
F (x)F (a)
,
F (b)F (a)
1,
xa;
a<xb;
x>b.
f (x|a < X b) =
0,
f (x)
,
F
(b)F
(a)
0,
xa;
a<xb;
x>b.
Anche qui, i punti x = a e x = b potrebbero essere di discontinuit`a per la CDF condizionale. Tuttavia, nellipotesi che F (x) sia continua, e` facile verificare che anche F (x|B) lo
e` , e quindi nella pdf condizionale non compaiono impulsi di Dirac.2
In realt`a, calcolando i limiti da destra, si pu`o facilmente verificare che la CDF condizionale e` continua in x = a anche se la variabile aleatoria X non e` continua; viceversa, lipotesi di X continua e`
indispensabile per garantire la continuit`a in x = b.
n
P (B|Ai ) P (Ai ) .
i=1
n
F (x|Ai ) P (Ai ) ,
i=1
n
f (x|Ai ) P (Ai ) .
i=1
n
p(x|Ai ) P (Ai ) .
i=1
Esempio 9.6 (variabili aleatorie di tipo mixture). Supponiamo di voler modellare la seguente situazione: abbiamo una famiglia di dispositivi, che possono essere suddivisi
in due classi: la classe A1 rappresenta dispositivi a bassa affidabilit`a, mentre la classe
A2 = A1 rappresenta dispositivi ad alta affidabilit`a. Supponiamo che il tempo di vita
dei dispositivi appartenenti alla prima classe sia modellabile come una variabile aleatoria X|A1 Exp(1 ), mentre il tempo di vita dei dispositivi appartenenti alla seconda
classe sia modellabile come una variabile aleatoria X|A2 Exp(2 ). Poich`e la media
di una variabile aleatoria X Exp() e` pari a 1/, allora deve risultare 1/1 < 1/2 , e
quindi 1 > 2 , perche abbiamo supposto che la classe A1 abbia affidabilit`a piu` bassa.
La variabile aleatoria X che descrive il tempo di vita (laffidabilit`a) di un qualunque dispositivo scelto a caso tra quelli appartenenti alle due classi ha una pdf di tipo
mixture, che si puo` calcolare applicando il teorema della probabilit`a totale. Infatti,
se denotiamo con p = P (A1 ) la probabilit`a che un dispositivo appartenga alla prima
197
198
P (B|A) P (A)
,
P (B)
P (X x|A) P (A)
F (x|A)
=
P (A) .
P (X x)
F (x)
199
probabilit`a P (A), denominata probabilit`a a priori. In altri termini, a priori sappiamo che la probabilit`a di A e` pari a P (A), poi veniamo a conoscenza del fatto che X x,
per cui a posteriori calcoliamo la probabilit`a P (A|X x). Si osservi che tale probabilit`a a posteriori e` maggiore, uguale o minore alla probabilit`a a priori, in dipendenza del
fatto che il rapporto tra la CDF condizionale F (x|A) e la CDF F (x) sia maggiore, uguale,
o minore dellunit`a.
In maniera analoga, se scegliamo B = {x1 < X x2 }, si ha:
P (A|x1 < X x2 ) =
(9.1)
che si interpreta come la probabilit`a a posteriori dellevento A sapendo che il valore della
variabile aleatoria X e` compreso nellintervallo (aperto a sinistra) ]x1 , x2 ]. Gli esempi
precedenti si possono estendere facilmente al caso in cui B e` un qualunque evento (con
P (B) = 0) che puo` essere espresso in termini della variabile aleatoria X.
P (X = x|A) P (A)
p(x|A)
=
P (A) ,
P (X = x)
p(x)
(9.2)
ovvero tale probabilit`a a posteriori si esprime in termini del rapporto tra la DF condizionale p(x|A) e la DF p(x). Se invece X e` una variabile aleatoria continua, sappiamo che
P (X = x) = 0, e quindi non possiamo procedere direttamente come nel caso precedente,
in quanto il denominatore della (9.2) si annulla. Daltra parte, si ha anche:
P (X = x|A) =
P ({X = x} A)
=0,
P (A)
200
P (A|x < X x + x) =
f (x|A)
P (A) ,
f (x)
(9.3)
che costituisce una generalizzazione della (9.2) al caso di variabili aleatorie continue.
Esempio 9.7 (test di ipotesi). Come esempio di applicazione della precedente relazione,
riprendiamo lesempio 9.6. Supponiamo di voler valutare, osservato un valore della variabile aleatoria mixture X, se sia piu` probabile che si sia verificato levento A1 oppure
A2 . Ad esempio, se X rappresenta il tempo di vita di un dispositivo, e A1 e A2 = A1
rappresentano due classi di affidabilit`a, vogliamo determinare, osservato che il dispositivo in esame ha vissuto un tempo X = x, a quale classe sia piu` probabile il dispositivo appartenga. Questo equivale a valutare quale delle due quantit`a P (A1 |X = x) e
P (A2 |X = x) sia la piu` grande, il che si puo` formalizzare come un test di ipotesi:
A1
>
P (A1 |X = x) < P (A2 |X = x) ,
A2
che si interpreta nel modo seguente: se il primo membro e` maggiore del secondo, allora
diremo che levento A1 e` piu` probabile, per cui sceglieremo lipotesi il componente
appartiene alla classe A1 , viceversa se il primo membro e` minore del secondo. Poiche
tale test sceglie lipotesi che ha probabilit`a a posteriori maggiore, esso prende il nome di
test a massima probabilit`a a posteriori (MAP). Applicando la (9.3), tale test si puo` scrivere
come segue:
A1
f (x|A1 )
> f (x|A2 )
P (A1 ) <
P (A2 ) ,
f (x)
f (x)
A2
e semplificando un termine f (x) > 0 in ambo i membri, si ha:
A1
>
f (x|A1 ) P (A1 ) < f (x|A2 ) P (A2 ) .
A2
201
Se si suppone poi che gli eventi A1 e A2 siano equiprobabili, il test MAP si semplifica
ulteriormente:
A1
>
f (x|A1 ) < f (x|A2 ) .
A2
Tale test prende il nome di test a massima verosimiglianza (ML), e la funzione f (x|A1 )
prende il nome di funzione di verosimiglianza dellevento A1 . Pertanto il test ML si ottiene
come particolarizzazione del test MAP nel caso di ipotesi equiprobabili.
Sostituendo le pdf condizionali di tipo esponenziale (cfr. esempio 9.6), il test si puo`
scrivere nella forma esplicita
A1
1 x
1 e
>
2 x
,
< 2 e
A2
che, nel caso 1 > 2 (corrispondente al caso in cui A1 sia la classe a piu` bassa affidabilit`a
rispetto a A2 ), puo` essere posto nella forma:
A1
1 >
1
ln
x.
1 2 2 A<2
Notiamo che nelle ipotesi fatte il primo membro e` positivo. Osserviamo che il test si
1
ln 12 ;
riduce a confrontare il tempo di vita osservato x con una soglia positiva = 1
2
se il tempo di vita e` inferiore a tale soglia, si dichiara che il dispositivo appartiene alla
classe A1 a piu` bassa affidabilit`a; viceversa, se il tempo di vita e` superiore a tale soglia,
si dichiara che il dispositivo appartiene alla classe A2 a piu` alta affidabilit`a. Il risultato
pare intuitivamente accettabile, meno intuitiva e` lespressione della soglia che abbiamo
ricavato. Se il tempo di vita e` esattamente uguale alla soglia (il che peraltro accade,
essendo X una variabile aleatoria continua, con probabilit`a zero), scegliere unipotesi
oppure unaltra e` indifferente (le due ipotesi hanno la stessa probabilit`a a posteriori).
(9.4)
202
(9.5)
Questa relazione rappresenta una versione continua del teorema della probabilit`a totale
P (A) = i P (A|Bi ) P (Bi ), nella quale gli eventi condizionanti sono del tipo {X = x} e
costituiscono una infinit`a continua (e non finita o numerabile).
P (A|X = x)
f (x) ,
P (A)
f (x|A) =
9.3
Analogamente a quanto fatto nel paragrafo precedente per il caso di una variabile aleatoria, e` possibile definire distribuzioni condizionali (CDF, pdf e DF) anche per una coppia di variabili aleatorie. Ad esempio, date due variabili aleatorie (X, Y ) ed un evento
B con P (B) = 0, possiamo definire la CDF condizionale di (X, Y ) dato B.
Definizione (CDF condizionale di una coppia di variabili aleatorie). Siano
(X, Y ) una coppia di variabili aleatorie definite su uno spazio di probabilit`a
(, B, P ), e sia B B un evento di , con P (B) = 0. La CDF condizionale di
(X, Y ) dato levento B e` :
FXY (x, y|B) P (X x, Y y|B) =
P (X x, Y y, B)
.
P (B)
2
FXY (x, y|B) .
x y
P (X = x, Y = y, B)
,
P (B)
con (x, y) X Y.
Esempio 9.8. Come per il caso di una singola variabile aleatoria, il calcolo della CDF
condizionale e` particolarmente semplice se levento B si esprime in funzione delle variabili aleatorie (X, Y ) o di una di esse. Supponiamo, ad esempio, che B = {X a}, con
a numero reale (cfr. esempio 9.4 per un calcolo simile per il caso di una singola variabile
aleatoria). Si ha:
FXY (x, y|B) P (X x, Y y|B) =
P (X x, Y y, X a)
.
P (X a)
FXY (x, y)
;
FX (a)
FXY (a, y)
.
FX (a)
0,
xa.
Verifichiamo che la precedente e` una valida pdf, osservando se e` soddisfatta la condizione di normalizzazione. Si ha:
a
1
fXY (x, y|B) dx dy =
fXY (x, y) dx dy
FX (a)
1
=
FXY (a, +) = 1 ,
FX (a)
dove abbiamo sfruttato la (6.2) e la relazione tra CDF congiunte e marginali, in accordo
alla quale FXY (a, +) = FX (a).
203
204
P (X x, Y y, a < X b)
.
P (a < X b)
P (a < X x, Y y)
FXY (x, y) FXY (a, y)
=
.
P (a < X b)
FX (b) FX (a)
0,
xa;
a<xb;
x>b.
xa;
0,
fXY (x,y)
fXY (x, y|a < X b) = FX (b)FX (a) , a < x b ;
0,
x>b.
Anche in questo caso, verifichiamo che la condizione di normalizzazione delle pdf sia
soddisfatta. Si ha:
b
fXY (x, y)
dy
fXY (x, y|a < X b) dx dy =
dx
a
FX (b) FX (a)
b
1
=
dx
fXY (x, y) dy
FX (b) FX (a) a
b
1
=
fX (x) dx = 1 ,
FX (b) FX (a) a
dove abbiamo sfruttato la relazione tra pdf congiunte e marginali e le propriet`a della
pdf.
205
Si trova:
FY (y|X = x) =
FXY (x, y) .
fX (x) x
(9.6)
Prova. Si ha:
P (Y y|x < X x + x) =
FXY (x, y) .
fY (y) y
(9.7)
Particolarmente interessante e` lespressione delle pdf condizionali, che si ottengono derivando la (9.6) rispetto a y e la (9.7) rispetto ad x. Si ha, infatti:
fY (y|X = x) =
1
fXY (x, y)
2
FY (y|X = x) =
FXY (x, y) =
,
y
fX (x) y x
fX (x)
e similmente:
fX (x|Y = y) =
fXY (x, y)
.
fY (y)
fX (x|y) =
(9.8)
(9.9)
206
(9.10)
che e` una relazione simile alla legge della probabilit`a composta (2.2). Utilizzando la relazione tra statistiche congiunte e marginali, si ha poi:
fY (y) =
fXY (x, y) dx =
fY (y|x) fX (x) dx ,
(9.11)
che e` una relazione analoga al teorema della probabilit`a totale (cfr. teorema 2.1, capitolo
2) e generalizza il teorema della probabilit`a totale per le pdf (cfr. 9.2) al caso in cui
gli eventi condizionanti siano una infinit`a continua. Per questo motivo, tale relazione
costituisce una versione continua del teorema della probabilit`a totale per le pdf. Infine,
combinando la legge della probabilit`a composta (9.10) e quella della probabilit`a totale
(9.11), possiamo ottenere la relazione
fX (x|y) =
fY (y|x) fX (x)
fY (y|x) fX (x)
=
fY (y)
f (y|x) fX (x) dx
Y
(9.12)
che consente di esprimere una pdf condizionale in funzione dellaltra, ed e` una relazione
analoga al teorema di Bayes (cfr. teorema 2.2, capitolo 2).
207
Esempio 9.10. Consideriamo il caso di una coppia di variabili aleatorie congiuntamente gaussiane (X, Y ) N(X , Y , X , Y , ), e calcoliamo le pdf condizionali fX (x|y) e
fY (y|x). Il risultato si ottiene semplicemente se ricordiamo la fattorizzazione della pdf
congiunta ricavata nellesempio 6.2, che si riporta di seguito per comodit`a del lettore:
$
%2
12 (xX )2
2 1 2 yY Y (xX )
1
1
X
e 2X
fXY (x, y) =
.
e 2Y (1 )
2
X 2
Y 1 2
Infatti, poiche nellesempio 6.2 abbiamo dimostrato che il primo fattore rappresenta
la pdf marginale fX (x), allora il secondo fattore per la (9.10) deve necessariamente
rappresentare la pdf condizionale fY (y|x), ovvero si ha:
2 1 2
fXY (x, y)
1
=
fY (y|x) =
e 2Y (1 )
fX (x)
Y 1 2 2
yY Y (xX )
%2
%2
2 1 2 xX X (yY )
fXY (x, y)
1
Y
,
=
fX (x|y) =
e 2X (1 )
fY (y)
X 1 2 2
per cui X|y N(X + XY (y Y ), X 1 2 ), per cui anche X, dato Y = y, e`
condizionalmente gaussiana, con i parametri indicati. In conclusione, possiamo affermare che variabili aleatorie (X, Y ) congiuntamente gaussiane sono anche marginalmente e
condizionalmente gaussiane.
9.4
208
fX1 X2 Xn (x1 , x2 , . . . , xn )
.
fXk+1 Xk+2 Xn (xk+1 xk+2 , . . . , xn )
Ovviamente tale funzione e` una pdf vista come funzione di x1 , x2 , . . . , xk , ed in particolare soddisfa la condizione di normalizzazione, per ogni (xk+1 , xk+2 , . . . , xn ):
Il modo per costruire una qualunque pdf condizionale dovrebbe essere a questo punto
chiaro al lettore. Al numeratore va la pdf congiunta di tutte le variabili aleatorie in
gioco, al denominatore quella delle sole variabili aleatorie condizionanti.
Esempio 9.11. Consideriamo il caso di quattro variabili aleatorie X1 , X2 , X3 , X4 , e calcoliamo esplicitamente alcune distribuzioni condizionali:
fX1 X2 X3 X4 (x1 , x2 , x3 , x4 )
;
fX1 X3 X4 (x1 , x3 , x4 )
fX1 X2 X3 X4 (x1 , x2 , x3 , x4 )
fX1 X2 (x1 , x2 |x3 , x4 ) =
;
fX3 X4 (x3 , x4 )
fX1 X2 X3 X4 (x1 , x2 , x3 , x4 )
fX1 X2 X4 (x1 , x2 , x4 |x1 ) =
.
fX1 (x1 )
fX2 (x2 |x1 , x3 , x4 ) =
Le corrispondenti CDF condizionali si possono ottenere per integrazione, ad esempio si
ha:
FX1 X2 Xk (x1 , x2 , . . . , xk |xk+1 , xk+2 , . . . , xn ) =
x1 x2
xk
=
Per variabili aleatorie discrete, e` possibile estendere in maniera analoga anche la definizione di DF condizionali.
9.5
209
210
f (x)
1
E(X|B) =
x
dx =
F (a)
F (a)
a
x f (x) dx =
a
x f (x) dx
f (x) dx
.
Osserviamo che la media condizionale gode di tutte le propriet`a della media (cfr. 5.2):
in particolare ad essa si applica il teorema fondamentale della media. Infatti, se si vuole
calcolare la media condizionale di g(X) dato un evento B, si ha:
g(x) fX (x|B) dx ,
E[g(X)|B] =
xX
mentre la varianza condizionale si puo` esprimere facilmente in termini del valor quadratico medio condizionale e della media condizionale, come:
Var(X|B) = E(X 2 |B) E 2 (X|B) .
La definizione di media condizionale dato un evento B si estende naturalmente al
caso di coppie di variabili aleatorie e, piu` in generale, al caso di vettori di variabili aleatorie; basta sostituire alla pdf, nellintegrale che definisce la media, la pdf condizionale
dato B. Il teorema fondamentale della media si estende anche al caso in cui desideriamo calcolare la media condizionale di g(X, Y ) dato un evento B, e conosciamo la pdf
condizionale fXY (x, y|B). Si ha:
E[g(X, Y )|B] =
g(x, y) fXY (x, y|B) dx dy .
(9.14)
Osserviamo che, per ogni fissato x, la media condizionale E[g(Y )|x] e` un numero; se
allora facciamo variare x, la media condizionale E[g(Y )|x] definisce una funzione (x)
di x. Possiamo allora costruire una variabile aleatoria Z = (X) = E[g(Y )|X] semplicemente associando ad ogni valore X = x il valore z = E[g(Y )|x]. Il calcolo della media
di Z rappresenta loggetto del seguente teorema della media condizionale.
Teorema 9.1 (media condizionale). Sia E[g(Y )|x] = (x) la media condizionale di g(Y )
dato X = x, e costruiamo la variabile aleatoria Z = (X) = E[g(Y )|X]. Si ha:
E[E(g(Y )|X)] = E[g(Y )] ,
se tale media esiste finita.
211
212
g(y) fY (y|x) fX (x) dx dy =
g(y) fXY (x, y) dx dy =
=
=
g(y)
fXY (x, y) dx dy =
g(y) fY (y) dy = E[g(Y )] ,
dove abbiamo applicato la legge della probabilit`a composta per le pdf e le relazioni tra statistiche con
giunte e marginali.
Il teorema si applica anche al caso in cui g(Y ) = Y , ed in questo caso assume una forma
particolarmente semplice:
E[E(Y |X)] = E(Y ) ,
secondo la quale la media di una variabile aleatoria Y , che dipende da unaltra variabile aleatoria X, si puo` calcolare prima fissando un valore di X = x, e calcolando la
media condizionale E(Y |x), e successivamente mediando tale risultato rispetto a tutti i
possibili valori di X.
Esempio 9.13. Consideriamo il caso di due variabili aleatorie
congiuntamente gausY
siane. Abbiamo osservato che Y |x N(Y + X (x X ), Y 1 2 ), per cui:
E(Y |x) = Y +
Y
(x X ) .
X
Y
E(X X ) = Y = E(Y ) ,
X
=0
dove fXY (u, v|x) denota sinteticamente fXY (u, v|X = x). Il calcolo di tale pdf pone,
tuttavia, qualche problema; infatti, potremmo pensare di ottenere fXY (u, v|x) sulla base
213
del risultato dellesempio 9.9 che fornisce fXY (u, v|a < x b), ponendo a = x e b =
x + x, e facendo tendere x a zero. Si avrebbe (cfr. esempio 9.9):
ux;
0,
fXY (u,v)
fXY (u, v|x < X x + x) = FX (x+x)FX (x) , x < u x + x ;
0,
u > x + x .
Il problema e` che passando al limite per x 0 tale espressione diverge, in quanto
FX (x + x) FX (x) 0, per cui la pdf fXY (u, v|x < X x + x) e` singolare. Possiamo
aggirare tale problema calcolando direttamente la E[g(X, Y )|x] con procedura al limite,
ponendo cio`e:
E[g(X, Y )|x] = E[g(X, Y )|X = x] = lim E[g(X, Y )|x < X x + x] .
x0
Si trova:
E[g(X, Y )|x] =
Prova. Si ha:
g(x, y) fY (y|x) dy .
fXY (u, v)
du =
FX (x + x) FX (x)
x
fXY (x, v)
x dv .
g(x, v)
F
(x
+ x) FX (x)
X
dv
g(u, v)
FX (x+x)FX (x)
x
fXY (x, v)
dv =
E[g(X, Y )|X = x] =
g(x, v)
g(x, v) fY (v|x) dv ,
fX (x)
g(x, y) fY (y|x) fX (x) dx dy =
g(x, y) fXY (x, y) dx dy =
=
= E[g(X, Y )] .
214
Y
(x X ) ,
X
si ha:
E(X Y |x) = xY +
Y 2
(x x X ) .
X
E(X Y ) = X Y +
da cui si ha anche
Cov(X, Y ) = E(X Y ) X Y = X Y ,
per cui ritroviamo anche che XY = , cio`e il parametro coincide con il coefficiente di
correlazione.
I concetti precedenti si estendono al caso di n variabili aleatorie in maniera naturale. Ad
esempio, possiamo calcolare la media condizionale di X1 per fissati valori x2 , x3 , . . . , xn
delle variabili aleatorie X2 , X3 , . . . , Xn :
E(X1 |x2 , x3 , . . . , xn )
x1 fX1 (x1 |x2 , x3 , . . . , xn ) dx1 .
(9.15)
215
=
...
x1 fX1 (x1 |x2 , x3 , . . . , xn ) dx1 fX2 X3 Xn (x2 , x3 , . . . , xn ) dx2 dx3 dxn
=
...
x1 fX1 (x1 |x2 , x3 , . . . , xn ) fX2 X3 Xn (x2 , x3 , . . . , xn ) dx1 dx2 dxn
= fX1 X2 Xn (x1 , x2 , . . . , xn )
=
...
x1 fX1 X2 Xn (x1 , x2 , . . . , xn ) dx1 dx2 dxn
=
x1
...
fX1 X2 Xn (x1 , x2 , . . . , xn ) dx2 dx3 dxn
= fX1 (x1 )
x1 fX1 (x1 ) dx1 = E(X1 ) ,
=
cio`e lasserto.
Esercizio 9.1. Si considerino le variabili aleatorie iid X1 , X2 , . . . , Xn , con media e varianza 2 , ed una variabile aleatoria N discreta, indipendente dalle precedenti, a valori
in {1, 2, . . . , n}. Costruiamo la variabile aleatoria S come:
S=
N
Xk ,
k=1
dove lestremo superiore della somma e` aleatorio. Calcolare media, valor quadratico
medio e varianza di S.
Svolgimento. Il problema si risolve semplicemente adoperando il teorema della media
condizionata, ed in particolare condizionando ai possibili valori assunti da N . Infatti,
per quanto riguarda il calcolo della media di S, si ha:
E(S) = E[E(S|N )] ,
e risulta:
E(S|n) = E
, N
k=1
, n
2
n
2
Xk 22N = n = E
Xk =
E(Xk ) = n ,
k=1
k=1
216
, N N
k=1 h=1
2
n
n
2
2
Xk Xh 2N = n =
E(Xk Xh ) =
n
n
Cov(Xk , Xh ) + 2 .
=
k=1 h=1
k=1 h=1
Capitolo 10
Elementi di teoria dellinformazione
10.1
Introduzione
Lo scopo della teoria dellinformazione e` quello di porre le basi teoriche per i problemi
della trasmissione, della ricezione, dellelaborazione e della memorizzazione dellinformazione. Tale disciplina e` relativamente recente, essendo nata solo negli anni 40 e
principalmente per effetto di un singolo e decisivo contributo del ricercatore statunitense della Bell Claude E. Shannon, che pubblico` nel 1948 il fondamentale A mathematical
theory of communication, nel quale si sviluppano i principali concetti della teoria.1
Il punto di partenza della teoria dellinformazione e` ovviamente il concetto stesso di
informazione, che ricorre in varie discipline e assume significati e sfumature differenti a
seconda dei contesti nei quali viene utilizzato. Noi ci riferiremo al caso di un sistema
di comunicazione (lo schema in Fig. 10.1 e` dovuto allo stesso Shannon), nel quale linformazione emessa da una sorgente viene trasportata fino ad una destinazione, mediante
un canale di comunicazione; sorgente e destinazione possono essere due persone (es.
comunicazione telefonica), due apparecchiature (es. comunicazione tra due calcolatori), o due parti di una stessa apparecchiatura (es. comunicazione tra microprocessore e
memoria RAM di un calcolatore).
Spesso linformazione e` di natura simbolica, o puo` comunque essere espressa mediante un insieme di simboli (si pensi alle lettere dellalfabeto); tale rappresentazione
non e` necessariamente efficiente, anzi contiene sovente un elevato grado di ridondanza.
Poiche il trasporto e la memorizzazione di ridondanza comporta uno spreco di risorse, compito del codificatore di sorgente e` quello di fornire una rappresentazione il piu`
possibile compatta e sintetica dei simboli emessi dalla sorgente, eliminando se possibile ogni ridondanza (il decodificatore di sorgente opera la trasformazione inversa alla
destinazione).
1
218
Codificatore
sorgente
Sorgente
di
Codificatore
canale
di
Modulatore
Canale
Destinazione
Decodificatore
di sorgente
Decodificatore
di canale
Demodulatore
Poiche poi il canale di comunicazione e` un canale fisico (ad esempio, un doppino telefonico, una fibra ottica o lo spazio libero), si richiede per la trasmissione che i simboli
vengano rappresentati con segnali fisici (elettrici, ottici o di altra natura): questo compito e` svolto dal modulatore, mentre il demodulatore opera la trasformazione inversa alla
destinazione (il blocco modulatore/demodulatore e` spesso comunemente denominato
modem).
Osserviamo infine che qualunque canale di comunicazione e` rumoroso, cio`e introduce errori; per ridurre il loro effetto, e consentire comunque una comunicazione affidabile, prima della modulazione si puo` effettuare una codifica di canale, che ha lo scopo di
introdurre una quantit`a controllata di ridondanza per irrobustire la trasmissione dellinformazione attraverso il canale (un semplice esempio di codifica di canale e` costituito dal bit di parit`a che viene concatenato ad una stringa di bit prima della trasmissione).
Tale ridondanza viene rimossa alla destinazione dal decodificatore di canale.
Esempio 10.1. Per fornire un esempio tratto dallesperienza quotidiana, supponiamo
di voler invitare il nostro amico Mario Rossi, che vive allestero, alla nostra laurea, e di
volerlo fare per telegramma. La codifica di sorgente in questo caso consiste nel trasformare il nostro invito in una formula telegrafica, del tipo GRADITA TUA PARTECIPAZIONE MIA LAUREA PROSSIMO 15 GIUGNO ORE 9:00 FACOLTA INGEGNERIA
NAPOLI, nella quale abbiamo fornito le informazioni essenziali, eliminando un certo
livello di ridondanza tipica della lingua parlata. A questo punto, telefoniamo al servizio
dettatura telegrammi, e per essere sicuri che limpiegato (un po duro dorecchi) capisca
bene tutte le parole del telegramma, le ripetiamo scandendole piu` volte; in particolare
per fargli capire che il cognome e` Rossi usiamo frasi del tipo R come Roma, O come
Orvieto, S come Sassari, etc.: in questo caso stiamo introducendo ridondanza, ovvero
stiamo effettuando una codifica di canale.
10.2
Come gi`a accennato, informazione e` un concetto necessariamente vago, che talvolta assume caratteristiche soggettive; tuttavia, per costruire una teoria matematica, dovremo definirla in maniera piu` rigorosa, tanto rigorosa da fornire degli strumenti per
misurarla.
Losservazione fondamentale per arrivare ad introdurre una misura dellinformazione e` che il concetto di informazione e` intrinsecamente associato a quello di impredicibilit`a
o di incertezza. Ad esempio, se telefoniamo al servizio informazioni meteorologiche in
pieno agosto, e ci viene detto domani sar`a una bella giornata, sicuramente attribuiremo a tale asserzione un minore contenuto informativo rispetto ad una previsione del
tipo domani si scatener`a un uragano tropicale, semplicemente perch`e alle nostre latitudini e nel mese di agosto la prima eventualit`a e` sicuramente di gran lunga piu` probabile
del secondo. Per questo motivo, a livello intuitivo accettiamo che linformazione associata ad un evento sia inversamente proporzionale alla probabilit`a con la quale quel dato
evento puo` verificarsi. Sulla base di questa osservazione, possiamo passare ad introdurre una definizione operativa di misura dellinformazione. Parlando di eventi e di probabilit`a, e` naturale modellare loggetto del nostro studio come un esperimento aleatorio,
219
220
10.2.1 Autoinformazione
Avendo osservato che ad una minore probabilit`a corrisponde una maggiore quantit`a di
informazione, definiamo lautoinformazione dellevento {X = x}.
Definizione (autoinformazione). Sia X una variabile aleatoria discreta a valori x X e con DF pX (x): lautoinformazione associata allevento {X = x} e`
data da:
H(x) log
1
= log pX (x) ,
pX (x)
1
.
pXY (x, y)
1
1
1
= log
+ log
= H(x) + H(y) ,
pX (x) pY (y)
pX (x)
pY (y)
La misura dellinformazione associata a spazi di probabilit`a continui e` un problema matematicamente piu` complesso, che non prenderemo in cosiderazione.
1
= log K .
pX (x)
Ad esempio, supponiamo di avere una stringa composta da n simboli binari (bit); possiamo costruire K = 2n di tali stringhe, e se esse sono ugualmente probabili si avr`a
H(x) = log 2n = n, misurando linformazione in bit. Pare abbastanza naturale che linformazione associata ad una stringa di n bit sia pari ad n bit! Osserviamo, tuttavia, che
questo e` vero solo nellipotesi che le K stringhe siano equiprobabili: se cio` non accade,
lautoinformazione di ogni stringa potr`a essere maggiore o minore di n bit. Quindi la
conclusione leggermente paradossale e` : una stringa di n bit non porta sempre n bit di
informazione!
10.2.2 Entropia
A questo punto, osserviamo che lautoinformazione H(x) precedentemente definita e`
una funzione che associa ad ogni x il numero reale H(x). Pertanto, al variare di x X
essa definisce una variabile aleatoria funzione della variabile aleatoria X. Possiamo
allora calcolare la media statistica di tale variabile aleatoria, ottenendo una misura media
dellautoinformazione associata ad X che, per affinit`a con la corrispondente grandezza
termodinamica, prende il nome di entropia (informazionale).
3
221
222
xX
pX (x) log
xX
1
,
pX (x)
(10.1)
Tale entropia si denota anche con H(p), poiche dipende solo dal valore di p, e prende
il nome di entropia binaria. Il suo andamento e` diagrammato in Fig. 10.3, dalla quale si vede che essa vale 0 per p = 0 oppure p = 1, mentre e` massima (vale 1 bit) per
p = 1/2 (osserviamo che poniamo 0 log 0 = limp0 p log p = 0). Anche in questo caso,
allora, per specificare una tra due alternative equiprobabili occorre un bit di informazione, mentre per specificare una tra due alternative non equiprobabili e` sufficiente una
quantit`a di informazione inferiore ad 1 bit. Pertanto, lequiprobabilit`a, essendo la situazione di massima incertezza, equivale anche ad un massimo di informazione, il che
pare intuitivamente accettabile.
223
0.9
0.8
0.7
H(X) (bit)
0.6
0.5
0.4
0.3
0.2
0.1
0.1
0.2
0.3
0.4
0.5
p
0.6
0.7
0.8
0.9
per x = x;
altrimenti.
1
K
(alternative equiprobabili)
Di queste propriet`a, la prima riafferma che lentropia non dipende dallordine in cui si
considerano i possibili eventi; la seconda afferma che se esiste un risultato certo (per cui
gli altri hanno necessariamente probabilit`a nulla) il contenuto informativo medio e` nullo; infine, la terza propriet`a afferma che il contenuto informativo, a parit`a di alternative,
e` massimo se tali alternative sono equiprobabili. Notiamo per inciso che al crescere di K
il valore massimo log K dellentropia aumenta, il che significa che un maggior numero
di alternative porta potenzialmente una maggior quantit`a di informazione.
224
xX,yY
xX,yY
xX,yY
= H(X) + H(Y ) ,
dove abbiamo sfruttato la relazione tra DF congiunte e marginali, e la definizione di
entropia. Per cui, lentropia congiunta associata a variabili aleatorie indipendenti e` la
somma delle entropie delle singole variabili aleatorie. Il risultato si generalizza ovviamente al caso di un vettore X = [X1 , X2 , . . . , Xn ] di n variabili aleatorie indipendenti,
per il quale si ha:
H(X) =
n
H(Xi ) ;
i=1
se poi le variabili aleatorie che compongono X, oltre ad essere indipendenti, sono anche
identicamente distribuite, si ha H(Xi ) = H(Xj ) = H(X1 ), per cui si ottiene semplicemente:
H(X) = n H(X1 ) .
Osserviamo, infine, che sostituendo alle DF congiunte le DF condizionali, e` possibile
definire anche le entropie condizionali, la cui trattazione esula comunque dalla natura
introduttiva di questo capitolo.
Esempio 10.4. Consideriamo ancora il caso della stringa di n bit, che possiamo riguardare come n variabili aleatorie iid X1 , X2 , . . . , Xn , con Xi Bern(p). In tal caso, si
ha:
H(X) = n H(X1 ) = n H(p) ,
10.3
Sorgenti di informazione
Con riferimento allo schema di Shannon (Fig. 10.1), il punto di partenza per affrontare un qualunque problema di teoria dellinformazione e` definire con esattezza cosa
intendiamo per sorgente di informazione e misurare la quantit`a di informazione da essa
prodotta: senza dare una definizione formale, possiamo assimilare una sorgente di informazione discreta ad un dispositivo (fisico, elettronico, astratto etc.) che emette simboli appartenenti ad un insieme discreto con una determinata regolarit`a statistica. Alcuni esempi di sorgenti discrete di informazione sono i seguenti: un utente che scrive
ad una tastiera alfanumerica di un calcolatore (i simboli sono in tal caso le lettere dellalfabeto piu` i caratteri speciali); un termometro che registra i valori della temperatura
esterna a passi di 1o C (i simboli sono in tal caso un sottoinsieme dei numeri interi relativi); la successione dei valori dellindice di borsa italiana (Mibtel) nei diversi giorni della
settimana (i simboli sono in tal caso numeri interi). Non tutte le sorgenti di informazione sono, ovviamente, discrete (sia nei valori prodotti, che nel tempo); molte sorgenti
emettono simboli appartenenti ad un insieme continuo e con comtinuit`a nel tempo (ad
esempio, un voltmetro analogico per la misura della tensione continua in un dispositivo
elettronico puo` emettere in ogni istante reale un valore reale di tensione nellintervallo
[0, 5V ]). Comunque, nel seguito, coerentemente con la scelta di introdurre la misura
dellinformazione solo negli spazi di probabilit`a discreti, ci limiteremo a considerare
esclusivamente il caso di sorgenti discrete.4
In molti casi, i risultati ottenuti sono applicabili anche al caso delle sorgenti continue, purche
queste siano appropriatamente discretizzate, ad esempio con una procedura di campionamento (per la
discretizzazione dei tempi) e quantizzazione (per la discretizzazione dei valori).
225
226
H(S) lim
ammesso che esso esista finito. Tale quantit`a rappresenta il contenuto medio di informazione associata a ciascun simbolo della sorgente, nella trasmissione di una lunga (al
limite, infinita) sequenza di simboli.
Tale assunzione non e` limitativa, in quanto se i simboli emessi dalla sorgente non sono numerici (ad
esempio, lalfabeto italiano), essi possono essere messi in corrispondenza biunivoca con un sottoinsieme dei numeri interi. Inoltre abbiamo osservato che lentropia non dipende dai valori della variabile
aleatoria, ma solo dalle probabilit`a con cui tali valori sono assunti.
227
H(S) = lim
cio`e il tasso dentropia della sorgente DMS coincide con lentropia di un singolo simbolo
emesso dalla sorgente.
Esempio 10.5 (tasso di entropia del linguaggio). Un esempio di sorgente discreta di informazione e` il linguaggio scritto, che possiamo vedere come una successione di simboli
appartenenti ad un certo alfabeto, con in aggiunta lo spazio ed i simboli di interpunzione. Il modello di sorgente discreta senza memoria non e` assolutamente appropriato per
il linguaggio, in quanto e` intuitivamente comprensibile che qualsiasi lingua o dialetto
presenta un elevato grado di struttura e quindi di ridondanza statistica, come provato anche dalla possibilit`a, spesso sfruttata nei giochi enigmistici, di ricostruire parole
o anche frasi a partire da poche lettere. Consideriamo ad esempio la lingua italiana:
senza considerare per semplicit`a la punteggiatura, e senza distinguere tra lettere maiuscole e minuscole, limitiamoci a considerare le 21 lettere dellalfabeto (a, b, c, d, e, f,
g, h, i, l, m, n, o, p, q, r, s, t, u, v, z) piu` lo spazio, che indichiamo con , e lapostrofo
(23 simboli in totale). Se si dispone di un campione di testo sufficientemente lungo,
e di un po di pazienza (meglio ancora, di un buon programma al calcolatore) e` possibile calcolare la frequenza di occorrenza dei 23 simboli, i cui risultati sono riportati
in Tab. 10.1. Osserviamo che la massima entropia che si puo` ottenere con 23 lettere e`
lettera
a
e
o
i
s
n
l
t
r
c
probabilit`a
0.161
0.108
0.085
0.079
0.073
0.060
0.055
0.053
0.051
0.050
0.049
lettera probabilit`a
d
0.038
u
0.027
v
0.025
m
0.016
p
0.015
f
0.014
b
0.010
lettera probabilit`a
h
0.009
z
0.008
g
0.006
q
0.004
0.004
Tab. 10.1. Lettere dellalfabeto italiano con probabilit`a di occorrenza (in ordine decrescente di
probabilit`a).
pari a log 23 = 4.52 bit, mentre quella effettiva delle lettere dellalfabeto italiano e` pari a
H(X1 ) 4 bit, con una ridondanza di circa 0.5 bit. Lesempio non deve pero` indurre a
228
10.4
Codifica di sorgente
La codifica binaria non e` lunico tipo di codifica esistente: il caso piu` generale puo` prevedere un
alfabeto codice composto da tre o piu` valori. Tuttavia la rilevanza della codifica binaria discende dal fatto
che linformazione binaria puo` piu` facilmente essere trasmessa, elaborata, e memorizzata.
10.5
Prima di introdurre le tecniche piu` semplici per la compattazione dati, forniamo alcune nozioni e la terminologia principale riguardanti i codici, iniziando dalla definizione
formale di codice binario.
Definizione (codice binario). Sia S una sorgente discreta, un codice binario C
per la sorgente S e` una regola che trasforma sequenze di simboli emessi da S
in sequenze di simboli binari, per esempio appartenenti allalfabeto di codice
{0, 1}.
229
230
231
C1
00
01
10
11
C2 C3
00 0
01 11
01 00
11 01
C4
0
10
110
1110
232
Notiamo che tale percorso sullalbero, dalla radice ad un nodo, e` necessariamente unico.
233
11
1110
1
1
110
01
10
0
00
(a)
(b)
Esempio 10.11. Consideriamo la rappresentazione ad albero dei codici C3 e C4 dellesempio 10.9, riportata in Fig. 10.3. Dallesame degli alberi di codice, si nota chiaramente
come il codice C3 (albero a sinistra) non sia a prefisso (la parola codice 0 e` predecessore
delle parole codice 01 e 00), mentre il codice C4 (albero a destra) e` chiaramente a prefisso,
in quanto tutte le sue parole codice corrispondono a nodi terminali.
234
21k 1 .
k=1
Esempio 10.12. Applichiamo la disuguaglianza di Mc Millan ai codici C3 e C4 dellesempio 10.9. Per il primo, che gi`a sappiamo essere non univocamente decifrabile, si
ha:
K
21k = 21 + 22 + 22 + 22 =
k=1
5
>1
4
21k = 21 + 22 + 23 + 23 = 1
k=1
Notiamo che la disuguaglianza di Mc Millan fornisce solo una condizione necessaria per
lunivoca decifrabilit`a, condizione che coinvolge tra laltro soltanto le lunghezze delle
parole codice; in altri termini, non e` detto che un codice le cui lunghezze soddisfino la
disuguaglianza di Mc Millan sia univocamente decifrabile: al limite, un tale codice potrebbe addirittura essere singolare, cio`e avere due parole codice coincidenti! Tuttavia,
la disuguaglianza di Mc Millan puo` essere utilizzata anche come condizione sufficiente per la costruzione di un codice a prefisso (e quindi univocamente decifrabile), come
evidenziato dal seguente teorema, che enunciamo senza dimostrazione.
Teorema 10.2 (disuguaglianza di Kraft). Se i K numeri interi positivi A1 , A2 , . . . , AK soddisfano la disuguaglianza
K
21k 1 ,
k=1
allora e` possibile costruire un codice binario C a prefisso (e quindi univocamente decifrabile) con K parole codice aventi lunghezze A1 , A2 , . . . , AK .
235
Notiamo che la disuguaglianza che compare nei due teoremi precedentemente enunciati e` la stessa, e per questo motivo essi vengono spesso condensati in un unico teorema,
che prende il nome di disuguaglianza di Kraft-Mc Millan. Una conseguenza notevole
di tale disuguaglianza e` che essa ci consente, senza ledere la generalit`a, di considerare, tra i codici univocamente decifrabili, solo quelli a prefisso. Infatti, se ho un codice
univocamente decifrabile, le lunghezze delle parole codice soddisfano necessariamente
il teorema 10.1; allora, in virtu` del teorema 10.2, e` possibile trovare un codice a prefisso avente lo stesso insieme di lunghezze, e quindi la stessa efficienza, in termini di
lunghezza media delle parole codificate.
10.6
Efficienza di codifica
K
pk log pk .
k=1
Lobiettivo della codifica di sorgente e` quello di costruire un codice univocamente decifrabile, in modo da ottenere sequenze codificate che risultino mediamente le piu` corte
possibile. Per codici a lunghezza fissa, la lunghezza A e` la stessa per tutte le parole
codice, mentre per codici a lunghezza variabile, la lunghezza di ogni parola codice e`
differente. Poiche le parola codice di lunghezza Ak , essendo associata al simbolo di sorgente xk , ricorre con probabilit`a pk , la lunghezza A e` in effetti una variabile aleatoria, di
cui possiamo calcolare la media statistica, ottenendo la lunghezza media del codice:
A E[A] =
K
p k Ak .
k=1
Possiamo allora, sulla base della disuguaglianza di Kraft-Mc Millan, introdurre un fondamentale risultato, che mette in relazione la lunghezza media A di un codice simbolo a simbolo univocamente decifrabile con lentropia H(X) dei simboli emessi dalla
sorgente.
Teorema 10.3. Per ogni codice C binario simbolo a simbolo univocamente decifrabile, la
lunghezza media A del codice soddisfa la seguente disuguaglianza:
A H(X) ,
dove H(X) e` lentropia dei simboli emessi dalla sorgente (espressa in bit).
236
K
pk log pk
k=1
K
k=1
K
pk 8k =
k=1
K
pk log pk +
k=1
K
pk log 2k =
k=1
2k
pk log
.
pk
k=1
Poich`e il codice C e` univocamente decifrabile, allora esso soddisfa la disuguaglianza di Mc Millan (cfr.
K
teorema 10.1) per cui k=1 2k 1 0, ed essendo log e 0 si ha
H(X) 8 0 ,
cio`e lasserto.
H(X)
,
A
237
molto minore dellunit`a. E` utile allora disporre di una procedura per costruire codici
univocamente decifrabili la cui lunghezza media A sia, oltre che inferiormente, anche
superiormente limitata; tale procedura e` dovuta allo stesso Shannon, ed e` descritta dal
seguente teorema.
Teorema 10.4. Data una sorgente discreta S di simboli appartenenti ad un alfabeto X =
{x1 , x2 , . . . , xk } e con probabilit`a p1 , p2 , . . . , pk , e` sempre possibile costruire un codice
binario simbolo a simbolo a prefisso (e quindi univocamente decifrabile) tale che la sua
lunghezza media A sia compresa tra i seguenti limiti:
H(X) A < H(X) + 1 .
Prova. Il limite inferiore e` valido per qualunque codice univocamente decifrabile, e quindi anche per
un codice a prefisso, come stabilito dal precedente teorema. Resta da dimostrare la validit`a del limite
superiore, e per far questo si procede in maniera costruttiva. Definiamo allora le lunghezze delle parole
codice come:
8k = & log pk ' ,
(10.2)
dove il simbolo &x' denota il piu` piccolo numero intero maggiore o uguale ad x. Risulta allora 8k
log pk e quindi 2k pk . Sommando su k si ha:
K
k=1
2k
K
pk = 1 ,
k=1
per cui risulta verificata la disuguaglianza di Kraft (teorema 10.2), e pertanto esiste un codice a prefisso
univocamente decifrabile con parole codice aventi lunghezze 81 , 82 , . . . , 8K . Poiche poi, per la definizione
(10.2) delle lunghezze 8k , risulta anche
8k < log pk + 1 ,
allora si ha
8=
K
k=1
pk 8k <
K
pk ( log pk + 1) =
k=1
K
k=1
pk log pk +
K
pk = H(X) + 1 ,
k=1
per cui risulta provato anche il limite superiore. Notiamo che il codice costruito secondo questa procedura
prende il nome di codice di Shannon.
238
K
k=1
p k Ak =
K
pk log pk = H(X) ,
k=1
per cui si ottiene una lunghezza media esattamente pari allentropia, e quindi il codice
di Shannon e` ottimo in questo caso; ovviamente e` raro che la sorgente S presenti proprio
probabilit`a esprimibili come 21k .
239
(10.3)
Osserviamo allora che tale strategia di codifica a blocchi consente di ottenere per n grandi valori arbitrariamente prossimi allentropia media per simbolo n1 H(X1 , X2 , . . . , Xn ).
In particolare, se la sorgente e` senza memoria (DMS), risulta n1 H(X1 , X2 , . . . , Xn ) =
H(X1 ), per cui:
H(X1 ) An < H(X1 ) +
1
,
n
per cui lefficienza puo` essere resa arbitrariamente prossima allunit`a aumentando la
lunghezza del blocco n.
La (10.3) non si applica pero` solo alle sorgenti DMS, ma a qualunque sorgente per
la quale si possa definire il tasso di entropia H(S). Infatti, passando al limite per n
nella (10.3), si ha che limn n1 H(X1 , X2 , . . . , Xn ) = H(S), se tale limite esiste finito, per
cui
lim An = H(S) ,
240
241
cio`e la stessa limitazione che ottenevamo per la codifica simbolo a simbolo, per cui le
cose non sono affatto migliorate.
Possiamo pertanto affermare che i codici a lunghezza fissa, almeno sulla base di
queste semplici considerazioni, non sono competitivi con i codici a lunghezza variabile.
Considerazioni piu` avanzate porterebbero a strategie di codifica piu` sofisticate, nelle
quali i simboli di sorgente vengono raccolti in blocchi molto lunghi e non a tutti i blocchi
si associano parole codice (si accetta cio`e la possibilit`a che alcuni blocchi possano non
essere codificati). In questo modo si riesce ad ottenere una lunghezza del codice che
approssima a piacere lentropia della sorgente, a patto tuttavia di accettare una (piccola)
probabilit`a di mancata codifica.
10.7
Codici di Huffmann
In questa sezione introdurremo una classe di codici a prefisso, noti come codici di Huffmann, che risultano ottimi e per i quali e` possibile fornire una procedura di costruzione
sistematica. Lottimalit`a di tali codici non va intesa nel senso che essi presentano necessariamente lunghezza media pari al valore minimo possibile, cio`e allentropia, ma nel
senso che tra tutti i codici che utilizzano la stessa lunghezza dei blocchi di sorgente i
codici di Huffmann presentano la minima lunghezza media.8
Anziche definire formalmente le propriet`a dei codici di Huffmann, nei seguenti
esempi mostriamo direttamente come sia possibile costruire tali codici per determinate
sorgenti S.
Esempio 10.14. Sia S una sorgente con alfabeto di K = 7 simboli X = {x1 , x2 , . . . , x7 },
caratterizzati dalle seguenti probabilit`a (che assumiamo ordinate in senso decrescente,
senza ledere la generalit`a):
p1
p2
p4
p5
p6
= 3/8
= p3 = 3/16
= 1/8
= 1/16
= p7 = 1/32
Codificare tale sorgente con un codice a lunghezza fissa richiede &log K' = 3 bit per
8
Per una discussione piu` approfondita ed una prova dellottimalit`a di tali codici, si veda [11].
242
x1
3/8
1
x2
x3
x4
x5
x6
x7
3/16
3/16
3/8
5/8
1/8
1
1/16
1
1/32
1/32
1/16
1/8
1/4
Fig. 10.4. Costruzione di un codice di Huffmann per una sorgente con K = 7 simboli.
7
pk log pk =
k=1
probabilit`a pk
3/8
3/16
3/16
1/8
1/16
1/32
1/32
243
parola codice lunghezza Ak
1
1
011
3
010
3
001
3
0001
4
00001
5
00000
5
A
B
C
3/4
3/16
1/16
1/4
Fig. 10.5. Costruzione di un codice di Huffmann per una sorgente con K = 3 simboli (codifica
simbolo a simbolo)
X
A
B
C
probabilit`a pk
3/4
3/16
1/16
Tab. 10.4. Codice di Huffmann per una sorgente con K = 3 simboli (codifica simbolo a simbolo).
244
0.5625
1
AB
AC
BA
BB
0.1406
1.0000
0.2812
0.0469
0.1406
0.4375
0.1563
0.0352
BC
CA
CB
CC
0.0117
0.0625
0.0469
0.0273
0.0117
0.0039
0
1
0.1094
0
0
0.0156
Fig. 10.6. Costruzione di un codice di Huffmann per una sorgente con K = 3 simboli (codifica a
blocchi di n = 2 simboli).
sorgente equivalente di blocchi, che emette i blocchi AA, AB, etc. Poich`e la sorgente
e` senza memoria, e quindi i simboli successivamente emessi dalla sorgente sono statisticamente indipendenti, le probabilit`a associate ai blocchi si ottengono semplicemente
moltiplicando le probabilit`a dei simboli, e sono riportate in Tab. 10.5.
Lentropia di questa nuova sorgente e` chiaramente doppia rispetto a quella della
sorgente per n = 1, essendo i simboli indipendenti (sorgente senza memoria), e vale
pertanto 2.024 bit; lentropia per simbolo pero` non e` cambiata, e vale ancora 1.012 bit.
La costruzione del codice di Huffmann procede come mostrato in Fig. 10.6 (notiamo
che non abbiamo ordinato i blocchi in ordine decrescente di probabilit`a), ed il codice
X1 X2
AA
AB
AC
BA
BB
BC
CA
CB
CC
probabilit`a pk
0.5625
0.1406
0.0469
0.1406
0.0352
0.0117
0.0469
0.0117
0.0039
Tab. 10.5. Codice di Huffmann per una sorgente con K = 3 simboli (codifica a blocchi di n = 2
simboli).
245
246
Appendice A
Fattoriale e coefficiente binomiale
A.1
Fattoriale
A.2
2 nn+1/2 en .
Coefficiente binomiale
(A.1)
n
= n;
1
n
n
=
.
k
nk
248
A.3
Espansioni binomiali
(a + b) =
n
n
k=0
ak bnk ,
(A.2)
(1 + x) =
k=0
xk
(A.3)
( 1) ( k + 2) ( k + 1)
.
(A.4)
k!
k
Per sviluppare (a + b) , allora, ci si riconduce al caso della (A.3), mettendo in evidenza
il maggiore tra a e b.
La relazione (A.3) puo` essere applicata, in particolare, al caso in cui = n, con
n N. Si ha in tal caso:
n
n
n
k
(x) =
(1)k xk .
(1 + x) =
k
k
k=0
k=0
Ma essendo, per la (A.4),
n
(n)(n 1) (n k + 1)
n(n + 1) (n + k 1)
=
= (1)k
k
k!
k!
n+k1
(n + k 1)!
= (1)k
= (1)k
k
k! (n 1)!
249
si ottiene
(1 + x)
n+k1
k=0
(1)k xk ,
|x| < 1 .
(1 x)
n+k1
k=0
xk ,
|x| < 1 ,
(A.5)
250
Appendice B
La funzione G(x)
La funzione G(x) e` definita dallintegrale:
1
G(x) =
2
u2
2
du .
Inoltre la funzione G(x) puo` essere espressa in termini della funzione di errore:
x
2
2
erf(x)
eu du .
0
Infatti si ha:
x
x
2
u2
1
1
1
u2
G(x) =
e
du = +
e 2 du ,
2
2
2 0
0
v 2
1
x
dv =
1 + erf
.
2
2
(B.1)
La funzione G(x)
252
0.9999
0.999
0.998
0.99
0.98
0.95
0.9
0.8
G(x)
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.05
0.02
0.01
0.005
0.002
0.001
0.0005
0.0001
4
x
Fig. B.1. Grafico in scala gaussiana della funzione G(x).
Tale espressione e` conveniente quando si voglia implementare la funzione G(x) al calcolatore, in quanto quasi tutti i linguaggi di programmazione (Matlab tra essi) possiedono
la erf(x) tra le funzioni di libreria.
Ad esempio, riportiamo di seguito una function Matlab per il calcolo della G(x), che
puo` essere salvata nel file G.m.
function y = G(x);
%G Funzione G.
%
G(X) Calcola la funzione G nel valore x.
y = (1/2) * (1+erf(x/sqrt(2)));
Ad esempio, per ottenere il grafico di Fig. 2.6, si possono utilizzare i comandi
>> x = [-4:0.01:4];
>> plot(x,G);
Se non si dispone di un calcolatore, un grafico in scala gaussiana (Fig. B.1) della
G(x), nel quale la funzione appare come una retta, consente di determinare abbastanza
precisamente i valori della funzione. Per una valutazione ancora piu` accurata, e` tuttavia
indispensabile utilizzare una tabella dei valori della G(x). In Tab. B.1, tratta da [1, pp.
253
176177], sono riportati i valori di G(x) con quattro cifre decimali per 0 x 3.29.
Per valori di x < 0, si usi la relazione G(x) = 1 G(x), per valori di x 3.29 si
usi lapprossimazione (B.1). La tabella va letta come segue: sulle righe sono riportati i
valori di x con passo 0.1, spostandosi poi lungo una riga si ottengono i valori con passo
0.01. Ad esempio, la terza colonna della terza riga corrisponde a x = 0.22.
x
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0.00
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159
0.01
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7612
0.7910
0.8186
0.02
0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212
0.03
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238
0.04
0.5159
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7704
0.7995
0.8264
0.05
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289
0.06
0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315
0.07
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.8340
0.08
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7518
0.7823
0.8016
0.8365
0.09
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8380
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9554
0.9641
0.9713
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719
0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0.8485
0.8718
0.8907
0.9083
0.9236
0.9370
0.9485
0.9582
0.9664
0.9732
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9509
0.9678
0.9744
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9758
0.8599
0.8810
0.8997
0.9162
0.9306
0.9430
0.9535
0.9625
0.9699
0.9762
0.8621
0.8836
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
0.9773
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981
0.9778
0.9826
0.9865
0.9896
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9983
0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9984
0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9977
0.9984
0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984
0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9989
0.9985
0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9980
0.9985
0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
3.0
3.1
3.2
0.9986
0.9990
0.9993
0.9987
0.9991
0.9993
0.9987
0.9991
0.9993
0.9988
0.9991
0.9994
0.9988
0.9992
0.9994
0.9988
0.9992
0.9994
0.9989
0.9992
0.9994
0.9989
0.9992
0.9994
0.9989
0.9993
0.9995
0.9990
0.9993
0.9995
Tab. B.1. Valori della funzione G(x) (adattata da [1, pp. 176177]).
254
La funzione G(x)
Appendice C
Limpulso di Dirac
Limpulso di Dirac (x) non e` una funzione ordinaria, ma una funzione generalizzata o,
piu` precisamente, una distribuzione. Proviamo a darne una definizione formale, anche
se un maggior rigore matematico richiederebbe luso della teoria delle distribuzioni:
Definizione (impulso di Dirac). Sia (x) una qualsiasi funzione continua in
x = 0. Limpulso di Dirac (x) e` definito dalla seguente condizione:
b
(0), se 0 ]a, b[
(x) (x) dx =
(C.1)
0,
se 0 [a, b]
a
Notiamo che limpulso di Dirac campiona il valore della funzione (x) nel punto 0. E`
chiaro che non esiste nessuna funzione ordinaria che ha questa propriet`a; tuttavia, una
buona approssimazione di (x) e` una funzione stretta ed alta di area unitaria, ad
esempio:
1
, |x| T /2 ;
T (x) = T
0, |x| > T /2 ;
con T 1 (Fig. C.1). Infatti, se lintervallo ] T /2, T /2[ e` contenuto in ]a, b[, e se la
funzione (x) e` lentamente variabile nellintervallo ] T /2, T /2[, per cui si puo` porre
(x) (0) per |x| T /2, si ha:
a
1
(x) T (x) dx =
T
T /2
T /2
(x) dx (0) .
256
Limpulso di Dirac
y
1/T
T(x)
(area=1)
(x)
(0)
x
-T/2
T/2
Fig. C.1. La funzione T (x) rappresenta, al diminuire della durata T , unapprossimazione della
delta di Dirac (x). Osserviamo che per T sufficientemente piccolo la funzione (x) (0)
nellintervallo ] T /2, T /2[.
(x) (x) dx = 0 .
a
La conclusione e` che, a stretto rigore matematico, non possiamo considerare (x) come
il limite per T 0 della famiglia di funzioni T (x); tuttavia tale interpretazione, anche
se imprecisa, puo` rappresentare un valido aiuto allintuizione.
257
y
area = A
x0
Limpulso di Dirac gode delle seguenti propriet`a, che si possono facilmente dimostrare sulla base della definizione (C.1):
(x) dx = 1;
1. Area unitaria:
1
(x);
|a|
d
u(x);
dx
x
(u) du.
6. Integrazione: u(x) =
5. Derivazione: (x) =
258
Limpulso di Dirac
Bibliografia
Testi elementari di probabilit`a
[1] W. Feller An Introduction to Probability Theory and Its Applications. Volume I. John
Wiley & Sons, 1950.
[2] B. V. Gnedenko, Teoria della probabilit`a. Editori Riuniti, 1979.
[3] A. Papoulis. Probability, Random Variables, and Stochastic Processes. Third edition.
McGraw Hill International Editions, 1991.
[4] D. Stirzaker. Elementary Probability. Cambridge University Press, Cambridge, UK,
1994.
260
BIBLIOGRAFIA
Teoria dellinformazione
[11] T. M. Cover and J. A. Thomas Elements of Information Theory. John Wiley & Sons,
New York, 1991.