Dispense Di Teoria Dei Fenomeni Aleatori

Giacinto Gelli
Probabilità e informazione
Note per il corso di Teoria dei fenomeni aleatori
N APOLI 2002
autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis
c 20022006 Giacinto Gelli gelli@unina.it

Lautore consente la riproduzione anche parziale del testo agli studenti del corso. Non e`
consentito modificare il testo, diffonderlo, pubblicarlo anche con mezzi telematici senza
il consenso scritto dellautore.
Prima versione: settembre 2001.
Seconda versione: febbraio 2002.
Indice
1
Probabilità elementare
1.1 Introduzione . . . . . . . . . . . . . . . . . . .
1.2 Richiami di teoria degli insiemi . . . . . . . .
1.3 Definizioni preliminari di probabilità . . . . .
1.4 Probabilità assiomatica . . . . . . . . . . . . .
1.4.1 Campi e -campi (campi di Borel) . .
1.4.2 Assiomi di Kolmogorov . . . . . . . .
1.4.3 Proprietà elementari della probabilità
1.5 Altri approcci alla teoria della probabilità . .
1.5.1 Approccio frequentista . . . . . . . . .
1.5.2 Approccio classico . . . . . . . . . . .
1.5.3 Vantaggi dellapproccio assiomatico .
1.6 Esempi di spazi di probabilità . . . . . . . . .
1.6.1 Spazi di probabilità discreti . . . . . .
1.6.2 Spazi di probabilità continui . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Probabilità condizionale e indipendenza

2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . .
2.2 Probabilità condizionale . . . . . . . . . . . . . . .
2.2.1 Legge della probabilità composta . . . . . .
2.2.2 Regola della catena . . . . . . . . . . . . . .
2.2.3 Teoremi della probabilità totale e di Bayes .
2.3 Indipendenza tra eventi . . . . . . . . . . . . . . .
2.3.1 Indipendenza di tre o piu` eventi . . . . . .
2.3.2 Indipendenza condizionale tra eventi . . .
2.4 Esperimenti combinati . . . . . . . . . . . . . . . .
2.4.1 Esperimenti indipendenti . . . . . . . . . .
2.4.2 Prove ripetute . . . . . . . . . . . . . . . . .
2.4.3 Teoremi di de Moivre-Laplace . . . . . .
2.4.4 Canale binario simmetrico (BSC) . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
3
5
7
7
9
9
11
12
13
13
14
14
17
.
.
.
.
.
.
.
.
.
.
.
.
.
23
23
23
26
27
28
31
33
34
34
36
39
43
47
ii
INDICE
3
Variabili aleatorie
3.1 Introduzione . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Definizione di variabile aleatoria . . . . . .
3.2 Funzione di distribuzione cumulativa (CDF) . . .
3.2.1 Proprietà della CDF . . . . . . . . . . . . .
3.2.2 Variabili aleatorie discrete, continue, miste
3.2.3 Percentile e mediana . . . . . . . . . . . .
3.3 Funzione densità di probabilità (pdf) . . . . . . . .
3.3.1 Proprietà della pdf . . . . . . . . . . . . . .
3.4 Funzione distribuzione di probabilità (DF) . . . .
3.4.1 Proprietà della DF . . . . . . . . . . . . . .
3.5 Esempi di variabili aleatorie . . . . . . . . . . . . .
3.5.1 Variabili aleatorie discrete . . . . . . . . . .
3.5.2 Variabili aleatorie continue . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Trasformazioni di una variabile aleatoria

4.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Condizioni da imporre alla funzione g(x) . . . . . . . . .
4.2 Caratterizzazione statistica di Y = g(X) . . . . . . . . . . . . . . .
4.2.1 Calcolo della CDF di Y = g(X) . . . . . . . . . . . . . . . .
4.2.2 Calcolo della DF di Y = g(X) . . . . . . . . . . . . . . . . .
4.2.3 Calcolo della pdf di Y = g(X) . . . . . . . . . . . . . . . . .
4.3 Problema inverso: determinazione di g(x) . . . . . . . . . . . . . .
4.3.1 Generazione di una variabile aleatoria con CDF assegnata
4.3.2 Generazione automatica di numeri casuali . . . . . . . . .
4.3.3 Algoritmo middle-square (Von Neumann) . . . . . . . .
4.3.4 Algoritmo lineare congruente . . . . . . . . . . . . . . . . .
4.3.5 Test statistici sui generatori . . . . . . . . . . . . . . . . .
Caratterizzazione sintetica di una variabile aleatoria
5.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Media di una variabile aleatoria . . . . . . . . . . . . . . . . .
5.2.1 Teorema fondamentale della media . . . . . . . . . .
5.2.2 Proprietà della media . . . . . . . . . . . . . . . . . .
5.3 Varianza e valor quadratico medio di una variabile aleatoria
5.3.1 Proprietà della varianza . . . . . . . . . . . . . . . . .
5.4 Momenti di una variabile aleatoria . . . . . . . . . . . . . . .
5.4.1 Relazione tra momenti e momenti centrali . . . . . .
5.5 Disuguaglianze notevoli . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
53
53
56
57
59
61
62
64
65
67
69
70
70
75
.
.
.
.
.
.
.
.
.
.
.
.
81
81
82
83
83
89
90
95
98
102
102
103
105
.
.
.
.
.
.
.
.
.
109
109
109
113
114
114
117
119
120
122
INDICE
6
iii
Coppie di variabili aleatorie

6.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Funzione di distribuzione cumulativa (CDF) congiunta
6.2.1 Proprietà della CDF congiunta . . . . . . . . . .
6.3 Funzione densità di probabilità (pdf) congiunta . . . .
6.3.1 Proprietà della pdf congiunta . . . . . . . . . . .
6.4 Funzione di distribuzione di probabilità (DF) congiunta
6.5 Statistiche congiunte e marginali . . . . . . . . . . . . .
6.6 Indipendenza per coppie di variabili aleatorie . . . . .
6.7 Trasformazioni di coppie di variabili aleatorie . . . . .
6.7.1 Trasformazione 21 . . . . . . . . . . . . . . . .
6.7.2 Trasformazione 22 . . . . . . . . . . . . . . . .
6.7.3 Metodo della variabile ausiliaria . . . . . . . . .
6.8 Variabili aleatorie complesse . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
127
127
128
129
130
131
133
134
138
141
141
143
147
150
Caratterizzazione sintetica di una coppia di variabili aleatorie

7.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Teorema fondamentale della media per una coppia di variabili aleatorie
7.3 Momenti congiunti di una coppia di variabili aleatorie . . . . . . . . . .
7.4 Misure di correlazione di una coppia di variabili aleatorie . . . . . . . . .
7.4.1 Correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.4.2 Spazio vettoriale di variabili aleatorie . . . . . . . . . . . . . . . .
7.4.3 Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.4.4 Coefficiente di correlazione . . . . . . . . . . . . . . . . . . . . . .
7.4.5 Incorrelazione tra due variabili aleatorie . . . . . . . . . . . . . . .
7.5 Stima lineare a minimo errore quadratico medio . . . . . . . . . . . . .
7.5.1 Principio di ortogonalità . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
153
153
153
155
156
156
156
158
159
161
162
164
Vettori di variabili aleatorie

8.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Caratterizzazione statistica di n variabili aleatorie . . . . . . . . . . .
8.2.1 Funzione di distribuzione cumulativa (CDF) . . . . . . . . . .
8.2.2 Funzione densità di probabilità (pdf) . . . . . . . . . . . . . .
8.2.3 Funzione di distribuzione di probabilità (DF) . . . . . . . . . .
8.2.4 Proprietà delle distribuzioni congiunte di n variabili aleatorie
8.3 Trasformazioni di n variabili aleatorie . . . . . . . . . . . . . . . . . .
8.4 Indipendenza per n variabili aleatorie . . . . . . . . . . . . . . . . . .
8.5 Momenti di n variabili aleatorie . . . . . . . . . . . . . . . . . . . . . .
8.5.1 Vettore delle medie . . . . . . . . . . . . . . . . . . . . . . . . .
8.5.2 Matrice di correlazione . . . . . . . . . . . . . . . . . . . . . . .
8.5.3 Matrice di covarianza . . . . . . . . . . . . . . . . . . . . . . .
8.5.4 Incorrelazione . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.6 Teoremi limite e convergenza di una sequenza di variabili aleatorie
.
.
.
.
.
.
.
.
.
.
.
.
.
.
167
167
167
168
168
169
169
170
173
175
176
177
178
179
183
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
iv
INDICE
8.6.1
8.6.2
9
Legge dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . . . 183

Teorema limite fondamentale . . . . . . . . . . . . . . . . . . . . . . 187
Distribuzioni e medie condizionali

9.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Distribuzioni condizionali per una variabile aleatoria . . . . . . .
9.2.1 Funzione di distribuzione cumulativa (CDF) condizionale
9.2.2 Funzione densità di probabilità (pdf) condizionale . . . . .
9.2.3 Funzione distribuzione di probabilità (DF) condizionale .
9.2.4 Teorema della probabilità totale per CDF, pdf, DF . . . . .
9.2.5 Probabilità a posteriori di un evento . . . . . . . . . . . .
9.2.6 Probabilità a posteriori dato X = x . . . . . . . . . . . . .
9.2.7 Teorema della probabilità totale (versione continua) . . .
9.2.8 Teorema di Bayes per le pdf . . . . . . . . . . . . . . . . .
9.3 Distribuzioni condizionali per coppie di variabili aleatorie . . . .
9.3.1 Distribuzioni condizionali dato X = x ed Y = y . . . . . .
9.4 Distribuzioni condizionali per vettori di variabili aleatorie . . . .
9.4.1 Indipendenza condizionale e regola della catena per le pdf
9.5 Media condizionale e momenti condizionali . . . . . . . . . . . . .
9.5.1 Teorema della media condizionale . . . . . . . . . . . . . .
10 Elementi di teoria dellinformazione

10.1 Introduzione . . . . . . . . . . . . . . . . . . . .
10.2 Misura dellinformazione ed entropia . . . . .
10.2.1 Autoinformazione . . . . . . . . . . . .
10.2.2 Entropia . . . . . . . . . . . . . . . . . .
10.2.3 Proprietà dellentropia . . . . . . . . . .
10.2.4 Entropia congiunta . . . . . . . . . . . .
10.3 Sorgenti di informazione . . . . . . . . . . . . .
10.3.1 Tasso dentropia di una sorgente . . . .
10.3.2 Sorgenti discrete senza memoria (DMS)
10.4 Codifica di sorgente . . . . . . . . . . . . . . . .
10.5 Codici per la compattazione dati . . . . . . . .
10.5.1 Codici a lunghezza fissa . . . . . . . . .
10.5.2 Codici a lunghezza variabile . . . . . .
10.5.3 Codici univocamente decifrabili . . . .
10.5.4 Codici a prefisso . . . . . . . . . . . . .
10.5.5 Condizioni per lunivoca decifrabilità .
10.6 Efficienza di codifica . . . . . . . . . . . . . . .
10.6.1 Codici di Shannon . . . . . . . . . . . .
10.6.2 Primo teorema di Shannon . . . . . . .
10.6.3 Efficienza dei codici a lunghezza fissa .
10.7 Codici di Huffmann . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
191
191
191
191
193
194
197
198
199
201
202
202
205
207
208
209
211
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
217
217
219
220
221
222
223
225
225
226
228
229
230
230
231
231
233
235
236
239
240
241
INDICE
A Fattoriale e coefficiente binomiale

247
A.1 Fattoriale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
A.2 Coefficiente binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
A.3 Espansioni binomiali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
B La funzione G(x)
251
C Limpulso di Dirac
255
Bibliografia
259
vi
INDICE
Capitolo 1
1.1
Introduzione
La teoria della probabilità e` uno strumento matematico utile per lo studio dei cosiddetti
fenomeni aleatori, che sono fenomeni complessi o di difficile modellizzazione, che tuttavia presentano una qualche forma di regolarità, ed il cui comportamento puo` essere
descritto solo attraverso opportune grandezze globali o medie.
Per esempio, il lancio di una moneta su un tavolo e` un fenomeno fisico che puo` essere certamente descritto in termini delle equazioni matematiche tipiche della cinematica
e della dinamica; tuttavia e` estremamente difficile, se non praticamente impossibile, pur
supponendo di conoscere esattamente la forma, il peso, la quantità di moto iniziale della moneta, le caratteristiche del tavolo, e ogni altro parametro del problema, prevedere
` la nostra
quale faccia della moneta si manifesterà in un singolo lancio. Nonostante cio,
intuizione ci dice che se lanciamo la moneta (supposta non truccata) un numero sufficientemente elevato di volte, la percentuale di volte che si presenterà la faccia testa o la
faccia croce sarà prossima al 50%. Quindi, pur non essendo possibile prevedere il risultato di un singolo lancio, riconosciamo che il fenomeno aleatorio presenta una qualche
forma di regolarità se si considera un numero elevato di lanci o ripetizioni dellesperimento. La teoria della probabilità si occupa proprio di individuare, studiare e modellare tali
regolarità.1
Un altro esempio di fenomeno aleatorio e` un fluido gassoso, composto da un numero elevato di particelle in moto casuale. E` praticamente impossibile descrivere il
comportamento del gas descrivendo il comportamento di ogni particella che lo compone; tuttavia laggregato delle particelle tende ad esibire proprietà regolari: ad esempio,
la pressione del gas stesso e` una quantità perfettamente definita e misurabile. La disci1
Lesempio del lancio di una moneta non e` scelto a caso: per lungo tempo, una delle principali applicazioni della teoria della probabilità e` stato il calcolo delle percentuali di vittoria o di sconfitta per i piu`
comuni giochi dazzardo (lancio di dadi, roulette, poker, etc.).
plina che studia il comportamento dei gas con un approccio basato sulla teoria della
probabilità prende il nome di meccanica statistica.
Altri fenomeni aleatori che possono essere utilmente modellati attraverso la teoria
della probabilità sono, ad esempio, larrivo di utenti ad uno sportello di una banca,
nel quale e` impossibile prevedere con esattezza listante di arrivo di ciascun utente, ma
il comportamento globale dellinsieme degli utenti (ad esempio, la lunghezza media
della coda allo sportello) puo` essere modellato con una certa esattezza. In un ambito
completamente differente, gli arrivi possono essere le telefonate che giungono ad una
centrale telefonica, e la teoria della probabilità puo` servire a dimensionare opportunamente il numero di linee di tale centrale. Lapplicazione della teoria della probabilità
a tali problemi ha determinato la nascita di una disciplina denominata teoria delle code,
ampiamente utilizzata nellanalisi e nel progetto delle reti di telecomunicazioni.
In ambito economico, la teoria della probabilità e` stata utilizzata con successo per
modellare aggregati composti da un gran numero di soggetti economici, quali ad esempio i mercati nei quali avvengono le transazioni di borsa. Se infatti e` impossibile prevedere con esattezza il comportamento del singolo investitore, tuttavia il comportamento globale di un gran numero di investitori tende ad esibire regolarità che rendono
possibile una descrizione basata sui modelli della teoria della probabilità.
Un altro campo nel quale la teoria della probabilità trova unimportante applicazione e` lelaborazione e la trasmissione dellinformazione; bisogna infatti osservare che, per
sua natura, il concetto di informazione e` intrinsecamente legato a quello di impredicibilità. Ad esempio, laffermazione stanotte farà buio non convoglia nessuna informazione, semplicemente perchè e` una affermazione certa. Viceversa, una affermazione
poco probabile, quale domani il pianeta Terra sarà invaso dai marziani convoglia una
grande quantità di informazione, perche poco probabile. La disciplina che studia i problemi associati allinformazione con approccio probabilistico prende il nome di teoria
dellinformazione; alcuni aspetti basilari di tale disciplina saranno introdotti e discussi
nel capitolo 10.
Abbiamo fornito alcuni esempi, certamente non esaustivi, di applicazione della teoria della probabilità, che dovrebbero evidenziare lampia portata e la rilevanza di tale
disciplina. Siamo adesso pronti a porre le basi di tale teoria, che ha un forte contenuto
matematico, ma che cercheremo di trattare in modo semplice, e con continuo ricorso ad
esempi. In particolare, prima di addentrarci nel vivo delle studio della teoria della probabilità, richiamiamo brevemente alcuni concetti della teoria degli insiemi, che peraltro
dovrebbero essere già noti al lettore, principalmente per familiarizzare con la notazione
che utilizzeremo nel seguito.
1.2 Richiami di teoria degli insiemi
A
A
A
Fig. 1.1. Linsieme B e` sottoinsieme dellinsieme A (B A).
1.2
Fig. 1.2. Il complemento A = A di un

insieme A (in grigio).
Richiami di teoria degli insiemi
Un insieme A e` una collezione di oggetti, chiamati elementi dellinsieme. Un insieme puo`

essere definito per enumerazione, vale a dire specificando in dettaglio i suoi elementi,
per esempio A = {1 , 2 , . . . , n } o A = {bianco, rosso, verde}, oppure descrivendo
quali proprietà devono possedere tali elementi, ad esempio 2 A = { R tali che
0}. Per indicare che e` un elemento di A, si usa la notazione A. Linsieme vuoto
e` linsieme che non contiene elementi.
Per agevolare la comprensione delle relazioni che coinvolgono gli insiemi, e` utile
ricorrere ad un particolare tipo di rappresentazione grafica, denominata diagramma di
Venn, nel quale gli insiemi sono rappresentati come porzioni del piano.
Un sottoinsieme B di A e` un insieme i cui elementi sono anche elementi di A (Fig.
1.1). Per indicare che B e` un sottoinsieme di A (ovvero e` incluso in A) si usa la notazione
B A. Se esiste almeno un elemento di A che non appartiene a B, B si dice sottoinsieme
proprio di A, e si indica B A (relazione di inclusione stretta). Si assume che linsieme
vuoto sia sottoinsieme di un qualunque insieme. Nella logica formale, la relazione di
inclusione corrisponde allimplicazione logica.
La differenza A B tra due insiemi e` linsieme che contiene gli elementi di A che
non appartengono a B.
Sia A un sottoinsieme di . Il complemento A di A (rispetto ad ) e` linsieme conteQui e nel seguito denotiamo con R linsieme dei numeri reali, con N linsieme dei numeri naturali
(interi positivi escluso lo zero), con Z linsieme dei numeri relativi (interi positivi e negativi, zero incluso).
2
AB
AB
Fig. 1.3. Lunione A B di due insiemi (in

grigio).
Fig. 1.4. Lintersezione AB di due insiemi

(in grigio)
nente tutti gli elementi di che non appartengono ad A (Fig. 1.2), ovvero A = A.
Nella logica formale, il complemento corrisponde alloperazione di NOT.
Lunione o somma di due insiemi e` linsieme (Fig. 1.3). che contiene tutti gli elementi
di A, di B, o di entrambi. Lunione di due insiemi si denota con A B oppure A +
B, e gode delle proprietà commutativa e associativa. Nella logica formale, lunione
corrisponde alloperazione di OR (non esclusivo).
Lintersezione o prodotto di due insiemi e` linsieme (Fig. 1.4). che contiene tutti gli
elementi comuni ad A e B. Lintersezione di due insiemi si denota con A B oppure
AB, e gode delle proprietà commutativa, associativa e distributiva rispetto allunione.
Nella logica formale, lintersezione corrisponde alloperazione di AND.
Le operazioni di unione ed intersezione possono essere estese a piu` di due insiemi,
ed anche al caso di infiniti insiemi.
Due insiemi A e B si dicono mutuamente esclusivi o disgiunti se A B = . Piu`
insiemi A1 , A2 , . . . si dicono mutuamente esclusivi o disgiunti se Ai Aj = per ogni
i = j. Dati n insiemi A1 , A2 , . . . , An mutuamente esclusivi, si dice che essi costituiscono
una partizione di se nk=1 Ak = .
La cardinalità card(A) di un insieme A e` il numero degli elementi di A. Se A contiene
infiniti elementi, card(A) = . La cardinalità di un insieme infinito puo` essere infinita
numerabile o infinita continua; si dice numerabile se comunque gli infiniti elementi di
A si possono porre in corrispondenza biunivoca con linsieme N dei numeri naturali,
altrimenti si dirà continua. Ad esempio, linsieme A dei numeri non negativi e pari e`
un insieme con cardinalità infinita numerabile; viceversa linsieme A = [0, 1] = {x
R tali che 0 x 1} e` un insieme con cardinalità infinità continua. E facile verificare
1.3 Definizioni preliminari di probabilità
che la cardinalità gode delle seguenti proprietà:

1. se A, B sono mutuamente esclusivi, allora card(A + B) = card(A) + card(B);
2. in generale, se A, B non sono mutuamente esclusivi, si ha card(A + B) = card(A) +
card(B) card(AB);
3. se A B, allora card(A) card(B);
4. card() = 0;
Le leggi di de Morgan, utilizzate anche nella logica formale, mettono in relazione tra loro
le operazioni di unione, intersezione e complementazione:
AB =AB,
(1.1)
AB =AB.
(1.2)
Tali leggi possono essere estese anche allunione e allintersezione di uninfinità numerabile di insiemi.
1.3
Definizioni preliminari di probabilità
Iniziamo introducendo i concetti basilari di esperimento, spazio campione, ed evento.

Definizione (esperimento). Un esperimento e` una procedura sperimentale
con un ben definito insieme di possibili risultati.
Esempio 1.1. Un possibile esperimento e` il lancio di una moneta, con risultati convenzionalmente denominati testa (T ) e croce (C); oppure il lancio di un dado, con
possibili risultati una faccia marcata con un numero intero tra uno e sei; oppure ancora
lestrazione di un numero al gioco del lotto, con possibili risultati un numero intero tra
1 e 90.

Definizione (spazio campione). Lo spazio campione = {1 , 2 , . . . , n , . . . }
(finito o infinito) associato ad un esperimento e` linsieme dei possibili risultati
dellesperimento.
Esempio 1.2. Nel lancio di una moneta lo spazio campione e` = {T, C}; nel lancio di
un dado, lo spazio campione e` = {1, 2, 3, 4, 5, 6}; nellestrazione di un numero al lotto,
lo spazio campione e` = {1, 2, . . . , 89, 90}.
Definizione (evento). Dato uno spazio campione , si dice evento un
qualunque sottoinsieme A di .
Esempio 1.3. Nel lancio di una moneta un possibile evento e` A = {T } (evento elementare, costituito da un solo elemento); nel lancio di un dado, un possibile evento
e` A = {pari} = {2, 4, 6}; nellestrazione di un numero al lotto, un possibile evento e`
A = {minore di 10} = {1, 2, 3, . . . , 9}.

Supponiamo allora di effettuare lesperimento e di ottenere il risultato : diremo
allora che si e` verificato levento A se A. Allo stesso modo, diremo che:
- non si e` verificato levento A, se A o, equivalentemente, se A;
- si sono verificati gli eventi A e B, se A B;
- si e` verificato levento A oppure B, se A B (gli eventi A e B potrebbero
verificarsi anche entrambi, ovvero lOR non e` esclusivo).
Ad esempio, poichè sempre, levento (evento certo) si verifica ad ogni prova,
mentre levento (evento impossibile) non si verifica in nessuna prova.
Possiamo adesso introdurre i concetti di spazio degli eventi ed una prima definizione
di probabilità. Per spazio degli eventi intendiamo linsieme B di tutti gli eventi di interesse
(è una collezione di insiemi). La probabilità e` una funzione P definita sullo spazio degli
eventi B e a valori in [0, 1]:
P : A B P (A) [0, 1] .
A questo punto sorge un problema fondamentale: dato un qualsiasi esperimento, e`
abbastanza semplice identificare in maniera non ambigua lo spazio campione , gli
eventi A, lo spazio dei possibili eventi B. Ma come e` possibile specificare la legge di
probabilità? Vediamo un semplice esempio.
Esempio 1.4. Consideriamo il lancio di una moneta, il cui spazio campione denotiamo
con = {T, C}. Come spazio degli eventi, consideriamo B = {{T }, {C}, {T, C}, {}},
ovvero linsieme contenente tutti i sottoinsiemi di che, per un insieme con n elementi,
sono in numero pari a 2n . 3 Possiamo assegnare la probabilità a tutti gli eventi di B nel
3
Tale risultato si puo` facilmente motivare, se pensiamo che individuare un particolare sottoinsieme
di , che ha n elementi, equivale a costruire una stringa di n bit, nella quale ai simboli 0 si associa la
mancanza nel sottoinsieme dellelemento di corrispondente, mentre ai simboli 1 si associa la sua presenza. Poichè e` possibile costruire 2n distinte stringhe di n bit, tale sarà il numero dei distinti sottoinsiemi
di .
1.4 Probabilità assiomatica
seguente modo:
P ({T }) = P ({C}) = 1/2, per simmetria;
P ({T, C}) = 1,
evento certo;
P ({}) = 0,
evento impossibile.
In questo caso, allora, abbiamo assegnato un valore numerico di probabilità ad un
qualunque evento dello spazio degli eventi.

Nel semplice esempio precedente una plausibile legge di probabilità si e` ottenuta sulla
base di considerazioni intuitive e per motivi di simmetria. Tuttavia, per trattare casi piu`
complicati e` necessario ricorrere ad un approccio sistematico. In particolare, e` possibile
introdurre degli assiomi o dei postulati4 a cui deve soddisfare una legge di probabilità;
questa strada e` quella seguita dallapproccio assiomatico, introdotto dal matematico russo
A. N. Kolmogorov (19031987), ed e` quella ritenuta piu` soddisfacente dal punto di vista
matematico. Tuttavia, lapproccio assiomatico soffre di una limitazione fondamentale, e
cioè che si tratta di un approccio incompleto, come discuteremo piu` approfonditamente
nel seguito.
1.4
Probabilità assiomatica
Per costruire una legge di probabilità secondo lapproccio assiomatico dobbiamo richiedere qualche proprietà particolare allo spazio B degli eventi di interesse. In particolare,
dobbiamo richiedere che B possieda la struttura algebrica di campo o, piu` precisamente,
di -campo o campo di Borel.
1.4.1 Campi e -campi (campi di Borel)

Iniziamo col definire il concetto di campo.
Definizione (campo). Un campo B di eventi e` una collezione non vuota di
eventi che soddisfa le seguenti proprietà:
1. A B A B
(chiusura rispetto al complemento);
2. A, B B A B B
(chiusura rispetto allunione).
Sulla base delle proprietà 12, e` facile dimostrare che, se B e` un campo, si ha:
4
Ricordiamo che, in una teoria formale, un assioma o un postulato e` unasserzione che non devessere
dimostrata. Ad esempio, lassioma fondamentale della geometria euclidea e` il cosiddetto assioma delle
rette parallele: per un punto non appartenente ad una retta, passa una ed una sola retta parallela alla retta
data.
1 . , B.
Prova. Infatti, poichè B e` non vuoto, contiene almeno un elemento A A B (per la proprietà 1)
A A = B (per la proprietà 2) = B (per la proprietà 1).
2 . se A, B B, allora A B B.
Prova. Se A, B B A, B B (per la proprietà 1) A B B (per la proprietà 2) A B B
(per la proprietà 1). Ma A B = A B per le leggi di de Morgan.
Lapplicazione ripetuta delle proprietà 2 e 2 mostra che ogni insieme che possa essere
espresso come unione e/o intersezione di un numero finito di elementi di B appartiene
anchesso ad B. Tale proprietà non rimane valida, tuttavia, se si considera un numero
infinito di insiemi, che e` un caso di interesse nella teoria della probabilità. E allora necessario estendere il concetto di campo al caso di infiniti insiemi, definendo il cosiddetto
-campo o campo di Borel.
Definizione (-campo o campo di Borel). Un -campo B o campo di Borel di
eventi e` un campo che soddisfa, oltre alle proprietà 1 e 2, anche la seguente:
3. {Ai }
i=1 B i=1 Ai B (chiusura rispetto allunione numerabile).
Applicando le leggi di de Morgan e` facile verificare che anche

i=1 Ai appartiene a B
(chiusura rispetto allintersezione numerabile).
Notiamo poi che poichè e devono necessariamente appartenere ad B, ne segue
che B = {, } e` il piu` semplice -campo che posso costruire e prende il nome di campo
di Borel banale.
Osserviamo in conclusione che la distinzione tra campo e -campo e` significativa se
il numero di eventi possibili e` infinito, il che puo` accadere solo se lo spazio campione
ha infiniti elementi. Viceversa, se lo spazio campione ha un numero n finito di
elementi, linsieme B costituito da tutti i 2n sottoinsiemi di B e` sicuramente un campo
(e anche un -campo), poichè contiene tutti i possibili sottoinsiemi di . In generale
linsieme di tutti i possibili sottoinsiemi e` sempre un -campo, tuttavia se e` infinito
continuo tale -campo potrebbe essere un insieme troppo ampio per definire una valida
legge di probabilità su di esso. Approfondiremo meglio questo concetto nel 1.6.2.
1.4 Probabilità assiomatica
1.4.2 Assiomi di Kolmogorov

A questo punto abbiamo introdotto le definizioni preliminari e siamo in grado di fornire
una definizione assiomatica di probabilità.
Definizione (probabilità assiomatica). Assegnato uno spazio campione ed
un -campo B di eventi di , si definisce probabilità una funzione P definita in B e a valori in [0, 1], tale da soddisfare i seguenti tre assiomi (assiomi di
Kolmogorov):
I. P (A) 0 per ogni A B (assioma di non negatività);
II. P () = 1 (assioma di normalizzazione);
` una successione di eventi
III. Se {Ai }
mutuamente esclusivi (Ai Aj =
i=1 e
, i = j) di B, allora P (i=1 Ai ) =
i=1 P (Ai ) (assioma di numerabile
additività).
Lintera teoria della probabilità discende dai precedenti assiomi in maniera deduttiva.
1.4.3 Proprietà elementari della probabilità

A partire dagli assiomi di Kolmogorov, applicando semplici concetti di teoria degli
insiemi, e` possibile ricavare le seguenti proprietà elementari della probabilità.
1. P () = 0.
Prova. Scegliendo A1 = e Ai = , i > 1 (tali Ai risultano chiaramente mutuamente esclusivi),
risulta
i=1 Ai = + = . Per lassioma III allora si ha:
P () = P (
i=1 Ai ) =

i=1
P (Ai ) = P () +
P ()
i=2
da cui risulta necessariamente P () = 0.
2. A, B B, A B = P (A B) = P (A) + P (B) (finita additività).

Prova. Segue dallassioma III e dalla proprietà 1, scegliendo A1 = A, A2 = B, Ai = , i > 2.
3. P (A) = 1 P (A), A B.
Prova. Poichè A A = e A A = , per la proprietà 2 e per lassioma II si ha:
P (A A) = P (A) + P (A) = P () = 1 P (A) = 1 P (A) .
10
4. P (A B) = P (A) + P (B) P (A B).
Prova. Utilizzando i diagrammi di Venn (Fig. 1.5) e` facile verificare che:
A B = A AB
con A e AB mutuamente esclusivi. Allo stesso modo (Fig. 1.5, si ha:
B = S B = (A + A) B = A B A B
con A B e A B mutuamente esclusivi. Applicando la proprietà 2 si ha:
P (A B) = P (A) + P (AB) ,
P (B) = P (AB) + P (AB) .
Eliminando P (AB) tra le due equazioni si ottiene il risultato.
Notiamo che P (A B) P (A) + P (B) perchè P (A B) 0. Si ha uguaglianza se

e solo se P (A B) = 0 (eventi mutuamente esclusivi).
5. B A P (B) P (A).
Prova. Utilizzando i diagrammi di Venn (Fig. 1.6) e` facile verificare che, se B A, si ha:
A = B AB
con B e A B mutuamente esclusivi. Per la proprietà 2 si ha:
P (A) = P (B A B) = P (B) + P (AB) P (B) P (A)
perchè P (A B) 0.
6. P (A) 1, A B.
Prova. Segue direttamente dalla proprietà precedente e dallassioma II scegliendo B = .
In sostanza, per definire una legge di probabilità, occorre specificare: 1) uno spazio
campione ; 2) un -campo B di eventi di ; 3) una funzione P definita su B e a valori in [0, 1] che soddisfi gli assiomi I-III di Kolmogorov. La terna (, B, P ) prende il
nome di spazio di probabilità. Si noti che, nellapproccio assiomatico, tutta la teoria della
probabilità viene costruita in maniera deduttiva a partire dagli assiomi di Kolmogorov.
Esempio 1.5. Riprendiamo lesempio del lancio di una moneta. Abbiamo definito lo
spazio campione = {T, C} ed il -campo B = {{T }, {C}, {T, C}, {}}. Per definire
una legge di probabilità bisogna allora assegnare le probabilità agli eventi. A tale scopo
e` sufficiente assegnare le probabilità ai cosiddetti eventi elementari {T } e {C}. Una scelta
ragionevole e` :
P ({T }) = P ({C}) = 1/2 ,
1.5 Altri approcci alla teoria della probabilità
AB
11
AB
AB
Fig. 1.5. Diagramma di Venn delle relazioni A B = A AB e B = A B

A B.
Fig. 1.6. Diagramma di Venn della relazione A = B A B (valida se B

A).
tuttavia se assegniamo le probabilità come:

P ({T }) = 1/3 ,
P ({C}) = 2/3 ;
e` facile vedere che anche tale assegnazione soddisfa gli assiomi di Kolmogorov. Allora
qual e` la legge di probabilità corretta?

Lesempio precedente mette in luce la principale limitazione dellapproccio assiomatico
di Kolmogorov, ovvero il fatto che esso e` un sistema di assiomi incompleto, non consente
cioè di determinare univocamente quali debbano essere le probabilità degli eventi. Come si fa allora a capire quale sia la legge di probabilità corretta? In pratica una volta
definita una legge di probabilità che soddisfa allapproccio assiomatico, si utilizza tale
legge per effettuare previsioni sullesperimento (ad esempio, per calcolare probabilità di
eventi piu` complessi a partire da probabilità di eventi semplici). Se le previsioni sono
accurate (validazione sperimentale) le probabilità ipotizzate sono corrette, altrimenti e`
necessario modificare la legge (i valori) di probabilità. Il processo si puo` iterare fino ad
avere un accordo soddisfacente tra valori teorici e valori sperimentali.
1.5
Altri approcci alla teoria della probabilità
Lapproccio assiomatico e` quello piu` recentemente proposto per la teoria della probabilità. Storicamente, nel corso degli anni, oltre allapproccio assiomatico si sono sviluppati
almeno altri due importanti approcci: lapproccio frequentista e lapproccio classico.5
12
1.5.1 Approccio frequentista

Lapproccio frequentista, dovuto a R. E. von Mises (18831953), definisce la probabilità
di un evento nel seguente modo: se un esperimento e` ripetuto n volte e se levento A si
verifica nA volte, si definisce probabilità dellevento A il limite della frequenza di successo:
nA
.
n n
P (A) = lim
(1.3)
Lapproccio frequentista e` un approccio induttivo, cioè un approccio che si basa (o vorrebbe basarsi) sullesperienza, e presenta il vantaggio innegabile di essere vicino al nostro concetto intuitivo di probabilità; tuttavia non e` del tutto soddisfacente per fornire
una definizione operativa di probabilità, perchè non e` possibile ripetere un esperimento un numero infinito di volte. Inoltre, dal punto di vista teorico, lesistenza stessa del
limite nella (1.3) puo` essere messa in discussione.
E` interessante interpretare gli assiomi di Kolmogorov in senso frequentista, visto che
la nostra interpretazione intuitiva di probabilità e` proprio quella frequentista. Infatti, se
interpretiamo la probabilità come frequenza di successo dellevento A su n prove, cioè
trascuriamo loperazione di limite nella (1.3), ponendo
P (A) =
nA
,
n
si ha:
I. P (A) 0, banalmente perchè nA 0 ed n > 0;
II. P () = 1, perchè n = n (levento certo si verifica ad ogni prova);
III. se A B = , allora nA+B = nA + nB perchè non possono verificarsi entrambi
simultaneamente. Allora:
P (A + B) =
nA nB
nA+B
=
+
= P (A) + P (B) .
n
n
n
Si noti che abbiamo scritto il terzo assioma per semplicità nella forma finita, per evitare
lastrazione insita nel considerare infiniti eventi.
5
Non consideriamo qui, perchè poco scientifico, lapproccio soggettivista, secondo il quale la probabilità esprime il grado di aspettativa soggettiva di un individuo relativamente al verificarsi di un
evento.
1.5 Altri approcci alla teoria della probabilità
1.5.2 Approccio classico

Nellapproccio classico, dovuto a P. S. Laplace (17491827), la probabilità di un evento
si determina a priori come il rapporto
P (A) =
NA
,
N
dove N e` il numero dei possibili risultati dellesperimento ed NA e` il numero dei risultati

favorevoli allevento A.
Esempio 1.6. Consideriamo il lancio di un dado, per il quale = {1, 2, 3, 4, 5, 6}. Sia
poi A = {pari} = {2, 4, 6}. Sulla base dellapproccio classico, risulta NA = card(A) = 3,
N = card() = 6, per cui P (A) = card(A)
= 12 .

card()
Lapproccio classico e` anchesso, come quello assiomatico, di tipo deduttivo, cioè si fonda su postulati. Inoltre e` facile verificare che le leggi di probabilità costruite a partire
dallapproccio classico soddisfano gli assiomi di Kolmogorov. A prima vista, poi, lapproccio classico pare piu` soddisfacente dellapproccio assiomatico, in quanto mediante
esso e` possibile assegnare dei precisi valori alle probabilità. Tuttavia, i limiti insiti nelluso di tale approccio appaiono chiari se ragioniamo piu` approfonditamente sullesempio
precedente. Infatti, il valore di probabilità dellesempio precedente e` corretto a patto
che si assuma che il dado non sia truccato. E se viceversa assumessi il dado truccato? Secondo lapproccio classico, otterrei esattamente lo stesso valore di probabilità, il
che ovviamente non e` il risultato corretto, e rappresenta una grossa limitazione di tale
approccio. Potrei modificare la definizione classica richiedendo che i risultati da considerare siano equiprobabili, ma in questo modo userei il concetto di equiprobabilità per
definire il concetto di probabilità, cioè ricadrei in un circolo vizioso o tautologico.
1.5.3 Vantaggi dellapproccio assiomatico

Tra i tre approcci (assiomatico, frequentista, classico) visti, quello assiomatico e` probabilmente il meno intuitivo, basandosi su concetti della teoria degli insiemi e sullintroduzione di una serie di assiomi cui deve soddisfare la definizione di probabilità. Nonostante il suo carattere poco intuitivo, e` lunico approccio che consente di definire matematicamente la teoria della probabilità in maniera soddisfacente ed elegante, evitando una serie di incongruenze ed inconsistenze tipiche dellapproccio frequentista e di
quello classico. In particolare, lintera teoria viene ad assumere un carattere puramente
deduttivo, discende cioè in maniera logica e rigorosa dagli assiomi della probabilità cos`
come, ad esempio, la geometria euclidea discende dal postulato sul numero di rette parallele ad una retta data passanti per un punto. Per questo motivo, quello assiomatico
13
14
e` stato riconosciuto dai matematici come lapproccio piu` soddisfacente alla teoria della
probabilità, e sarà quello considerato nella trattazione che segue.
Tuttavia anche gli approcci frequentista e classico presentano alcuni vantaggi. In
sintesi, e` possibile affermare che:
lapproccio frequentista e` quello piu` vicino al nostro concetto intuitivo di probabilità, e spesso e` daiuto per interpretare intuitivamente i risultati ottenuti;
lapproccio classico serve ad assegnare i valori di probabilità in molti casi pratici (es. giochi, scommesse, etc.), in cui i risultati possibili si possono ritenere
equiprobabili;
lapproccio assiomatico e` quello piu` soddisfacente dal punto di vista formale (matematico), ma non consente di fissare univocamente i valori numerici delle probabilità da assegnare agli eventi (incompletezza).
1.6
Esempi di spazi di probabilità
Per concludere questo primo capitolo, consideriamo alcuni esempi di spazi di probabilità; per semplicità di trattazione, considereremo prima il caso piu` semplice di spazi di
probabilità discreti, e successivamente quello piu` astratto di spazi di probabilità continui.
1.6.1 Spazi di probabilità discreti

Sia = {1 , 2 , . . . , n , . . . } un insieme discreto, vale a dire di cardinalità finita o infinita
numerabile. In tal caso, e` possibile scegliere come -campo linsieme cos` definito:
B = {tutti i sottoinsiemi di , incluso} .
Osserviamo che A B si puo` esprimere come unione al piu` numerabile di eventi elementari {ij }, cioè
A =
j=1 {ij } .
Poichè gli eventi elementari sono mutuamente esclusivi, allora si ha, per lassioma III,
P (A) =
P ({ij }) .
j=1
Pertanto, per assegnare la probabilità di un qualunque evento A, e` sufficiente assegnare le probabilità degli eventi elementari pi P ({i }), i , garantendo che, per
1.6 Esempi di spazi di probabilità
15
lassioma II,
P () =
P ({i }) =
i=1
pi = 1 .
(1.4)
i=1
Consideriamo il caso di un insieme di cardinalità finita (card() = N ): se e` possibile assumere gli eventi elementari equiprobabili (per motivi di simmetria o applicando
il cosiddetto principio di ragione insufficiente 6 ) risulta necessariamente, per la (1.4),
pi =
1
N
ed inoltre si ha, evidentemente,

P (A) =
card(A)
.
card()
(1.5)
Si osservi, peraltro, che tale risultato e` esattamente equivalente alla definizione di probabilità secondo lapproccio classico, che quindi puo` riguardarsi come lapplicazione
dellapproccio assiomatico a spazi campione finiti con eventi elementari equiprobabili, un caso tipico della teoria dei giochi e delle scommesse. Osserviamo inoltre esplicitamente che determinare la probabilità di un evento A secondo la (1.5) e` equivalente a
contare gli elementi di A e quelli di . Evidentemente, se card() = non e` possibile
assumere gli eventi equiprobabili, in quanto avrei P () = in tal caso!
In definitiva, la (1.5) mostra che in molti casi il calcolo delle probabilità di eventi si
riduce ad un problema puramente combinatorio, consistente cioè nel contare gli elementi
di un insieme, problema semplice in linea di principio, ma la cui applicazione a casi
reali puo` giungere a notevoli livelli di complessità. Per problemi non troppo difficili, le
principali formule del calcolo combinatorio sono spesso
n sufficienti, e sono riportate in
Tab. 1.1. La definizione di coefficiente binomiale k e di fattoriale n!, insieme con le
principali proprietà, sono riportate in Appendice A.
Esempio 1.7. Consideriamo il lancio di una moneta. In tal caso lo spazio campione
e` = {T, C}, e come -campo B e` possibile scegliere linsieme di tutti i possibili sottoinsiemi di (pari a 22 = 4). Per assegnare la legge di probabilità, basta assegnare la
probabilità degli eventi elementari {T } e {C}. Per simmetria, poniamo:
P ({T }) = P ({C}) = 1/2
e le probabilità di tutti gli altri eventi in B si ricavano da queste.
6
Tale principio, noto anche come rasoio di Occam, dal nome del filosofo inglese William of Ockham
` stabilisce che, se si deve scegliere tra diverse ipotesi riguardanti un fenomeno,
(1280-1349) che lo formulo,
bisogna scegliere la piu` semplice.
16
senza sostituzione
con sostituzione
n!
(n k)!
nk
ordinate

n
k
non ordinate

n+k1
k
Tab. 1.1. Numero di possibili disposizioni di n oggetti su k posti.
Esempio 1.8. Consideriamo il lancio di un dado, per il quale lo spazio campione e`

= {1, 2, 3, 4, 5, 6}, e come -campo B e` possibile scegliere linsieme di tutti i possibili
sottoinsiemi di (pari a 26 = 64). Per assegnare la legge di probabilità, basta assegnare la probabilità degli eventi elementari {1}, {2}, {3}, {4}, {5}, {6}. Per simmetria,
poniamo:
P ({1}) = P ({2}) = = P ({6}) = 1/6
e le probabilità di tutti gli altri eventi in B si ricavano da queste.
Esempio 1.9. Consideriamo il lancio di due monete uguali, o di una moneta due volte.
In tal caso, lo spazio campione e` = {T T, T C, CT, CC}, e come -campo B e` possibile
scegliere linsieme di tutti i possibili sottoinsiemi di (pari a 24 = 16). Osserviamo che
levento
A = {esce testa al primo lancio}
non e` un evento elementare. Infatti:
A = {T T } {T C} .
Per assegnare la legge di probabilità basta assegnare la probabilità degli eventi elementari {T T }, {T C}, {CT }, {CC}. Per simmetria, poniamo:
P ({T T }) = P ({T C}) = P ({CT }) = P ({CC}) = 1/4
e le probabilità di tutti gli altri eventi in B si ricavano da queste. Ad esempio, per
levento A definito precedentemente, si ha:
P (A) = P ({T T }) + P ({T C}) = 1/4 + 1/4 = 1/2
17
perchè {T T } {T C} = (gli eventi elementari sono sempre mutuamente esclusivi) e

per lassioma III di Kolmogorov.
1.6.2 Spazi di probabilità continui

Lo spazio 7 campione si dice continuo se ha una cardinalità infinita non numerabile,
ovvero se ha infiniti elementi, che pero` non si possono mettere in relazione biunivoca
con linsieme N dei numeri naturali. Esempi di spazi campione continui sono = R,
= (a, b), = R2 , = R3 . In pratica considereremo solo spazi continui che sono
sottoinsiemi dello spazio euclideo Rk .
Se e` continuo,8 non e` conveniente scegliere come -campo B linsieme di tutti i
sottoinsiemi di . Questultimo e` senzaltro un -campo, anzi e` il -campo piu` grande
che e` possibile concepire, ma si puo` dimostrare che e` impossibile costruire una valida
legge di probabilità (che soddisfi gli assiomi di Kolmogorov) su di esso. Lapproccio
corretto e` invece scegliere B come il piu` piccolo -campo che contiene tutti gli insiemi
aperti di .
Esempio 1.10. Se = R, allora e` possibile definire B come il piu` piccolo -campo che
contiene tutti gli intervalli aperti ]a, b[ di . Si puo` facilmente verificare che complementando, unendo ed intersecando uninfinità numerabile di intervalli di questo tipo, si
ottengono tutti i tipi di intervalli [a, b], [a, b[, ]a, b], ]a, b[, cos` come i punti isolati {a}, e
tutti i loro complementi, unioni e intersezioni. Tuttavia e` possibile (anche se non immediato) costruire sottoinsiemi di che non stanno in B, e quindi B non contiene tutti i
sottoinsiemi di .
Per assegnare la legge di probabilità su , si considera una funzione reale f (x) 0
tale che

f (x) dx = 1
(1.6)
e si pone, per ogni A B,

P (A) = P ({x A})
f (x) dx .
A
Si puo` facilmente osservare che una tale legge di probabilità rispetta gli assiomi di
Kolmogorov. Infatti, P (A) 0 perchè f (x) 0 (primo assioma); P () = f (x) dx =

1 per la (1.6) (secondo assioma); infine, se A e B sono insiemi disgiunti, si ha P (A B) =
P (A) + P (B) per ladditività dellintegrale (terzo assioma).
Le sezioni contrassegnate dal simbolo possono essere saltate ad una prima lettura.
Osserviamo che per definire rigorosamente leggi di probabilità su spazi continui sono necessari
concetti di teoria della misura (secondo Lebesgue).
7
8
18
Notiamo che se A = [y, y + y] e se f (x) e` limitata, si ha:

lim P (A) = lim P ({y x y + y}) = P ({x = y}) = lim
y0
y0
y0
y+y
f (x) dx = 0 ,
y
quindi gli eventi elementari {x = y} hanno probabilità nulla. Questo risultato, apparentemente sorprendente, non e` in contrasto con lassioma di normalizzazione (P () = 1)
e con lassioma di numerabile additività perchè non e` numerabile.
Daltra parte, se f (x) e` continua, si ha anche:
y+y
P (A) =
f (x) dx f (y) y
y
e si puo` porre allora

P (A)
,
y0 y
f (y) = lim
per cui la funzione f (y) si puo` interpretare come densità di probabilità. Notiamo che tale
densità di probabilità e` diversa da zero, anche se la probabilità dellevento {x = y} e`
nulla.

Nellesempio precedente, un punto non completamente chiaro e` la scelta della funzione
f (x). Anche qui emerge lincompletezza dellapproccio assiomatico, ovvero ogni funzione f (x) 0 che soddisfi la (1.6) definisce una valida legge di probabilità. Ma, se
vogliamo invocare il principio di ragione insufficiente, qual e` la scelta piu` semplice da
fare? A prima vista, sembrerebbe che, in mancanza di altre informazioni, scegliere f (x)
costante sia la cosa piu` semplice. Tale scelta non e` tuttavia lecita se non e` limitato,
perchè una funzione costante e positiva avrebbe integrale infinito su un insieme non
limitato, e quindi non potrebbe soddisfare la (1.6). La scelta di una funzione costante
e` viceversa perfettamente legittima se e` limitato, ad esempio se = [x1 , x2 ], come
discusso nel seguente esempio.
Esempio 1.11. Si consideri lesperimento consistente nellarrivo a caso di una telefonata ad una centrale telefonica nellintervallo [t1 , t2 ]. In tal caso, il risultato dellesperimento e` un numero reale x [t1 , t2 ], che rappresenta listante di arrivo della telefonata,
per cui lo spazio campione e` = [t1 , t2 ]. Come -campo, tenendo conto dellosservazione fatta nel precedente esempio, scegliamo il piu` piccolo -campo che contiene
tutti gli intervalli aperti ]a, b[ [t1 , t2 ]. Come legge di probabilità, in mancanza di altre
informazioni, scegliamo una funzione f (x) cos` definita:

, se x [t1 , t2 ];
f (x) =
0, altrimenti.
19
Tale f (x) si dice uniforme in [t1 , t2 ]. Imponiamo ora che la (1.6) sia soddisfatta:
t2
1
f (x) dx = 1 =
.
t2 t1
t1
In base a questa definizione, la probabilità che giunga una telefonata in un intervallo
A = [a, b] e` :
b
1
ba
P (A) =
dx =
.
t2 t1 a
t2 t1
Osserviamo che, poichè b a e` la misura dellintervallo [a, b], e t2 t1 e` la misura
dellintervallo = [t1 , t2 ], la probabilità P (A) si puo` interpretare come una misura
normalizzata:
P (A) =
misura(A)
.
misura()
Tale interpretazione della probabilità mostra i legami della teoria della probabilità con
la teoria della misura, e prende il nome di probabilità geometrica.

Esempio 1.12 (problema dellincontro). Un esempio di spazio di probabilità continuo su
un sottoinsieme di R2 e` il cosiddetto problema dellincontro, una cui possibile formulazione e` la seguente: due amici, Tizio e Caio, si recano, per caso e indipendentemente
luno dallaltro, nello stesso bar nellintervallo [0, T ], e ciascuno si trattiene per t1 e t2
secondi.
Tale esperimento puo` essere descritto in termini probabilistici come segue. Il risultato dellesperimento e` una coppia ordinata di numeri (x, y), con x [0, T ] e y [0, T ],
dove x ed y rappresentano rispettivamente gli istanti di arrivo del primo e del secondo amico. Lo spazio campione e` allora il quadrato = [0, T ] [0, T ] R2 . Come
-campo, potremo scegliere il piu` piccolo -campo che contiene tutti i rettangoli aperti
A =]a, b[]c, d[. Come legge di probabilità, infine, in analogia al precedente esempio,
utilizzeremo la misura normalizzata, corrispondente a scegliere una densità di probabilità uniforme nel quadrato; se cioè A e` un evento, ovvero e` un sottoinsieme del quadrato
appartenente ad B, e se misura(A) rappresenta la sua misura (unarea, in questo caso),
allora porremo:
P (A) =
misura(A)
,
misura()
dove misura() = misura(quadrato) = T 2 . Ad esempio, la probabilità che (x, y) A =

[a, b] [c, d] e` data da:
P (A) =
(b a)(d c)
.
T2
20
y=x + t1
T
T1
C
D
t1
y=x
t2
T2
t2
Fig. 1.7. Problema dellincontro: C = {x

y} rappresenta levento Tizio arriva prima
di Caio.
Fig. 1.8. Problema dellincontro: D = {x

t2 y x + t1 } rappresenta levento
Tizio e Caio si incontrano.
Una volta individuato un corretto modello probabilistico, possiamo affrontare il calcolo della probabilità di un qualsiasi evento, e data la definizione della probabilità come misura normalizzata, il calcolo si puo` effettuare utilizzando semplici considerazioni
geometriche.
Ad esempio, sia C il seguente evento: Tizio arriva prima di Caio. In termini numerici, risulta evidentemente C = {x y}, per cui levento C e` il triangolo rappresentato
in Fig. 1.7. Si ha allora:
P (C) =
1
T 2 /2
misura(C)
= .
=
2
misura()
T
2
Calcoliamo adesso la probabilità dellevento D definito come segue: Tizio e Caio si

incontrano. Evidentemente, cio` si verifica se:
arriva prima Tizio, e risulta y x + t1 ;
arriva prima Caio, e risulta x y + t2 .
Le due disuguaglianze si possono scrivere come lunica disuguaglianza x t2 y
x + t1 , per cui levento D e` rappresentato in Fig. 1.8. Larea del dominio D si ottiene
facilmente per sottrazione, in quanto si ha:
misura(D) = misura() misura(T1 ) misura(T2 )
21
e le aree dei triangoli T1 e T2 sono:

(T t1 )2
,
2
(T t2 )2
misura(T2 ) =
,
2
misura(T1 ) =
da cui sostituendo si ha il risultato finale:

misura(D)
t1 + t2
P (D) =
=
misura()
T
t21 + t22
2T2

.
Ad esempio, se T = 60 (minuti) e t1 = t2 = 5 (minuti), si ha P (D) 0.139.
22
Capitolo 2
2.1
Introduzione
Nel precedente capitolo abbiamo introdotto le basi della teoria della probabilità, ed in
particolare abbiamo visto come calcolare la probabilità di un evento A appartenente
ad uno spazio di probabilità (, B, P ), o di unioni, complementazioni e intersezioni di
piu` eventi. Tuttavia, anche nelle relazioni che coinvolgono piu` eventi di uno spazio di
probabilità, non abbiamo approfondito le relazioni di dipendenza o indipendenza tra tali
eventi. Approfondiremo tale analisi nel corso di questo capitolo, introducendo dapprima il concetto di probabilità condizionale, che costituisce il punto di partenza delle nostre
considerazioni.
2.2
Probabilità condizionale
Siano A e B due eventi di uno spazio di probabilità (, B, P ). Vogliamo mettere in relazione, in senso probabilistico, gli eventi A e B, introducendo una misura dellincertezza
residua su A sapendo che B si e` verificato. Tale misura e` fornita dalla cosiddetta probabilità
condizionale di A dato B, definita nel modo seguente:
Definizione (probabilità condizionale). Sia (, B, P ) uno spazio di probabilità, e siano A, B B due eventi, con P (B) = 0. La probabilità condizionale (o
condizionata) di A dato B e` :
P (A|B) =
P (AB)
.
P (B)
(2.1)
Ricordiamo che, nella (2.1), AB rappresenta lintersezione A B.

Esercizio 2.1. In un lancio di un dado ben equilibrato, calcolare la probabilità che esca
6 sapendo che (dato che) e` uscito un numero pari.
24

Svolgimento. Definiamo come al solito lo spazio campione = {1, 2, 3, 4, 5, 6}, e gli
eventi A = {6}, B = {pari} = {2, 4, 6}. Assumendo gli eventi elementari equiprobabili,
si ha:
P (A) = 1/6 ,
P (B) = 3/6 = 1/2 ,
P (AB) = P (A) = 1/6 ,
1/6
= 1/3 .
P (A|B) =
1/2
Si noti che P (A|B) > P (A), cioè e` aumentata la probabilità che esca 6 se sappiamo che
e` uscito un numero pari, come e` naturale.

Il concetto espresso nel precedente esercizio si puo` formalizzare come segue:
se P (A|B) > P (A), allora A e` attratto da B.
se P (A|B) < P (A), allora A e` respinto da B.
se P (A|B) = P (A), A e` indifferente a B; in questo caso vedremo nel seguito (cfr.
2.3) che A e B sono statisticamente indipendenti.
Esempio 2.1. Dati gli eventi A = {oggi piove} e B = {oggi e` estate}, si ha che P (A|B) <
P (A) cioè diminuisce la probabilità che oggi piova se so che e` estate. Se viceversa
B = {oggi e` inverno} ho che P (A|B) > P (A) cioè aumenta la probabilità che oggi
piova se so che e` inverno.

Dalla definizione (2.1), il lettore puo` facilmente dimostrare che:
1. se B A, allora P (A|B) = 1; infatti, poichè B implica A, se sappiamo che si e`
verificato B allora siamo certi che si sia verificato anche A;
P (A)
P (A); in tal caso, e` A ad implicare B (e non
P (B)
viceversa), e quindi se sappiamo che si e` verificato B non possiamo affermare con
certezza che si sia verificato anche A; tuttavia, la probabilità P (A|B) che A si sia
verificato dato B e` non inferiore alla probabilità P (A) che A si sia verificato se non
abbiamo nessuna informazione su B.
2. se A B, allora P (A|B) =
E interessante notare che, per un fissato B, la probabilità condizionale definisce una

vera e propria legge di probabilità su B, in quanto gli assiomi di Kolmogorov risultano soddisfatti. Pertanto tutti i risultati e le proprietà validi per le probabilità valgono
ugualmente anche per le probabilità condizionali.
Prova. Per provarlo, verifichiamo che, dato B con P (B) = 0, la P (|B) soddisfa gli assiomi di Kolmogorov. Si ha:
2.2 Probabilità condizionale
25
I. P (A|B) 0, A B banalmente;
II. P (|B) =
P (B)
P ( B)
=
= 1;
P (B)
P (B)
III. Se A1 ed A2 sono mutuamente esclusivi:

P (A1 A2 |B) =
P (A1 B A2 B)
P [(A1 A2 )B]
=
.
P (B)
P (B)
Ma A1 B ed A2 B sono anchessi mutuamente esclusivi (Fig. 2.1) per cui:

P (A1 A2 |B) =
P (A1 B) + P (A2 B)
= P (A1 |B) + P (A2 |B) .
P (B)
Similmente vale per la numerabile additività.

E
A2B
A1B
E
B
A2
A1
Fig. 2.1. Diagramma di Venn che mostra

che se A1 ed A2 sono mutuamente esclusivi, anche A1 B ed A2 B sono mutuamente
esclusivi.
Fig. 2.2. Diagramma di Venn della relazione E = B E = A B, con E = A

B.
Una interpretazione leggermente differente e` quella che la probabilità condizionale definisce una legge di probabilità PB su un nuovo spazio campione = B, con eventi del
tipo E = A B (A B).
Prova. Consideriamo il nuovo spazio campione B = B, come -campo linsieme BB composto da tutti
gli insiemi del tipo E = A B, con A B, e come legge di probabilità su B la PB definita dalla seguente:
PB (E)
P (AB)
.
P (B)
Osserviamo preliminarmente che, nel nuovo spazio campione B = B, il complemento di E va inteso

rispetto a B, cioè si ha E = B E.
26

Il punto centrale e` dimostrare che BB e` effettivamente un -campo. Anzitutto, notiamo che BB non
e` vuoto, perchè BB . Se poi E BB , allora E = A B, E = B E = B A B = A B (Fig.
2.2). Ma A B BB perchè A B. Similmente, se E1 , E2 BB , allora E1 = A1 B e E2 = A2 B, per
cui E1 E2 = (A1 A2 ) B BB perchè A1 A2 B. Similmente si prova anche la chiusura rispetto
allunione numerabile.
A questo punto e` banale verificare che la PB soddisfa gli assiomi di Kolmogorov:
I. PB (E) 0, E BB banalmente;
II. PB (B ) =
P (B)
P (B B)
=
= 1;
P (B)
P (B)
III. Se E1 ed E2 sono mutuamente esclusivi:

PB (E1 E2 ) =
P (A1 B A2 B)
P [(A1 A2 )B]
=
.
P (B)
P (B)
Ma A1 B ed A2 B sono mutuamente esclusivi per cui:

P (E1 E2 ) =
P (A1 B) + P (A2 B)
= PB (E1 ) + PB (E2 ) .
P (B)
2.2.1 Legge della probabilità composta

Una conseguenza banale della definizione di probabilità condizionale e` la legge della
probabilità composta:
P (A B) = P (A|B) P (B) = P (B|A) P (A) .
(2.2)
A rigore, per ricavare tale legge dalla definizione (2.1), e` necessario supporre che P (A)
e P (B) siano non nulle. Tuttavia, si osservi che essa vale formalmente anche se P (A)
e/o P (B) e` zero, e quindi la probabilità condizionale non e` ben definita. Infatti, in tal
caso, dalla relazione A B A e A B B si ricava necessariamente P (A B) = 0. Si
osservi, infine, che la probabilità P (A B) prende il nome di probabilità congiunta degli
eventi A e B.
Esercizio 2.2. Una scatola contiene 3 palle bianche (w1 , w2 , w3 ) e 2 rosse (r1 , r2 ). Si rimuovono due palle in successione. Qual e` la probabilità che la prima sia bianca e la
seconda rossa?
Svolgimento. Lo spazio campione e` costituito da tutte le coppie ordinate di palle, che
sono esattamente venti:
= {w1 w2 , w1 w3 , w1 r1 , w1 r2 , w2 w1 , w2 w3 , . . . , r1 r2 } .
Infatti, la prima palla puo` essere scelta in 5 modi differenti; fissata la prima palla, la
seconda puo` essere scelta in 4 modi differenti, per cui ho un totale di 5 4 = 20 differenti
27
modi. Piu` formalmente, le disposizioni ordinate senza sostituzione di n elementi su k

posti sono n!/(n k)! (cfr. Tab. 1.1), e nel caso in questione n = 3 + 2 = 5 e k = 2, da cui
il risultato.
Levento C = {prima palla bianca, seconda rossa} e` costituito da 6 elementi:
C = {w1 r1 , w2 r1 , w3 r1 , w1 r2 , w2 r2 , w3 r2 } .
Se assumiamo gli eventi elementari equiprobabili e con probabilità pari ad 1/20, allora
P (C) = 6/20 = 3/10.
Vediamo se possiamo applicare il concetto di probabilità condizionale per arrivare
allo stesso risultato. Definiamo:
C = {prima palla bianca, seconda rossa} = {prima bianca} {seconda rossa}

per cui, applicando la legge della probabilità composta, si ha:

P (C) = P (AB) = P (B|A) P (A) .
Ora:
P (A) = P ({prima bianca}) = 3/5
e rimane da calcolare
P (B|A) = P ({seconda rossa}|{prima bianca}) .
Se la prima palla estratta e` bianca rimangono nella scatola 4 palle, 2 bianche e 2 rosse
P (B|A) = 1/2. Per cui:
P (C) = P (B|A) P (A) =
3
3 1
=
.
5 2
10
Notiamo che con questo approccio non e` stato necessario determinare (contare) il numero di elementi di .
2.2.2 Regola della catena

E` possibile estendere la definizione di probabilità condizionata anche al caso di piu`
eventi condizionanti. Per esempio, si ha:
P (A|B, C)
P (ABC)
,
P (BC)
P (BC) = 0 .
28

Si noti che P (A|B, C) e` da intendersi come P (A|BC), cioè si condiziona allevento BC.
Riscrivendo la precedente, si trova allora una legge di fattorizzazione analoga alle legge
della probabilità composta:
P (ABC) = P (A|B, C) P (BC)
e poichè, per la legge della probabilità composta, P (BC) = P (B|C) P (C), si ottiene:
P (ABC) = P (A|B, C) P (B|C) P (C) .
Applicando tale relazione iterativamente al caso di n eventi A1 , A2 , . . . , An , si ha la
cosiddetta regola della catena per il calcolo della probabilità congiunta di n eventi:
P (A1 A2 An ) = P (A1 ) P (A2 |A1 ) P (A3 |A1 , A2 ) P (An |A1 , A2 , . . . , An1 ) .
La regola precedente si applica indipendentemente dallordine in cui si considerano
gli eventi. In effetti, poichè esistono n! permutazioni degli eventi A1 , A2 , . . . , An , la
fattorizzazione secondo la regola della catena puo` avvenire in n! modi distinti.
2.2.3 Teoremi della probabilità totale e di Bayes

Due importanti proprietà della probabilità condizionale, che risultano estremamente
utili nelle applicazioni, sono contenute nei due teoremi seguenti.
Teorema 2.1 (probabilità totale). Siano A1 , A2 , . . . , An eventi mutuamente esclusivi (Ai
Aj = , i = j) e sia B ni=1 Ai . Si ha:
P (B) =
n
P (B|Ai )P (Ai ) .
i=1
Prova. Si faccia riferimento al diagramma di Venn in Fig. 2.3. Poichè B ni=1 Ai B = B {ni=1 Ai }
B = ni=1 (B Ai ). Ma se gli Ai sono mutuamente esclusivi, anche gli eventi B Ai lo sono. Allora per
il III assioma si ha:
P (B) =
n
P (B Ai ) .
i=1
Per la legge della probabilità composta, si ha:

P (B Ai ) = P (B|Ai ) P (Ai )
valida anche se P (Ai ) = 0. Sostituendo nella precedente si ha lasserto.
Nella pratica puo` essere complicato verificare la condizione B ni=1 Ai , per cui spesso
si assume che gli insiemi A1 , A2 , . . . , An , mutuamente esclusivi, costituiscano una partizione di . In tal caso ni=1 Ai = per cui la condizione precedente risulta senzaltro
verificata.
29
A2
A1
A3
A 2B
A 1B
A 3B
A 4B
A4
Fig. 2.3. Diagramma di Venn del teorema della probabilità totale (n = 4).
Teorema 2.2 (Bayes). Siano A1 , A2 , . . . , An eventi mutuamente esclusivi (Ai Aj = ,

i = j) e sia B ni=1 Ai . Si ha:
P (B|Ai )P (Ai )
P (Ai |B) = n
.
i=1 P (B|Ai )P (Ai )
La probabilità P (Ai ) e` spesso definita probabilità a priori, mentre la P (Ai |B) e` definita
probabilità a posteriori.
Prova. Il teorema e` una conseguenza banale della legge della probabilità composta e del teorema della
probabilità totale. Infatti, per la legge della probabilità composta, si ha:
P (B Ai ) = P (B|Ai ) P (Ai ) = P (Ai |B) P (B)
per cui:
P (Ai |B) =
P (B|Ai ) P (Ai )
.
P (B)
Sostituendo P (B) come espresso dal teorema della probabilità totale nella precedente si ha lasserto.
Il teorema di Bayes vale nelle stesse ipotesi del teorema della probabilità totale; inoltre
entrambi i teoremi possono estendersi al caso in cui gli eventi Ai condizionanti siano
uninfinità numerabile.
Esercizio 2.3. Si considerino 3 scatole che contengono componenti elettronici:
nella scatola 1, ci sono 2000 componenti, di cui il 5% (100 componenti) difettosi;
30

Si seleziona una scatola a caso, e successivamente si rimuove un componente a caso
dalla scatola.
1. Qual e` la probabilità che il componente scelto sia difettoso?
2. Sapendo che un componente e` difettoso, qual e` la probabilità che provenga dalla
scatola 2?
Svolgimento. Iniziamo con losservare che se i componenti fossero tutti in ununica
scatola, avrei 4000 componenti in totale, di cui 600 difettosi. Quindi la probabilità di
600
= 0.15.
estrarre un componente difettoso sarebbe pari a 4000
Lesperimento pero` e` condotto in maniera differente. Prima si sceglie la scatola, e
successivamente il componente allinterno della scatola. Definiamo allora i seguenti
eventi:
A1 = {il componente proviene dalla scatola 1} ,
B = {il componente e` difettoso} .
Poichè la scatola e` scelta a caso, allora:
P (A1 ) = P (A2 ) = P (A3 ) = 1/3 .
Inoltre, gli eventi A1 , A2 e A3 sono mutuamente esclusivi e A1 A2 A3 = . Si ha poi:
P (B|A1 ) = 0.05 ,
P (B|A2 ) = 0.40 ,
P (B|A3 ) = 0.10 .
Poichè siamo nelle ipotesi del teorema della probabilità totale, possiamo scrivere:
P (B) = P (B|A1 ) P (A1 ) + P (B|A2 ) P (A2 ) + P (B|A3 ) P (A3 ) .
Sostituendo i valori numerici si trova P (B) 0.18, che pertanto e` la risposta al primo
quesito.
Per rispondere al secondo, possiamo applicare il teorema di Bayes:
P (A2 |B) =
P (B|A2 ) P (A2 )
0.73 .
P (B)
Notiamo che la probabilità a posteriori che il componente provenga dalla scatola 2, sapendo che e` difettoso, e` molto maggiore della probabilità a priori che il componente
provenga dalla stessa scatola, che e` pari ad 1/3.
2.3 Indipendenza tra eventi
31
Esercizio 2.4. Si dispone di un test per individuare una malattia molto rara, che colpisce 1 persona su 100 000. Il test e` abbastanza affidabile: se la malattia e` presente, la
individua con probabilità 0.95; se la malattia non e` presente, il test e` falsamente positivo
con probabilità 0.005. Se il test dice che la malattia e` presente, qual e` la probabilità che
il paziente abbia effettivamente la malattia?
Svolgimento. Definiamo i tre eventi:
A1 = {il paziente ha la malattia} ,
A2 = {il paziente non ha la malattia} ,
B = {il test e` positivo} .
Dobbiamo allora calcolare la probabilità:
P (A1 |B) = P (il paziente ha la malattia|il test e` positivo) .
Poichè gli eventi A1 ed A2 sono mutuamente esclusivi, e A1 A2 = , possiamo adoperare il teorema di Bayes, e scrivere:
P (A1 |B) =
P (B|A1 )P (A1 )
.
P (B|A1 ) P (A1 ) + P (B|A2 ) P (A2 )
Ora, con la notazione introdotta, si ha:

1
= 105 ,
100 000
1
P (A2 ) = 1
= 1 105 = 0.99999 ,
100 000
P (B|A1 ) = 0.95 ,
P (A1 ) =
P (B|A2 ) = 0.005 .
Sostituendo i valori numerici, si trova P (A1 |B) 2 103 ; nonostante il test sembri
abbastanza affidabile, la rarità della malattia lo rende praticamente inutile. Pertanto,
effettuare uno screening di massa per individuare una malattia rara e` economicamente
poco conveniente.
2.3
Indipendenza tra eventi
Un concetto fondamentale nella teoria della probabilità e` quello dellindipendenza tra

eventi, che puo` intuitivamente ricavarsi dal concetto di probabilità condizionale. Infatti,
si considerino due eventi A e B: in base ad un ragionamento intuitivo, se gli eventi sono
32

indipendenti, ci aspettiamo che sapere che B si sia verificato non altera in nessun modo
la probabilità che si verifichi A. In formule, deve risultare:
P (A|B) = P (A) .
Si noti che sostituendo tale espressione nella legge di probabilità composta (2.2) si ha:
P (AB) = P (A) P (B)
(2.3)
ed inoltre dalla definizione di probabilità condizionale (2.1) si ha pure

P (B|A) = P (B)
e quindi lindipendenza e` una proprietà simmetrica (se A e` indipendente da B, anche B
e` indipendente da A). Peraltro, la (2.3) implica sia P (A|B) = P (A) che P (B|A) = P (B),
per cui, sebbene meno intuitiva, si assume la seguente come definizione di indipendenza tra due eventi.
Definizione (indipendenza). Due eventi A e B sono indipendenti se
P (AB) = P (A) P (B) .
Tale definizione afferma che la probabilità congiunta P (AB) si fattorizza nel prodotto
delle probabilità P (A) e P (B), che prendono il nome di probabilità marginali.
Esempio 2.2. Consideriamo lesempio, già visto, del lancio di due monete uguali, o
di una moneta due volte. Lo spazio campione e` = {T T, T C, CT, CC}, e abbiamo
assunto gli eventi elementari equiprobabili e con probabilità pari ad 1/4, per simmetria.
Consideriamo ora gli eventi:
A = {testa al primo lancio} ,
B = {testa al secondo lancio} ,
e verifichiamo che essi sono statisticamente indipendenti. Si ha:
A = {T T, T C} ,
B = {CT, T T } ,
P (AB) = P ({T T }) = 1/4 ,
P (A) = 2/4 = 1/2 ,
P (B) = 2/4 = 1/2 ,
per cui P (AB) = P (A) P (B), e quindi gli eventi sono statisticamente indipendenti. Allo stesso modo si vede che sono statisticamente indipendenti tutti gli eventi del tipo
{T /C al primo lancio} e {T /C al secondo lancio}.
2.3 Indipendenza tra eventi
33
Abbiamo già osservato che la definizione di indipendenza implica che P (A|B) = P (A)
e P (B|A) = P (B). Inoltre, se A e B sono indipendenti, e` facile provare che risultano
indipendenti anche A e B, A e B, A e B.
Prova. Infatti, si ha:
P (AB) = P (B|A) P (A) = [1 P (B|A)] P (A) = [1 P (B)] P (A) = P (B) P (A) .
P (AB) = P (A|B) P (B) = [1 P (A|B)] P (B) = [1 P (A)] P (B) = P (A) P (B) .
P (A B) = P (A|B) P (B) = [1 P (B|A)] P (A) = [1 P (B)] P (A) = P (B) P (A) .
2.3.1 Indipendenza di tre o piu` eventi

Il concetto di indipendenza si puo` estendere a tre o piu` eventi.
Definizione (indipendenza di tre eventi). Gli eventi A, B e C si dicono
indipendenti se:
1. sono indipendenti a coppie, cioè P (AB) = P (A) P (B), P (AC) =
P (A) P (C), P (BC) = P (B) P (C);
2. P (ABC) = P (A) P (B) P (C) .
Si noti che non e` possibile assumere solo la seconda fattorizzazione come definizione
di indipendenza, in quanto e` possibile costruire esempi per i quali risulta P (ABC) =
P (A) P (B) P (C) mentre P (AB) = P (A) P (B) etc.
Generalizzando al caso di n eventi, definiamo esplicitamente il concetto di indipendenza e quello di indipendenza a coppie.
Definizione (indipendenza a coppie). Gli eventi Ai si dicono indipendenti a
coppie se
P (Ai Aj ) = P (Ai )P (Aj ),
i = j .
Definizione (indipendenza di n eventi). Gli eventi {Ai } si dicono indipendenti se

P (Ai ) ,
P (iI Ai ) =
iI
per ogni insieme I di indici diversi.
34

In pratica, la definizione precedente afferma che qualunque probabilità congiunta di
un numero arbitrario di eventi Ai distinti si fattorizza nel prodotto delle corrispondenti
probabilità marginali. Va osservato esplicitamente che lindipendenza a coppie non implica necessariamente lindipendenza, mentre lindipendenza implica lindipendenza a
coppie, a terne, a quaterne, etc.
Esempio 2.3. Due concetti spesso confusi sono quello di eventi indipendenti e di eventi mutuamente esclusivi. Mentre lindipendenza implica la fattorizzazione P (AB) =
P (A) P (B), due eventi mutuamente esclusivi sono tali che AB = , per cui P (AB) = 0.
Inoltre il concetto di eventi mutuamente esclusivi ha una chiara interpretazione sui diagrammi di Venn (gli insiemi A e B non si sovrappongono), mentre il concetto di eventi
indipendenti no. In definitiva, i due concetti non hanno alcuna relazione reciproca,
salvo nel caso banale in cui P (A) = 0 oppure P (B) = 0.
2.3.2 Indipendenza condizionale tra eventi

E possibile anche definire il concetto di indipendenza condizionale tra due eventi dato un
terzo evento.
Definizione (indipendenza condizionale tra eventi). Due eventi A e B si
dicono condizionalmente indipendenti dato un terzo evento C, se
P (AB|C) = P (A|C)P (B|C) .
Si noti che lindipendenza condizionale non implica lindipendenza di A e B, se non nel
caso in cui C = . Allo stesso modo, per quanto meno intuitivamente comprensibile,
lindipendenza tra A e B non implica lindipendenza condizionale rispetto ad un terzo
evento C.
2.4
Esperimenti combinati
In molti casi interessa affrontare il seguente problema: dati piu` esperimenti, ognuno dei
quali descritto in termini probabilistici, descrivere lesperimento combinato, risultante
dalla combinazione dei singoli esperimenti. Per far questo, e` necessario costruire un
nuovo spazio di probabilità, denominato spazio di probabilità prodotto, sullesperimento
combinato. Tale concetto e` sviluppato nellesempio seguente.
Esempio 2.4. Supponiamo di avere due esperimenti, cui siano associati due spazi di
probabilità (1 , B1 , P1 ) e (2 , B2 , P2 ). Per fissare le idee, si consideri come primo esperimento il lancio di una moneta, con spazio campione 1 = {T, C}, e come secondo
2.4 Esperimenti combinati
35
esperimento il lancio di un dado, con spazio campione 2 = {1, 2, 3, 4, 5, 6}. Gli spazi di
probabilità associati a ciascuno di tali esperimenti si costruiscono nel modo consueto.
Consideriamo adesso lesperimento combinato (lancio di una moneta e di un dado),
che ha come spazio campione il prodotto cartesiano di 1 ed 2 :
= 1 2 = {(T, 1), (T, 2), . . . , (T, 6), (C, 1), (C, 2), . . . , (C, 6)}
costituito da 2 6 = 12 coppie ordinate. Poichè e` un insieme finito, possiamo considerare come -campo B linsieme di tutti i 212 sottoinsiemi di . Notiamo che tale
-campo B conterrà, tra gli altri, eventi del tipo A B, con A B1 e B B2 . Ad
esempio, se A = {T } e B = {pari}, si avrà A B = {(T, 2), (T, 4), (T, 6)}. Possiamo interpretare levento A B nel modo seguente: si verifica levento A B nellesperimento
combinato se si verifica levento A nellesperimento 1 e levento B nellesperimento 2.
Tuttavia non tutti gli eventi di B sono del tipo A B: si pensi ad esempio allevento
C = {(T, 1), (C, 2)}, che non puo` essere interpretato come A B.
A questo punto per completare la descrizione probabilistica dellesperimento combinato resta da fissare la legge di probabilità su B. Osserviamo che si ha:
P (A 2 ) = P1 (A)
P (1 B) = P2 (B)
dove P1 e` la legge di probabilità su 1 e P2 e` la legge di probabilità su 2 . Infatti A 2 e`
levento dellesperimento combinato corrispondente al fatto che nel primo esperimento
si verifichi levento A e nel secondo si verifichi levento certo 2 . Pertanto la probabilità devessere pari a quella relativa al solo esperimento 1, ovvero a P1 (A). In maniera
analoga si ragiona per la seconda relazione.
Dallesempio precedente, abbiamo osservato che non tutti gli eventi di 1 2 sono
del tipo A B, e quindi B non e` semplicemente dato da B1 B2 : daltra parte, se 1
ed 2 sono insiemi finiti di cardinalità n1 ed n2 , e se B1 e B2 sono linsieme di tutti i
sottoinsiemi di 1 e 2 , rispettivamente, si ha che card(B1 ) = 2n1 e card(B2 ) = 2n2 , per
cui card(B1 B2 ) = 2n1 +n2 mentre card(B) = 2n1 n2 . In generale e` possibile costruire il
-campo B partendo da B1 B2 e aggiungendo complementi, unioni e intersezioni di
un numero finito o infinito numerabile di insiemi. I precedenti concetti possono essere
formalizzati dalla seguente definizione:
36

Definizione (spazio di probabilità prodotto). Si considerino due spazi di probabilità (1 , B1 , P1 ) e (2 , B2 , P2 ). Si definisce spazio di probabilità prodotto lo
spazio di probabilità (, B, P ) dove:
lo spazio campione e` il prodotto cartesiano 1 2 , ovvero i risultati
dellesperimento combinato sono del tipo = (1 , 2 ), con 1 1 e
2 2 ;
il -campo degli eventi B e` il piu` piccolo -campo contenente eventi del
tipo A B, con A B1 e B B2 ;
la legge di probabilità P definita su B deve soddisfare le seguenti
proprietà (di consistenza):
P (A 2 ) = P1 (A),
P (1 B) = P2 (B),
A B1 ;
B B2 .
(2.4)
(2.5)
La precedente definizione puo` essere facilmente estesa al caso di n > 2 esperimenti.

Notiamo che le (2.4) e (2.5) consentono di determinare, a partire dagli spazi di probabilità sui singoli esperimenti, solo le probabilità di eventi del tipo A 2 e 1 B,
ma non quelle di un qualsiasi evento di B. Daltra parte, in generale, assegnare solo le
leggi di probabilità P1 e P2 sui due esperimenti componenti non consente di determinare la legge di probabilità dellesperimento combinato: abbiamo bisogno di qualche
informazione sulla relazione di dipendenza che cè tra i due esperimenti.
2.4.1 Esperimenti indipendenti

Un caso particolarmente semplice e` quello in cui si suppone che gli esperimenti siano
indipendenti.
Definizione (esperimenti indipendenti). Siano (1 , B1 , P1 ) e (2 , B2 , P2 ) due
spazi di probabilità, e sia (, B, P ) lo spazio di probabilità prodotto. Gli esperimenti si diranno indipendenti se gli eventi (A 2 ) e (1 B) dello spazio
prodotto sono statisticamente indipendenti per ogni A B1 e B B2 .
In sostanza, dalla definizione di indipendenza 1 , si ha che per tutti gli eventi di B che
possono essere espressi come A B, con A B2 e B B2 , poiche risulta:
A B = (A 2 ) (1 B) ,
1
Notiamo che tale definizione puo` apparire piu` elaborata della precedente definizione di indipendenza di eventi, vale a dire P (AB) = P (A) P (B), ma non e` sostanzialmente differente: bisogna infatti
osservare che per parlare di indipendenza tra due eventi bisogna che i due eventi A e B appartengono
ad uno stesso spazio di probabilità. Pertanto, bisogna prima costruire lo spazio di probabilità prodotto.
37
si ha:
P (A B) = P [(A 2 ) (1 B)] = P (A 2 )P (1 B) = P1 (A) P2 (B) .
In particolare, osserviamo che per gli eventi elementari di si ha (1 , 2 ) = {1 } {2 },
per cui P (1 , 2 ) = P1 (1 ) P2 (2 ).
E` facile dimostrare che lipotesi di indipendenza consente di calcolare completamente le probabilità dello spazio prodotto in termini delle probabilità degli spazi componenti. Infatti, dalla definizione di -campo costruito sullo spazio di probabilità prodotto, un
qualunque evento di B si potrà esprimere come complemento, unione o intersezione (al
piu` numerabile) di eventi del tipo A B; allora e` possibile completamente specificare
la legge di probabilità P sullo spazio prodotto semplicemente a partire dalle leggi di
probabilità P1 e P2 definite sugli spazi componenti.
Esempio 2.5. Torniamo al caso del lancio di una moneta e di un dado. Se supponiamo
che gli esperimenti siano indipendenti, e la moneta ed il dado non siano truccati, avro`
ad esempio:
P (T, 1) = P1 (T ) P2 (1) =
1 1
1
=
.
2 6
12
Poichè lo spazio campione dellesperimento combinato e` composto da 12 elementi, e`

facile riconoscere che i risultati dellesperimento combinato sono equiprobabili e con
probabilità 1/12.
Esempio 2.6. Lancio di una moneta 2 volte (i lanci sono assunti indipendenti):
1 = {T, C} ,
2 = {T, C} ,
= 1 2 = {T T, T C, CT, CC} .
Poichè i due lanci sono assunti indipendenti, allora

P (T T ) = P1 (T ) P2 (T ) =
1 1
1
=
2 2
4
e similmente per le altre.
Notiamo che nella pratica lindipendenza statistica tra due o piu` esperimenti si giustifica
con considerazioni di natura fisica o intuitiva.
38

Esempio 2.7. Consideriamo come primo esperimento il seguente: si sceglie a caso una
persona in un gruppo, il risultato dellesperimento e` la sua altezza h. Come secondo esperimento, possiamo considerare il seguente: si sceglie a caso una persona in un
gruppo, il risultato dellesperimento e` il suo peso p. Lesperimento combinato puo` essere descritto nel modo seguente: si sceglie a caso una persona in un gruppo, il risultato
dellesperimento e` una coppia (h, p) rappresentante laltezza ed il peso della persona. E`
chiaro, da considerazioni intuitive, che i due esperimenti non sono indipendenti, perchè
esiste una chiara relazione di dipendenza fisica tra altezza e peso di una persona.
Consideriamo, invece, un terzo esperimento definito nel modo seguente: si sceglie a
caso una persona in un gruppo, il risultato dellesperimento e` il colore dei suoi occhi. E`
chiaro adesso che le stesse motivazioni intuitive ci indurranno a ritenere indipendenti il
primo ed il terzo esperimento, cos` come il secondo ed il terzo, in quanto non esiste nessuna relazione evidente e dimostrata tra laltezza ed il colore degli occhi di una persona,
oppure tra il peso ed il colore degli occhi di una persona.

Esempio 2.8. Riprendiamo il problema dellincontro (esempio 1.12), per mostrare come esso si possa interpretare come esperimento combinato. Possiamo infatti costruire
due spazi di probabilità (1 , B1 , P1 ) e (2 , B2 , P2 ) che descrivono, rispettivamente, listante x di arrivo di Tizio e listante y si arrivo di Caio. Risulta 1 = 2 = [0, T ],
e come legge di probabilità su 1 ed 2 potremo assumere quella uniforme, cioè se
A = [a, b] 1 , si avrà:
P1 (A) =
misura(A)
ba
=
misura(1 )
T
e similmente se B = [c, d] 2 si avrà:

P2 (B) =
misura(B)
dc
=
.
misura(2 )
T
Lo spazio campione prodotto sarà = 1 2 = [0, T ][0, T ], cioè il quadrato di lato T .

Se assumiamo che larrivo di Tizio sia indipendente da quello di Caio, gli esperimenti
sono indipendenti, per cui possiamo porre:
P ((x, y) [a, b] [c, d]) = P (A B) = P1 (A) P2 (A) =
(b a)(d c)
,
T2
che e` lo stesso risultato che abbiamo già ricavato nellesempio 1.12.

Esercizio 2.5. Si hanno due scatole:
la scatola S1 contiene 10 palle bianche e 5 rosse;
39
la scatola S2 contiene 20 palle bianche e 20 rosse

Si estrae una palla da ogni scatola. Calcolare la probabilità che la palla estratta dalla
scatola S1 sia bianca e quella estratta dalla scatola S2 sia rossa.
Svolgimento. Gli spazi campione e le leggi di probabilità associate ai singoli esperimenti
sono i seguenti (si assumono gli eventi elementari equiprobabili):
1 = {10 bianche, 5 rosse} P1 (i ) = 1/15 ;
2 = {20 bianche, 20 rosse} P2 (i ) = 1/40 .
Lo spazio campione dellesperimento combinato = 1 2 ha 15 40 = 600 elementi,
ognuno con probabilità 1/600. Sia:
10
2
= ;
15
3
20
1
B = {si estrae una palla rossa da S2 } P2 (B) =
= .
40
2
A = {si estrae una palla bianca da S1 } P1 (A) =
Si ha allora:
P (si estrae una palla bianca da S1 ed una rossa da S2 ) = P (A B)
2 1
1
= P1 (A) P2 (B) = = .
3 2
3
2.4.2 Prove ripetute

Una applicazione molto importante del concetto di esperimento combinato e` il caso
delle cosiddette prove ripetute.
Si consideri un esperimento, descritto dallo spazio di probabilità (1 , B1 , P1 ), e si
supponga di ripeterlo n volte, nelle medesime condizioni, assumendo che le successive prove siano statisticamente indipendenti. Lo spazio campione dellesperimento
combinato sarà evidentemente
= n1 = 1 1 1 ,

n volte
il -campo B sarà il piu` piccolo -campo contenente eventi del tipo A = A1 A2 An ,

con Ai 1 , ed infine la legge di probabilità P , nellipotesi di prove indipendenti, e`
indotta dalla legge P1 . Infatti, per qualunque evento A B che si possa esprimere come
prodotto cartesiano del tipo precedentemente visto, risulta
P (A) = P1 (A1 ) P1 (A2 ) P1 (An ) .
40

La probabilità di un qualunque altro evento di B si ottiene facilmente a partire dalle
probabilità del tipo precedente.
Consideriamo ora il caso particolarmente interessante delle prove bernoulliane2 , in cui
abbiamo un evento A di 1 (convenzionalmente denominato successo), che si verifica con
probabilità p = P (A); ovviamente, levento complementare A (denominato insuccesso)
si verificherà con probabilità q = 1 P (A) = 1 p. Vogliamo determinare la probabilità
pn (k) che, nelle n prove ripetute, levento A si verifichi esattamente k volte, in un qualunque
ordine.
Per chiarire meglio questo concetto, consideriamo un esempio specifico. Se n = 4 e
k = 2, levento A si verifica in 2 delle 4 prove, ed evidentemente nelle altre n k = 2
prove si verificherà A. Ovviamente levento A si potrà verificare nella prima e nella
seconda prova, nella prima e nella terza, nella prima e nella quarta, nella seconda e
nelle terza, etc. Tutte le possibili configurazioni (sei) sono riportate di seguito:
AAAA
AAAA
AAAA
AAAA
AAAA
AAAA
Il numero di possibili configurazioni e` pari al numero delle disposizioni di n oggetti
su

n
k posti senza sostituzioni e senza
ordinamento (cfr. Tab. 1.1), espressa da k , che nel
caso in esame vale appunto 42 = 6. Data lindipendenza delle prove, la probabilità di
una qualsiasi configurazione di k successi ed nk insuccessi (indipendenti) vale pk q nk .
Ad esempio,
P (A A A A) = P1 (A) P1 (A) P1 (A) P1 (A) = p2 q 2 .
Poichè le configurazioni sono tutte differenti, esse corrispondono ad eventi mutuamente
esclusivi, ed allora la probabilità cercata si riduce alla somma delle probabilità di tutte
le configurazioni.Le
configurazioni sono tutte equiprobabili, con probabilità pk q nk , ed

in numero pari a nk , per cui la probabilità cercata e`

n k nk
pn (k) =
p q
.
k
Tale legge di probabilità si dice binomiale, ed il suo andamento al variare di k, per
n = 20 e p = 0.4, e` illustrato in Fig. 2.4. Dalla Fig. 2.4 si puo` notare che, al variare di k, la
2
La denominazione bernoulliane deriva dal matematico svizzero J. Bernoulli (16541705), autore del
fondamentale trattato di probabilità Ars Conjectandi.
41
0.2
0.18
0.16
0.14
pn (k)
0.12
0.1
0.08
0.06
0.04
0.02
10
12
14
16
18
20
k
Fig. 2.4. Probabilità binomiale pn (k), al variare di k, per n = 20 e p = 0.4. Si noti che tale
probabilità e` massima per k = n p = 8.
pn (k) prima cresce, poi decresce, presentando un massimo per k = n p = 8. Unanalisi

piu` rigorosa mostra che il massimo si trova, in generale, in k = (n + 1)p, dove con il
simbolo x denotiamo il piu` grande intero non superiore ad x. Se, tuttavia, (n + 1)p e`
intero, allora pn (k) e` massima per due consecutivi valori di k, dati da k1 = (n + 1)p 1
e k2 = (n + 1)p.
La teoria delle prove di Bernoulli e la legge di probabilità binomiale possono essere
applicate a numerosi problemi pratici, come illustrato dai seguenti esercizi.
Esercizio 2.6. Unazienda produce componenti elettronici in lotti da n = 1000 componenti. La probabilità che un componente sia difettoso e` pari a p = 101 , indipendentemente dagli altri. Qual e` la probabilità che:
il numero X di componenti difettosi di un lotto sia pari a zero;
il numero X di componenti difettosi di un lotto sia minore o uguale a 80;
il numero X di componenti difettosi di un lotto sia compreso tra 80 e 120.
42

Svolgimento. La probabilità che nessun componente sia difettoso e` data da:

1000 0 1000
P (X = 0) = p1000 (0) =
p q
= q 1000 = 0.91000 1.75 1046
0
cioè del tutto trascurabile. Levento che il numero di componenti difettosi sia minore o
uguale a 80 non e` un evento elementare, ma si puo` facilmente esprimere come lunione
80
e gli eventi elementari sono muk=0 {X = k} degli eventi elementari {X = k}. Poich`
tuamente esclusivi, la probabilità dellunione e` pari alla somma delle probabilità, e si
ha: 3

80
80
80

80

1000 k 1000k
p q
P k=0 {X = k} =
P (X = k) =
p1000 (k) =
0.0176 .
k
k=0
k=0
k=0
Infine, levento che N sia compreso tra 80 e 120 puo` essere anchesso espresso come
unione di eventi elementari mutuamente esclusivi, ovvero come 120
k=80 {X = k}, per cui
P
120
k=80 {X

120
120
120

1000 k 1000k
p q
= k} =
P (X = k) =
p1000 (k) =
0.9695 .
k
k=80
k=80
k=80
Esercizio 2.7. Un test a risposte multiple prevede n = 20 domande, con tre possibili
risposte per ciascuna domanda. Uno studente poco preparato risponde a caso a tutte le
domande; qual e` la probabilità che totalizzi un punteggio maggiore o uguale a 12, che e`
la soglia minima per lammissione?
Svolgimento. Anche qui possiamo modellare il problema mediante prove di Bernoulli.
Rispondendo a caso a ciascuna domanda, lo studente individuerà la risposta esatta con
probabilità p = 1/3, e sbaglierà con probabilità q = 1 p = 2/3. A questo punto, se X
e` il numero di risposte esatte, dobbiamo determinare la probabilità P (X 12), che con
considerazioni analoghe a quelle dellesempio precedente e` data da:
P (X 12) =
20

20
k=12
pk q nk 0.0130 ,
che e` una probabilità inferiore al 2%, per cui e` estremamente difficile che lo studente
superi il test.

3
Per effettuare il calcolo numerico che segue, come anche per gli altri che ricorrono in questo esercizio
ed in quello seguente, e` indispensabile ricorrere ad un calcolatore, ad esempio scrivendo un semplice
script Matlab.
43
2.4.3 Teoremi di de Moivre-Laplace

Gli esercizi della precedente sezione hanno mostrato che un problema che si pone spesso in pratica e` quello di valutare espressioni del tipo
k2
(2.6)
pn (k) ,
k=k1
che e` difficoltoso quando il numero di termini della somma e` elevato. Per valori elevati
di n, tuttavia, e` possibile trovare approssimazioni che semplificano il calcolo.
La prima approssimazione, nota come teorema locale di de Moivre-Laplace, 4 afferma
che se npq 1, allora:

(knp)2
n k nk
1
e 2npq ,
pn (k) =
p q
(2.7)
k
2npq
e lapprossimazione e` accurata per k appartenente ad un intorno, di ampiezza npq,

di np. Per mostrare la bontà dellapprossimazione fornita da tale teorema, in Fig. 2.5
riportiamo, al variare di k, la stessa pn (k) della Fig. 2.4 (n = 20, p = 0.4), insieme
con la funzione esponenziale approssimante (secondo membro della (2.7)). Nel caso in
esame, si ha np = 8 e npq 2.19, per cui ci aspettiamo una approssimazione accurata

allincirca nellintervallo [6, 10]; notiamo che invece si ha un buon accordo anche al di
fuori di tale intervallo. La funzione esponenziale approssimante corrisponde alla legge
di probabilità gaussiana, ed e` di fondamentale importanza nella teoria della probabilità;
avremo modo di approfondire il suo studio nel seguito. Osserviamo solo (Fig. 2.5) la
sua caratteristica forma a campana, centrata in np e di larghezza circa pari a npq; per
questo motivo, lapprossimazione del teorema di de Moivre-Laplace e` buona nel centro
della campana, e peggiora spostandosi verso le code della funzione esponenziale.
Una volta introdotta lapprossimazione del teorema locale di de Moivre-Laplace,
possiamo trovare una approssimazione della (2.6). Si ha infatti, utilizzando la (2.7),
k2

k=k1
pn (k)
k2

k=k1
(knp)2
1
e 2npq .
2npq
Poichè npq rappresenta la larghezza della curva gaussiana, per npq 1 possiamo
ritenere che tale curva sia praticamente costante in ogni intervallo di ampiezza unitario.
Allora la sommatoria tra k1 e k2 e` una buona approssimazione dellintegrale, e si ha:
k2

k=k1
1
pn (k)
2npq
k2
(xnp)2
2npq
dx .
k1
Il teorema fu dimostrato da A. de Moivre (1667-1754) nel caso particolare p = 1/2, e generalizzato da

P. S. Laplace (1749-1827) al caso di p arbitrario. Per una dimostrazione moderna, si veda [1] oppure [2].
44

0.2
0.18
0.16
0.14
pn (k)
0.12
0.1
0.08
0.06
0.04
0.02
10
12
14
16
18
20
k
Fig. 2.5. Approssimazione del teorema locale di de Moivre-Laplace (tratto continuo) alla
probabilità binomiale pn (k), per n = 20 e p = 0.4.
Con il cambiamento di variabile u =

1
k2 np
npq
u2
k1 np
npq
xnp
,
npq
1
du =
2
lintegrale si riscrive:
k2 np
npq
u2
per cui, se introduciamo la funzione

1
G(x) =
2
1
du
2
u2
2
k1 np
npq
u2
2
du
du ,
possiamo porre infine:

k2

k=k1

pn (k) G
k2 np
npq

G
k1 np
npq

.
Questa e` lespressione desiderata, che va sotto il nome di teorema integrale di de MoivreLaplace e ci consente di calcolare la (2.6) come differenza della funzione G(x) in due
punti. 5
5
Osserviamo che entrambi i teoremi di de Moivre-Laplace rappresentano un caso particolare di un

teorema piu` generale, noto come teorema limite fondamentale, che vedremo in dettaglio nel 8.6.
45
Dobbiamo osservare, tuttavia, che la funzione G(x) non e` comunque una funzione
elementare, per cui, per determinarne i valori, e` necessario ricorrere a grafici, a tabelle o
a programmi al calcolatore. Un grafico della funzione G(x), in scala naturale, e` riportato
in Fig. 2.6; notiamo tuttavia che tale grafico non consente la determinazione accurata
dei valori della funzione. Si veda lAppendice B per un grafico piu` accurato (Fig. B.1) e
per una tabella dei valori (Tab. B.1); nella stessa Appendice sono riportate le principali
proprietà della funzione G(x) e le relazioni con altre funzioni frequentemente utilizzate.
1
0.9
0.8
0.7
G(x)
0.6
0.5
0.4
0.3
0.2
0.1
0
4
x
Fig. 2.6. Grafico in scala naturale della funzione G(x).
Esempio 2.9. Per mostrare la validità dellapprossimazione del teorema di de Moivre

Laplace, ricalcoliamo i risultati dellesercizio 2.6. Notiamo che si ha np = 100 e npq
9.49. Tralasciando il primo risultato (nessun componente difettoso) per il quale il calcolo
diretto non presenta difficoltà, per il secondo (numero di componenti difettosi minore o
uguale a 80) si ha (cfr. Tab. B.1 per i valori della G(x)):
80

k=0

p1000 (k) G
80 100
9.49

G
0 100
9.49
= G(2.11) G(10.54) G(2.11) = 1 G(2.11) = 1 0.9826 = 0.0174
46

che va confrontato con il risultato esatto pari a 0.0176. Per il terzo risultato (numero di
componenti difettosi compreso tra 80 e 120), si ha (cfr. Tab. B.1):
120

k=80

p1000 (k) G
120 100
9.49

G
80 100
9.49
= G(2.11) G(2.11) = G(2.11) 1 + G(2.11) =

= 2 G(2.11) 1 = 2 0.9826 1 = 0.9652
che va confrontato con il risultato esatto 0.9695.
Esempio 2.10. Unaltra applicazione interessante del teorema di de Moivre-Laplace ci

consente di mettere in relazione tra loro il concetto di probabilità con quello di frequenza
di successo. Sia X il numero di volte che si verifica un evento A, di probabilità p, in n
prove; ci aspettiamo che, se il numero di prove e` sufficientemente elevato, la frequenza
di successo, definita come p Xn , debba essere prossima alla probabilità p. Questo
enunciato vago puo` essere espresso in termini piu` precisi nel modo seguente: per n
elevato, la probabilità che p si discosti da p di un ammontare pari ad deve essere
piccola. Proviamo a calcolare tale probabilità, che si puo` esprimere come:
P (|
p p| > ) .
Risulta piu` conveniente calcolare la probabilità complementare, ovvero:

X
p+
P (|
p p| ) = P (p p p + ) = P p
n
= P [n(p ) X n(p + )]
che ci aspettiamo grande per n sufficientemente elevato. Poichè siamo giunti ad una
probabilità binomiale, possiamo scrivere, adoperando il teorema integrale di de MoivreLapalace:

n(p + )
n(p )
P (|
p p| ) =
pn (k) G
G
npq
npq
k=n(p)

n
n
n
=G
G
= 2G
1.
npq
npq
pq
n(p+)
Se, ad esempio, p = 0.1 e = 0.1 p, cioè lo scostamento e` pari al 10% del valore di p,
allora si trova che:
per n = 100, la probabilità e` pari a 0.2611;
per n = 1000, la probabilità e` pari a 0.7063;
47
per n = 10 000, la probabilità e` pari a 0.9991.

In effetti, poiche G() = 1, si ha che limn P (|
p p| ) = 1. Si osserva allora che,
se aumentiamo il numero di prove, effettivamente la frequenza di successo assume con

probabilità tendente ad 1 valori prossimi a piacere alla probabilità p. 6
2.4.4 Canale binario simmetrico (BSC)

Un altro esempio particolarmente interessante di esperimento combinato, in cui tuttavia
gli spazi di probabilità non possono ritenersi statisticamente indipendenti, e` il caso dellingresso e delluscita di un canale di comunicazione, che e` un componente fondamentale
di un sistema di comunicazione.
Per fissare le idee, consideriamo lo schema (semplificato) di un sistema di comunicazione riportato in Fig. 2.7, nel quale una sorgente emette simboli X, per semplicità
supposti appartenenti ad un insieme discreto 1 = {x1 , x2 , . . . , xN } (alfabeto sorgente),
che vengono immessi su un canale di comunicazione, il quale restituisce infine alla destinazione simboli Y appartenenti ad un insieme discreto 2 = {y1 , y2 , . . . , yM } (alfabeto
destinazione), che puo` essere differente dallalfabeto 1 di ingresso. Il problema fondamentale della comunicazione e` che, per fondamentali limitazioni fisiche (ad esempio,
per la presenza di rumore termico dovuto al moto degli elettroni nei conduttori), qualsiasi
canale introduce errori casuali, per cui la trasmissione dellinformazione dalla sorgente
alla destinazione non e` completamente affidabile.
X
Sorgente
Y
Canale
Destinazione
Fig. 2.7. Schema semplificato di un sistema di comunicazione. La sorgente emette simboli X,

che sono trasformati dal canale in simboli Y , che giungono alla destinazione.
Concentriamo ora lattenzione sul canale di comunicazione, che supporremo binario,

ovvero 1 = 2 = {0, 1}. Poichè tale canale introduce errori casuali, allora dobbiamo
modellarlo in termini probabilistici. Osserviamo che e` semplice costruire uno spazio di
probabilità (1 , B1 , P1 ) su 1 (sorgente) ed uno spazio di probabilità (2 , B2 , P2 ) su 2
(destinazione); le proprietà del canale entrano in gioco quando si vuole costruire uno
spazio di probabilità su = 1 2 = {00, 01, 10, 11}. Non e` ragionevole in questo
caso assumere ingresso ed uscita del canale statisticamente indipendenti, perchè anzi ci
6
Questa regolarità della frequenza di successo e` nota come legge dei grandi numeri, e la approfondiremo
piu` in dettaglio nel 8.6.
48

aspettiamo che, se il canale e` sufficientemente affidabile, ci sia una forte dipendenza del
simbolo di uscita Y dal simbolo di ingresso X. Addirittura, se il canale e` ideale, deve
risultare Y = X, cioè si ha una dipendenza deterministica; piu` in generale, si avrà solo
una dipendenza statistica, cioè si avrà Y = X con elevata probabilità.
Il canale puo` essere convenientemente descritto in termini delle probabilità condizionali dei simboli in uscita, assegnati i simboli in ingresso. Ad esempio, possiamo
assegnare la probabilità che si abbia in uscita Y = 0 sapendo che in ingresso si ha X = 0:
P (0|0) P (Y = 0|X = 0)
e analogamente, e` possibile assegnare le probabilità P (0|1), P (1|0), e P (1|1). Tale descrizione e` particolarmente conveniente perchè non entrano in gioco le caratteristiche della
sorgente.
Poichè per un fissato evento condizionante la probabilità condizionale e` una legge
di probabilità, devono valere le condizioni di normalizzazione, vale a dire:
P (0|0) + P (1|0) = 1 ,
P (0|1) + P (1|1) = 1 ,
per cui solo due di tali probabilità possono essere assegnate ad arbitrio, restando univocamente determinate le altre due. Una volta assegnate tali probabilità, se conosciamo le
probabilità dei simboli X emessi dalla sorgente, siano esse:
P1 (X = 0) = q ,
P1 (X = 1) = p ,
e` chiaro che possiamo descrivere lo spazio di probabilità prodotto applicando la legge
della probabilità composta, avendosi, ad esempio,
P (X = 0, Y = 0) = P (Y = 0|X = 0) P1 (X = 0) = P (0|0) q
e similmente per tutte le altre. Evidentemente, restano anche univocamente determinate
le probabilità dei simboli di uscita. Si ha, infatti,
P2 (Y = 0) = P (X = 0, Y = 0) + P (X = 1, Y = 0) ,
P2 (Y = 1) = P (X = 0, Y = 1) + P (X = 1, Y = 1) .
Osserviamo che le due probabilità P (0|1) e P (1|0) rappresentano le probabilità di
scambiare un simbolo di ingresso con il suo complemento in uscita, e per questo motivo
si chiamano probabilità di scambio del canale; se tali probabilità di scambio sono uguali
tra loro, cioè si ha:
P (0|1) = P (1|0) = ,
49
il canale binario si dirà simmetrico (binary symmetric channel, BSC), e sarà descritto dal
solo parametro . Osserviamo che per la condizione di normalizzazione, risulta anche:
P (0|0) = P (1|1) = 1 ,
dove evidentemente P (0|0) e P (1|1) rappresentano probabilità di non scambio. Un canale
binario simmetrico e` convenientemente rappresentato da un grafo orientato (Fig. 2.8).
1-
1
1-
Fig. 2.8. Grafo di un canale binario simmetrico (BSC) con ingresso X, uscita Y e parametro di
scambio ; i valori indicati sugli archi del grafo rappresentano le probabilità condizionali dei
simboli di uscita dati i simboli di ingresso.
Ricaviamo esplicitamente, per un canale binario simmetrico, le probabilità di tutti

gli elementi dello spazio prodotto = 1 2 . Con notazione sintetica, si ha:
P (00) = P (0|0) P1 (0) = (1 ) q ,
P (01) = P (1|0) P1 (0) = q ,
P (10) = P (0|1) P1 (1) = p ,
P (11) = P (1|1) P1 (1) = (1 ) p ,
e a partire da queste possiamo ricavare le probabilità dei simboli di uscita Y :
P2 (0) = P (00) + P (10) = (1 ) q + p ,
P2 (1) = P (01) + P (11) = q + (1 )p .
E` conveniente raggruppare tali probabilità in una tabella (Tab. 2.1). Possiamo osservare che sommando lungo le righe otteniamo le probabilità P1 dei simboli X, mentre
sommando lungo le colonne otteniamo le probabilità P2 dei simboli Y .
50

Y
X
(1 ) q
(1 ) p
Tab. 2.1. Probabilità caratteristiche di un canale binario simmetrico (BSC).
Se i simboli di ingresso sono equiprobabili (P1 (0) = P1 (1) = 1/2, ovvero p = q = 1/2),
si ricava facilmente che anche i simboli di uscita sono equiprobabili (P2 (0) = P2 (1) =
1/2); si noti che questa proprietà consegue dalla simmetria del canale, oltre che dalla
equiprobabilità dei simboli di ingresso.
Poichè laffidabilità di un canale di comunicazione dipende da quanto frequentemente il canale introduca errori, calcoliamo la probabilità di errore P (e):
P (e) = P (Y = X) = P (01 10) = P (01) + P (10) = P (1|0) P1 (0) + P (0|1) P1 (1)
= q + p = (p + q) = .
Notiamo allora che P (e) = , ovvero la probabilità di errore coincide con la probabilità di scambio, indipendentemente dalla distribuzione di probabilità della sorgente. E`
chiaro allora che determina laffidabilità del canale di comunicazione; quanto piu` e`
piccolo (valori tipici sono nellambito da 103 a 109 ), tanto piu` il canale e` affidabile. 7
Possiamo utilizzare il canale binario simmetrico per chiarire meglio il significato di
probabilità a priori e a posteriori. Se non osserviamo luscita del canale, potremo dire
che il simbolo emesso dalla sorgente e` 0 con probabilità P1 (0) oppure 1 con probabilità
P1 (1) (probabilità a priori). Se pero` osserviamo luscita del canale, sia ad esempio Y = 1,
tali probabilità a priori si trasformano nelle probabilità a posteriori:
P (01)
q
=
,
P2 (1)
q + (1 )p
P (11)
(1 ) p
P (X = 1|Y = 1) =
=
.
P2 (1)
q + (1 )p
P (X = 0|Y = 1) =
A dire il vero, osserviamo che un canale con prossimo ad 1, ad esempio = 1 103 , e` altrettanto
affidabile di un canale con = 103 ; infatti il primo canale inverte sistematicamente i simboli, ma questo
puo` facilmente essere compensato alla destinazione. Per evitare questo comportamento paradossale,
considereremo solo valori di in [0, 1/2].
7
51
Se il canale e` affidabile, ovvero se 1/2, allora si ha:

q
,
q + p
p
P (X = 1|Y = 1)
,
q + p
P (X = 0|Y = 1)
per cui si verifica che P (X = 1|Y = 1) P (X = 0|Y = 1) (al limite, per 0, si ha

P (X = 1|Y = 1) 1 e P (X = 0|Y = 1) 0); cio` significa che osservare luscita Y = 1
fa aumentare significativamente la probabilità che la sorgente abbia emesso il simbolo
1. In questo caso il canale trasmette linformazione dalla sorgente alla destinazione in
maniera affidabile.
E` interessante individuare la condizione di massima incertezza, nella quale P (X =
0|Y = 1) = P (X = 1|Y = 1). Si trova:
q = (1 )p = p .
Impostando un problema analogo per il caso in cui si osserva luscita Y = 0, si ricava
simmetricamente = q. Le due condizioni sono entrambe soddisfatte se p = q = , il
che ovviamente implica = 0.5. Per cui il canale meno affidabile in assoluto e` quello
caratterizzato da = 0.5; si noti che tale canale ha una probabilità di errore anchessa
pari a 0.5, cioè sbaglia il 50% delle volte.
Si puo` facilmente verificare che per un BSC con = 0.5 tutte le probabilità congiunte si fattorizzano nel prodotto delle probabilità marginali. Questo equivale a dire
che gli spazi di probabilità 1 e 2 sono statisticamente indipendenti. E` chiaro che avere
unuscita statisticamente indipendente dallingresso e` la condizione piu` sfavorevole che
possa capitare se si trasmette informazione su un canale di comunicazione; per decidere quale simbolo e` stato trasmesso, una volta osservato un valore delluscita, tanto vale
lanciare una moneta e scegliere X = 0 se esce testa, X = 1 se esce croce (o viceversa).
52
Capitolo 3
Variabili aleatorie
3.1
Introduzione
Nei precedenti capitoli abbiamo mostrato come costruire spazi di probabilità a partire da esperimenti i cui risultati non sono necessariamente numerici, quali ad esempio
il lancio di un dado o lestrazione di una carta da un mazzo di carte francesi. Nelle
scienze fisiche e nellingegneria, tuttavia, nasce la necessità di descrivere i risultati di
un esperimento e gli eventi associati ad esso in maniera numerica. Un modo semplice di
ottenere cio` consiste nellassociare ad ogni risultato dellesperimento un numero reale;
cio` conduce al fondamentale concetto di variabile aleatoria.
Esempio 3.1. Consideriamo il lancio di una moneta, il cui spazio campione e` =
{T, C}. Un semplice esempio di variabile aleatoria si ottiene associando al risultato
T il numero 1, ed al risultato C il numero 0.
Esempio 3.2. Consideriamo il lancio di un dado, e denotiamo lo spazio campione come = {1 , 2 , . . . , 6 }, dove con i abbiamo indicato il risultato che nel lancio si
presenti la i-esima faccia del dado. Possiamo costruire una variabile aleatoria semplicemente associando a i il valore i. Si noti che abbiamo già implicitamente fatto questa
corrispondenza, quando abbiamo assunto come spazio campione per il lancio di un
dado linsieme = {1, 2, . . . , 6}.
Esempio 3.3. Consideriamo un sondaggio di opinione, nel quale si intervistano 1000

persone, per sapere se sono daccordo oppure no su un certo argomento. Lo spazio
campione associato a tale esperimento e` composto da 21000 risultati, ognuno dei quali
e` una stringa di 1000 simboli, scelti tra S (corrispondente alla risposta s`) ed N (corrispondente alla risposta no), che e` un numero eccezionalmente grande (provate a
54
Variabili aleatorie
calcolarlo sulla vostra calcolatrice tascabile!). Tuttavia, nella pratica quello che interessa sapere e` quante persone rispondono s` e quante no. Allora ad ogni punto (stringa)
dello spazio campione possiamo associare il numero dei simboli S presenti nella stringa
stessa, ottenendo un numero intero tra 0 e 1000. In questo modo abbiamo descritto il
problema in maniera piu` semplice e soprattutto piu` aderente alle nostre finalità.

Generalizzando, per un dato esperimento, una variabile aleatoria X (Fig. 3.1) e` una
funzione costruita su e che assume valori nellinsieme R = R {, }:
X : X() X R
dove abbiamo denotato con X il codominio della funzione X, ovvero linsieme dei possibili valori assunti da X. Tale funzione deve soddisfare certe condizioni di regolarità,
come vedremo meglio nel seguito.
R
3
X( 1 )
X( 3)
X( 2)
Fig. 3.1. Una variabile aleatoria X e` una funzione definita nello spazio campione e a valori in
R = R {, }.
Esempio 3.4. Consideriamo ancora il lancio di un dado, per il quale lo spazio campione e` = {1 , 2 , . . . , 6 }. Tre diverse variabili aleatorie definite su sono:
1. X(i ) = i;
2. X(i ) = 10 i;

1, se i e` pari;
3. X(i ) =
0, se i e` dispari.
3.1 Introduzione
55
Notiamo che qui e nel seguito, in analogia alla notazione comunemente utilizzata in matematica, indicheremo con X la legge di corrispondenza (funzione o variabile aleatoria),
e con X() il valore della funzione in corrispondenza del risultato .

Il successivo passo per una corretta definizione di variabile aleatoria e` capire come, se
e` un insieme dotato di struttura di spazio di probabilità, una variabile aleatoria X
costruita su conservi informazioni sulle probabilità degli eventi di . A tale scopo,
di fondamentale importanza e` chiarire il significato della notazione
{X x}
(3.1)
per un dato x R. Dal punto di vista numerico, linsieme dei valori reali minori o
uguali di un dato valore x e` una semiretta sinistra (chiusa a destra), che si denota anche
con ] , x]. Tuttavia, il senso della notazione (3.1) e` completamente differente: con
R
3
2
4
{X x}
X( 1)
X( 3)
X( 4)
X( 2)
Fig. 3.2. Levento {X x} e` il sottoinsieme A = {2 , 3 , 4 } di (in bianco), le cui immagini

attraverso X sono minori o uguali ad x.
essa si intende denotare il sottoinsieme A di cos` definito:

A = { tali che X() x} ,
ovvero linsieme dei valori la cui immagine (Fig. 3.2) attraverso la funzione X e`
minore o uguale ad x. 1 Pertanto, {X x} non va considerato come un sottoinsieme di
R, ma come un sottoinsieme di .
1
Ovviamente, lordinamento su R e` tale che x , x R.
56
Variabili aleatorie
Se allora A = {X x} e` un evento x R, e` possibile calcolarne la probabilità.
Inoltre e` possibile calcolare la probabilità di {X T }, se tale insieme si puo` ottenere
come complemento, unione o intersezione numerabile di eventi del tipo {X x}, il che
equivale a dire che linsieme numerico T si puo` ottenere come complemento, unione o
intersezione di semirette sinistre.
Esempio 3.5. Con riferimento allesempio precedente (lancio di un dado) e alla variabile aleatoria definita al punto 2, vale a dire X(i ) = 10 i, si ha:
{X 35} = {1 , 2 , 3 } P (X 35) = 1/2
{X 5} = {} P (X 5) = 0
{20 X 35} = {2 , 3 } P (20 X 35) = 2/6 = 1/3
3.1.1 Definizione di variabile aleatoria

Sulla base dei concetti introduttivi e degli esempi del precedente paragrafo, siamo ora
in grado di dare una definizione formale di variabile aleatoria.2
Definizione (variabile aleatoria). Dato uno spazio di probabilità (, B, P ),
una variabile aleatoria (v.a.) X e` una funzione definita in ed a valori in
X R = R {, +}, tale che
1. {X x} e` un evento, x R;
2. P ({X = +}) = P ({X = }) = 0.
Il significato della proprietà 1 e` stato discusso precedentemente; con la proprietà 2, per
motivi matematici che qui non e` il caso di approfondire, si consente alla funzione X
di assumere il valore + oppure , ma gli eventi {X = +} e {X = } devono
avere probabilità nulla. Infine, una osservazione sulla notazione: benchè sia piu` corretta
la notazione P ({X x}), che evidenzia la natura di evento di {X x}, nel seguito
useremo quasi sempre la notazione semplificata, ma piu` imprecisa, P (X x).
In conclusione, osserviamo che definire una variabile aleatoria su uno spazio di probabilità (, B, P ) equivale in pratica a costruire un nuovo spazio di probabilità, nel quale
lo spazio campione diventa X R, gli eventi sono sottoinsiemi di X che si ottengono per
complementazioni, unioni ed intersezioni di semirette sinistre, e la legge di probabilità
e` , per cos` dire, indotta dalla legge di probabilità P .
2
Osserviamo che il termine variabile aleatoria e` fuorviante, trattandosi piuttosto di una funzione
aleatoria; tuttavia esso e` quello piu` comunemente utilizzato.
3.2 Funzione di distribuzione cumulativa (CDF)
3.2
57
Funzione di distribuzione cumulativa (CDF)
La funzione che esprime la probabilità dellevento {X x} al variare di x in R prende

il nome di funzione di distribuzione cumulativa (CDF) della variabile aleatoria X.
Definizione (funzione di distribuzione cumulativa). Data una variabile aleatoria X, la sua funzione di distribuzione cumulativa (CDF) e` :
F (x) P (X x),
x R .
Ha senso calcolare questa probabilità perchè nella definizione di variabile aleatoria abbiamo richiesto (proprietà 1) che {X x} sia un evento, x R. Notiamo anche che,
sebbene il codominio di X sia X, la CDF e` definita in tutto R.
In alternativa alla notazione F (x), useremo la notazione FX (x) quando vorremo specificare esplicitamente che si tratta della CDF della variabile aleatoria X (quindi, ad
esempio, quando avremo a che fare con piu` variabili aleatorie). Osserviamo esplicitamente che il pedice X (maiuscolo) rappresenta la variabile aleatoria (ovvero la legge di
corrispondenza), mentre la variabile indipendente della funzione x (minuscolo) e` un
numero reale. Notazioni come FX (y) oppure FX (w) sono ovviamente lecite.
Esempio 3.6. Si consideri la variabile aleatoria definita su = {T, C} nel seguente
modo:
X(T ) = 1 ,
X(C) = 0 .
Se P (T ) = p e P (C) = q, con p + q = 1, la CDF di X e` la seguente:
0, x < 0 ;
F (x) = q, 0 x < 1 ;
1, x > 1 .
Infatti:
- per x < 0, si ha F (x) = P (X x) = P (X x < 0) = P () = 0;
- per 0 x < 1, si ha F (x) = P (X x) = P (X = 0) = P (C) = q;
- per x 1, si ha F (x) = P (X x) = P ({X = 0} {X = 1}) = P (C) + P (T ) =
q + p = 1.
Osserviamo che tale CDF (Fig. 3.3) ha un andamento costante a tratti. Si parla in questo
caso di variabile aleatoria discreta (cfr. 3.2.2).
58
Variabili aleatorie
F(x)
F(x)
q
1/6
1
10
Fig. 3.3. La CDF F (x) della variabile

aleatoria dellesempio 3.6.
20
30
40
50
60

Esempio 3.7. Sia = {1 , 2 , 3 , 4 , 5 , 6 }, con risultati equiprobabili, e si consideri

la variabile aleatoria X(i ) = 10 i. La CDF si calcola facilmente:
0,
x < 10 ;
1/6,
10 x < 20 ;
20 x < 30 ;
2/6,
F (x) = 3/6,
30 x < 40 ;
4/6,
40 x < 50 ;
5/6,
50 x < 60 ;
1,
x 60 ;
ed, anche in questo caso, ha un andamento costante a tratti (Fig. 3.4) per cui X e` una
variabile aleatoria discreta (cfr. 3.2.2).

Esempio 3.8. Consideriamo lesperimento consistente nellarrivo a caso di una telefonata nellintervallo [0, T ], e denotiamo con t listante di arrivo della telefonata. Lo spazio
campione e` = [0, T ], gli eventi sono complementi, unioni ed intersezioni numerabili
di intervalli aperti ]a, b[ . Come legge di probabilità, porremo (legge uniforme):
P (t (a, b)) =
ba
,
T
con 0 a b T .
Essendo il risultato dellesperimento già numerico, possiamo definire una variabile

aleatoria su semplicemente come la trasformazione identica
X(t) = t .
E` allora semplice calcolare la CDF:

F(x)
59
F(x)


- per x < 0, si ha F (x) = P (X x) = P (X x < 0) = P () = 0;

- per 0 x < T , si ha F (x) = P (X x) = P (0 X x) = x/T ;
- per x T , si ha F (x) = P (X x) = P (0 X T ) = T /T = 1.
In questo caso la CDF (Fig. 3.5) non e` una funzione costante a tratti, ma e` una funzione
continua su tutto linsieme di definizione. Si parla allora di variabile aleatoria continua
(cfr. 3.2.2).

Esempio 3.9. Sia X una variabile aleatoria definita su un qualunque spazio campione
nel seguente modo:
X() = a,
In tal caso, il calcolo della CDF si effettua come segue:

- per x < a, si ha F (x) = P (X x) = P (X x < a) = P () = 0;
- per x a, si ha F (x) = P (X x) = P () = 1.
Tale CDF (Fig. 3.6) e` una funzione costante a tratti, per cui la variabile aleatoria e`
discreta (cfr. 3.2.2).
3.2.1 Proprietà della CDF

I precedenti esempi hanno mostrato che la CDF di una variabile aleatoria e` una funzione a valori in [0, 1] e non decrescente. Oltre a queste due evidenti proprietà, la CDF
possiede altre proprietà, riassunte e dimostrate di seguito:3
Nelle formule che seguono, con F (x+

0 ) e F (x0 ) intendiamo il limite da destra e da sinistra della
+
funzione F (x) nel punto x0 , ovvero F (x0 ) lim0 F (x0 + ) e F (x
0 ) lim0 F (x0 ), con > 0.
3
60
Variabili aleatorie
1. F (+) = 1, F () = 0.
Prova. Si ha, banalmente, F (+) = P (X +) = P () = 1 e F () = P (X ) = P (X =
) = 0 (per la seconda, si sfrutta la proprietà 2 della definizione di variabile aleatoria).
2. F (x) e` una funzione monotona crescente, ovvero x1 < x2 F (x1 ) F (x2 ).

Prova. Infatti, se x1 < x2 , si ha che {X x1 } {X x2 } e quindi, per le proprietà elementari
della probabilità, P (X x1 ) P (X x2 ), da cui lasserto.
Notiamo che, se F (x0 ) = 0, in base a tale proprietà risulta F (x) = 0, x x0 .

Conseguentemente, se X() > 0, , risulta F (0) = P (X 0) = 0 e quindi
F (x) = 0 per x 0. Una tale variabile aleatoria si dice positiva, ed ha pertanto
CDF identicamente nulla, x 0.
3. P (X > x) = 1 F (x).
Prova. Basta osservare che {X x} {X > x} = , e che i due eventi sono mutuamente esclusivi,
per cui P (X x) + P (X > x) = P () = 1, da cui lasserto.
La funzione F (x) 1 F (x) prende il nome di CDF complementare o anche di

funzione di affidabilità.4
4. F (x) e` continua da destra, ovvero F (x+ ) = F (x).
Prova. Dobbiamo provare che lim0 F (x + ) = F (x), per > 0. Notiamo che F (x + ) = P (X
x + ), e si ha:
{X x + } = {X x} + {x < X x + }
con i due eventi a secondo membro mutuamente esclusivi. Si ha allora:
P (X x + ) = P (X x) + P (x < X x + )
Poiche, per 0, il secondo insieme tende allinsieme vuoto, allora:
lim P (X x + ) = P (X x) = F (x)
cioè lasserto.
5. P (x1 < X x2 ) = F (x2 ) F (x1 ).

Prova. Per levento {x1 < X x2 }, vale la seguente identità:
{X x1 } {x1 < X x2 } = {X x2 }
4
La denominazione di funzione di affidabilità deriva dal fatto che, se si interpreta la variabile aleatoria X come il tempo di vita di un dispositivo, la funzione F (x) descrive la probabilità che il dispositivo
viva per un tempo maggiore o uguale a x, e quindi misura laffidabilità del dispositivo stesso.
61
nella quale i due eventi a primo membro sono mutuamente esclusivi, per cui:
P (X x1 ) +P (x1 < X x2 ) = P (X x2 )

=F (x1 )
=F (x2 )
da cui si ha lasserto.
6. P (X = x) = F (x) F (x ).
Prova. Dalla proprietà 5, per x1 = x e x2 = x, si ha:
P (x < X x) = F (x) F (x )
con > 0. Passando al limite per 0, levento {x < X x} tende a {X = x}, per cui:
P (X = x) = F (x) F (x )
cioè lasserto.
7. P (x1 X x2 ) = F (x2 ) F (x
1 ).
Prova. Si ha, banalmente,
{x1 X x2 } = {x1 < X x2 } {X = x1 }
e gli eventi a secondo membro sono mutuamente esclusivi. Si ha allora, per le proprietà 5 e 6,
P (x1 X x2 ) = P (x1 < X x2 ) + P (X = x1 ) = F (x2 ) F (x1 ) + F (x1 ) F (x
1)=
= F (x1 ) F (x
)
1
cioè lasserto.
3.2.2 Variabili aleatorie discrete, continue, miste

La variabile aleatoria X si dirà discreta se la sua CDF F (x) e` una funzione costante a
tratti (Figg. 3.3, 3.4,3.6). In tal caso, detti xi i punti di discontinuità di F (x), si ha, per la
proprietà 6 della CDF,

0, se x = xi e` un punto di continuità;
P (X = x) = F (x) F (x ) =
pi , se x = xi e` un punto di discontinuità.
Quindi in pratica una variabile aleatoria discreta X assume i valori xi con probabilità pi
date dai valori dei salti di discontinuità della sua CDF, e pertanto linsieme X dei valori
assunti da X e` un insieme discreto, cioè X = {x1 , x2 , . . . }.
Un caso particolare di variabili aleatorie discrete sono quelle di tipo reticolare, caratterizzate dal fatto che i valori assunti xi sono equispaziati (appartengono, cioè, ad un
reticolo monodimensionale), e si puo` porre quindi xk = a + bk, con a, b R e k K Z.
62
Variabili aleatorie
La variabile aleatoria X si dirà continua se la sua CDF F (x) e` una funzione continua
(Fig. 3.5). La continuità di F (x) implica che F (x) = F (x+ ) = F (x ) e quindi P (X =
x) = 0, x R. In altri termini, una variabile aleatoria continua assumerà ogni valore
con probabilità nulla. Linsieme X dei valori assunti da una variabile aleatoria continua
e` un insieme continuo, quale ad esempio un intervallo (a, b), o anche tutto R.
Infine, la variabile aleatoria X si dirà mista se la sua CDF F (x) e` discontinua, ma non
costante a tratti. Linsieme X dei valori assunti da X sarà lunione di un insieme continuo, ad esempio un intervallo, e di un insieme discreto. Esempi di variabili aleatorie
miste saranno presentati nel Cap. 4.
Esempio 3.10 (variabile aleatoria indicatrice di un evento). Sia uno spazio campione qualunque, e sia A un evento di . Definiamo una variabile aleatoria XA su come
segue:

1, se A;
XA () =
0, se A.
Tale variabile aleatoria XA e` di tipo discreto, in quanto assume solo i valori 0 ed 1 con le
seguenti probabilità:
P (XA = 1) = P ( A) = P (A) ;
P (XA = 0) = P ( A) = 1 P (A) ;
e quindi la sua CDF e` a costante a tratti e, se poniamo p = P (A), e` la stessa di quella
dellesempio 3.6 (Fig. 3.3). Tale variabile aleatoria prende il nome di variabile aleatoria
indicatrice dellevento A.

Lultimo esempio mette in evidenza che e` possibile costruire variabili aleatorie discrete
su un qualunque spazio di probabilità (discreto o continuo). Osserviamo infatti che, se
e` uno spazio di probabilità discreto, tutte le variabili aleatorie costruite su saranno
necessariamente discrete. Se invece e` uno spazio di probabilità continuo, su di esso
e` possibile costruire sia variabili aleatorie continue che discrete (e ovviamente anche
miste).
3.2.3 Percentile e mediana

I concetti di percentile e mediana si ottengono direttamente a partire dalla definizione di
CDF.
Definizione (percentile). Dato u [0, 1], il percentile u-esimo di una variabile
aleatoria e` il piu` piccolo numero xu tale che
u = P (X xu ) = F (xu ) .
63
F(x)
F(x)
1
0.75
1
0.5
u
xu
x 0.75
Fig. 3.7. Il percentile u-esimo della variabile aleatoria X con CDF F (x) e` xu ; x0.75 rappresenta il valore che non e` superato con
probabilità 0.75 (quartile superiore).
m=x 0.5
Fig. 3.8. La mediana m della variabile aleatoria X con CDF F (x) e` il valore che non e`
superato con probabilità 0.5 (coincide con
il percentile x0.5 ).
Osserviamo che u deve necessariamente assumere valori in [0, 1], perchè rappresenta un
valore di probabilità. Linterpretazione del percentile e` la seguente (Fig. 3.7): il percentile xu rappresenta quel valore della variabile aleatoria che non e` superato con probabilità
pari ad u. Ad esempio, posto u = 0.75, il percentile x0.75 rappresenta quel valore che non
e` superato nel 75% dei casi, e viene chiamato quartile superiore. Similmente, il percentile x0.25 rappresenta il valore che non e` superato con probabilità 0.25, e viene chiamato
quartile inferiore. E` chiaro che se F (x) e` una funzione invertibile, allora si ha
xu = F 1 (u) ,
e quindi la curva che fornisce i percentili si ottiene semplicemente considerando linversa della CDF, ovvero scambiando gli assi del diagramma cartesiano di F (x). In pratica e` sufficiente che la CDF sia localmente invertibile in corrispondenza del punto u.
Se la CDF non e` invertibile, e` possibile ancora determinare il percentile graficamente
scambiando gli assi della CDF.
Definizione (mediana). La mediana e` il percentile per u = 0.5, ovvero e` il piu`
piccolo numero m che soddisfa la relazione:
F (m) = 0.5 .
Per determinare la mediana (Fig. 3.8) valgono considerazioni analoghe a quelle effettuate per il percentile, essendo di fatto m = x0.5 . Osserviamo che la mediana e` un primo
esempio di grandezza media relativa ad una variabile aleatoria: nel seguito incontreremo
altre grandezze simili, quali la media statistica e la moda.
Esempio 3.11. Consideriamo la CDF F (x) dellesempio 3.8, diagrammata in Fig. 3.5.
Poichè landamento di F (x), per x [0, T ], e` lineare, e` immediato invertirla per ottenere
64
Variabili aleatorie
il percentile. Si ha:
u = F (xu ) =
xu
xu = T u
T
per cui il quartile inferiore e` x0.25 = 0.25 T , quello superiore e` x0.75 = 0.75 T , e la mediana
e` m = 0.5 T .
3.3
Funzione densità di probabilità (pdf)
Accanto alla CDF, la funzione densità di probabilità (pdf) gioca un ruolo fondamentale
nella descrizione di una variabile aleatoria X.
Definizione (densità di probabilità). La funzione densità di probabilità (pdf)
di una variabile aleatoria X e` la derivata della CDF F (x):
f (x)
d
F (x) .
dx
(3.2)
Per quanto riguarda la notazione, useremo anche qui la notazione fX (x) quando vorremo specificare esplicitamente che si tratta della pdf di X.
Nella (3.2), la derivata va intesa in senso generalizzato, ovvero possono comparire
degli impulsi di Dirac5 in corrispondenza delle discontinuità di F (x). A tale proposito,
osserviamo che se la variabile aleatoria X e` continua, F (x) e` una funzione continua, e
quindi la pdf f (x) non puo` contenere impulsi. Viceversa, se X e` discreta, F (x) e` costante
a tratti, con salti di discontinuità in corrispondenza dei valori xi : lampiezza dei salti di
discontinuità rappresenta (per la proprietà 6 della CDF) la probabilità pi che la variabile
aleatoria assuma il valore xi . Pertanto, derivando tale CDF, si ottiene una pdf costituita
da soli impulsi di Dirac, centrati nei valori discreti xi X:
f (x) =
pi (x xi ) ,
xi X
dove pi P (X = xi ). Infine, se X e` mista, la pdf conterrà una parte continua (la derivata
convenzionale) e impulsi di Dirac in corrispondenza delle discontinuità di F (x).
Poichè si tratta di una variabile aleatoria discreta (CDF costante a tratti), la pdf sarà
5
Si suppone che il lettore conosca la definizione e le proprietà dellimpulso di Dirac; tali proprietà sono
comunque brevemente richiamate nellAppendice C.
3.3 Funzione densità di probabilità (pdf)
65
f(x)
f(x)
area = q
area = p
1/T
Fig. 3.9. La pdf f (x) della variabile aleatoria dellesempio 3.12.
Fig. 3.10. La pdf f (x) della variabile

una somma di impulsi di Dirac. Applicando le proprietà di derivazione dellimpulso di

Dirac, si trova
f (x) = q (x) + p (x 1) ,
che e` raffigurata in Fig. 3.9. Un risultato analogo si ottiene per le CDF degli esempi 3.7
e 3.9.

Poichè si tratta di una variabile aleatoria continua (con CDF quindi continua), la pdf
non conterrà impulsi di Dirac, ma la derivata si calcolerà in senso ordinario. Si ha:
1 , se x ]0, T [;
f (x) = T
0 , se x ] , 0[]T, [;
che e` raffigurata in Fig. 3.10. Notiamo che la derivata (e quindi la pdf) non e` definita
` tuttavia, non rapnei punti x = 0 e x = T (punti angolosi della curva della CDF). Cio,
presenta un problema perchè, come vedremo, la pdf viene utilizzata sempre allinterno
di un integrale, e quindi i valori assunti in punti isolati non giocano alcun ruolo.
3.3.1 Proprietà della pdf

Di seguito sono elencate le principali proprietà della pdf di una variabile aleatoria X.
1. f (x) 0.
Prova. La dimostrazione discende dal fatto che F (x) e` una funzione monotona crescente, e quindi
la sua derivata e` non negativa. In corrispondenza delle discontinuità, la proprietà va interpretata
nel senso che gli impulsi di Dirac ivi presenti hanno area positiva.
66
Variabili aleatorie

2. F (x) =
f (y) dy.
Prova. Poichè f (x)
d
dx F (x),
integrando ambo i membri si ha:

f (y) dy =
d
F (y) dy = F (x) F () .
dy
Ma F () = 0 per cui ho lasserto.

3.
f (x) dx = 1.
Prova. Dalla proprietà 2, per x = +, si ha lasserto, tenendo conto che F (+) = 1.

4. P (x1 < X x2 ) = F (x2 ) F (x1 ) =
x2
f (x) dx.
x1
Prova. Per la proprietà 5 della CDF, e per la proprietà 2 precedente, si ha:

x2
x1

P (x1 < X x2 ) = F (x2 ) F (x1 ) =
f (y) dy
f (y) dy =
x2
f (y) dy
x1
Notiamo che, se X e` continua, allora

x2P (X = x1 ) = 0, per cui P (x1 X x2 ) =
P (X = x1 ) + P (x1 < X x2 ) = x1 f (x) dx. In altri termini, se X e` una variabile aleatoria continua, la probabilità di eventi del tipo X (x1 , x2 ) e` la stessa,
indipendentemente dal fatto che gli estremi x1 ed x2 si considerino appartenenti
allintervallo oppure no.
5. X continua P (x X x + x) f (x) x, per x 1.
Prova. Dalla proprietà 4 (vedi osservazione precedente per il caso di X continua), ponendo x1 = x
e x2 = x + x si ha:

P (x X x + x) =
x+x
f (y) dy f (x) x .
Notiamo che questultima proprietà giustifica il nome di densità di probabilità:

infatti da essa discende che:
f (x)
P (x X x + x)
x
e quindi il valore f (x) nel punto x rappresenta la probabilità che X assuma valori
in un intervallo (x, x + x) di x, divisa per lampiezza dellintervallo x, cioè
3.4 Funzione distribuzione di probabilità (DF)
67
f(x)
f(x)
massimi locali
massimo locale
xm
Fig. 3.11. La moda xm della variabile aleatoria X corrisponde ad un massimo locale. La pdf f (x) in figura ha una sola moda,
quindi e` unimodale.
x m1
x m2
Fig. 3.12. La pdf f (x) in figura ha due

mode xm1 ed xm2 , corrispondenti a due
massimi locali, quindi e` multimodale.
proprio una densità di probabilità. Per questo motivo, poiche f (x) e` una densità di
probabilità e non una probabilità, puo` assumere valori maggiori di 1.
Osserviamo inoltre che, per la stessa proprietà, la probabilità che X [x, x + x] e`
proporzionale (se x 1) a f (x) ed e` (localmente) massima se [x, x+x] contiene
il valore xm dove f (x) e` (localmente) massima. Ognuno di tali punti xm si dice un
valore modale o una moda, e rappresenta un valore (localmente) piu` probabile di X
(Fig. 3.11). Una variabile aleatoria si dice unimodale se ha un solo valore modale
(Fig. 3.11), altrimenti si dice multimodale (Fig. 3.12).
Notiamo in conclusione che, come già osservato, definire una variabile aleatoria significa, in sostanza, sostituire allo spazio di probabilità (, B, P ) un nuovo spazio di probabilità, in cui lo spazio campione e` X R. Se, in particolare, la variabile aleatoria e`
continua, allora X R e` un insieme continuo, per cui la definizione di una legge di
probabilità su tale insieme avviene, come descritto nel 1.6.2, definendo una funzione
densità di probabilità f (x) che, di fatto, possiamo adesso interpretare come la pdf di
una variabile aleatoria X (si noti in particolare che vale la condizione di normalizzazione (1.6) tipica delle pdf). In definitiva, allora, definire una legge di probabilità su uno
spazio continuo e` equivalente ad assegnare la pdf di una variabile aleatoria X. Il lettore
e` invitato a rileggere il 1.6.2 alla luce di questa interpretazione.
3.4
Funzione distribuzione di probabilità (DF)
Abbiamo visto che, se X e` una variabile aleatoria discreta, essa assume solo i valori
xi X con probabilità pi , e pertanto la sua pdf e` di tipo puramente impulsivo (esempio
3.6). In tal caso, appare piu` semplice e immediato, in luogo della CDF o pdf, definire
68
Variabili aleatorie
p(x)
p
q
Fig. 3.13. La DF p(x) della variabile aleatoria dellesempio 3.14.
una funzione che restituisca direttamente le probabilità con cui la variabile aleatoria
assume i suoi valori. Tale funzione prende il nome di funzione distribuzione di probabilità
(DF).
Definizione (distribuzione di probabilità). La funzione distribuzione di probabilità (DF) di una variabile aleatoria discreta X a valori in X e` :
p(x) = P (X = x)
(3.3)
con x X.
Anche per la DF, come per la CDF e la pdf, utilizzeremo la notazione pX (x) quando
vorremo esplicitamente denotare che essa si riferisce alla variabile aleatoria X.
Esempio 3.14. Si consideri la variabile aleatoria dellesempio 3.6, che assume i due
valori X = 1 con probabilità p e X = 0 con probabilità q. La DF di X e` :

q, x = 0 ;
p(x) =
p, x = 1 ;
ed e` raffigurata in Fig. 3.13. Si noti che la pdf (Fig. 3.9) della stessa variabile aleatoria e` :
f (x) = q (x) + p (x 1)
Il vantaggio nelluso della DF e` quello di disporre di una funzione che non contiene
impulsi di Dirac.

Notiamo esplicitamente che per una variabile aleatoria continua non ha senso introdurre la DF, in quanto essa risulterebbe identicamente nulla, x X, perche una variabile
aleatoria continua assume tutti i valori di X con probabilità zero. Per lo stesso motivo, la DF fornisce una descrizione incompleta di una variabile aleatoria mista, e non e`
utilizzata neanche in questo caso.
3.4 Funzione distribuzione di probabilità (DF)
69
3.4.1 Proprietà della DF

La DF gode delle seguenti proprietà, che presentano una stretta analogia con quelle
della pdf.
1. p(x) 0.
Prova. La prova e` banale perchè p(x) e` una probabilità.
2. F (x) =
p(u).
uX,ux
Prova. Si ha, sfruttando le proprietà elementari della probabilità,

F (x) = P (X x) = P (uX {X = u}) =

ux
P (X = u) =
uX,ux
p(u) .
uX,ux
3.
p(xi ) = 1.
xi X
Prova. Si ricava dalla precedente; infatti:

F (+) = 1 =
p(u) =
uX,u+
p(u) .
uX
4. p(x1 < X x2 ) =
p(u).
u]x1 ,x2 ]X
Prova. Si ha:
P (x1 < X x2 ) = P (u]x1 ,x2 ]X {X = u}) =

u]x1 ,x2 ]X
P (X = u) =
p(u) .
u]x1 ,x2 ]X
Concludiamo osservando che la CDF, pdf e DF di una variabile aleatoria sono collettivamente denominate funzioni di distribuzione della variabile aleatoria: per caratterizzazione
statistica di una variabile aleatoria, allora, si intende la conoscenza di almeno una tra le
sue funzioni di distribuzione.
70
Variabili aleatorie
3.5
Esempi di variabili aleatorie
Nel corso del capitolo, abbiamo introdotto le variabili aleatorie come funzioni definite
su uno spazio campione , dotato di struttura di spazio di probabilità. Tale definizione richiede lindividuazione esplicita di un esperimento aleatorio e la descrizione dello
spazio di probabilità costruito su di esso. Daltra parte, nella pratica spesso si introducono variabili aleatorie semplicemente assegnando la loro funzioni di distribuzione:
tale semplificazione e` possibile in virtu` del seguente teorema di esistenza, che enunciamo
senza dimostrazione (gli interessati vedano [3, cap. 4.3]).
Teorema 3.1 (teorema di esistenza). Data una funzione F (x) che soddisfa
le proprietà
x
di CDF (o alternativamente data una funzione f (x) tale che F (x) = f (y) dy soddisfi

le proprietà di CDF, o una funzione p(x) tale che F (x) = uX,ux p(u) soddisfi le proprietà di CDF), e` possibile costruire uno spazio di probabilità (, , P ) e una variabile
aleatoria X con CDF F (x) (o pdf f (x), o DF p(x)).
Sulla base di questo teorema, generalmente introdurremo le variabili aleatorie attraverso le loro funzioni di distribuzione (CDF, pdf o DF), senza specificare esplicitamente lesperimento su cui sono definite. In particolare, nel seguito del paragrafo introdurremo
alcune delle variabili aleatorie piu` comunemente utilizzate.
3.5.1 Variabili aleatorie discrete

Per le variabili discrete, riporteremo la descrizione in termini di funzione di distribuzione di probabilità (DF), lasciando per esercizio al lettore di ricavare le corrispondenti
pdf e CDF, peraltro scarsamente utilizzate nel caso discreto. Notiamo preliminarmente
che tutte le variabili aleatorie discrete che introdurremo saranno di tipo reticolare.
Variabile aleatoria di Bernoulli
La variabile aleatoria X si dice di Bernoulli o bernoulliana, e si denota X Bern(p),
se essa assume il valore 1 con probabilità p ed il valore 0 con probabilità q = 1 p
(X = {0, 1}), per cui la sua DF e` (Fig. 3.14):

q, se k = 0;
p(k) =
p, se k = 1.
Notiamo che una variabile aleatoria di Bernoulli si puo` anche interpretare come variabile aleatoria indicatrice di un evento A che si verifica con probabilità p (vedi esempio
3.10).
3.5 Esempi di variabili aleatorie
71
0.2
0.9
0.18
0.16
0.7
0.14
0.6
0.12
p(x)
p(x)
0.8
0.5
0.1
0.4
0.08
0.3
0.06
0.2
0.04
0.1
0.02
0
1
Fig. 3.14. La DF p(x) di una variabile

aleatoria bernoulliana (p = 0.4).
0
0
10
x
15
20

aleatoria binomiale (n = 20, p = 0.4).
Variabile aleatoria binomiale

La variabile aleatoria X si dice binomiale di parametri n > 0 e p [0, 1], e si denota
X B(n, p), se la sua DF (Fig. 3.15) e` la seguente:

n k nk
p(k) =
p q
,
k X = {0, 1, . . . , n} ,
k
con q = 1p. I valori della DF hanno somma unitaria (proprietà 3 della DF), come si puo`
facilmente provare utilizzando il teorema binomiale (cfr. Appendice A). Osserviamo
che una variabile aleatoria bernoulliana si puo` riguardare come un caso particolare (per
n = 1) della variabile aleatoria binomiale, ovvero le notazioni X Bern(p) e X B(1, p)
sono equivalenti.
Lespressione della DF p(k) di una variabile aleatoria binomiale e` esattamente la stessa della probabilità pn (k) caratteristica di un esperimento di prove ripetute (cfr. 2.4.2).
Pertanto, la variabile aleatoria X B(n, p) si puo` interpretare proprio come il numero
di volte che si verifica un evento A, di probabilità p, in n prove ripetute e statisticamente
indipendenti.
Variabile aleatoria binomiale negativa
La variabile aleatoria X si dice binomiale negativa di parametri r > 0 e p [0, 1] e si
denota X NB(r, p), se la sua DF (Fig. 3.16) e` la seguente:

r+k1 r k
p(k) =
pq ,
k X = {0, 1, . . . } ,
k
con q = 1 p. Il nome binomiale negativa discende dal fatto che, per provare che la
somma dei valori della DF e` pari ad uno (proprietà 3 della DF), e` necessario sfruttare
72
Variabili aleatorie
0.1
0.09
0.08
0.07
p(x)
0.06
0.05
0.04
0.03
0.02
0.01
0
0
10
15
20
x
25
30
35
40
Fig. 3.16. La DF p(x) di una variabile aleatoria binomiale negativa (n = 20, p =

0.6).
lespansione binomiale negativa (equazione (A.5) in Appendice A). Infatti, si ha:

k=0
p(k) = p

r+k1
k=0
q k = pr (1 q)r = 1 .
Esempio 3.15. Come la variabile aleatoria binomiale, anche la variabile aleatoria binomiale negativa e` associata al problema delle prove ripetute. Supponiamo infatti di voler
calcolare la distribuzione di probabilità della variabile aleatoria Y che rappresenta la
prova in cui si verifica lr-esimo successo. Evidentemente, Y potrà assumere i valori
r, r + 1, r + 2, . . . , in quanto, per avere r successi e` , necessario effettuare almeno r prove.
Daltra parte, lr-esimo successo si verificherà nella prova h r se e solo se si verificano
i seguenti due eventi:
A = {nelle h 1 prove precedenti, si hanno r 1 successi};
ha una
r1evento
tale
hr
p
probabilità, descritta dalla legge binomiale, pari a P (A) = h1
q
;
r1
B = {nella h-esima prova, si ha un successo}; tale evento ha probabilità pari a
P (B) = p.
Poiche gli eventi A e B sono indipendenti, si ha:

h 1 r hr
h 1 r1 hr
p=
p q
P (Y = h) = P (A) P (B) =
p q
r1
r1
per h = r, r + 1, . . . , che puo` essere semplicemente espressa in termini di una variabile
aleatoria binomiale negativa. Infatti, poiche h r, basta porre h = r + k, con k 0, e
73
0.5
0.45
0.4
0.35
p(x)
0.3
0.25
0.2
0.15
0.1
0.05
0
0
10
15

aleatoria geometrica (p = 0.4).
far riferimento ad una variabile X = Y r che puo` assumere i valori k = 0, 1, . . . . Si ha

in tal caso:

r+k1 r k
P (X = k) = P (Y = r + k) =
p q
k
dove si sono sfruttate le proprietà del coefficiente binomiale (cfr. Appendice A). Notiamo allora che risulta X NB(r, p), che possiamo interpretare come la distribuzione
del numero di prove che bisogna effettuare, successivamente alla r-esima, per ottenere
lr-esimo successo.
Variabile aleatoria geometrica

La variabile aleatoria X si dice geometrica di parametro p [0, 1] e si denota X
Geom(p), se la sua DF (Fig. 3.17) e` la seguente:
p(k) = p q k1
k X = {1, 2, . . . , } ,
con q = 1 p. Per provare che i valori della DF hanno somma unitaria, basta sfruttare
la formula per la somma di una serie geometrica:

k=1
p(k) = p

k=1
q k1 = p

k=0
qk =
p
=1.
1q
Esempio 3.16. Come la variabile aleatoria binomiale negativa, anche la variabile aleatoria geometrica e` associata al problema delle prove ripetute. Infatti, se denotiamo con
74
Variabili aleatorie
0.2
0.18
0.16
0.14
p(x)
0.12
0.1
0.08
0.06
0.04
0.02
0
0
10
15
Fig. 3.18. La DF p(x) di una variabile aleatoria di Poisson ( = 5).
X il numero di prove che intercorrono tra due successi consecutivi, tale variabile aleatoria assumerà valori in 1, 2, . . . . Evidentemente, ci saranno k prove tra due successi
consecutivi se e solo se si presenterà una sequenza di k 1 insuccessi seguiti da un successo, il che avviene con probabilità q k1 p, data lindipendenza tra i successi in prove
distinte. Pertanto, X e` proprio una variabile aleatoria geometrica X Geom(p).
Variabile aleatoria di Poisson

La variabile aleatoria X si dice di Poisson6 o poissoniana di parametro > 0, e si denota
X Poiss(), se la sua DF (Fig. 3.18) e` la seguente:
p(k) =
k
e ,
k!
k X = {0, 1, . . . } .
Sfruttando lo sviluppo in serie di Mc-Laurin della funzione esponenziale, si dimostra

facilmente che i valori della DF hanno somma unitaria:

k=0
p(k) = e

k
k=0
k!
= e e = 1 .
E` possibile mostrare che anche la variabile aleatoria di Poisson e` legata al problema delle
prova ripetute; in particolare, essa rappresenta unapprossimazione della distribuzione
binomiale per p piccolo al divergere di n, con il prodotto = n p costante (vedi [1, pagg.
153154]).
6
Dallo studioso Simeon D. Poisson (17811840).
75
1.5
1.2
0.8
f(x)
F(x)
0.5
0.6
0.4
0.2
0
1
0.5
0.5
x
1.5
Fig. 3.19. La pdf f (x) di una variabile

aleatoria uniforme (a = 0, b = 1).
0
1
0.5
0.5
x
1.5
Fig. 3.20. La CDF F (x) di una variabile

aleatoria uniforme (a = 0, b = 1).
3.5.2 Variabili aleatorie continue

A differenza di quelle discrete, le variabili aleatorie continue sono descritte tipicamente
attraverso la pdf e la CDF (risultando la DF identicamente nulla).
Variabile aleatoria uniforme
La variabile aleatoria X si dice uniforme nellintervallo (a, b), con a b, e si denota
X U(a, b), se la sua pdf e` (Fig. 3.19):
1 , x [a, b] ;
f (x) = b a
0,
altrove.
La CDF (Fig. 3.20) si calcola facilmente per integrazione, e vale:
0,
x ] , a[ ;
x a
, x [a, b] ;
F (x) =
ba
1,
x ]b, [ .
Variabile aleatoria gaussiana

La variabile aleatoria X si dice gaussiana o normale, e si denota X N(, ), se la sua
pdf (Fig. 3.21) e` :
(x)2
1
f (x) = e 22 ,
2
76
Variabili aleatorie
0.5
1.2
0.45
0.4
0.35
0.8
F(x)
f(x)
0.3
0.25
0.6
0.2
0.4
0.15
0.1
0.2
0.05
0
4
0
x
0
4

aleatoria gaussiana ( = 0, = 1).
0
x

aleatoria gaussiana ( = 0, = 1).
con , R e > 0. Osserviamo che non e` possibile calcolare la CDF in forma chiusa,
per cui scriviamo:

F (x) =
(y)2
1
e 22 dy = G
2

(3.4)
dove, dopo un banale cambio di variabile, abbiamo espresso la F (x) (Fig. 3.22) in
termini della funzione G(x), già definita nel 2.4.3,
1
G(x)
2
y2
e 2 dy .
In particolare, dalla (3.4), notiamo che G(x) rappresenta la CDF di una variabile aleatoria gaussiana standard con = 0 e = 1. Le principali proprietà della funzione G(x)
sono riportate in Appendice B, insieme con grafici, tabelle e programmi Matlab utili per
il calcolo.
Una forma alternativa per la CDF di una variabile aleatoria gaussiana si puo` ottenere
definendo la funzione Q(x) (piu` nota, con terminologia inglese, come Q-function)
1
Q(x) = 1 G(x) =
2
y2
e 2 dy
(3.5)
che rappresenta la CDF complementare di una variabile aleatoria gaussiana con = 0

e = 1, e pertanto si ha:

F (x) = G

=1Q

.
77
1.5
1.2
0.8
f(x)
F(x)
0.5
0.6
0.4
0.2
0
0
0.5
1.5
2
x
2.5
3.5

aleatoria esponenziale ( = 1).
0
0
0.5
1.5
2
x
2.5
3.5

aleatoria esponenziale ( = 1).
Per calcolare la funzione Q(x), e` possibile utilizzare grafici, tabelle e programmi per il
calcolo della G(x), tenendo conto della relazione (3.5). Inoltre, per ogni x > 0, vale la
coppia di disuguaglianze

1
1
1
2
x2 /2
e
1 2 < Q(x) < ex /2 .
x
x 2
x 2
Poichè il rapporto fra i due limiti vale 1 1/x2 , al crescere di x essi diventano sempre
piu` vicini e quindi entrambi approssimano la Q(x) con notevole accuratezza.
Variabile aleatoria esponenziale
La variabile aleatoria X si dice esponenziale (monolatera), e si denota X Exp(), se
la sua pdf (Fig. 3.23) e` :
f (x) = ex u(x)
con > 0. La CDF (Fig. 3.24) si calcola per integrazione:
FX (x) = (1 ex ) u(x) ,
dove u(x) rappresenta la funzione gradino unitario, definita come:

1, x 0 ;
u(x) =
0, x < 0 .
Osserviamo infine che si tratta di una variabile aleatoria positiva.
Variabili aleatorie
0.6
1.2
0.5
0.4
0.8
F(x)
f(x)
78
0.3
0.6
0.2
0.4
0.1
0.2
0
4
0
x

aleatoria di Laplace ( = 1).
0
4
0
x

aleatoria di Laplace ( = 1).
Variabile aleatoria di Laplace (esponenziale bilatera)

La variabile aleatoria X si dice di Laplace o esponenziale bilatera, e si denota X
Lap(), se la sua pdf (Fig. 3.25) e` :
f (x) =
|x|
,
e
2
con > 0. La CDF (Fig. 3.26) si calcola per integrazione:

F (x) =
1
2
ex ,
x<0;
1 x
1 2 e , x0.
Variabile aleatoria di Rayleigh

La variabile aleatoria X si dice di Rayleigh, e si denota X Rayleigh(b), se la sua pdf
(Fig. 3.27) e` :
f (x) =
2 x x2
e b u(x) ,
b
con b > 0. La CDF (Fig. 3.27) si calcola per integrazione:

x2
F (x) = (1 e b ) u(x) .
Osserviamo che si tratta di una variabile aleatoria positiva.
79
1.2
0.9
1
0.8
0.7
0.8
F(x)
f(x)
0.6
0.5
0.6
0.4
0.4
0.3
0.2
0.2
0.1
0
0
0.5
1.5
x
2.5
0
0

aleatoria di Rayleigh (b = 1).
0.5
1.5
x
2.5

aleatoria di Rayleigh (b = 1).
Variabile aleatoria di tipo mixture

Consideriamo un esempio di variabile aleatoria non elementare, ottenuta cioè a partire
da altre variabili aleatorie. Siano X1 ed X2 due variabili aleatorie aventi pdf f1 (x) ed
f2 (x). Definiamo una nuova pdf f (x) come combinazione lineare delle due:
f (x) = f1 (x) + (1 ) f2 (x)
(3.6)
con [0, 1]. Osserviamo che effettivamente la (3.6) definisce una valida pdf, in quanto:
f (x) 0;

f (x)dx = 1 .
La variabile aleatoria X avente tale pdf viene chiamata mixture (mistura) delle variabili
aleatorie X1 ed X2 . Ovviamente, la CDF F (x) sarà la combinazione lineare delle CDF
F1 (X) ed F2 (x), con gli stessi coefficienti 1 e 2 . In Figg. 3.29 e 3.30 sono riportate le pdf
e CDF della variabile aleatoria ottenuta come mixture di due pdf (o CDF) gaussiane. Si
noti in particolare dalla Fig. 3.29 la natura multimodale (in particolare, bimodale) della
pdf risultante.
La definizione precedente puo` essere facilmente estesa al caso piu` generale di una
pdf f (x) ottenuta come mixture di n > 2 pdf:
f (x) =
n
i fi (x) ,
i=1
dove i > 0 e
n
i=1
i = 1.
Variabili aleatorie
1.2
1.2
0.8
0.8
F(x)
f(x)
80
0.6
0.6
0.4
0.4
0.2
0.2
0
4
0
x
Fig. 3.29. La pdf f (x) di una variabile aleatoria mixture di due pdf gaussiane, con
1 = 0 2 = 2, 1 = 0.5, 2 = 0.2,
1 = 2 = 0.5.
0
4
0
x

aleatoria mixture di due CDF gaussiane,
con 1 = 0 2 = 2, 1 = 0.5, 2 = 0.2,
1 = 2 = 0.5.
Esempio 3.17. Una variabile aleatoria X Lap() di tipo Laplace si puo` vedere come
mixture delle seguenti pdf (per = 0.5):
f1 (x) = ex u(x)
(esponenziale);
f2 (x) = ex u(x)
(esponenziale negativa).
Infatti, si ha:
f (x) = 0.5 ex u(x) + 0.5 ex u(x) =
|x|
,
e
2
poichè per x > 0 risulta u(x) = 1 e u(x) = 0, e viceversa per x < 0.
Capitolo 4
Trasformazioni di una variabile
aleatoria
4.1
Introduzione
Nella pratica, si presentano spesso casi in cui, a partire da una variabile aleatoria X,
si ottiene una nuova variabile aleatoria Y mediante una opportuna trasformazione Y =
g(X). I seguenti esempi chiariranno meglio questo concetto.
Esempio 4.1. La variabile aleatoria X rappresenta lintensità di corrente che passa attraverso una resistenza (ideale) di 1 ohm. La potenza dissipata dalla resistenza si puo`
scrivere come Y = X 2 ; poichè X e` una variabile aleatoria, anche Y sarà una variabile
aleatoria.

Esempio 4.2. La variabile aleatoria X rappresenta un angolo scelto a caso in (0, 2). Il
coseno Y = cos(X) di tale angolo e` una variabile aleatoria ottenuta a partire da X.
Formalizzando, possiamo dare la seguente definizione di trasformazione di una variabile aleatoria.
Definizione (trasformazione di una variabile aleatoria). Sia X una variabile
aleatoria definita sullo spazio di probabilità (, B, P ), e g(x) una funzione definita in R e a valori in R, tale che linsieme di definizione di g(x) contenga il codominio X della funzione X(). La trasformazione Y = g(X) definisce una nuova variabile aleatoria ottenuta associando a il valore
Y () = g[X()] R.
In sostanza la nuova variabile aleatoria Y e` definita su (, B, P ) mediante una legge
(Fig. 4.1) che e` la funzione composta di X e g. La condizione richiesta sullinsieme di definizione di g(x) ed il codominio X di X() serve a garantire che tale funzione composta
abbia un insieme di definizione non nullo.
82
Y()=g[X()]
X()
Fig. 4.1. La trasformazione Y = g(X) definisce una nuova variabile aleatoria Y sullo spazio
campione .
4.1.1 Condizioni da imporre alla funzione g(x)

Per capire se sia necessario richiedere qualche ulteriore condizione a g(x), dobbiamo
ricordare che la definizione di variabile aleatoria (vedi 3.1.1) richiede che siano soddisfatte due proprietà:
1. {Y y} deve essere un evento, y R;
2. P ({Y = +}) = P ({Y = }) = 0.
Per quanto riguarda la prima proprietà, osserviamo che, se {Y y} e` un evento, la sua
probabilità coincide proprio con la CDF di Y , e si ha:
FY (y) = P (Y y) = P (g(X) y) = P (g[X()] y) .
Per un dato y R, i valori di x tali che g(x) y formano un sottoinsieme di R, sia esso
Ry ; si ha allora:
FY (y) = P (X Ry ) .
(4.1)
Pertanto, affinchè {Y y} sia un evento, e` necessario e sufficiente che {X Ry } sia un

evento, il che accade se Ry si ottiene per complementazione, unione e/o intersezione (al
piu` numerabile) di semirette chiuse a destra. Tale proprietà coinvolge esclusivamente la
funzione g(x) e non la variabile aleatoria X. Ricordando anche la seconda proprietà, che
peraltro e` quasi sempre verificata, dobbiamo richiedere che siano soddisfatte le seguenti
condizioni:
4.2 Caratterizzazione statistica di Y = g(X)
83
1. per ogni y R, linsieme Ry = {x tali che g(x) y} delle soluzioni della disequazione g(x) y devessere la complementazione, unione e/o intersezione (al
piu` numerabile) di semirette chiuse a destra, cosicchè {Y y} sia un evento; una
funzione g(x) che possiede tale proprietà prende il nome di funzione di Baire [1];
2. gli eventi {g(X) = +} e {g(X) = } devono avere probabilità zero.
Mentre la prima proprietà coinvolge solo la funzione g(x), per la seconda entra in gioco
anche la variabile aleatoria X. Peraltro, notiamo che praticamente tutte le funzioni elementari soddisfano la prima proprietà, mentre la seconda proprietà e` quasi sempre non
entra in gioco, in quanto la funzione g(x) assume valori in R e non in R. Nel seguito,
per le trasformazioni che considereremo, riterremo sempre verificate le proprietà 1 e 2.
4.2
Caratterizzazione statistica di Y = g(X)
Data una trasformazione Y = g(X), il problema che si pone in pratica e` il seguente: nota
la CDF (o la pdf, o la DF) di X, calcolare la CDF (o la pdf, o la DF) di Y . In breve, si parla di caratterizzare statisticamente la variabile aleatoria Y , nota la caratterizzazione
statistica di X.
4.2.1 Calcolo della CDF di Y = g(X)

Consideriamo dapprima il calcolo della CDF di Y = g(X). Possiamo scrivere
FY (y) = P (Y y) = P (g(X) y) ,
per cui per ogni y R dobbiamo determinare i valori di X la cui immagine attraverso la funzione g e` minore o uguale di y, e determinare la probabilità dellevento corrispondente. Tale problema non ammette evidentemente una soluzione generale, ma
si riconduce alla risoluzione di una o piu` disequazioni numeriche. I seguenti esempi,
nei quali assumeremo che X sia una variabile aleatoria continua, chiariranno meglio la
procedura da seguire in alcuni casi tipici.
Esempio 4.3. Consideriamo la trasformazione lineare Y = a X + b, che e` rappresentata
graficamente in Fig. 4.2 nei casi a > 0 (a sinistra) e a < 0 (a destra). Nel caso a > 0, si ha:

FY (y) = P (Y y) = P (a X + b y) = P
yb
X
a

= FX
yb
a

.
84

Y=g(X)
Y=g(X)
a<0
x = ( y-b)/a
x = ( y-b)/a
b
a>0
Fig. 4.2. La trasformazione Y = a X + b, nei casi a > 0 (a sinistra) e a < 0 (a destra).
Per a < 0, il verso della disuguaglianza si inverte, e si ha:1

yb
FY (y) = P (Y y) = P (a X + b y) = P X

a

yb
yb
= 1 FX
.
=1P X <
a
a
La pdf fX (x) si ottiene derivando la CDF, e per a > 0 si ha:

1
fX (x) = fX
a
yb
a

,
mentre per a < 0 si ha:

1
fX (x) = fX
a
yb
a

.
Le due precedenti espressioni possono essere ottenute a partire dallunica espressione,

valida per a = 0:
1
fX (x) =
fX
|a|
yb
a

.
Si ricordi che, nellipotesi che X sia continua, si ha P (X < x) = P (X x).
85
Y=g(X)
1
Y=g(X)
y
0
-y 1/2
y 1/2
Fig. 4.3. La trasformazione Y = X 2 .
x1
x2
-1
Fig. 4.4. La trasformazione Y = cos(X).
Esempio 4.4. Consideriamo la trasformazione Y = X 2 , che e` rappresentata graficamente da una parabola (Fig. 4.3). Se y < 0, evidentemente P (Y y) = P (X 2 y <
0) = P () = 0. Viceversa, se y 0, si ha che P (Y y) = P (X 2 y) = P (X

[ y, y]) = FX ( y) FX ( y). In definitiva, si ha:
FY (y) = [FX ( y) FX ( y)] u(y)

e derivando si ottiene la pdf
1
fY (y) = [fX ( y) + fX ( y)] u(y) .

2 y
Esempio 4.5. Consideriamo la trasformazione Y = cos(X), che e` rappresentata graficamente in Fig. 4.4, e supponiamo in particolare che sia X U(0, 2). Se y < 1, si ha
evidentemente FY (y) = P (Y y) = P (cos(X) y < 1) = P () = 0. Viceversa, se
y 1, risulta FY (y) = P (cos(X) y) = P () = 1. Infine, per 1 y < 1, si ha (vedi
Fig. 4.4) che la disequazione cos(X) y e` soddisfatta, allinterno dellintervallo (0, 2),
dai valori di X [x1 , x2 ], con x1 = arccos(y) e x2 = 2 arccos(y).2 Pertanto, per tali
valori di y si ha, poiche X e` uniforme in (0, 2),
FY (y) = P (X [x1 , x2 ]) =
x2 x1
1
= 1 arccos(y) .
2
In definitiva, allora, la CDF FY (y) si puo` esprimere come:

2
Evidentemente la disuguaglianza e` soddisfatta, per la periodicità della funzione coseno, anche in

qualunque intervallo del tipo [x1 + 2 k , x2 + 2 k]; tuttavia, poiche per ipotesi X assume valori in (0, 2),
non e` necessario considerare tali ulteriori intervalli, ma e` sufficiente limitarsi allintervallo (0, 2).
86

1.5
5
4.5
4
3.5
2.5
f (y)
FY(y)
2
0.5
1.5
1
0.5
0
2
1.5
0.5
0
y
0.5
1.5

aleatoria Y = cos(X), con X U(0, 2).
0
2
1/
1.5
0.5
0
y
0.5
1.5
Fig. 4.6. La pdf f (x) della variabile aleatoria Y = cos(X), con X U(0, 2).
0,
1
FY (y) = 1 arccos(y),
1,
y < 1 ;
1 y < 1 ;
y 1;
ed e` raffigurata in Fig. 4.5 (si noti che e` una funzione continua). La pdf si ottiene
derivando la FY (y):
0,
y < 1 ;
1
1

, 1 < y < 1 ;
fY (y) =
1 y2
0,
y >1;
ed e` raffigurata in Fig. 4.6. Si noti che tale pdf non contiene impulsi, perche la CDF e`
continua; inoltre, essa non e` definita (diverge) nei punti 1, tuttavia ha comunque area
unitaria.

Esempio 4.6 (amplificatore con saturazione). Consideriamo la trasformazione in Fig. 4.7,
che puo` essere espressa matematicamente come segue:
dy , x < dx ;
g(x) = a x, dx x < dx ;
dy ,
x dx .
con a ddxy > 0. Tale legge e` quella caratteristica di un dispositivo che amplifica (se
a > 1) a patto che X [dx , dx ], altrimenti luscita e` limitata (satura) al valore dy
oppure dy .
87
Y=g(X)
dy
tg() = d y /d x = a
-d x
dx
-d y
Fig. 4.7. La trasformazione Y = g(X) caratteristica di un amplificatore con saturazione.

area = F X (-d x )
F Y(y)
fY(y)
area = 1- F X (d x )
h(y)
1
salto = F X (-d x )
salto = 1- F X (d x )
-d y
dy
Fig. 4.8. La CDF FY (y) della variabile aleatoria Y alluscita di un amplificatore con
saturazione.
-d y
dy
Fig. 4.9. La pdf fY (y) della variabile aleatoria Y alluscita di un amplificatore con
saturazione.
Veniamo ora al calcolo della CDF di Y . Se y < dy , si ha evidentemente FY (y) =

P (Y y) = P (g(X) y < dy ) = P () = 0. Viceversa, se y dy , risulta FY (y) =
P (g(X) y) = P () = 1. Per dy y < dy , infine, si ha:
FY (y) = P (Y y) = P (a X y) = P (X y/a) = FX (y/a)
In definitiva, la CDF e` data da:
y < dy ;
0,
FY (y) = FX (y/a), dy y < dy ;
1,
y dy ;
ed e` riportata in Fig. 4.8. Notiamo che per y = dy tale CDF e` discontinua, perche il suo
limite da sinistra vale 0, mentre il limite da destra vale FX (dx ). Allo stesso modo, la
CDF e` discontinua nel punto y = dy , in quanto il limite da destra vale 1, mentre il limite da destra vale FX (dx ). Pertanto, quando calcoliamo la pdf, compariranno, oltre alla
88

Y=g(X)
dy
-d y
Fig. 4.10. La trasformazione Y

caratteristica di un hard limiter.
= g(X)
derivata convenzionale, due impulsi di Dirac, centrati in y = dy e y = dy , e di area rispettivamente pari a FX (dx ) ed 1 FX (dx ). Pertanto, poiche la derivata convenzionale
vale (notiamo che la funzione non e` derivabile nei punti y = dy ):
0,
y < dy ;

1
y
h(y) =
fX
, dy < y < dy ;
a
0,
y > dy ;
la pdf si ottiene come:
fY (y) = h(y) + FX (dx ) (y + dy ) + [1 FX (dx )] (y dy )
ed e` raffigurata in Fig. 4.9. Notiamo in conclusione che la variabile aleatoria Y ha una
CDF discontinua ma non costante a tratti, per cui costituisce un primo esempio di una
variabile aleatoria mista.

Esempio 4.7 (hard limiter). Consideriamo la trasformazione in Fig. 4.10, che puo` essere
espressa matematicamente come
g(x) = dy sgn(x) ,
dove dy > 0, e sgn(x) e` la funzione signum:

1,
sgn(x)
1,
x0;
x<0.
Tale legge e` quella caratteristica di un dispositivo limitatore ideale o hard limiter, e si

puo` vedere come caso limite di un amplificatore con saturazione per dx 0.
89
F Y(y)
fY(y)
area = 1- F X (0)
1
salto = F X (0)
area = F X (0)
F X (0)
-d y
salto = 1- F X (0)
dy
Fig. 4.11. La CDF FY (y) della variabile

aleatoria Y alluscita di un hard limiter.
-d y
dy
Fig. 4.12. La pdf fY (y) della variabile

aleatoria Y alluscita di un hard limiter.
Passiamo al calcolo della CDF. Se y < dy , si ha FY (y) = P (Y y) = P (g(X) y <

dy ) = P () = 0. Viceversa, se y dy , FY (y) = P () = 1. Per dy y < dy , si ha
FY (y) = P (g(X) y) = P (X 0) = FX (0). In definitiva, allora, la CDF FY (y) si puo`
esprimere come:
y < dy ;
0,
FY (y) = FX (0), dy y < dy ;
1,
y dy .
ed e` raffigurata in Fig. 4.11; si noti che e` una funzione costante a tratti, per cui Y e` una
variabile aleatoria discreta, e la sua pdf, puramente impulsiva,
fY (y) = FX (0) (y + 1) + [1 FX (0)] (y 1)
e` raffigurata in Fig. 4.12.
4.2.2 Calcolo della DF di Y = g(X)

Il calcolo della DF e` indicato quando X e` una variabile aleatoria discreta. In tal caso, e`
immediato osservare che, quale che sia la trasformazione g(x), anche Y = g(X) e` una
variabile aleatoria discreta, che assume i valori y = g(x) Y, dove x X sono i valori
assunti da X. Il calcolo della DF e` immediato: basta osservare che la probabilità che la
variabile aleatoria Y assuma un valore y Y si ottiene come somma delle probabilità
che la variabile aleatoria X assuma i valori x, con y = g(x). Pertanto, possiamo scrivere:

pX (x) .
(4.2)
pY (y) =
xX,g(x)=y
90

p X (x)
p Y(y)
4/9
1/3
2/9
1/3
2/9
1/9
-2
2/9
1/9
-1
Fig. 4.13. La DF di X (a sinistra) e di Y = X 2 (a destra).
Esempio 4.8. Si consideri la seguente variabile aleatoria discreta X, che assume i valori
X = {2, 1, 0, 1, 2} con la seguente DF (Fig. 4.13):
1/3, x = 0 ;
pX (x) = 2/9, x = 1 ;
1/9, x = 2 .
Calcoliamo la DF della variabile aleatoria Y = X 2 . La variabile aleatoria Y e` ancora
discreta, e assume i valori y Y = {0, 1, 4}. Applicando la (4.2), si ha:
pY (0) = P (Y = 0) = P (X = 0) = 1/3 ;
pY (1) = P (Y = 1) = P (X = 1) + P (X = 1) = 2/9 + 2/9 = 4/9 ;
pY (4) = P (Y = 4) = P (X = 2) + P (X = 2) = 1/9 + 1/9 = 2/9 ;
per cui la DF si scrive in forma compatta (Fig. 4.13) come:
1/3, y = 0 ;
pY (y) = 4/9, y = 1 ;
2/9, y = 4 .
Si noti che Y e` una variabile aleatoria positiva.
4.2.3 Calcolo della pdf di Y = g(X)

Affrontiamo adesso il problema di determinare la pdf di Y = g(X) in funzione della
pdf di X. Di importanza fondamentale e` il seguente teorema, nel quale g (x) indica la
derivata prima di g(x).
91
Teorema 4.1 (teorema fondamentale sulle trasformazioni di variabili aleatorie). Sia X

una variabile aleatoria avente pdf fX (x), e si consideri la trasformazione Y = g(X); la
pdf di Y e` data da:
se lequazione y = g(x) non ammette soluzioni;

0,

fX (xi )
fY (y) =
, dove xi e` una soluzione dellequazione y = g(x).
|g (xi )|
i
Prova. La pdf fY (y) si puo` ottenere sulla base della seguente relazione (per dy > 0):
fY (y) dy = P (y < Y y + dy) = P (y < g(X) y + dy) .
Se y e` un valore tale che lequazione g(x) = y non ammette soluzioni, allora fY (y) = 0. Infatti, se y non
appartiene alla frontiera del codominio di g(x), e` possibile scegliere dy sufficientemente piccolo tale che
{y < g(X) y + dy} = fY (y) = 0 .
Viceversa, se y appartiene alla frontiera del codominio, posso comunque porre fY (y) = 0, perchè la
frontiera e` un insieme di misura nulla, e quindi il valore della pdf su un insieme di misura nulla e`
inessenziale.
Y=g(X)
derivata = g'(x 1 ) > 0
derivata = g'(x 3 ) > 0
derivata = g'(x 2 ) < 0

y + dy
y
x1
x2
x 1 + dx 1
x 2 + dx 2
x3
x 3 + dx 3
Fig. 4.14. Dimostrazione del teorema fondamentale sulle trasformazioni di variabili aleatorie.
Le soluzioni dellequazione y = g(x) sono x1 , x2 , ed x3 .
Viceversa, si consideri il caso in cui y appartenga al codominio di g(x), cioè sia un valore tale che
lequazione g(x) = y ammette una o piu` soluzioni. Per semplicità, supponiamo che le soluzioni siano tre,
x1 , x2 , x3 , come in Fig. 4.14. Allora:
fY (y) dy = P (y < Y y + dy) =
= P (x1 < X x1 + dx1 ) + P (x2 + dx2 < X x2 ) + P (x3 < X x3 + dx3 ) ,
dove dx1 > 0, dx2 < 0, dx3 > 0. (Fig. 4.14) e, per dy sufficientemente piccolo, i tre insiemi cui appartiene
X sono mutuamente esclusivi. Poichè:
P {x1 < X x1 + dx1 } = fX (x1 ) dx1 ;
P {x2 + dx2 < X x2 } = fX (x2 ) |dx2 | ;
P {x3 < X x3 + dx3 } = fX (x3 ) dx3 ;
92

ed inoltre
dx1
= dy/g (x1 ) ;
dx2
dx3
= dy/g (x2 ) ;
= dy/g (x3 ) ;
dove (Fig. 4.14) g (x1 ) > 0, g (x2 ) < 0, e g (x3 ) > 0, risulta
fY (y) dy =
fX (x2 )
fX (x3 )
fX (x1 )
dy +
dy +
dy ,
g (x1 )
|g (x2 )|
g (x3 )
ed eliminando dy, si ha lasserto.
Esempio 4.9. Consideriamo nuovamente la trasformazione lineare dellesempio 4.3:

Y = aX + b ,
raffigurata in Fig. 4.2. Qualunque sia y R, e per ogni a = 0, lequazione y = g(x) =
ax + b ammette lunica soluzione
x=
yb
,
a
ed inoltre risulta
|g (x)| = |a| ,
per cui:
1
fX
fY (y) =
|a|
yb
a
che coincide con il risultato ottenuto, derivando la CDF, nellesempio 4.3.
Esempio 4.10. Consideriamo nuovamente la trasformazione quadratica dellesempio

4.4:
Y = X2
raffigurata in Fig. 4.3. Se y < 0, lequazione y = g(x) = x2 non ha soluzioni, e quindi
fY (y) = 0. Se y > 0, si hanno due soluzioni:
x1 =
y,
x2 = y
ed inoltre
|g (x)| = 2|x| ,
93
per cui:
1
fY (y) = [fX ( y) + fX ( y)] u(y) ,

2 y
che e` lo stesso risultato ottenuto nellesempio 4.4.3 Come applicazione del precedente
risultato, si consideri il caso in cui X N(0, 1):
1
2
fX (x) = ex /2
2
e sia Y = X 2 . Dalla relazione precedente, tenendo conto che X ha una pdf pari, si ha:
1
1
fY (y) = fX ( y) u(y) =
ey/2 u(y)
y
2y
che e` la pdf di una variabile aleatoria di tipo chi-square con un grado di libertà, che si
denota Y 2 (1).

Esempio 4.11. Consideriamo la trasformazione iperbolica:
Y = 1/X .
Per y = 0, lequazione y = g(x) = 1/x ha lunica soluzione
x=
1
,
y
ed inoltre si ha
|g (x)| =
1
,
x2
per cui:4
1
fY (y) = 2 fX
y

1
y
(4.3)
Come applicazione del precedente risultato, si consideri il caso in cui X Cauchy(),

ovvero X ha una pdf di tipo Cauchy di parametro :
fX (x) =
/
.
+ 2
x2
Se y = 0 il teorema non e` applicabile, poichè lequazione y = g(x) ha una sola soluzione x = 0, in

corrispondenza della quale la derivata g (x) e` nulla. Tuttavia, essendo y = 0 un punto isolato, il valore
della pdf nel punto y = 0 e` inessenziale.
4
Per quanto riguarda il caso y = 0, si veda la nota 3.
94

Si verifica facilmente, applicando la (4.3), che la variabile aleatoria Y = 1/X risulta
anchessa Cauchy, e precisamente Y Cauchy(1/):
fY (y) =
1/()
.
+ 1/2
y2
Notiamo che sebbene la (4.3) sia stata ricavata per y = 0, la fY (y) puo` essere prolungata
per continuità in y = 0.

Negli esempi precedenti, abbiamo incontrato casi in cui il teorema non e` applicabile, e
precisamente per quei valori di y = g(x) in corrispondenza dei quali la derivata g (x)
si annulla. Se tali punti y sono isolati, il valore di fY (y) e` inessenziale, in quanto la
pdf compare solo in relazioni integrali, e quindi il suo valore in un punto isolato non
e` rilevante (lintegrale della pdf non cambia). Puo` accadere che, nei punti y in cui il
teorema non e` applicabile, la pdf sia divergente (cfr. la variabile aleatoria chi-square
dellesempio 4.10 per y = 0), oppure che essa si possa prolungare per continuità (cfr. la
variabile aleatoria Cauchy dellesempio 4.11 per y = 0).
Diversa e` la situazione se, per un determinato y, lequazione y = g(x) ammette una
infinità continua di soluzioni, come accade ad esempio se g(x) presenta uno o piu` tratti
costanti con ordinata pari ad y (si noti che in tal caso si ha anche g (x) = 0 per tutti i
valori x corrispondenti al tratto costante). In tal caso, generalmente la pdf di Y presenta nel punto y un impulso di Dirac, la cui area va determinata direttamente calcolando
P (Y = y). Lesempio che segue chiarirà meglio questo concetto.
Esempio 4.12. Consideriamo nuovamente la trasformazione (amplificatore con saturazione) dellesempio 4.6, raffigurata in Fig. 4.7. Tale trasformazione ha due tratti costanti, di ordinata y = dy e y = dy ; anticipiamo pertanto la presenza di due impulsi di
Dirac, centrati in y = dy , le cui aree dobbiamo determinare. Applichiamo comunque il
teorema nei punti dove e` consentito. Per |y| > dy , lequazione y = g(x) non ha soluzioni,
per cui fY (y) = 0. Per |y| < dy , lequazione y = g(x) ha una sola soluzione x = y/a. Il
calcolo della derivata prima per |y| < a fornisce
|g (x)| = a ;
pertanto per tutti i valori y = dy lapplicazione del teorema fondamentale fornisce la
parte convenzionale h(y) della pdf (corrispondente alla derivata convenzionale della
CDF):
0,
y < dy ;
y
1
h(y) =
fX
, dy < y < dy ;
a
a
0,
y > dy ;
4.3 Problema inverso: determinazione di g(x)
95
Passiamo ora a determinare le aree degli impulsi. Si ha:

P (Y = dy ) = P (X dx ) = FX (dx ) ,
P (Y = dy ) = P (X dx ) = 1 FX (dx ) ,
e quindi la pdf si scrive come:
fY (y) = h(y) + FX (dx ) (y + dy ) + [1 FX (dx )] (y dy ) ,
che coincide con il risultato ottenuto nellesempio 4.6 derivando la CDF.
4.3
Problema inverso: determinazione di g(x)
Finora ci siamo occupati del problema di caratterizzare la variabile aleatoria Y ottenuta

dalla variabile aleatoria X mediante una nota trasformazione g(x). Questo problema e`
denominato problema diretto, per contrasto con il seguente, che denomineremo problema
inverso: date due variabili aleatorie X ed Y , con CDF (o pdf, o DF) assegnate, trovare
la particolare trasformazione Y = g(X) che consente di ottenere Y da X. Nel seguito,
supporremo che le due variabili aleatorie X ed Y siano caratterizzate per mezzo delle
loro CDF FX (x) e FY (y), e supporremo inoltre che X ed Y siano due variabili aleatorie
continue con CDF strettamente monotone, e quindi invertibili.5
Per semplificare lo studio del problema, converrà riguardare la trasformazione da X
ad Y come realizzata in due passi (Fig. 4.15), ovvero come composta da due successive
trasformazioni g1 e g2 : (i) mediante g1 , si passa da X ad una variabile aleatoria uniforme
U U(0, 1); (ii) mediante g2 , si passa da una variabile aleatoria uniforme U U(0, 1)
ad Y .
(i) Da X ad una variabile aleatoria uniforme: vogliamo passare dalla variabile aleatoria X ad una variabile aleatoria U U(0, 1). E` immediato verificare che la
trasformazione appropriata e` g1 (x) = FX (x).
Prova. Infatti, consideriamo la trasformazione U = g1 (X) = FX (X) e calcoliamo la CDF di U . Se
u < 0 si ha:
FU (u) = P (U u) = P [FX (X) u] = 0 ,
in quanto i valori assunti da una CDF sono sempre non negativi, mentre se u 1 si ha:
FU (u) = P (U u) = P [FX (X) u] = 1 ,
5
Lipotesi di invertibilità delle CDF non e` strettamente necessaria, nel paragrafo 4.3.1 vedremo una
importante generalizzazione.
96

X
U uniforme
g 1 (x)= F X (x)
g 2 (x)= F Y(x)
passo 1
passo 2
-1
Fig. 4.15. La trasformazione di una variabile aleatoria X in una variabile aleatoria Y si articola
in due passi: a partire da X, si genera una variabile aleatoria U U(0, 1); successivamente, da
U si genera la variabile aleatoria Y .
in quanto i valori assunti da una CDF sono sempre non superiori ad 1. Infine, se u [0, 1[, si ha:
1
1
FU (u) = P (U u) = P [FX (X) u] = P [X FX
(u)] = FX [FX
(u)] = u
1
Si noti che abbiamo applicato la FX
() ad entrambi i membri della disuguaglianza perchè abbiamo
supposto che la CDF di X sia strettamente monotona (crescente) e quindi invertibile. In definitiva,
mettendo insieme i tre casi, la CDF di U e` data da:
0, u < 0 ;
FU (u) = u, u [0, 1[ ;
1, u 0 ;
ed e` proprio la CDF di una variabile aleatoria U U(0, 1), per cui resta dimostrato lasserto.
(ii) Da una variabile aleatoria uniforme a Y : abbiamo a disposizione una variabile aleatoria U U(0, 1) e vogliamo trasformarla in una variabile aleatoria Y = g2 (U ) con
preassegnata CDF FY (y). Si puo` verificare in tal caso che la trasformazione cercata
e` g2 (x) = FY1 (x), coincide cioè con linversa (che abbiamo supposto esistente) della
CDF desiderata.
Prova. Per verificarlo, denotiamo con FY (y) la CDF di Y = FY1 (U ) e dimostriamo che essa
coincide con FY (y). Si ha:
FY (y) = P (Y y) = P [FY1 (U ) y] = P [U FY (y)] = FU [FY (y)] = FY (y)
perchè FY (y) [0, 1] ed U e` una variabile aleatoria uniforme in (0, 1), quindi con CDF FU (u) = u
per u [0, 1]. Resta pertanto dimostrato che FY (y) = FY (y), e quindi la trasformazione g2 (x)
coincide proprio con linversa della CDF di Y .
A questo punto, come precedentemente osservato, il caso della trasformazione di una

variabile aleatoria X con CDF arbitraria in una variabile aleatoria Y con CDF arbitraria
puo` essere affrontato sfruttando i risultati dei due casi precedenti, e cioè articolando la
trasformazione in due passi (Fig. 4.15):
(i) nel primo passo, si trasforma X in una variabile aleatoria uniforme U U(0, 1),
mediante la trasformazione g1 (x) = FX (x);
97
(ii) nel secondo passo, dalla variabile aleatoria uniforme U U(0, 1), si ottiene Y
mediante la trasformazione g2 (x) = FY1 (x).
La trasformazione g complessiva e` chiaramente la funzione composta di g1 (funzione
interna) e g2 (funzione esterna), e cioè:
g(x) = g2 [g1 (x)] = FY1 [FX (x)]
(4.4)
per cui la variabile Y si ottiene da X con la trasformazione

Y = FY1 [FX (X)] .
Esercizio 4.1. Determinare la trasformazione g(x) che consente di passare da una variabile aleatoria esponenziale X Exp() ad una variabile aleatoria Rayleigh Y
Rayleigh(b).
Svolgimento. La CDF di X e` :
FX (x) = (1 ex ) u(x)
mentre quella di Y e` :
y2
FY (y) = (1 e b ) u(y) .
Per individuare la g(x), conviene riscrivere la (4.4) nella forma:
FY [g(x)] = FX (x) ,
che va riguardata come unequazione nellincognita g(x) e risolta rispetto allincognita.
Sostituendo le espressioni delle CDF, e tralasciando le funzioni gradino, si ha:
1 e
g 2 (x)
b
= 1 ex ,
da cui con semplici passaggi algebrici si ricava:

g 2 (x) = x b g(x) =
xb .
Si noti che nella risoluzione abbiamo scelto la soluzione positiva per g(x) perchè la variabile aleatoria Y = g(X) e` positiva.
98
Generatore
variabili aleatorie
uniformi in (0,1)
U uniforme
X
g(x)= F X (x)-1
Fig. 4.16. La generazione di una variabile aleatoria X con CDF FX (x) invertibile si puo` effettuare
a partire da un generatore di variabili aleatorie uniformi U U(0, 1), applicando alluscita di
questultimo la trasformazione g(x) = FX1 (x).
4.3.1 Generazione di una variabile aleatoria con CDF assegnata

Unimportantissima applicazione dei risultati del precedente paragrafo e` quella della
generazione di una variabile aleatoria con CDF assegnata. Infatti, se vogliamo generare una variabile aleatoria X con CDF FX (x) (supposta invertibile), basta generare (Fig.
4.16) una variabile aleatoria U U(0, 1) e trasformarla secondo la legge g(x) = FX1 (x).
E` sufficiente allora disporre di un generatore di variabili aleatorie uniformi in (0, 1)
che, come vedremo nel successivo 4.3.2, puo` essere facilmente realizzato mediante
un calcolatore.
Notiamo che, poichè linversa della CDF e` la legge (cfr. 3.2.3) che definisce il
percentile, tale tecnica di generazione e` anche denominata metodo della trasformazione
percentile.
Esercizio 4.2. Determinare la trasformazione che consente di generare una variabile
aleatoria esponenziale X Exp() a partire da una variabile aleatoria uniforme U
U(0, 1).
Svolgimento. Poichè:
FX (x) = (1 ex ) u(x) ,
allora si ha:
1
g(x) = FX1 (x) = ln(1 x) .
Osserviamo pero` che, se U U(0, 1), allora anche 1 U U(0, 1). Allora, piu` semplicemente, possiamo scrivere:
1
g(x) = ln(x) .

Esercizio 4.3. Determinare la trasformazione che consente di generare una variabile
aleatoria Rayleigh X Rayleigh(b) a partire da una v.a. uniforme U U(0, 1).
99
Svolgimento. Poichè:
x2
FX (x) = (1 e b ) u(x) ,
allora si ha:
g(x) = FX1 (x) =
b ln(1 x) ,
dove nella determinazione dellinversa abbiamo scelto la soluzione positiva perchè la

variabile aleatoria di Rayleigh e` positiva. Anche qui possiamo osservare che, se U
U(0, 1), anche 1 U U(0, 1), per cui possiamo scrivere piu` semplicemente:

g(x) = b ln(x) .

In molti casi, la FX (x) non ha una espressione analitica semplice e pertanto, sebbene sia
strettamente monotona, non e` semplice calcolarne linversa FX1 (x); cio` accade, ad esempio, se X N(, ), e quindi la CDF e` espressa in termini della funzione non elementare
G(x). Se allora si e` capaci di mettere in relazione la variabile aleatoria X con altre variabili aleatorie Z1 , Z2 , . . . , Zn di piu` semplice generazione, mediante una legge del tipo
X = f (Z1 , Z2 , . . . , Zn ), allora e` possibile risolvere il problema della generazione di X in
due passi: (i) nel primo passo, si generano le variabili aleatorie Z1 , Z2 , . . . , Zn con il metodo della trasformazione percentile; (ii) nel secondo passo, si applica alle Z1 , Z2 , . . . , Zn
la trasformazione f per ottenere X. Vedremo nei successivi capitoli esempi significativi
di tale tecnica.
Un altro caso in cui il metodo della trasformazione percentile non sembra applicabile e` quello in cui la FX (x) non e` strettamente monotona e, quindi, non e` invertibile. Tale
limitazione escluderebbe limpiego della tecnica di generazione nei casi in cui la CDF
della variabile aleatoria da generare presenti uno o piu` tratti costanti; in particolare,
ne precluderebbe luso per la generazione di variabili aleatorie discrete, che hanno una
CDF costante a tratti. In realtà, per applicare il metodo della trasformazione percentile anche a questi casi, e` sufficiente generalizzare la definizione di inversa della CDF,
ponendo, per ogni y [0, 1],
FX1 (y) inf{x R tali che FX (x) y} .
(4.5)
In tal caso, se FX (x) e` strettamente monotona, la FX1 (y) definita dalla (4.5) si riduce
allinversa convenzionale; altrimenti, se ad esempio la CDF FX (x) presenta un tratto
costante nellintervallo [x1 , x2 ] di altezza pari a y, e` facile verificare che FX1 (y) = x1 .
La funzione definita dalla (4.5) viene a volte denominata inversa sinistra, in quanto si
puo` facilmente verificare che FX [FX1 (y)] = y, mentre in generale risulta FX1 [FX (x)] = x;
100
F X -1 (y)
F X (x)
1
1
q
0
1
Fig. 4.17. La CDF FX (x) della variabile

aleatoria X Bern(p).
Fig. 4.18. Linversa sinistra FX1 (y) della

CDF della variabile aleatoria X Bern(p)
raffigurata in Fig. 4.17.
inoltre poichè FX (x) e` monotona crescente, anche la funzione FX1 (y) definita dalla (4.5)
e` monotona crescente. Si puo` allora facilmente verificare che la dimostrazione sviluppata nel 4.3 al punto (ii) rimane valida, a patto di sostituire allinversa convenzionale
linversa sinistra. In particolare, il metodo della trasformazione percentile risulta ancora
applicabile, come mostrato dal seguente esempio.
Esempio 4.13. Si vuole generare una variabile aleatoria X Bern(p), la cui CDF e`
raffigurata in Fig. 4.17. Calcoliamo prima linversa sinistra FX1 (y), in accordo alla (4.5).
Si ha:
y = 0 inf{x R tali che FX (x) y} =
y ]0, q] inf{x R tali che FX (x) y} = 0
y ]q, 1] inf{x R tali che FX (x) y} = 1
per cui:
,
1
FX (y) = 0,
1,
y =0;
y ]0, q] ;
y ]q, 1] ;
raffigurata in Fig. 4.18. Si puo` osservare che linversa sinistra FX1 (x) e` continua da
sinistra (mentre la CDF e` continua da destra), e che si puo` ottenere con una procedura
grafica molto semplice: a partire dalla CDF, si scambiano gli assi x ed y.
Pertanto, a partire da U U(0, 1) e tenendo conto della forma dellinversa sinistra,
la tecnica di generazione e` molto semplice:
101
F X (x)
F X -1 (y)
x3
p 1 +p 2 +p 3
x2
p 1 +p 2
x1
p1
x1
x2
x3
Fig. 4.19. La CDF FX (x) di una variabile

aleatoria discreta X.
p1
p 1 +p 2
p 1 +p 2 +p 3
Fig. 4.20. Linversa sinistra FX1 (y) della

CDF della variabile aleatoria X discreta
raffigurata in Fig. 4.19.
si genera un valore U [0, 1];

se U [0, q], si pone X = 0;
se U ]q, 1], si pone X = 1.
Si noti che abbiamo arbitrariamente assegnato anche a U = 0 il valore X = 0, e non il
valore X = ; questo non altera la probabilità che X = 0, e quindi la distribuzione di
X, poiche, essendo U una variabile aleatoria continua, si ha P (U = 0) = 0.

Con un modesto sforzo di generalizzazione, possiamo estendere la procedura dellesempio 4.13 alla generazione di una qualunque variabile aleatoria discreta. Infatti, siano
X = {x1 , x2 , x3 , . . . } i valori assunti dalla variabile aleatoria X, che supporremo, senza ledere la generalità, ordinati in senso crescente, vale a dire x1 < x2 < x3 , e siano
p1 , p2 , p3 , . . . le rispettive probabilità, dove pi P (X = xi ). La CDF di X sarà una funzione costante a tratti, con gradini (Fig. 4.19) posti alle quote p1 , p1 + p2 , p1 + p2 + p3 , . . . e
posizionati orizzontalmente in x1 , x2 , x3 , . . . ; linversa sinistra, ottenuta scambiando gli
assi della CDF, sarà ancora una funzione costante a tratti, con gradini (Fig. 4.20) situati alle quote x1 , x2 , x3 , . . . e posizionati orizzontalmente in p1 , p1 + p2 , p1 + p2 + p3 , . . . .
Pertanto, a partire da U U(0, 1) e tenendo conto della forma dellinversa sinistra, la
generazione di X avviene nel seguente modo:
si genera un valore U [0, 1];
se U [0, p1 ], si pone X = x1 ;
altrimenti, si determina il valore di k {2, 3, . . . } per cui si ha
p1 + p2 + . . . pk1 < U p1 + p2 + . . . pk ,
102

e si pone X = xk .
In pratica, la procedura e` equivalente a suddividere lintervallo (0, 1) in tanti sottointervalli di ampiezza pari a p1 , p2 , p3 , . . . : se il valore di U cade nel k-esimo sottointervallo,
allora X = xk . La complessità dellalgoritmo di generazione coincide sostanzialmente
con quella dellalgoritmo di ricerca del sottointervallo [10].
4.3.2 Generazione automatica di numeri casuali

Nel precedente paragrafo abbiamo visto che, a partire da una variabile aleatoria U uniforme in (0, 1), e` possibile generare una variabile aleatoria X con CDF arbitraria FX (x)
mediante la trasformazione percentile X = FX1 (U ); tuttavia non abbiamo fornito una
soluzione per generare, in maniera computazionalmente efficiente, i valori di una variabile aleatoria uniforme (0, 1). Questo problema puo` essere risolto, in via approssimata,
se disponiamo di una tecnica per la generazione di numeri casuali interi.
Evidentemente, la tecnica piu` semplice e teoricamente corretta per generare un numero casuale intero e` quella di eseguire un esperimento aleatorio, ed associare ad ogni
risultato un numero intero, in accordo con la definizione stessa di variabile aleatoria.
Ad esempio, lanciando un dado potremo generare numeri casuali da 1 a 6; estraendo
una pallina da un paniere della tombola, numeri casuali da 1 a 90, e cos` via. Tali procedure, tuttavia, hanno lo svantaggio di non poter essere facilmente automatizzate, ed
essendo inoltre di tipo manuale o meccanico, risultano estremamente lente.
Con lavvento dei calcolatori elettronici, si e` pensato di ricorrere a procedure aritmetiche di tipo ricorsivo, che fossero di semplice realizzazione e consentissero quindi la
generazione rapida di sequenze x0 , x1 , . . . di numeri casuali molto lunghe (da migliaia a milioni di campioni). La maggior parte di tali procedure generano il valore xn+1
della sequenza a partire dal valore precedente xn , mediante una legge ricorsiva del tipo
xn+1 = g(xn ), dove g e` una funzione opportuna, ed il primo valore x0 della sequenza e`
denominato seme (in inglese, seed). E` chiaro che, osservato un valore della sequenza
e conoscendo la legge g, e` possibile prevedere esattamente tutti i valori successivi; per
questo motivo la sequenza non e` realmente aleatoria, ma viene detta pseudo-aleatoria.
Quello che realmente interessa, allora, e` che la sequenza pseudo-aleatoria generata non
sia distinguibile, da parte di un osservatore esterno che non conosca la legge g, da una
sequenza realmente aleatoria, generata cioè con metodi puramente casuali.
4.3.3 Algoritmo middle-square (Von Neumann)

Una delle prime procedure di tipo ricorsivo ad essere proposte fu lalgoritmo cosiddetto
middle-square, ideato da John Von Neumann nel 1946. Lalgoritmo e` il seguente: si
parte da un seme x0 di 4 cifre e lo si eleva al quadrato, ottenendo un numero del quale si
103
conservano le 4 cifre intermedie (si eliminano le ultime due cifre); tali cifre costituiscono
il numero x1 , che viene nuovamente elevato al quadrato, e cos` via. Ad esempio, la
sequenza generata a partire dal seme 5232 e` la seguente:
x0 = 5232
52322 = 27|3738|24 x1 = 3738
37382 = 13|9726|44 x2 = 9726
97262 = 94|5950|76 x3 = 5950
...
Dalla sequenza intera ottenuta e` possibile ottenere numeri interi in (0, 1) semplicemente spostando la virgola in prima posizione: ad esempio, la sequenza del precedente
esempio genera la seguente successione di valori in (0, 1):
0.5232
0.3738
0.9726
0.5950
...
E` chiaro che, essendo solo 10 000 i numeri di quattro cifre, e poichè ogni numero dipende
solo da quello precedentemente generato, la sequenza ottenuta sarà necessariamente
periodica, con periodo al piu` pari a 10 000. In realtà, il principale svantaggio di tale
procedura e` che le proprietà della sequenza generata dipendono in maniera critica dalla
scelta del seme iniziale; ad esempio, la scelta x0 = 0000 produce la sequenza banale
0000
0000
0000
...
Ma anche scelte meno banali del seme possono portare a risultati altrettanto sgradevoli:
ad esempio, scegliendo x0 = 2100, si ottiene la sequenza composta dai soli quattro valori
interi
2100
4100
8100
6100
che si ripetono indefinitamente. Proprio a causa della sensibilità rispetto alla scelta del
seme iniziale, il metodo middle-square e` stato presto abbandonato, e lattenzione degli studiosi si e` spostata verso tecniche ricorsive che fossero al tempo stesso piu` efficienti
computazionalmente (lalgoritmo middle-square ricorre ad una elevazione al quadrato, che ha una complessità non trascurabile) e tali da garantire proprietà ottimali o quasi
ottimali delle sequenze generate.
4.3.4 Algoritmo lineare congruente

Al giorno doggi, lalgoritmo piu` diffusamente utilizzato per la generazione di numeri
casuali e` quello cosiddetto lineare congruente, nel quale la ricorsione puo` essere espressa
come:
xn+1 = (a xn + c) mod m
(4.6)
104

dove il moltiplicatore a, lincremento c ed il modulo m sono tutti numeri interi non negativi. Lequazione (4.6) descrive sostanzialmente una ricorsione lineare, in cui tuttavia
il risultato e` preso in aritmetica modulo m, considerando cioè il resto della divisione
per m e ottenendo quindi sempre numeri interi compresi tra 0 ed m 1, estremi inclusi.
Ad esempio, scegliendo a = c = 7, m = 10 ed un seme x0 = 7, si ottiene la sequenza:
7
...
che risulta chiaramente periodica di periodo 4. Tale periodicità e` una proprietà generale
del generatore lineare congruente: tutte le sequenze generate in base alla (4.6) saranno
periodiche di periodo minore o uguale ad m, in quanto composte al piu` da m valori.
Per avere un buon generatore, allora, dovremo scegliere m molto grande: in pratica
converrebbe scegliere m pari al massimo numero intero rappresentabile nella parola
macchina del calcolatore, quindi m = 216 per un calcolatore a 16 bit, oppure m = 232
per un calcolatore a 32 bit. Inoltre dobbiamo assicurarci che la sequenza generata sia a
massimo periodo: affinche cio` accada, devono valere le seguenti condizioni [7]:
1. c ed a devono essere primi tra loro;
2. a 1 devessere multiplo di ogni fattore primo di m;
3. a 1 devessere multiplo di 4 se m e` multiplo di 4.
E` chiaro che, nel caso di sequenze a massimo periodo, il periodo m dovrà eccedere significativamente la lunghezza tipica delle sequenze che utilizzeremo in una singola simulazione; se cos` non fosse, la periodicità della sequenza generata sarebbe chiaramente
individuabile, e cio` ne comprometterebbe la natura pseudo-aleatoria.6
Una volta progettato un buon generatore di numeri casuali interi xn tra 0 ed m
1, possiamo ottenere un generatore di numeri casuali yn tra 0 ed 1,7 semplicemente
dividendo xn per m:
xn
yn =
.
m
I numeri yn cos` generati non riempiono tutto lintervallo (0, 1), ma si dispongono su un
reticolo monodimensionale con spaziatura 1/m; in pratica, non otterremo tutti i numeri
reali tra 0 ed 1, ma soltanto i numeri razionali del tipo p/m, con p {0, 1, . . . , m 1}. Se
pero` m e` molto grande, il reticolo e` sufficientemente fitto da potersi ritenere una buona
approssimazione dei numeri nellintervallo (0, 1).8
6
Una regola pratica [9] e` che il periodo del generatore deve eccedere il quadrato della massima
lunghezza delle sequenza generate in una simulazione.
7
Tali generatori fanno parte delle funzioni di libreria dei moderni linguaggi di programmazione, nei
quali assumono la denominazione di funzione rand, o similari.
8
Consideriamo anche che se m e` il massimo numero rappresentabile in macchina, la differenza 1/m
tra due numeri razionali consecutivi e` la minima che posso rappresentare su una macchina con registri
di dimensione finita.
105
Osserviamo inoltre che, se la sequenza e` a massimo periodo, ogni valore p tra 0 ed

m1 sarà assunto una ed una sola volta nel periodo, e quindi ogni valore razionale p/m
sarà anchesso assunto una ed una sola volta nel periodo; in altri termini, osservando
una sequenza di lunghezza pari al periodo m, otterrei una distribuzione perfettamente
uniforme (sebbene discreta) di valori in (0, 1). In pratica, se m e` sufficientemente elevato,
e` possibile osservare solo sequenze di lunghezza molto minore del periodo, per cui la
legge di distribuzione dei valori e` solo approssimativamente uniforme, se il segmento e`
sufficientemente lungo.
Una classe di generatori lineari congruenti particolarmente utilizzata e` quella dei
generatori puramente moltiplicativi, per i quali cioè c = 0. In questo caso, la condizione
c = 0 impedisce di raggiungere il massimo periodo m, perche dobbiamo escludere dai
valori ammissibili per la sequenza il valore 0, che porterebbe il generatore in un ciclo
composto da tutti 0; tuttavia esistono condizioni che garantiscono comunque la possibilità di raggiungere un periodo massimo pari ad m 1, e precisamente cio` accade
se:
1. m e` primo;
2. a e` una radice primitiva di m;9
3. il seme x0 e` diverso da zero.
Ad esempio, il generatore rand utilizzato in Matlab10 e` di tipo puramente moltiplicativo, con c = 0, m = 231 1 = 2147483647 ed a = 75 = 16807, con periodo pari a
m 1. Tale generatore e` stato proposto per la prima volta da S. K. Park e K. W. Miller
in [8] ed e` quello piu` comunemente implementato nella maggior parte dei linguaggi di
programmazione moderni.
4.3.5 Test statistici sui generatori

La condizione di massimo periodo garantisce luniformità dei numeri generati, ma da
sola evidentemente non e` sufficiente per assicurare la natura pseudo-aleatoria della
sequenza generata: si pensi ad esempio al seguente generatore lineare congruente:
xn+1 = (xn + 1)
mod m .
(4.7)
Un numero intero a si dice [3] [7] radice primitiva di m se il piu` piccolo valore di n tale che an 1 = 0
mod m e` n = m 1.
10
Fino alla versione 4: nella versione 5 e successive si utilizza un generatore basato su un algoritmo piu` sofisticato di quello lineare congruente, che assicura un periodo pari a 21492 (si veda
http://www.mathworks.com/company/newsletter/pdf/Cleve.pdf per maggiori dettagli sui generatori
impiegati in Matlab).
9
106

Tale generatore e` evidentemente a massimo periodo, in quanto inizializzato ad esempio
con x0 = 0 genererà la sequenza:
0
m1
...
...
che ha periodo m, tuttavia la sequenza generata non ha evidentemente le proprietà

pseudo-aleatorie desiderate! Esistono allora una serie di test statistici [7] che consentono
di verificare la capacità di un generatore di simulare il comportamento aleatorio.
Un test semplice per verificare la distribuzione uniforme consiste nel generare una
sequenza sufficientemente lunga e calcolarne listogramma dei valori (il numero dei valori che cadono tra 0.0 e 0.1, tra 0.1 e 0.2 e cos` via), il che corrisponde in pratica ad
effettuare una stima empirica della pdf dei valori generati. Ad esempio, consideriamo i
due seguenti generatori:
Good: generatore di Park e Miller (lineare congruente con c = 0, m = 231 1 =
2147483647 ed a = 75 = 16807);
Bad: generatore lineare congruente con c = 0, m = 217 = 131072 ed a = 1277.
In Fig. 4.21, sono riportati gli istogrammi di N = 4000 valori generati in (0, 1) da ciascuno dei due generatori: si puo` notare che per entrambi lipotesi di distribuzione uniforme
e` ben verificata.
0.1
0.1
f (x)
0.15
f (x)
0.15
0.05
0
0
0.05
0.2
0.4
0.6
x
0.8
0
0
0.2
0.4
0.6
0.8
Fig. 4.21. Istogrammi di N = 4000 valori generati dal generatore good (a sinistra) e dal
generatore bad (a destra).
Tuttavia, abbiamo osservato che non basta che la distribuzione sia uniforme, ma occorre verificare che non ci sia una regolarità facilmente identificabile nella sequenza
generata. Un test semplice per individuare tali regolarità consiste nel diagrammare su
un piano cartesiano le coppie di valori (xn , xn+1 ) generate: poichè xn+1 = f (xn ), un cattivo generatore tenderà a presentare delle configurazioni regolari abbastanza evidenti.
107
Ad esempio, il diagramma per il generatore (4.7) sarebbe composto dalle coppie

(0, 1)
(1, 2)
(2, 3)
(3, 4)
...
che si dispongono chiaramente a formare una retta.

1
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
yn+1
n+1
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0
0.2
0.4
0.6
y
0.8
0
0
0.2
0.4
0.6
0.8
yn
Fig. 4.22. Diagrammi delle coppie (yn , yn+1 ) di valori consecutivi generati in (0, 1) per il
generatore good(a sinistra) ed il generatore bad (a destra).
I corrispondenti diagrammi per i due generatori considerati sono riportati in Fig.

4.22, con riferimento ai valori yn generati nellintervallo (0, 1): mentre il generatore
good (a sinistra) non presenta schemi o regolarità facilmente individuabili, e` facile
invece notare che nel diagramma del generatore bad (a destra) i valori tendono a disporsi su rette oblique, il che induce a ritenere che bad non sia un buon generatore.
Ovviamente esistono test piu` sofisticati di questi menzionati, per i quali si rimanda a
[7] e [10]; per verificare la bontà di un generatore, e` buona norma sottoporlo a piu` di
un test. A tale proposito, gli studiosi di generatori di numeri casuali sono soliti citare
laffermazione: Un generatore puo` ingannare un test qualche volta, e qualche test tutte
le volte, ma non tutti i test tutte le volte.
108
Capitolo 5
Caratterizzazione sintetica di una
variabile aleatoria
5.1
Introduzione
Abbiamo visto che una variabile aleatoria X e` completamente caratterizzata dalla conoscenza della sua CDF, pdf, o DF. In molti casi pratici, tuttavia, si e` interessati a conoscere
solo alcuni parametri numerici della variabile aleatoria, che vanno genericamente sotto
il nome di momenti, i quali forniscono informazioni sintetiche sulla variabile aleatoria
(rispetto alla conoscenza della CDF, pdf, o DF): si parla in tal caso di caratterizzazione
sintetica della variabile aleatoria in oggetto.
5.2
Media di una variabile aleatoria
La definizione dei momenti di una variabile aleatoria discende in maniera diretta del
concetto fondamentale di media (statistica).
Definizione (media di una variabile aleatoria). La media (statistica) E(X) di
una variabile aleatoria X con pdf f (x) e` :

x f (x) dx
(5.1)
E(X)
se tale integrale esiste finito.

Nella notazione E[X], la E deriva dalla denominazione anglosassone di media come
expectation (in italiano, diremmo valore atteso). Talvolta si usa indicare la media con la lettera greca ; per specificare, poi, che si tratta della media della variabile
aleatoria X, useremo anche la notazione X .
110

Esempio 5.1 (media di una variabile aleatoria uniforme). Sia X U(a, b), allora si ha:

E(X) =
a
2 x=b
1
a+b
1
x
x
=
dx =
,
ba
b a 2 x=a
2
per cui la media di X coincide con il punto medio dellintervallo [a, b].
Esempio 5.2 (media di una variabile aleatoria esponenziale). Sia X Exp(), allora si ha:

d
x
xe
dx =
x [ex ] dx = (per parti) =
E(X) =
dx
0
0

1
x=
= xex x=0 +
ex dx = ,
0
per cui la media di X coincide con il reciproco del parametro .
Che cosa rappresenta la media, o valore atteso? Dal punto di vista matematico, lintegrale nella (5.1) effettua una media pesata dei valori x, dove la pesatura e` rappresentata dal valore f (x) della pdf nel punto x, e quindi i valori x in corrispondenza
dei quali la pdf e` piu` grande vengono pesati maggiormente. Con una similitudine tratta dalla fisica, possiamo pensare alla media E(X) come al valore baricentrico della
distribuzione (pdf) di probabilità (e difatti la definizione di media e` formalmente identica alla definizione del baricentro di una distribuzione lineare di masse). In pratica, la
media e` una grandezza deterministica che si puo` interpretare come rappresentativa
dei valori assunti dalla variabile aleatoria ed in questo senso di parla di valore atteso; e` questo luso che si fa correntemente della media quando si fanno affermazioni
del tipo i maschi italiani sono alti in media 172 cm oppure uno studente di Ingegneria impiega in media 2.3 mesi a preparare un esame. Si noti tuttavia che, a dispetto
dellinterpretazione precedente, per particolari forme della pdf la media potrebbe non
coincidere con alcuno dei valori assunti dalla variabile aleatoria (cio` accade spesso per
variabili aleatorie discrete). Altre grandezze deterministiche che possono essere assunte come rappresentative della variabile aleatoria sono la mediana (ovvero il valore che
non e` superato con probabilità pari a 0.5, vedi 3.2.3) e la moda (ovvero il valore in cui
la pdf ha un massimo locale, vedi 3.3.1).
Esempio 5.3 (media di una variabile aleatoria di Cauchy). Per particolari pdf la media potrebbe non essere definita, nel senso che la funzione integranda nella (5.1) potrebbe non
essere sommabile. E` questo il caso di una variabile aleatoria X Cauchy(), che ha pdf
, per la quale lintegrale nella (5.1) si scrive esplicitamente come:
f (x) = x2/
+2

/
x f (x) dx =
x 2
dx .
E(X)
x + 2
5.2 Media di una variabile aleatoria
111
La funzione integranda non e` sommabile, in quanto decade a zero allinfinito come 1/x.

Pertanto, la media E(X) di una variabile aleatoria di Cauchy non e` definita.1
Osserviamo che se la media E(X) esiste, e se la retta verticale di equazione x = a e` un
asse di simmetria per f (x), cioè se
f (a + x) = f (a x),
x R,
allora e` facile dimostrare che E(X) = a.2 In particolare, se f (x) e` una funzione pari,
x = 0 e` un asse di simmetria, per cui E(X) = 0 (variabile aleatoria a media nulla).
Esempio 5.4 (media di una variabile aleatoria gaussiana). Sia X N(, ), ricordiamo che
la sua pdf e` (cfr. 3.5.2)
(x)2
1
f (x) = e 22 .
2
Poichè tale funzione ha chiaramente x = come asse di simmetria, allora risulta necessariamente E(X) = . Pertanto il parametro di una variabile aleatoria gaussiana ne
rappresenta la media statistica.

Vediamo come si particolarizza la definizione di media al caso in cui X e` una variabile
aleatoria discreta. In tal caso, la pdf f (x) si riduce (cfr. 3.3) ad una somma discreta di
impulsi di Dirac, del tipo

pi (x xi ) ,
f (x) =
xi X
dove pi = P (X = xi ), per cui, sostituendo nella definizione di media, si ottiene con facili
passaggi:

E(X) =
x f (x) dx =
x
pi (x xi ) dx
x
X
i

=
pi
x (x xi ) dx =
p i xi
xi X
xi X
xi P (X = xi ) =
xi X
xi p(xi ) ,
xi X
ovvero la media si puo` esprimere, anziche attraverso un integrale, mediante una sommatoria dei valori xi X della variabile aleatoria discreta X, ciascuno pesato per la DF
p(x) calcolata nel punto xi (somma pesata). Se i valori xi sono in numero finito ed
equiprobabili, la media statistica si riduce alla semplice media aritmetica dei valori xi .
1
Notiamo che se, viceversa, si adoperasse nella (5.1) la definizione di integrale a valor principale secondo
Cauchy, la media risulterebbe nulla.
2
In questo caso, si puo` anche verificare facilmente che, se x = a e` anche un punto di massimo locale
della pdf, allora media, moda e mediana coincidono.
112

Esempio 5.5 (media di una variabile aleatoria di Bernoulli). Sia X Bern(p), allora
E(X) = 0 P (X = 0) + 1 P (X = 1) = 0 q + 1 p = p .
Si noti come la media (salvo nei casi, peraltro poco interessanti, in cui p = 0 oppure
p = 1) non coincide con alcun valore assunto dalla variabile aleatoria X.

Esempio 5.6 (media di una variabile aleatoria binomiale). Sia X B(n, p), allora

n
n

n k
k P (X = k) =
k
p (1 p)nk = np .
E(X) =
k
k=0
k=0
Il risultato precedente si puo` ottenere utilizzando le proprietà dei coefficienti binomiali,
ma risulta laborioso; vedremo successivamente che il calcolo si puo` effettuare assai piu`
semplicemente riguardando la variabile aleatoria binomiale come somma di n variabili
aleatorie bernoulliane. Osserviamo infine che solo nel caso in cui np sia intero, la media
coincide con uno dei valori assunti dalla variabile aleatoria X, come spesso accade per
le variabile aleatoria discrete.

Esempio 5.7 (media di una variabile aleatoria indicatrice di un evento). Sia XA la variabile
aleatoria indicatrice (vedi esempio 3.10) di un evento A, e cioè:

1, se A;
XA () =
0, se A.
Tale variabile aleatoria e` ovviamente discreta, e assume i valori 1 e 0 con probabilità
P (A) e P (A). Si ha, allora:
E(XA ) = 1 P (A) + 0 P (A) = P (A) .
Questo esempio evidenzia che la probabilità di un evento A si puo` interpretare come
media della variabile aleatoria indicatrice dellevento stesso.

Esempio 5.8 (media di una costante). Sia X = a una variabile aleatoria costante, che assume lunico valore reale a con probabilità 1. Poiche la sua pdf e` f (x) = (x a), si
ha:

x (x a) dx = a
E(X) =
e pertanto E(a) = a.
5.2 Media di una variabile aleatoria
113
5.2.1 Teorema fondamentale della media

Occupiamoci adesso del problema, ricorrente nelle applicazioni, di calcolare la media
di una variabile aleatoria Y = g(X) ottenuta come trasformazione di unaltra variabile
aleatoria X. Applicando la definizione di media per Y , si ha:

E(Y )
y fY (y) dy .
Pertanto, per determinare E(Y ), sembra necessario calcolare la pdf fY (y), il che puo` farsi
adoperarando il teorema fondamentale 4.1 sulle trasformazioni di variabili aleatorie.
Tale conclusione non e` pero` del tutto corretta, in virtu` del seguente teorema fondamentale
della media, che enunciamo senza dimostrazione.
Teorema 5.1 (teorema fondamentale della media). Sia Y = g(X) una trasformazione
della variabile aleatoria X avente pdf fX (x), si ha:

E(Y ) = E[g(X)] =
g(x) fX (x) dx

Nel caso in cui X sia una variabile aleatoria discreta con DF p(x), abbiamo avuto già modo di osservare che anche Y = g(X) sarà una variabile aleatoria discreta, ed il teorema
fondamentale si puo` esprimere come:
E(Y ) = E[g(X)] =
g(xi ) P (X = xi ) =
xi X
g(xi ) pX (xi )
xi X
ovvero in termini della DF pX (x) di X. In questo caso si puo` fornire una dimostrazione
semplice del teorema (si veda [5] oppure [4]).
Esempio 5.9. Sia X U(0, 2), e si voglia calcolare la media di Y = cos(X). Applicando il teorema fondamentale, scriviamo:
1
E(Y ) = E[cos(X)] =
2
cos(x) dx =
0
1
[sin(x)]x=2
x=0 = 0
2
per cui E(Y ) = 0 e non e` stato necessario calcolare esplicitamente la pdf di Y , la cui
espressione abbiamo peraltro derivato nellesempio 4.5 (si tratta di una pdf pari, per cui
effettivamente E(Y ) = 0).
114
5.2.2 Proprietà della media

Loperazione di media statistica gode delle seguenti proprietà, che vengono enunciate
senza dimostrazione.
1. Siano g() e h() funzioni reali, e siano a e b costanti reali. Si ha:
E[a g(X) + b h(X)] = a E[g(X)] + b E[h(X)] .
In particolare, si ha:
E(a X + b) = a E(X) + b ,
in quanto E(b) = b. Tale fondamentale proprietà va sotto il nome di linearità della
media.
2. Se g(x) 0 per ogni x, allora E[g(X)] 0.
3. Se g1 (x) g2 (x) per ogni x, allora E[g1 (X)] E[g2 (X)].
4. Se a g(x) b per ogni x, allora a E[g(X)] b.
5.3
Varianza e valor quadratico medio di una variabile aleatoria
Passiamo ora a definire un altro importante parametro sintetico di una variabile aleatoria X, ovvero la sua varianza.3
Definizione (varianza di una variabile aleatoria). La varianza 2 = VAR(X)
di una variabile aleatoria X con media = E(X) e` :

2
2
(x )2 f (x) dx ,
= VAR(X) E[(X ) ] =

La varianza e` una quantità non negativa: la sua radice quadrata VAR(X) prende
il nome di deviazione standard della variabile aleatoria X; si noti che la varianza e` dimensionalmente affine al quadrato della variabile aleatoria, mentre la deviazione standard
ha le stesse dimensioni della variabile aleatoria.
3
La definizione che segue si puo` interpretare anche come lapplicazione del teorema fondamentale
della media al calcolo della media di Y = g(X) = (X )2 .
115
Sviluppando algebricamente il quadrato che compare nella definizione di varianza,

ed adoperando la proprietà di linearità della media, si ha, con semplici passaggi,
2 = E[(X )2 ] = E[X 2 2X + 2 ] =
= E(X 2 ) 2E(X) + 2 = E(X 2 ) 2 =
(5.2)
= E(X 2 ) E 2 (X) .
La quantità E(X 2 ) (anchessa non negativa) prende il nome di valore quadratico medio
(vqm), e si calcola, sulla base del teorema fondamentale della media, come:

2
E(X ) =
x2 f (x) dx .

La radice quadrata xrms E(X 2 ) del valore quadratico medio prende il nome di valore
efficace della variabile aleatoria X, ed e` dimensionalmente affine ad X.4
La relazione (5.2) tra varianza, media e valor quadratico medio e` fondamentale, e
mostra che solo due tra questi tre parametri possono essere assegnati arbitrariamente, in
quanto il terzo dipende univocamente dagli altri due. Inoltre, la relazione (5.2) mostra
che, per variabili aleatorie a media nulla, la varianza coincide con il valor quadratico
medio, e quindi la deviazione standard coincide con il valore efficace.
Esempio 5.10 (varianza di una variabile aleatoria uniforme a media nulla). Consideriamo il
caso di X U(/2, /2), allora = E(X) = 0, e si ha:
x=/2
2
1 x3
1
x
=
dx =
.
= E[X ] =
3 x=/2
12
/2

/2
Osserviamo come la varianza cresca al crescere dellampiezza dellintervallo in cui la

variabile aleatoria X assume i suoi valori. Il caso di una variabile aleatoria uniforme a
media non nulla e` trattato nellesempio 5.14.

Esempio 5.11 (varianza di una costante). Sia X = a una variabile aleatoria costante, che
assume lunico valore reale a con probabilità 1. E` facile verificare che la sua varianza e`
nulla, in quanto X = a a = 0.

Qual e` linterpretazione della varianza ? La varianza 2 di una variabile aleatoria misura la concentrazione (o, equivalentemente, la dispersione) di X intorno alla sua media
. In altri termini, se una variabile aleatoria ha varianza piccola, allora essa e` poco dispersa intorno alla sua media (assumerà con maggior probabilità valori intorno alla
4
Il pedice rms sta per root mean square, che e` la denominazione inglese per radice del valor
quadratico medio.
116

media); viceversa, se una variabile aleatoria ha varianza grande, allora essa e` molto dispersa intorno alla sua media (assumerà con probabilità non trascurabile valori assai
lontani dalla media).5 Possiamo equivalentemente dire che la varianza e` una misura
dellincertezza associata ai valori della variabile aleatoria aleatoria X; infatti una variabile aleatoria X = a costante ha varianza nulla, perchè non cè nessuna incertezza sui
valori che puo` assumere.
Adoperando una similitudine fisica, cos` come la media e` equivalente al baricentro
di una distribuzione di masse, cos` la varianza rappresenta (e la sua espressione matematica e` formalmente equivalente) il momento di inerzia della distribuzione di masse
rispetto al baricentro.
Esempio 5.12 (varianza di una variabile aleatoria gaussiana). Sia X N(, ): vogliamo
verificare che 2 rappresenta proprio la varianza, e quindi la deviazione standard. Per
provarlo, ricorriamo ad un artificio: avendo già dimostrato che = E(X), consideriamo
lintegrale (condizione di normalizzazione per una pdf):

f (x) dx = 1 ,
che per la pdf gaussiana si scrive esplicitamente:

(x)2
1
e 22 dx = 1 ,
2
ovvero:

(x)2
2 2
dx = 2 .
Poiche questidentità vale per ogni > 0, deriviamola rispetto a :

(x)2
2 2
(x )2
dx = 2
3
da cui:

VAR(X) =
(x)2
1
(x )2 e 22 dx = 2
2
che e` quanto volevamo provare.

5
Un legame quantitativo piu` preciso tra il valore della varianza e la probabilità con cui la variabile
aleatoria assume valori nellintorno della media e` fornito dalla fondamentale disuguaglianza di Chebishev
(vedi 5.5).
117
Se X e` una variabile aleatoria discreta, allora

f (x) =
pi (x xi )
xi X
e quindi, sostituendo nella definizione di varianza, con facili passaggi si ottiene:

2 =
pi (xi )2 =
p(xi ) (xi )2
xi X
xi X
dove p(x) e` la DF di X. Ovviamente, anche per variabili aleatorie discrete vale la

fondamentale relazione (5.2) tra varianza, media e valor quadratico medio.
Esempio 5.13 (varianza di una variabile aleatoria di Bernoulli). Sia X Bern(p), allora, poiche:
E(X) = 1 p + 0 q = p ,
E(X 2 ) = 12 p + 0 q = p ,
applicando la (5.2) si ha:
2 = E(X 2 ) E 2 (X) = p p2 = p (1 p) = p q .
Si noti che tale varianza assume il valore massimo per p = q = 0.5.
5.3.1 Proprietà della varianza

Come e` evidente dalla sua definizione, la varianza non e` un operatore lineare, ma quadratico: si pone allora il problema di come calcolare la varianza di Y = aX + b. Se X e`
una variabile aleatoria con varianza finita, qualunque siano le costanti reali a e b, si ha:
Var(aX + b) = a2 Var(X) .
(5.3)
Prova. Sulla base della definizione, si ha:

Var(a X + b) = E{[a X + b E(aX + b)]2 }
Adoperando la linearità della media, con semplici passaggi possiamo scrivere:
E{[a X + b E(aX + b)]2 } = E{[a X + b aE(X) b)]2 } = E{[a X aE(X)]2 } =
= a2 E[X E(X)]2 = a2 Var(X)
che e` il risultato cercato.
Notiamo che, nella trasformazione Y = a X + b, la varianza non dipende da b, e quindi

in particolare la varianza di X coincide con quella di Y = X + b, per qualunque valore
118

della traslazione b. Tale risultato e` intuitivamente chiaro se si considera che la varianza
misura la dispersione rispetto alla media: una traslazione di b modifica la media, ma non
la dispersione intorno ad essa. Questa invarianza per traslazione della varianza consente
di scegliere opportunamente b nei casi pratici in maniera tale da semplificare il calcolo
della varianza. In particolare, scegliendo b = X si costruisce la variabile aleatoria
centrata Y = X X che ha media nulla e la stessa varianza di X. Notiamo che la pdf di
Y si otterrà semplicemente per traslazione della pdf di X, ovvero fY (y) = fX (y + X ).
Esempio 5.14 (varianza di una variabile aleatoria uniforme). Sia X U(a, b), allora X =
. La variabile aleatoria centrata Y = X X avrà media nulla e sarà anE(X) = a+b
2
cora uniforme, ma nellintervallo (/2, /2), con = b a. Pertanto, ricordando il
risultato dellesempio 5.10, si ha:
Var(X) = Var(Y ) =
(b a)2
2
=
.
12
12
In molti casi, a partire da una variabile aleatoria X, si desidera ottenere una variabile
aleatoria standard, ovvero una variabile aleatoria Z a media nulla e varianza unitaria. E`
allora sufficiente dividere la variabile aleatoria centrata Y = X X per la deviazione
standard di X, costruendo Z come:
Z=
X X
.
X
Infatti, e` banale verificare che E(Z) = 0, mentre applicando la proprietà (5.3) si ha:
Var(Z) =
1
Var(X) = 1 .
2
X
Notiamo che, poiche Z si ottiene da X attraverso una trasformazione lineare del tipo
Z = aX + b, la pdf di Z sarà data da
fZ (z) = X fX (X z + X ) ,
e pertanto tale trasformazione non modifica sostanzialmente la famiglia a cui la pdf
appartiene (nel senso che una variabile aleatoria uniforme resta uniforme, una variabile
aleatoria gaussiana resta gaussiana, e cos` via) ma cambia solo la posizione della pdf
sullasse dellascisse (per effetto della traslazione di X ) e la scala della pdf (per effetto
della moltiplicazione per X sia dellargomento che dei valori assunti). In particolare, se
X
N(0, 1) e` ancora gaussiana con media
X N(X , X ), la variabile aleatoria Z = X
X
nulla e varianza unitaria, e prende il nome di normale standard (la sua CDF e` proprio la
funzione G(x) riportata in Appendice B).
5.4 Momenti di una variabile aleatoria
5.4
119
Momenti di una variabile aleatoria
La media, la varianza ed il valor quadratico medio appartengono ad una classe di

grandezze sintetiche piu` generali, i momenti di una variabile aleatoria.6
Definizione (momento). Il momento di ordine n N di una variabile aleatoria
X e` :

n
xn f (x) dx ,
n E(X ) =
se lintegrale esiste finito.

Definizione (momento centrale). Il momento centrale di ordine n N di una
variabile aleatoria X con media = E(X) e` :

n
(x )n f (x) dx ,
n E[(X ) ] =

Definizione (momento assoluto). Il momento assoluto di ordine n N di una
variabile aleatoria X e` :

n
E[|X| ] =
|x|n f (x) dx ,

Definizione (momento generalizzato/assoluto). Il momento generalizzato rispetto ad a di ordine n N di una variabile aleatoria X e` :

n
E[(X a) ] =
(x a)n f (x) dx ,
oppure nella versione assoluta e` :

E[|X a| ] =
n
|x a|n f (x) dx ,
se i corrispondenti integrali esistono finiti.

Le definizioni precedenti si particolarizzano facilmente al caso di variabili aleatorie discrete. Notiamo poi che, di tali definizioni, le piu` utilizzate sono quelle relative ai momenti propriamente detti (n ) ed ai momenti centrali (n ). In particolare, osserviamo
6
La definizione delle grandezze che seguono si può sempre ricondurre allapplicazione del teorema
fondamentale della media ad opportune trasformazioni della variabile aleatoria X.
120

che la media E(X) = coincide con il momento 1 di ordine n = 1, che la varianza
2 = Var(X) coincide con il momento centrale 2 di ordine n = 2, e infine che il valor
quadratico medio E(X 2 ) coincide con il momento 2 di ordine n = 2. I momenti con
n > 2 sono meno utilizzati, e prendono il nome di momenti di ordine superiore.
Notiamo infine che la caratterizzazione di una variabile aleatoria in termini di momenti viene detta caratterizzazione sintetica, in quanto fornisce uninformazione ridotta
(per lappunto, sintetica) rispetto alla conoscenza della CDF, pdf o DF. Infatti, mentre
assegnare la CDF, pdf o DF di una variabile aleatoria X (caratterizzazione completa)
consente di calcolare un qualunque momento, la conoscenza di un sottoinsieme di momenti di X (caratterizzazione sintetica) non consente in generale di risalire alla CDF,
pdf o DF. 7
5.4.1 Relazione tra momenti e momenti centrali

E` immediato ricavare i momenti centrali in funzione di quelli non centrali, sfruttando la
formula per lo sviluppo della potenza n-esima di un binomio e la linearità della media.
Si ha:

n
n
X k ()nk =
n = E[(X )n ] = E
k
k=0

n
n
n

n
k
nk
E(X )()
k ()nk
=
=
k
k
k=0
k=0
Osserviamo che il momento centrale n di ordine n dipende dalla media e da tutti i
momenti k di ordine k n.
Altrettanto immediato e` ricavare i momenti non centrali in funzione di quelli centrali. Si ha:
n

n
(X )k nk
n = E[X n ] = E[(X + )n ] = E
k
k=0
(5.4)
n
n

n
n
E[(X )k ] nk =
k nk
=
k
k
k=0
k=0
Anche qui il momento n di ordine n dipende dalla media e da tutti i momenti centrali
k di ordine k n.
Esempio 5.15 (momenti di una variabile aleatoria gaussiana). Sia X N(, ): vogliamo
calcolarne i momenti e i momenti centrali di ordine n qualsiasi.
7
Il discorso e` diverso se si suppone di conoscere tutti i momenti; in tal caso, sotto opportune ipotesi, e`
possibile risalire alla CDF, pdf o DF attraverso luso della funzione caratteristica (vedi ad esempio [3, 5-5])
5.4 Momenti di una variabile aleatoria
121
Iniziamo con il calcolo dei momenti della normale standard Z N(0, 1). Infatti, poichè possiamo esprimere una generica gaussiana X N(, ) in termini della normale
standard Z, come X = Z + , potremo poi esprimere i momenti di X in funzione dei
momenti di Z.
Poiche Z e` a media nulla, momenti e momenti centrali coincidono: dobbiamo allora
calcolare il generico momento di ordine n, dato da:

n
xn fZ (x) dx ,
n = n = E[Z ] =
dove
1 2
1
fZ (x) = e 2 x .
2
Osserviamo subito che, poiche fZ (x) e` una funzione pari, i momenti per n dispari risultano nulli, essendo definiti attraverso lintegrale di una funzione dispari; il calcolo
va allora affrontato solo per n pari. Tuttavia, poiche il calcolo diretto dellintegrale per
n pari e` complicato, utilizziamo un artificio simile a quello dellesempio 5.12, ovvero
partiamo dallidentità

2
ex dx = 1/2 ,
valida per ogni > 0, che si puo` ottenere a partire dalla condizione di normalizzazione
della pdf per una variabile aleatoria X N (0, ) con 2 = 1/(2). Derivando k volte
rispetto ad tale identità, si ottiene:

1
x2
2
e
(x ) dx =

3/2
2

1
3
2
ex (x2 )(x2 ) dx =

5/2
2
2
...

1
3
2k 1
x2
2
2
2
e
(x )(x ) (x ) dx =

(2k+1)/2

2
2
2
k termini
k termini
Lultima relazione puo` essere riscritta, con semplici manipolazioni algebriche, nella
forma:

x2 2k
e
x dx =
1 3 (2k 1) (2)k

da cui, portando al primo membro e ponendo = 1/2 si ottiene:

1
2
x2k ex /2 dx = 1 3 (2k 1) (2k 1)!!

2
122

ovvero proprio il momento E(Z n ) con n = 2k pari.8 In definitiva, se Z N(0, 1), si ha:

0,
n dispari ;
E(Z n ) =
(n 1)!!, n pari .
Possiamo adesso affrontare il caso piu` generale di X N(, ). Procediamo dapprima considerando il caso = 0, per il quale i momenti ed i momenti centrali di X
coincidono, ed inoltre si ha X = Z, per cui E(X n ) = n E(Z n ), e quindi:

0,
n dispari ;
(5.5)
E(X n ) =
n (n 1)!!, n pari .
In particolare, per una variabile aleatoria X N(0, ), molto utilizzato e` il momento del
quarto ordine E(X 4 ) = 3 4 .
Infine, se = 0, e quindi X N(, ), i momenti centrali n coincidono con quelli di
Y = X che e` a media nulla, e quindi sono dati ancora dalla relazione (5.5):

0,
n dispari ;
n E[(X )n ] =
n (n 1)!!, n pari ;
mentre i momenti non centrali si ottengono a partire da quelli centrali sfruttando la
relazione (5.4).
5.5
Disuguaglianze notevoli
In questa sezione introdurremo tre disuguaglianze notevoli, che mettono in relazione

tra loro momenti e probabilità. Procederemo introducendo la disuguaglianza di Markov, dalla quale discende quella di Bienayme, ed infine particolarizzando questultima
otterremo la fondamentale disuguaglianza di Chebishev, la piu` importante sia teoricamente che nelle applicazioni. Questultima ci consentità, in particolare, di approfondire
linterpretazione della varianza di una variabile aleatoria X come indice di dispersione
dei valori assunti dalla variabile aleatoria.
Teorema 5.2 (Disuguaglianza di Markov). Sia Y una variabile aleatoria positiva, cioè
tale che fY (y) 0 per ogni y < 0, e con media E(Y ) finita. Si ha:
P (Y )
E(Y )
per ogni > 0.

8
Si noti che abbiamo utilizzato il simbolo !! (doppio fattoriale) per denotare il prodotto dei soli numeri
dispari fino ad un numero specificato.
5.5 Disuguaglianze notevoli
123
P (Y ) (Markov) P (Y ) (esatto)
2
5 101
1.35 101
1
5
2 10
6.74 103
10
1 101
4.54 105
20
5 102
2.06 109
50
2 102
1.93 1022
2
100
5 10
3.72 1044
Tab. 5.1. Confronto tra i valori di probabilità previsti dalla disuguaglianza di Markov e quelli
esatti per una variabile aleatoria esponenziale Y di parametro .
Prova. Si ha, con facili passaggi, la seguente catena di disuguaglianze:

E(Y ) =
y fY (y) dy
y fY (y) dy
fY (y) dy = P (Y ) ,
0
da cui lasserto.
Lutilità della disuguaglianza di Markov consiste nella possibilità di valutare approssimativamente la probabilità che una variabile aleatoria positiva ecceda un dato valore .
In effetti, essa fornisce un limite superiore per landamento della CDF complementare
di una variabile aleatoria positiva, che non puo` decrescere piu` lentamente di 1/. Tuttavia, in molti casi pratici la rapidità di decadimento a zero della CDF complementare e`
molto piu` rapido di quello previsto dalla disuguaglianza di Markov, come mostrato dal
seguente esempio.
Esempio 5.16. Sia Y Exp(), con E(Y ) = 1 . Essendo FY (y) = [1 ey ] u(y), possiamo calcolare direttamente P (Y ) = 1 FY () = e . La disuguaglianza di Markov
si scrive allora esplicitamente nella forma:
e
1
.
Tale disuguaglianza e` senzaltro verificata, ma lerrore relativo tra primo membro (che
decade con legge esponenziale) e secondo membro (che decade con legge iperbolica)
cresce senza limiti al crescere di , come dimostrato dai valori riportati in Tab. 5.5.
Teorema 5.3 (disuguaglianza di Bienayme). Sia X una variabile aleatoria e sia b un

numero reale. Si ha:
E(|X b|n )
,
P (|X b| )
n
per ogni n N ed > 0.
124

Prova. Si ottiene banalmente dalla disuguaglianza di Markov ponendo Y = |X b|n ed = n , ed
osservando che, poiche la funzione y = xn e` monotona crescente per n N, si ha
P (Y ) = P (|X b|n n ) = P (|X b| ) .
Si osservi che E(|X b|n ) deve esistere finito.
La probabilità che compare nella disuguaglianza di Bienayme e` quella che la variabile

aleatoria X non appartenga allintervallo (b , b + ). Tale probabilità a parità di , e`
tanto piu` piccola quanto piu` e` piccolo il momento assoluto rispetto a b E[|X b|n ], che
quindi va interpretato come un indice di dispersione della variabile aleatoria intorno a b.
Notiamo, in particolare, che se b = = E(X) e se n e` pari, E[|X b|n ] coincide con il
momento centrale n di ordine n, che pertanto va interpretato, per n pari, come un indice di dispersione intorno alla media. Tale risultato vale in particolare per n = 2, e quindi
per la varianza 2 = 2 , ed e` tanto importante da prendere il nome di disuguaglianza di
Chebishev.
Teorema 5.4 (disuguaglianza di Chebishev). Sia X una variabile aleatoria con media
e varianza 2 finite. Si ha:
P (|X | )
2
,
2
(5.6)
per ogni > 0.

Prova. Si ottiene dalla disuguaglianza di Bienayme per b = ed n = 2.
Sulla base della disuguaglianza di Chebishev, la varianza puo` essere interpretata come
il piu` semplice indice di dispersione dei valori assunti da una variabile aleatoria intorno
alla sua media. Infatti, ponendo = k, possiamo anche riscrivere la (5.6) come
P (|X | k)
1
,
k2
(5.7)
o equivalentemente come:
P (|X | < k) 1
1
.
k2
(5.8)
In particolare, la (5.8) consente di ottenere un limite inferiore per la probabilità che la

variabile aleatoria X assuma valori nellintervallo ( k, + k), come evidenziato in
Tab. 5.5, nella quale tali valori sono riportati per i valori di k da 1 a 5.
Ad esempio, per k = 4 la variabile aleatoria assume valori in 4 con probabilità
superiore al 93%; pertanto, quanto piu` e` piccola, tanto piu` tale intervallo sarà piccolo,
e conterrà comunque una frazione superiore al 93% dei valori assunti dalla variabile
aleatoria. In questo senso, misura la dispersione o variabilità della variabile aleatoria
5.5 Disuguaglianze notevoli

k
1
2
3
4
5
125
intervallo
2
3
4
5
P (X intervallo)
0
0.75
0.89
0.9375
0.96
Tab. 5.2. Probabilità che la variabile aleatoria X appartenga ad un intervallo centrato intorno
alla media previsti dalla disuguaglianza di Chebishev.
intorno alla media , ed e` questo il motivo per cui, in ultima analisi, 2 e` denominata
varianza.
Osserviamo infine che poiche la disuguaglianza di Chebishev discende da quella di
Markov, valgono per essa considerazioni analoghe a quelle già effettuate per la disuguaglianza di Markov relativamente allo scostamento tra i valori effettivi di probabilità
ed il limite previsto dalla disuguaglianza. Lutilità della disuguaglianza di Chebishev
non sta tanto nellaccuratezza con la quale e` in grado di fornire i valori della probabilità
che la variabile aleatoria X appartenga ad un intervallo centrato intorno alla media, ma
nella sua generalità e semplicità, in quanto consente di ottenere stime di tale probabilità
senza richiedere la conoscenza esplicita della pdf o CDF della variabile aleatoria, ma
solo della sua varianza.
126
Capitolo 6
6.1
Introduzione
Nei precedenti capitoli abbiamo affrontato lo studio di una singola variabile aleatoria
X; anche quando ci siamo occupati di trasformazioni di variabili aleatorie, del tipo
Y = g(X), mediante le quali a partire da una variabile aleatoria X e` possibile generare unaltra variabile aleatoria Y , ci siamo limitati a caratterizzare singolarmente Y
(calcolandone ad esempio la CDF o la pdf).
E` chiaro che, se Y si ottiene a partire da X mediante una trasformazione g(X), il
legame esistente tra X ed Y e` semplice, essendo di tipo deterministico; tuttavia esistono molti casi pratici in cui e` possibile definire due variabili aleatorie su uno stesso
esperimento di probabilità ed il legame tra esse non e` semplicemente deterministico.
Ad esempio, lesperimento probabilistico puo` consistere nello scegliere una persona
a caso in un insieme di persone, e la variabile aleatoria X puo` rappresentarne laltezza,
mentre la variabile aleatoria Y puo` rappresentarne il peso. E` chiaro che esiste una dipendenza tra X ed Y , ma non e` espressa da una semplice relazione del tipo Y = g(X), in
quanto il legame tra peso ed altezza dipende dal tutta una serie di altri parametri, quali
conformazione fisica della persona, sesso, età, etc. Daltra parte appare impensabile individuare una formula esatta che descrive la relazione tra peso ed altezza e tenga conto
di tutti i parametri del problema. E` ragionevole invece descrivere in maniera approssimata tale relazione utilizzando le leggi della probabilità, il che costituisce loggetto del
presente capitolo. Dovremo allora essere in grado di calcolare la probabilità che laltezza di una persona sia compresa, diciamo, tra 180 e 190 cm, mentre il suo peso sia
compreso tra 70 ed 80 kg. Tale problema e` concettualmente simile a quello di descrivere
congiuntamente due o piu` esperimenti probabilistici (esperimento combinato) discusso
in dettaglio nel 2.4.
128
Y
y
Fig. 6.1. Levento {X x, Y y} e` costituito dai punti di le cui immagini (X, Y ) cadono nella
regione in grigio.
6.2
Funzione di distribuzione cumulativa (CDF) congiunta
Consideriamo due variabili aleatorie X ed Y costruite sullo stesso spazio di probabilità

(, B, P ). Sulla base delle conoscenze finora acquisite, siamo in grado di calcolare le
probabilità che definiscono le CDF di X ed Y :
P (X x) FX (x) ;
P (Y y) FY (x) ;
ma non sappiamo evidentemente calcolare la probabilità di eventi del tipo:
{X x} {Y y} = {X x, Y y} ,
che rappresentano la probabilità che i valori assunti dalla coppia (X, Y ) appartengano
alla regione del piano delimitata dalle rette di equazione X = x ed Y = y (regione in
grigio in Fig. 6.1). Infatti questa probabilità non si puo` esprimere in termini di FX (x)
e FY (y).1 Tale considerazione porta naturalmente allintroduzione di una misura della
probabilità congiunta degli eventi {X x} e {Y y}, rappresentata dalla funzione di
distribuzione cumulativa (CDF) congiunta della coppia di variabili aleatorie (X, Y ).
Tranne nel caso particolare in cui gli eventi {X x} e {Y y} siano statisticamente indipendenti,
come vedremo nel seguito.
1
6.2 Funzione di distribuzione cumulativa (CDF) congiunta
129
Definizione (CDF congiunta). Date due variabili aleatorie X ed Y costruite su

uno stesso spazio di probabilità (, B, P ), la loro CDF congiunta e` :
FXY (x, y) P (X x, Y y) ,
(x, y) R R .
La CDF congiunta e` chiaramente una funzione reale di due variabili reali, a valori in
[0, 1] (trattandosi di una probabilità). Essendo una funzione di due variabili, essa risulta
piu` difficile da interpretare e manipolare matematicamente, rispetto alle CDF FX (x) ed
FY (y): le sue principali proprietà sono elencate nel paragrafo seguente. Notiamo che
nel seguito, per brevità, utilizzeremo sia la notazione FXY (x, y), sia quella piu` sintetica
F (x, y).
6.2.1 Proprietà della CDF congiunta

La CDF congiunta F (x, y) gode delle seguenti proprietà.
1. F (, y) = 0, F (x, ) = 0, F (+, +) = 1.
Prova. Per la prima identità , si ha:
F (, y) = P (X , Y y) ,
ma {X , Y y} {X = } per cui P (X , Y y) P (X = ) = 0, per
la definizione di variabile aleatoria. Analogamente si procede per provare la seconda identità.
Infine, per provare la terza si scrive semplicemente:
F (+, +) = P (X +, Y +) = P () = 1 .
2. P (x1 < X x2 , Y y) = F (x2 , y) F (x1 , y);

P (X x, y1 < Y y2 ) = F (x, y2 ) F (x, y1 ).
Prova. Per la prima relazione, si noti che si ha (Fig. 6.2)
{X x1 , Y y} {x1 < X x2 , Y y} = {X x2 , Y y} ,
e gli eventi a primo membro sono mutuamente esclusivi, per cui:
P (X x1 , Y y) + P (x1 < X x2 , Y y) = P (X x2 , Y y) ,
ovvero:
F (x1 , y) + P (x1 < X x2 ) = F (x2 , y) ,
da cui lasserto. Analogamente si procede per provare la seconda relazione.
130
y2
y1
x1
x2
x1
Fig. 6.2. Levento {x1 < X x2 , Y y}

e` costituito dai punti di le cui immagini
(X, Y ) cadono nella regione in grigio.
x2
Fig. 6.3. Levento {x1 < X x2 , y1 <

Y y2 } e` costituito dai punti di le cui
immagini (X, Y ) cadono nella regione in
grigio.
3. P (x1 < X x2 , y1 < Y y2 ) = F (x2 , y2 ) F (x1 , y2 ) F (x2 , y1 ) + F (x1 , y1 ).

Prova. Si noti che si ha (Fig. 6.3):
{x1 < X x2 , Y y2 } = {x1 < X x2 , Y y1 } {x1 < X x2 , y1 < Y y2 } ,
e gli eventi a secondo membro sono mutuamente esclusivi, per cui:
P (x1 < X x2 , Y y2 ) = P (x1 < X x2 , Y y1 ) + P (x1 < X x2 , y1 < Y y2 ) ,
ovvero:
F (x2 , y2 ) F (x1 , y2 ) = F (x2 , y1 ) F (x1 , y1 ) + P (x1 < X x2 , y1 < Y y2 ) ,
da cui lasserto.
Per ricordare mnemonicamente tale proprietà, osserviamo che la CDF compare

con il segno positivo nelle coppie concordi (x1 , y1 ) e (x2 , y2 ), mentre compare
con il segno negativo nelle coppie discordi (x1 , y2 ) ed (x2 , y1 ).
6.3
Funzione densità di probabilità (pdf) congiunta
A partire dalla CDF congiunta, e` naturale definire la funzione densità di probabilità

(pdf) congiunta di una coppia di variabili aleatorie (X, Y ).
6.3 Funzione densità di probabilità (pdf) congiunta
131
Definizione (pdf congiunta). Date due variabili aleatorie X ed Y con CDF

congiunta FXY (x, y), la loro pdf congiunta e` :
2
fXY (x, y)
FXY (x, y) .
xy
(6.1)
Notiamo che nella definizione di pdf congiunta compare la derivata mista (rispetto a
x ed y) della funzione di due variabili FXY (x, y); poiche la pdf e` unica, assumeremo
che tale derivata mista non dipenda dallordine di derivazione, ovvero che la funzione
FXY (x, y) soddisfi la seguente condizione di Schwartz per lo scambio dellordine di derivazione: le derivate miste di FXY (x, y) rispetto ad x ed y devono esistere ed essere
continue.2 Notiamo che nel seguito utilizzeremo per la pdf congiunta sia la notazione
fXY (x, y), sia quella piu` snella f (x, y).
6.3.1 Proprietà della pdf congiunta

Mentre, sulla base della definizione, la pdf congiunta si ottiene a partire dalla CDF
congiunta per semplice derivazione, la seguente relazione consente di calcolare la CDF
congiunta a partire dalla pdf congiunta per integrazione:
x y
F (x, y) =
f (u, v) du dv .
(6.2)
Prova. Integrando membro a membro la (6.1), si ha:

f (u, v) du dv =
2
F (u, v) du dv ,
uv
ed il secondo membro si scrive:

y
x
x
v=y
F (u, v) dv du =
[F (u, v)]v= du
u
v
u

x

=
F (u, y) F (u, ) du

u
=0
u=x
= [F (u, y)]u= = F (x, y) ,

per cui resta provato lasserto.
Dalla (6.2), ponendo x = y = +, e ricordando che F (+, +) = 1 si ricava:

f (u, v) du dv = 1 ,
Salvo nel caso in cui la pdf presenti un impulso nel punto (x, y), caso che peraltro non considereremo
mai in pratica
132
y+dy
dy
dx
x+ dx
Fig. 6.4. Levento {x < X x + dx, y <

Y y +dy} e` costituito dai punti di le cui
immagini (X, Y ) cadono nel rettangolino
di area dx dy (regione in grigio).
Fig. 6.5. La probabilità che la coppia (X, Y )

appartenga al dominio D si puo` esprimere
come somma di sovrapposizione (al limite,
come integrale) delle probabilità che la coppia (X, Y ) appartenga a rettangolini di
area infinitesima che ricoprono il dominio
D.
che rappresenta la cosiddetta condizione di normalizzazione della pdf, che va interpretata

geometricamente nel senso che il volume compreso tra la superficie di equazione z =
f (x, y) ed il piano z = 0 e` unitario.
Come interpretare la pdf congiunta? Una possibile interpretazione e` fornita dalla seguente relazione:
f (x, y) dx dy = P (x < X x + dx, y < Y y + dy)
(6.3)
cioè f (x, y) rappresenta la probabilità che la coppia di variabili aleatorie (X, Y ) appartenga ad un rettangolino di lati infinitesimi, divisa per larea dx dy del rettangolino
(Fig. 6.4). Questo risultato giustifica, anche nel caso bidimensionale, la denominazione
di densità di probabilità, e prova anche implicitamente che f (x, y) 0.
Prova. Applicando la proprietà 3 della CDF vista in precedenza, si ha:
P (x < X x + dx, y < Y y + dy) = F (x, y) + F (x + dx, y + dy) F (x, y + dy) F (x + dx, y) ,
che possiamo riscrivere anche come:
P (x < X x + dx, y < Y y + dy) = [F (x + dx, y + dy) F (x, y + dy)] [F (x + dx, y) F (x, y)] ,
6.4 Funzione di distribuzione di probabilità (DF) congiunta
133
da cui, dividendo e moltiplicando per dx dy e sfruttando la definizione di derivata parziale come limite
del rapporto incementale rispetto alla variabile dinteresse (con laltra variabile fissa), si ha:
P (x <"X x + dx, y < Y y + dy) =
#
1 F (x + dx, y + dy) F (x, y + dy) F (x + dx, y) F (x, y)
=
dx dy =
dy
dx
dx

1 F (x, y + dy) F (x, y)
=
dx dy =
dy
x
x
2 F (x, y)
dx dy ,
=
yx
da cui, ricordando lassunzione che la derivata mista rispetto ad x ed y non dipende dallordine di
derivazione, si ha lasserto.
Piu` in generale, se D e` un dominio qualsiasi di R2 , posso vederlo come la sovrapposizione di rettangolini di area infinitesima (Fig. 6.5), e quindi scrivere:

P ((X, Y ) D) =
fXY (x, y) dx dy ,
D
per cui la pdf congiunta integrata su un qualunque dominio D restituisce la probabilità

che la coppia di variabili aleatorie (X, Y ) appartenga al dominio. Come si vede, la pdf
congiunta e` un potente strumento per il calcolo di probabilità relative alla coppia di variabili aleatorie (X, Y ): lunica difficoltà si puo` incontrare nella risoluzione dellintegrale
doppio nella (6.3.1), specialmente se il dominio D ha una forma complicata.
Esempio 6.1. Sia (X, Y ) una coppia di variabili aleatorie con pdf congiunta f (x, y):
applichiamo i concetti precedenti per calcolare P (X Y ).
Evidentemente, il dominio D da considerare in questo caso e` quello definito da D =
{(x, y) R2 tali che x y}, raffigurato in Fig. 6.6. Tale dominio si puo` riguardare come
normale sia rispetto allasse x che allasse y, per cui la probabilità cercata si puo` calcolare
nei due modi equivalenti:
x

dx
f (x, y) dy
P (X Y ) =

P (X Y ) =
dy
f (x, y) dx
6.4
Funzione di distribuzione di probabilità (DF) congiunta
Nel caso in cui le variabili aleatorie X ed Y siano entrambi discrete, anziche descriverle in termini di CDF o pdf congiunta, risulta piu` semplice fornire la loro descrizione
134
y
x=y
D = {x y}
x
Fig. 6.6. La probabilità che X Y si ottiene integrando la pdf congiunta sul dominio D = {x
y} (regione in grigio).
congiunta attraverso lintroduzione della funzione di distribuzione di probabilità (DF)

congiunta.
Definizione (DF congiunta). Date due variabili aleatorie X ed Y discrete
costruite su uno stesso spazio di probabilità (, B, P ), a valori in X e Y,
rispettivamente, la loro DF congiunta e` :
pXY (x, y) = P (X = x, Y = y) ,
(6.4)
dove (x, y) X Y.
6.5
Statistiche congiunte e marginali
Per una coppia di variabili aleatorie (X.Y ), le CDF, pdf e DF congiunte sono dette statistiche congiunte, mentre quelle delle singole variabili aleatorie sono dette statistiche
marginali. Si pone allora il seguente problema: abbiamo visto che non e` possibile ricavare le statistiche congiunte da quelle marginali. Ci chiediamo se sia possibile il
viceversa: in effetti vedremo che e` possibile ricavare le statistiche marginali da quelle
congiunte. Per le CDF si ha, infatti,
FX (x) = FXY (x, +) ,
FY (y) = FXY (+, y) ;
6.5 Statistiche congiunte e marginali

mentre per le pdf
135

fX (x) =
fY (y) =
fXY (x, y) dy ,
fXY (x, y) dx ;
ed infine per le DF:

pX (x) =
pXY (x, y) ,
yY
pY (y) =
pXY (x, y) .
xX
Prova. La dimostrazione per le CDF e` banale. Infatti, poiche:

{X x} = {X x} = {X x} {Y +} ,
allora si ha FX (x) = FXY (x, +), e scambiando i ruoli di X ed Y si ottiene anche la seconda relazione.
Per le pdf, si consideri la relazione (6.2), e si derivi rispetto ad x, applicando il teorema fondamentale
del calcolo integrale:
y
FXY (x, y)
=
fXY (x, v) dv .
x
Ponendo nella precedente y = +, si ha FXY (x, +) = FX (x) e quindi:

d
FX (x) = fX (x) =
fXY (x, v) dv .
dx
cioè lasserto. La seconda relazione per le pdf si ottiene con ragionamento analogo, scambiando i ruoli di
X ed Y .
Infine, per quanto riguarda le DF, il ragionamento e` semplice. Infatti, si ha:
{X = x} = yY {X = x} {Y = y} ,
da cui si ha lasserto, essendo gli eventi a secondo membro mutuamente esclusivi. La seconda relazione
per le DF si ottiene banalmente scambiando i ruoli di X ed Y .
Esempio 6.2. Una coppia di variabili aleatorie (X, Y ) si dicono congiuntamente gaussiane, e si denotano con (X, Y ) N(X , Y , X , Y , ), se la loro pdf congiunta ha le
seguente espressione:
1
1
2

fXY (x, y) =
e 2(1 )
2X Y 1 2
(xX )2
(xX )(yY )
(yY )2
2
+
X Y
2
2
X
Y
(6.5)
raffigurata in Fig. 6.7. Si noti il caratteristico andamento a campana della distribuzione

gaussiana, che si manifesta anche nel caso bidimensionale. Le curve di livello della funzione fXY (x, y), ovvero le curve ottenute dallintersezione della superficie di Fig. 6.7 con
136

piani orizzontali di equazione z = costante, sono ellissi di equazione (vedi equazione
(6.5))
(x X )2
(x X )(y Y ) (y Y )2
2
+
= costante
2
X
X Y
Y2
e sono raffigurate in Fig. 6.8 e Fig. 6.9. per due diverse scelte del parametro . Gli assi
maggiori e minori di tali ellissi sono inclinati rispetto allasse x di due angoli 1 ed 2
(che differiscono di /2) e che si ottengono dalla seguente equazione trigonometrica:
tan(2) =
2 X Y
.
2
X
Y2
(6.6)
Notiamo che la pdf congiunta di una coppia di variabili aleatorie congiuntamente

gaussiane dipende da 5 parametri, dei quali X e Y possono assumere valori arbitrari,
X e Y sono non negativi, ed infine deve assumere valori tali che || 1 (osserviamo
in realtà che la (6.5) perde di significato per || = 1). Notiamo che la distribuzione assume il valore massimo in (X , Y ), che X e Y rappresentano lestensione della campana
lungo X e Y , rispettivamente, mentre governa la strettezza degli ellissi: si confrontino le Figg. 6.8 e 6.9 dove si riportano le curve di livello per = 0.5 e = 0.9. Per || 1,
gli ellissi degenerano in segmenti e la pdf congiunta tende a concentrarsi sempre piu` su
una retta obliqua. Vedremo nel prossimo capitolo il significato di e della condizione
|| = 1, mentre il significato degli altri parametri sarà chiarito nel corso di questo stesso
esempio.
A partire dalle statistiche congiunte, applicando le relazioni tra pdf congiunte e marginali, e` possibile determinare le statistiche marginali di X ed Y . Procediamo per X (per
Y i calcoli sono simili); dobbiamo calcolare

fX (x) =
fXY (x, y) dy .
Manipoliamo la pdf congiunta per scriverla in una forma che consenta la semplice
risoluzione dellintegrale. Si ha

(xX )
(xX )(yY )
(yY )
1
2
+
1
2
2
X Y
2
Y

e 2(1 ) X
fXY (x, y) =
2X Y 1 2

(yY )2
(xX )(yY )
(xX )2
1
1
2
1
2
2
2
2
X Y

=
e 2(1 ) X e 2(1 ) Y
.
2X Y 1 2
2
X)
nellargomento del secondo esponenziaAggiungiamo e sottraiamo la quantità (x
2
X
le, cos` da far comparire un quadrato perfetto. Dopo alcune manipolazioni algebriche
si ha:
$
%2

12 (xX )2
2 1 2 yY Y (xX )
1
1
X
e 2X

.
fXY (x, y) =
e 2Y (1 )
X 2
Y 1 2 2
6.5 Statistiche congiunte e marginali
137
0.2
0.1
XY
(x,y)
0.15
0.05
0
3
2
2
0
1
0
2
3
Fig. 6.7. La pdf fXY (x, y) di due variabili aleatorie congiuntamente gaussiane (X, Y )
N(0, 0, 1, 1, 0.5).
Osserviamo che il primo fattore (tra parentesi quadre) rappresenta la pdf di una variabile aleatoria X N(X , X ); per quanto riguarda il secondo, per un fissato valore di x, e` facile verificare
che esso rappresenta la pdf di una variabile aleatoria Y
N(Y + XY (x X ), Y 1 2 ), vale a dire con media Y + XY (x X ) e deviazione

standard Y 1 2 .
Se adesso integriamo la pdf congiunta rispetto ad y per ottenere la pdf marginale fX (x), osserviamo che il secondo fattore, essendo una pdf per ogni valore di x, ha
integrale rispetto ad y unitario. Pertanto, si ha semplicemente:

12 (xX )2
1
e 2X
fXY (x, y) dy =
,
fX (x) =
X 2
e quindi e` evidente che X N(X , X ), cioè X e` marginalmente gaussiana, con media

X e deviazione standard X .
Ovviamente saremmo potuti giungere ad una decomposizione simmetrica operando
rispetto ad y anziche rispetto ad x, per cui con analogo ragionamento si conclude che:

12 (yY )2
1
e 2Y
fY (y) =
fXY (x, y) dx =
,
Y 2

3
138
3
3
3
3
Fig. 6.8. Curve di livello della pdf

di
due
variabili
aleafXY (x, y)
torie
congiuntamente
gaussiane
(X, Y ) N(0, 0, 1, 1, ), per = 0.5.
Fig. 6.9. Curve di livello della pdf

di
due
variabili
aleafXY (x, y)
torie
congiuntamente
gaussiane
(X, Y ) N(0, 0, 1, 1, ), per = 0.9.
e quindi e` evidente che Y N(Y , Y ), cioè Y e` marginalmente gaussiana, con media Y

e deviazione standard Y . In conclusione: se (X, Y ) N(X , Y , X , Y , ) sono congiuntamente gaussiane, X ed Y sono marginalmente gaussiane, e si ha X N(X , X )
e Y N(Y , Y ). Il viceversa non e` sempre vero: e` possibile costruire esempi di variabili aleatorie marginalmente gaussiane la cui pdf congiunta non sia gaussiana (si veda
[3, Es. 6-1]). Notiamo infine che in questo modo abbiamo anche interpretato 4 dei 5
parametri che compaiono nella pdf congiunta di due variabili aleatorie congiuntamente gaussiane, e che in sostanza sono quelli caratteristici delle statistiche marginali delle
variabili aleatorie X ed Y ; in effetti il parametro e` lunico parametro che descrive la
relazione di interdipendenza tra le due variabili aleatorie congiuntamente gaussiane.
Come già osservato, il suo significato sarà chiarito nel prossimo capitolo.
6.6
Indipendenza per coppie di variabili aleatorie
Un caso particolarmente semplice da affrontare e` quello in cui le variabili aleatorie X

ed Y risultano statisticamente indipendenti.
Definizione (variabili aleatorie statisticamente indipendenti). Due variabili
aleatorie X ed Y si dicono statisticamente indipendenti se
FXY (x, y) = FX (x) FY (y) ,
(x, y) R2 .
(6.7)
6.6 Indipendenza per coppie di variabili aleatorie
139
Come si vede, cos` come nella teoria della probabilità elementare lindipendenza tra
eventi si puo` esprimere come fattorizzazione della probabilità congiunta, ovvero P (AB) =
P (A) P (B), cos` per le variabili aleatorie lindipendenza si puo` esprimere come fattorizzazione della CDF congiunta nel prodotto delle CDF marginali.
Nel caso di variabili aleatorie discrete, la definizione di indipendenza si puo` dare
direttamente in termini di probabilità:
P (X = x, Y = y) = P (X = x) P (Y = y) ,
ovvero in termini di DF, come:
pXY (x, y) = pX (x) pY (y) .
Enunciamo e dimostriamo alcune semplici proprietà delle variabili aleatorie indipendenti, che sono diretta conseguenza della definizione (6.7).
1. Se X ed Y sono statisticamente indipendenti, allora fXY (x, y) = fX (x)fY (y), (x, y)
R2 (fattorizzazione della pdf congiunta).
Prova. Si ottiene immediatamente derivando la definizione (6.7).
2. Se X ed Y sono statisticamente indipendenti, allora gli eventi {X I1 } e {Y I2 }

sono statisticamente indipendenti, I1 , I2 R.
Prova. Si ha:

P (X I1 , Y I2 ) =
I1 I2

fXY (x, y) dx dy =
= P (X I1 ) P (Y I2 ) .

fX (x) dx
I1
fY (y) dy
I2
3. Se X ed Y sono statisticamente indipendenti, allora le variabili aleatorie Z = g(X)

e W = h(Y ) sono statisticamente indipendenti.
Prova. Si ha:
FZW (z, w) = P (Z z, W w) = P (X Rz , Y Rw )
dove Rz {x R tali che g(x) z} e Rw {y R tali che h(y) w}. Per lindipendenza di X
ed Y , si ha:
FZW (z, w) = P (X Rz )P (Y Rw ) = P (Z z)P (W w) = FZ (z) FW (w)
per cui resta provato lasserto.
140

Osserviamo che se le variabili aleatorie sono costruite su uno spazio di probabilità
prodotto 1 2 , e in maniera tale che:
X((1 , 2 )) = X(1 ) ,
Y ((1 , 2 )) = Y (2 ) ,
allora se gli esperimenti 1 ed 2 sono indipendenti, anche le variabili aleatorie X ed Y
sono indipendenti.
Esempio 6.3. Sia 1 lo spazio campione associato allesperimento lancio di una moneta, e sia 2 lo spazio campione associato allesperimento lancio di un dado. Qualsiasi variabile aleatoria X costruita su 1 2 che dipende solo da 1 e qualunque
variabile aleatoria Y costruita su 1 2 che dipende solo da 2 sono statisticamente
indipendenti.

Esempio 6.4. Spesso lindipendenza statistica di due variabili aleatorie si puo` assumere sulla base dellindipendenza fisica. Ad esempio, appare chiaro che se X rappresenta laltezza ed Y il peso di un individuo, X ed Y non sono indipendenti (le persone
` Viceversa, se X rappresenta il peso e Y rapprepiu` alte mediamente pesano di piu).
senta il numero di fratelli e sorelle di una persona, pare ragionevole ritenere queste due
variabili indipendenti.

Esempio 6.5. Abbiamo osservato (cfr. esempio 6.2) che due variabili aleatorie X ed Y
marginalmente gaussiane non sono necessariamente anche congiuntamente gaussiane.
Questo risultato pero` non vale se le variabili aleatorie sono marginalmente gaussiane e
indipendenti: infatti, se X N(X , X ) e Y N(Y , Y ), statisticamente indipendenti,
la loro pdf congiunta si ottiene come:
fXY (x, y) = fX (x) fY (y) =
X 2
1
2 2
X
(xX )2
1
2 2
Y
(yY )2
per cui e` facile verificare che essa e` una pdf del tipo gaussiano bidimensionale (6.5), con
= 0. Viceversa, se si hanno due variabili aleatorie X, Y congiuntamente gaussiane e
con = 0, si vede che esse sono indipendenti, in quanto la loro pdf congiunta fXY (x, y)
si fattorizza nel prodotto di due pdf gaussiane monodimensionali. Quindi, sebbene non
ne abbiamo ancora dato una interpretazione rigorosa, intuiamo che misura il grado
di dipendenza tra due variabili aleatorie congiuntamente gaussiane: quando = 0 le
variabili aleatorie sono statisticamente indipendenti; quando || = 1 le due variabili
aleatorie sono massimamente dipendenti.
6.7 Trasformazioni di coppie di variabili aleatorie
6.7
141
Trasformazioni di coppie di variabili aleatorie
Vogliamo adesso estendere il nostro studio sulle trasformazioni di variabili aleatorie

condotto nel Capitolo 4 per il caso di trasformazioni di una sola variabile aleatoria, al
caso di coppie di variabili aleatorie. Qui pero` la situazione si presenta piu` articolata, in
quanto possiamo avere una trasformazione Z = g(X, Y ), ovvero la trasformazione di
una coppia di variabili aleatorie in una singola variabile aleatoria (trasformazione 2
1), oppure una coppia di trasformazioni X = g(X, Y ) e W = h(X, Y ), ovvero la trasformazione di una coppia di variabili aleatorie in una coppia di nuove variabili aleatorie
(trasformazione 2 2). Studiamo separatamente i due casi.
6.7.1 Trasformazione 21
In questo caso, abbiamo una coppia (X, Y ) di variabili aleatorie, caratterizzate dalle
loro CDF congiunta FXY (x, y) e pdf congiunta fXY (x, y), e a partire da esse costruiamo
una nuova variabile aleatoria Z = g(X, Y ), dove g(x, y) e` una funzione di due variabili.
Vogliamo caratterizzare statisticamente Z, in particolare calcolandone la CDF FZ (z) e la
pdf fZ (z). Il problema formalmente si risolve in maniera semplice, in quanto si ha:
FZ (z) = P (Z z) = P (g(X, Y ) z)

fXY (x, y) dx dy ,
= P ((X, Y ) Dz ) =
(6.8)
Dz
dove Dz = {(x, y) R2 tali che g(x, y) z} e` un dominio di R2 . Per determinare poi la

pdf di Z, possiamo o derivare la CDF, o direttamente ricavarla come:
fZ (z) dz = P (z < Z z + dz)
= P (z < g(X, Y ) z + dz)

= P ((X, Y ) Dz ) =
(6.9)
fXY (x, y) dx dy ,
Dz
dove Dz = {(x, y) R2 tali che z < g(x, y) z + dz} e` un dominio di R2 .

Esempio 6.6. Consideriamo la trasformazione Z = X + Y . Si ha:
FZ (z) P (Z z) = P (X + Y z) .
Per un fissato z, il dominio Dz = {(x, y) R2 tali che x + y z} e` quello raffigurato in
grigio in Fig. 6.10. Tale dominio si puo` riguardare ad esempio come normale rispetto
allasse x, ed in tal caso si descrive come Dz = {x R, y z x}. Pertanto applicando
la (6.8) si trova:

zx
FZ (z) =
fXY (x, y) dx dy =
dx
fXY (x, y) dy .
Dz
142
x=zy
xzy
x+y=z
DZ = {x + y z}
DZ
x
xzy
Fig. 6.10. Il dominio Dz = {(x, y)

R2 tali che x+y z} e` raffigurato in grigio.
Fig. 6.11. Il dominio Dz = {(x, y)

R2 tali che xy z} e` raffigurato in grigio.
Possiamo ottenere la pdf derivando la CDF precedente rispetto a z. Si ha, applicando il

teorema fondamentale del calcolo integrale,
d
fZ (z) =
dz
dx
zx
fXY (x, y) dy =

fXY (x, z x) dx =
fXY (z x, x) dx ,
dove lultimo integrale si ottiene con un semplice cambio di variabile. Osserviamo che,
se X ed Y sono indipendenti, allora fXY (x, y) = fX (x) fY (y), e quindi la pdf di Z =
X + Y diventa:

fX (x) fY (z x) dx ,
fZ (z) =
ovvero e` data dal prodotto di convoluzione o semplicemente dalla convoluzione tra le funzioni fX (x) ed fY (y), che si denota sinteticamente con fX fY . Pertanto, la pdf della
somma di due variabili aleatorie indipendenti si ottiene effettuando la convoluzione delle
rispettive pdf.
Esempio 6.7. Consideriamo la trasformazione Z = X/Y . Si ha:

X
FZ (z) P (Z z) = P
z .
Y
Osserviamo che, per un fissato z, la disuguaglianza xy z si scrive come x z y, se y >
0, oppure come x z y, se y < 0. Pertanto, il dominio Dz = {(x, y) R2 tali che xy z}
e` quello raffigurato in grigio in Fig. 6.11. Tale dominio e` normale rispetto allasse y, e si
143
descrive come Dz = {y R, x z y, se y > 0; x z y, se y < 0}. Pertanto, applicando la

(6.8) si trova:

FZ (z) =
dy
zy
fXY (x, y) dx +
dy
fXY (x, y) dx .
zy
Possiamo ottenere la pdf derivando la CDF precedente rispetto a z: si ha3

d
fZ (z) = FZ (z) =
dz

y fXY (zy, y) dy
y fXY (zy, y) dy =
|y| fXY (zy, y) dy .
Ad esempio, se (X, Y ) N(0, 0, 1, 1, 0), sono cioè gaussiane standard indipendenti,

applicando la precedente relazione si trova:

fZ (z) =
=
=
=
=

1 1 (z2 y2 +y2 )
1 1 [y2 (z2 +1)]
2
|y|
dy =
ye 2
dy =
e
2
0

1 2 2
1
1
y(z 2 + 1) e 2 [y (z +1)] dy =
2
0 z + 1
1 1
d $ 1 [y2 (z2 +1)] %
dy =
e 2
z 2 + 1 0 dy
1 1 $ 1 [y2 (z2 +1)] %y=
e 2
z2 + 1
y=0
1/
,
z2 + 1
cioè risulta Z Cauchy(1). Pertanto il rapporto X/Y tra due variabili aleatorie gaussiane standard e indipendenti e` una variabile aleatoria di Cauchy.
6.7.2 Trasformazione 22
In questo caso abbiamo una coppia (X, Y ) di variabili aleatorie, caratterizzate dalle loro
CDF congiunta FXY (x, y) e pdf congiunta fXY (x, y), e a partire da esse costruiamo una
nuova coppia di variabili aleatorie (Z, W ), con Z = g(X, Y ) e W = h(X, Y ), dove g(x, y)
e h(x, y) sono funzioni di due variabili. Il problema in tal caso e` quello di determinare la
CDF FZW (z, w) o la pdf congiunta fZW (z, w) di Z e W . E` possibile applicare il seguente
teorema fondamentale sulle trasformazioni di coppie di variabili aleatorie, che generalizza al
caso di coppie di variabili aleatorie il teorema 4.1, valido per trasformazioni di una
singola variabile aleatoria.
3
Per la derivazione, si applichi la formula di Leibnitz: se F (x) =
(x)
f (x, y) dy
(x) x
(x)
(x)
f (x, y) dy, allora F (x) =
+ f [x, (x)] (x) f [x, (x)] (x).
144

Teorema 6.1 (teorema fondamentale sulle trasformazioni di coppie di variabili aleatorie).
Sia (X, Y ) una coppia di variabili aleatorie con pdf fXY (x, y), e siano Z = g(X, Y ) e
W = h(X, Y ) due nuove variabili aleatorie ottenute per trasformazione da (X, Y ). Si
consideri il sistema di equazioni:
"
z = g(x, y) ;
(6.10)
w = h(x, y) .
La pdf congiunta di (Z, W ) e` data da:
se il sistema (6.10) non ha soluzioni;

0,

fXY (xi , yi )
fZW (z, w) =
, dove (xi , yi ) e` una soluzione del sistema (6.10);
|det[J (xi , yi ))]|

i
in cui det() denota il determinante, e
(z, w)
J (x, y) =
=
(x, y)
z
x
w
x
z
y
w
y
e` la matrice jacobiana della trasformazione.

Si noti che per lapplicazione del teorema si richiede che il sistema (6.10) abbia al piu` una
infinità numerabile di soluzioni. Nella pratica, risulta utile la seguente osservazione: se
il sistema e` invertibile e denotiamo con J (z, w) la matrice jacobiana del sistema inverso,
risulta:
J (z, w) = J (x, y)1 ,
e quindi:
det[J (z, w)] =
1
.
det[J (x, y)]
Esempio 6.8 (trasformazione da coordinate cartesiane a polari). Consideriamo la coppia di

variabili aleatorie (X, Y ), che possiamo interpretare come le coordinate cartesiane di un
punto di R2 . Ha senso allora considerare la trasformazione che fornisce le coordinate
polari (R, ) dello stesso punto, con R 0 e [0, 2[. Tale trasformazione si puo`
esprimere come:
"
R =
X2 + Y 2
,
= tan1 (Y /X)
dove la funzione tan1 (Y /X) (da non confondere con la funzione arctan()), determina univocamente, per ogni valore della coppia (X, Y ), langolo [0, 2[ formato dal
145
y
Y
R
Fig. 6.12. Trasformazione da coordinate

cartesiane a coordinate polari
segmento di estremi (0, 0) ed (X, Y ) con il semiasse positivo delle x, misurato in senso antiorario (Fig. 6.12). Se vogliamo ricavare la pdf di (R, ), applicando il teorema
fondamentale 6.1 consideriamo il seguente sistema di equazioni, nelle incognite (x, y):

"
r = x2 + y 2
,
= tan1 (y/x)
che ha se r 0 e [0, 2[ una sola soluzione, data da
"
x = r cos
,
y = r sin
mentre non ha nessuna soluzione se r < 0. Il calcolo della matrice jacobiana, inoltre,
fornisce:

(x, y)
cos r sin
J(r, ) =
=
,
sin r cos
(r, )
e quindi
|J(r, )| = |r| = r 0 .
Si ha allora:

0,
fR (r, ) =
rfXY (r cos , r sin ),
se r < 0;
se r 0;
ovvero:
fR (r, ) = rfXY (r cos , r sin ) u(r) ,
(6.11)
146

dove u(r) e` la funzione gradino. Se poi vogliamo ottenere le distribuzioni marginali di
R e , basta integrare rispetto alla variabile che non interessa: si ha, cioè:
2
rfXY (r cos , r sin ) d
fR (r) = u(r)
0

f () =
rfXY (r cos , r sin ) dr
0
Si noti la scelta degli intervalli di integrazione: [0, [ per lintegrale in dr, [0, 2[ per
lintegrale in d, corrispondenti ai valori assunti da R e da , rispettivamente.

Esempio 6.9. Applichiamo i risultati della trasformazione da coordinate cartesiane a
coordinate polari al caso in cui le variabili aleatorie X ed Y siano congiuntamente
gaussiane, ed in particolare siano statisticamente indipendenti ( = 0), a media nulla
(X = Y = 0) e con la stessa deviazione standard (X = Y = ), il che sinteticamente
si denota come (X, Y ) N(0, 0, , , 0).
Per lipotesi di indipendenza, la pdf congiunta fXY (x, y) si scrive semplicemente
come prodotto di due pdf gaussiane marginali a media nulla e con la stessa deviazione
standard:
1
2
2
1
fXY (x, y) =
e 22 (x +y ) .
2
2
Applicando la (6.11), si ha:
fR (r, ) = rfXY (r cos , r sin ) u(r)
1
2
2
2
1
e 22 r (cos ()+sin () u(r)
=r
2
2
2
r
r2
2 u(r) .
=
e
2 2
Se ricaviamo le due pdf marginali, otteniamo per R:
2
2
2
r
r2
2 u(r) dr =
fR (r, ) d =
e
fR (r) =
2 2
0
0
r r22
= 2 e 2 u(r) ,
mentre per si ha:

2
r
r2
2 dr =
f () =
fR (r, ) dr =
e
2
0
0 2
r=

2
2
1
d r2
1
1
r2
=
e 2 dr =
=
e 2
,
2 0
dr
2
2
r=0
per cui si osserva che fR (r, ) = fR (r) f (), per cui R e sono statisticamente indipendenti, ed inoltre R ha una distribuzione di tipo Rayleigh con parametro b = 2 2 ,
ovvero R Rayleigh(2 2 ), mentre U(0, 2), cioè e` uniforme in (0, 2).

Esempio 6.10 (generazione di variabili aleatorie gaussiane). Il precedente esempio suggerisce un metodo, alternativo a quello della CDF inversa o della trasformazione percentile (cfr. 4.3.1) per generare variabili aleatorie gaussiane. Infatti, lostacolo principale
allapplicazione della tecnica della trasformazione percentile al caso gaussiano risiede
nel fatto che la CDF gaussiana non ammette unespressione analitica in forma chiusa, e
quindi la sua inversione si ottiene solo attraverso tecniche numeriche. Viceversa, non
ci sono problemi a generare con la tecnica della trasformazione percentile due variabili aleatorie R e , rispettivamente di tipo Rayleigh e uniforme in (0, 2) (cfr. esercizio
4.3.1), in quanto le rispettive CDF sono facilmente invertibili. Pertanto, la generazione
di variabili aleatorie gaussiane si puo` effettuare con un algoritmo in due passi:
1. utilizzando due generatori di variabili aleatorie U(0, 1) indipendenti,4 e adoperando la tecnica della trasformazione percentile, si generano due variabili aleatorie R
e rispettivamente di tipo Rayleigh ed uniforme in (0, 2); tali variabili aleatorie,
essendo ottenute per trasformazione da variabili aleatorie indipendenti, saranno
ancora indipendenti;
2. si costruiscono le due variabili aleatorie X = R cos() ed Y = R sin(); esse risulteranno variabili aleatorie gaussiane indipendenti, a media nulla e con la stessa
varianza.
Per completezza, osserviamo che se si desidera generare variabili aleatorie gaussiane non indipendenti, e` sufficiente partire da variabili aleatorie Z1 e Z2 indipendenti e
standard (a media nulla e varianza unitaria) generate con lalgoritmo precedentemente
esposto, e successivamente applicare la seguente trasformazione 2 2:

X = X Z1 + X 1 2 Z2 + X ,
Y = Y Z1 + Y .
Infatti, applicando il teorema fondamentale sulle trasformazioni, si verifica facilmente

che (X, Y ) N(X , Y , X , Y , ).
6.7.3 Metodo della variabile ausiliaria

Il teorema fondamentale 6.1 per le trasformazioni del tipo 2 2 puo` servire anche
per il caso visto nel 6.7.1, nel quale ho una sola trasformazione Z = g(X, Y ). Per
applicarlo, e` sufficiente rendere la trasformazione 2 1 una trasformazione 2 2
(quadrare la trasformazione), ricorrendo allartificio di introdurre una trasformazione
4
In pratica, e` possibile utilizzare un unico generatore di numeri pseudo-casuali inizializzato con due
semi differenti.
147
148

fittizia o una variabile ausiliaria W = h(X, Y ) (tipicamente si sceglie W = X oppure
W = Y per semplicità). Una volta ottenuta la fZW (z, w) dallapplicazione del teorema
fondamentale, e` poi possibile eliminare la variabile ausiliaria, ricavando la pdf marginale
fZ (z) per integrazione di fZW (z, w) rispetto alla variabile w.
Esempio 6.11. Consideriamo ad esempio la trasformazione Z = X Y . In questo caso,
scegliamo come variabile ausiliaria W = X, ottenendo cos` la seguente trasformazione
2 2:
"
Z =XY ,
W =X.
Il sistema di equazioni corrispondenti e` il seguente:
"
z = xy ,
w =x;
e ammette, per ogni (z, w), con w = 0, una sola soluzione (x, y) data da
"
x =w,
y = wz ;
mentre per w = 0, z = 0 il sistema non ha soluzioni, e infine per w = 0, z = 0, si ha x = 0
e y qualsiasi. Il calcolo della matrice jacobiana, inoltre, fornisce:

(z, w)
y x
J (x, y) =
=
1 0
(x, y)
e quindi il determinante in valore assoluto vale
| det[J (x, y)]| = |x| ,
per cui lapplicazione del teorema fondamentale fornisce per w = 0 la pdf congiunta di
(Z, W ):
z
1
fZW (z, w) =
fXY w,
|w|
w
da cui ricaviamo quella di Z = XY integrando rispetto a w:

z
1
fZ (z) =
fXY w,
dw .
w
|w|
Se, ad esempio, X U(0, 1) e Y U(0, 1), con X ed Y statisticamente indipendenti e
Z = X Y , la precedente si scrive:
1
z
1
fX (w) fY
dw
fZ (z) =
w
0 |w|
149
ma fX (x) = 1 per x [0, 1], e fY (y) = 1 per y [0, 1]. Allora fY (z/w) = 1 se z/w [0, 1],
ovvero se 0 z w. Pertanto, lintervallo di integrazione per w va da z a 1, e quindi
lintegrale si scrive:

fZ (z) =
z
1
dw = [ln w]w=1
w=z = ln z .
w
La pdf di Z e` pertanto:

ln z ,
fZ (z) =
0,
se z [0, 1];
altrove.
Notiamo che la scelta W = X oppure W = Y e` opportuna in molti casi, ma non sempre,

come illustrato chiaramente dallesempio che segue.
Esempio 6.12. Si consideri la trasformazione Z = X 2 + Y 2 . In questo caso, poiche

possiamo interpretare Z come il modulo di una trasformazione di coordinate cartesiane
a polari, conviene considerare, come variabile ausiliaria, una variabile W che rappresenti la fase della stessa trasformazione. Pertanto, sulla base anche dellesempio 6.8,
possiamo considerare la variabile ausiliaria W definita da
W = tan1 (Y /X) .
A questo punto, possiamo sfruttare i risultati già ottenuti nellesempio 6.8, per scrivere
direttamente la pdf congiunta di (Z, W ):
fZW (z, w) = zfXY (z cos w, z sin w) u(z) ,
e successivamente eliminare la variabile ausiliaria W ricavando la pdf marginale di Z
per integrazione:

fZ (z) = u(z)
zfXY (z cos w, z sin w) dz

0
Ad esempio, se (X, Y ) N(0, 0, , , 0), applicando anche i risultati dellesempio 6.9, si

trova banalmente che Z Rayleigh(2 2 ).
150
6.8
Variabili aleatorie complesse
E` utile in taluni casi estendere la definizione di variabile aleatoria al caso complesso.

Definizione (variabile aleatoria complessa). una variabile aleatoria complessa Z e` definita come
Z = X + jY ,
con X, Y variabili aleatorie reali, e j 1.

Si osservi esplicitamente che nel caso complesso non ha senso indagare se {Z z} sia
un evento, perchè il campo dei numeri complessi non e` dotato di ordinamento. Pertanto,
una variabile aleatoria complessa rappresenta solo un modo sintetico di denotare un
coppia di variabili aleatorie reali. Poichè poi il piano complesso si identifica con R2 , se
D e` una regione del piano complesso e` possibile calcolare probabilità del tipo P (Z D)
semplicemente utilizzando la pdf congiunta della coppia di variabili aleatorie (X, Y ),
come

P (Z D) =
fXY (x, y) dx dy .
D
Possiamo definire formalmente la media di una variabile aleatoria complessa, applicando la proprietà di linearità. Infatti, se Z = X+jY e` una variabile aleatoria complessa,
si ha:
E(Z) E(X) + jE(Y ) .
Come si vede, la media di Z si esprime attraverso la media di X (reale) e quella di Y
(reale).
Il discorso si complica quando passiamo a definire il valore quadratico medio. In linea di principio, si potrebbe pensare che una definizione appropriata sia E(Z 2 ), tuttavia
se Z e` complesso la quantità E(Z 2 ) non e` ne reale ne positiva. Pertanto una definizione appropriata di valor quadratico medio di una variabile aleatoria complessa Z e` la
seguente:
E(|Z|2 ) = E(X 2 + Y 2 ) = E(X 2 ) + E(Y 2 ) .
Anche qui, il valor quadratico medio si ottiene combinando (sommando) i valori quadratici medi di X ed Y .
Infine, per la varianza una definizione appropriata e` , in accordo a quella per il valor
quadratico medio, la seguente:
Var(Z) = E[|Z E(Z)|2 ] = E[(X X )2 ] + E[(Y Y )2 ] = Var(X) + Var(Y ) ,
6.8 Variabili aleatorie complesse
151
e coincide con la somma delle varianze di X ed Y . Notiamo che vale anche in questo
caso la relazione fondamentale tra varianza, valor quadratico medio e media, che si
scrive:
Var(X) = E(|Z|2 ) |E(Z)|2
Naturalmente, e` possibile definire un qualunque momento di Z, semplicemente
sviluppando lespressione risultante in termini di X ed Y . Ad esempio, per E(Z 2 ) si
ha:
E(Z 2 ) = E[(X + jY )2 ] = E(X 2 ) E(Y 2 ) + 2jE(XY ) .
Come si vede, oltre ai valori quadratici medi di X ed Y , compare anche un momento
congiunto E(XY ) (correlazione) di X ed Y , che introdurremo nel prossimo capitolo.
Esempio 6.13. Data la variabile aleatoria U(0, 2), consideriamo come esempio di
variabile aleatoria complessa la seguente:
Z = ej .
Per lidentità di Eulero, si ha anche:
Z = cos() + j sin() ,
per cui possiamo identificare la coppia (X, Y ) come X = cos() e Y = sin(). Il calcolo della media e della varianza di Z si conduce semplicemente applicando il teorema
fondamentale della media. Infatti, si ha:
2
1 j 2
1
E(Z) =
ej
d =
e 0 =0,
2
2j
0
per la periodicità (di periodo 2) della funzione ej ; inoltre, banalmente, si ha E(|Z|2 ) =
E(1) = 1, per cui Var(Z) = 1. Si noti, invece, che sempre lapplicazione del teorema
fondamentale della media ci consente di riconoscere che E(Z 2 ) = 0. Infatti:
2
1 j2 2
1
2
E(Z ) =
ej2
d =
e 0 =0,
2
4j
0
stavolta per la periodicità (di periodo ) della funzione ej2 .
152
Capitolo 7
Caratterizzazione sintetica di una coppia
di variabili aleatorie
7.1
Introduzione
Nel capitolo 5, abbiamo introdotto i momenti di una singola variabile aleatoria X, tra i
quali la media, la varianza ed il valor quadratico medio sono sicuramente i piu` utilizzati.
Abbiamo visto come attraverso tali momenti sia possibile fornire una caratterizzazione
sintetica della variabile aleatoria X, che non si basa cioè sulla conoscenza precisa della
sua CDF e pdf. In questo capitolo, vogliamo estendere la definizione di momenti al
caso di coppie (X, Y ) di variabili aleatorie, cos` da poter fornire una caratterizzazione
sintetica anche in questo caso: i momenti associati ad una coppia di variabili aleatorie
prendono il nome di momenti congiunti. Osserviamo peraltro che nel caso di coppie di
variabili aleatorie la caratterizzazione sintetica appare ancora piu` interessante rispetto
al caso di una singola variabile aleatoria, vista la difficoltà di manipolare, e talvolta di
interpretare, le funzioni (di due variabili) che forniscono la caratterizzazione completa,
quali la CDF, la pdf e la DF congiunta.
7.2
Teorema fondamentale della media per una coppia di

variabili aleatorie
Il primo e fondamentale passo da seguire per definire i momenti congiunti per coppie
di variabili aleatorie e` quello di estendere al caso di una coppia di variabili aleatorie il
teorema fondamentale della media (teorema 5.1), che abbiamo introdotto nel capitolo 5
per una singola variabile aleatoria.
Iniziamo col considerare la trasformazione (cosiddetta 2 1, cfr. 6.7.1) mediante
la quale a partire da una coppia (X, Y ) di variabili aleatorie si ottiene una nuova variabile aleatoria Z = g(X, Y ). Nel precedente capitolo, abbiamo studiato vari metodi per
154

determinare CDF e pdf di Z, conoscendo la CDF o la pdf congiunta della coppia (X, Y ).
Una volta determinata la pdf di Z, in particolare, siamo in grado di calcolare la media
di Z, utilizzando la definizione di media per una singola variabile aleatoria:

z fZ (z) dz .
E(Z) =
Tuttavia, non e` necessario conoscere la pdf di Z per calcolarne la media, poiche e` sufficiente la conoscenza della pdf congiunta di (X, Y ), come affermato dal seguente teorema, il quale estende il teorema fondamentale della media al caso di coppie di variabili
aleatorie, e che enunciamo senza dimostrazione.
Teorema 7.1 (teorema fondamentale della media per coppie di variabili aleatorie). Sia
Z = g(X, Y ) una trasformazione della coppia di variabili aleatorie (X, Y ) aventi pdf
congiunta fXY (x, y); si ha:

E(Z) = E[g(X, Y )] =
g(x, y) fXY (x, y) dx dy ,

Nel caso in cui (X, Y ) siano variabili aleatorie discrete, osserviamo che anche Z =
g(X, Y ) e` una variabile aleatoria discreta, ed il teorema precedente si esprime in termini
della DF congiunta pXY (x, y) di (X, Y ) come:

E(Z) = E[g(X, Y )] =
g(x, y) pXY (x, y) .
xX,yY
In questo caso, e` anche semplice delineare la dimostrazione del teorema fondamentale

(si veda [4] oppure [5]).
E` immediato verificare che loperatore di media gode sempre della proprietà di linearità, anche se in questo caso il risultato e` piu` generale, visto che coinvolge coppie di
variabili aleatorie. Infatti, siano g1 e g2 arbitrarie funzioni di due variabili, e siano a1 e
a2 costanti reali; si ha:
E[a1 g1 (X, Y ) + a2 g2 (X, Y )] = a1 E[g1 (X, Y )] + a2 E[g2 (X, Y )] .
La dimostrazione di questo risultato e` banale, basandosi direttamente sul teorema fondamentale della media precedentemente enunciato, e si lascia al lettore per esercizio.
Se, in particolare, si sceglie g1 (X, Y ) = X e g2 (X, Y ) = Y , si ha:
E(a1 X + a2 Y ) = a1 E(X) + a2 E(Y ) ,
e pertanto la media statistica della combinazione lineare di due variabili aleatorie coincide con la combinazione lineare delle medie statistiche. Notiamo esplicitamente che
tale proprietà di linearità vale in generale, sia che X ed Y siano indipendenti, sia che non
lo siano.
7.3 Momenti congiunti di una coppia di variabili aleatorie
7.3
Momenti congiunti di una coppia di variabili aleatorie
Sulla base del teorema fondamentale della media, possiamo definire i momenti congiunti
della coppia di variabili aleatorie (X, Y ).
Definizione (momento congiunto di ordine n = k + r). Il momento congiunto (di ordine n = k + r) di una coppia di variabili aleatorie (X, Y )
e` :

k
r
xk y r fXY (x, y) dx dy ,
kr E(X Y ) =

Definizione (momento congiunto centrale di ordine n = k + r). Il momento
congiunto centrale (di ordine n = k + r) di una coppia di variabili aleatorie
(X, Y ), con medie X = E(X) e Y = E(Y ), e` :

k
r
(x X )k (y Y )r fXY (x, y) dx dy ,
kr E[(X X ) (Y Y ) ] =

Osserviamo che, ponendo k = 0 oppure r = 0, e sfruttando la relazione tra statistiche
congiunte e marginali, e` possibile ritrovare i momenti e i momenti centrali delle singole
variabili aleatorie X ed Y . Ad esempio, per k = 1 e r = 0, si verifica facilmente che il
momento congiunto 10 coincide con la media di X, in quanto:

10 =
xfXY (x, y) dx dy =
x
fXY (x, y) dy dx =
x fX (x) dx = E(X)
=

poiche fXY (x, y) dy = fX (x). Similmente si trova 20 = E(X 2 ) (valor quadratico

medio) e 20 = E[(X X )2 )] (varianza), e analogamente per i corrispondenti momenti
di Y . Ponendo poi k = r = 0 nella definizione
momenti, si ottiene la proprietà di
di
normalizzazione della pdf congiunta, ovvero fXY (x, y) dx dy = 1.
Come abbiamo accennato, la conoscenza di un sottoinsieme dei momenti congiunti
va sotto il nome di caratterizzazione sintetica della coppia di variabili aleatorie (X, Y ).
La caratterizzazione completa consiste invece nella conoscenza della CDF, pdf o DF
congiunta. Ovviamente, se si dispone della caratterizzazione completa, e` possibile ricavare un qualunque momento congiunto; viceversa, se si conosce un sottoinsieme dei
momenti congiunti, non e` possibile in generale ricavare CDF, pdf o DF congiunta. 1
155
156
7.4
Misure di correlazione di una coppia di variabili aleatorie
Tra i momenti congiunti di una coppia di variabili aleatorie (X, Y ), quelli piu` utilizzati sono quelli del secondo ordine (n = 2), che vanno sotto il nome di correlazione e
covarianza.
7.4.1 Correlazione
Definizione (correlazione). La correlazione di una coppia di variabili aleatorie
(X, Y ) e` il momento congiunto 11 di ordine n = 2, ovvero:

x y fXY (x, y) dx dy ,
Corr(X, Y ) 11 = E(X Y ) =

Per fornire una prima interpretazione della correlazione, osserviamo che essa compare
naturalmente se calcoliamo il valore quadratico medio della somma di due variabili
aleatorie X ed Y :
E[(X + Y )2 ] = E(X 2 ) + E(Y 2 ) + 2 E(X Y ) .
Poiche la correlazione puo` essere positiva, negativa o nulla, allora il valor quadratico
medio della somma di due variabili aleatorie puo` essere maggiore, minore o uguale alla
somma dei valori quadratici medi.
Una seconda interpretazione della correlazione e` di tipo geometrico, e precisamente
come prodotto scalare tra X ed Y ; pertanto, essa richiede lintroduzione del fondamentale
concetto di spazio vettoriale di variabili aleatorie, che sarà sviluppato nella successiva
sezione.
7.4.2 Spazio vettoriale di variabili aleatorie

Lidea e` quella di interpretare le variabili aleatorie come vettori appartenenti ad un opportuno spazio vettoriale. Osserviamo preliminarmente che, affinche si possa parlare
legittimamente di vettori, e` necessario che siano definite ed abbiano senso loperazione
di somma di due vettori e loperazione di prodotto di un vettore per uno scalare. Ma tali
1
Anche qui, come accade per il caso di una singola variabile aleatoria, il discorso e` diverso se si suppone di conoscere tutti i momenti congiunti; in tal caso, sotto opportune ipotesi, e` possibile risalire alla
CDF, pdf o DF congiunta attraverso luso della funzione caratteristica congiunta (si veda ad esempio [3,
7-2])
7.4 Misure di correlazione di una coppia di variabili aleatorie
157
operazioni corrispondono alla somma X + Y di due variabili aleatorie ed al prodotto

a X di una variabile aleatoria per una costante reale, per cui sono perfettamente definite.
Una volta assimilate le variabili aleatorie a vettori, e` possibile introdurre una serie
di concetti geometrici di grande importanza. In particolare, sui vettori appartenenti a
questo spazio vettoriale, e` possibile definire, con diretta interpretazione geometrica,

una norma X E(X 2 );

una distanza d(X, Y ) X Y = E[(X Y )2 ];
un prodotto scalare !X, Y " E(XY ).
Tali definizioni non sono arbitrarie; in effetti si puo` far vedere che la norma, la distanza
e il prodotto scalare cos` definiti soddisfano le proprietà caratteristiche di tali operazioni. Osserviamo, in particolare, che la norma coincide con il valore efficace (e quindi la
norma al quadrato coincide con il valore quadratico medio E(X 2 )), mentre il prodotto
scalare coincide proprio con la correlazione tra le variabili aleatorie X ed Y .
Di particolare importanza, in uno spazio vettoriale dotato di prodotto scalare, risulta
la seguente disuguaglianza di Schwartz.
Teorema 7.2 (disuguaglianza di Schwartz). In uno spazio vettoriale di variabili aleatorie dotato di prodotto scalare, vale la seguente disuguaglianza:

|E(XY )| E(X 2 ) E(Y 2 ) ,
con uguaglianza se e solo se Y = aX (in media quadratica).
Prova. E` sufficiente considerare lespressione quadratica in a, non negativa,
E[(aX Y )2 ] 0 ,
che si sviluppa facilmente, utilizzando la linearità della media:
a2 E(X 2 ) 2 a E(XY ) + E(Y 2 ) 0 .
Tale forma quadratica e` non negativa se e solo se il suo discriminante e` minore o uguale a 0. Il calcolo
del discriminante fornisce:
= 4E(XY )2 4E(X 2 ) E(Y 2 ) 0 ,
per cui si ha E(XY )2 E(X 2 ) E(Y 2 ) e quindi, prendendo la radice quadrata, lasserto. Osserviamo che,
se il discriminante si annulla, allora esiste un valore di a, sia esso a , tale che
E[(a X Y )2 ] = 0 .
Questa condizione e` equivalente a dire che Y = a X in media quadratica. Ovviamente se luguaglianza
Y = a X vale puntualmente, essa vale a maggior ragione anche in media quadratica, ma il viceversa non
e` vero.
158

La disuguaglianza di Schwartz afferma che, in valore assoluto, la correlazione non puo`
eccedere il prodotto dei valori efficaci delle due variabili aleatorie X ed Y . Inoltra, essa
consente anche di riesprimere il prodotto scalare, e quindi la correlazione, come:
!X, Y " = X
Y cos()
(7.1)
dove e` langolo (compreso tra 0 e 2) formato dai due vettori.2 Si trova allora che
tale prodotto scalare e` massimo (in modulo) quando = 0 (vettori allineati e nello
stesso verso) oppure quando = (vettori allineati ma di verso opposto). Viceversa,
il prodotto scalare e` nullo, e quindi minimo in modulo, quando cos() = 0, ovvero per
= /2 o 3/2; in questo caso i vettori X ed Y sono ortogonali. Possiamo allora fornire
la seguente definizione di ortogonalità tra due variabili aleatorie X ed Y .
Definizione (ortogonalità). Due variabili aleatorie X ed Y si dicono ortogonali
(X Y ) se e solo se:
E(XY ) = 0 ,
ovvero se la loro correlazione e` nulla.
7.4.3 Covarianza
Definizione (covarianza). La covarianza di una coppia di variabili aleatorie
(X, Y ) e` il momento congiunto centrale 11 di ordine n = 2, ovvero:
Cov(X, Y ) 11 = E[(X
X )(Y Y )] =
(x X ) (y Y ) fXY (x, y) dx dy ,
=

Esiste una relazione semplice tra correlazione e covarianza: sviluppando infatti la media
che compare nella definizione di covarianza, si trova banalmente:
Cov(X, Y ) = E(X Y ) E(X) E(Y ) = Corr(X, Y ) X Y .
(7.2)
Una prima interpretazione della covarianza e` che essa compare naturalmente se proviamo a calcolare la varianza della somma di due variabili aleatorie X ed Y . Infatti si ha,
con semplici passaggi
Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X, Y ) .
2
(7.3)
In realtà la (7.1) consente di definire langolo tra due vettori sulla base del prodotto scalare, anche
in casi in cui i concetti geometrici non sono direttamente applicabili.

Osserviamo che, poichè la covarianza puo` essere positiva, negativa o nulla, allora la
varianza della somma di due variabili aleatorie puo` essere maggiore, minore o uguale
alla somma delle varianze.
Una seconda interpretazione della covarianza e` di tipo geometrico, e precisamente
in termini di prodotto scalare; infatti essa rappresenta il prodotto scalare tra le variabili aleatorie centrate X X e Y Y . Essendo la covarianza un prodotto scalare,
la disuguaglianza di Schwartz si puo` applicare anche ad essa, ed assume la seguente
forma:

|Cov(X, Y )| E[(X X )2 ] E[(Y Y )2 ] = X Y
(7.4)
con uguaglianza se e solo se Y Y = a(X X ) (in media quadratica o quasi ovunque),
e quindi X ed Y sono legati da una dipendenza lineare, del tipo Y = a X + b, con
b = Y a X . La (7.4) afferma che, in valore assoluto, la covarianza non puo` eccedere
il prodotto delle deviazioni standard delle due variabili aleatorie X ed Y . Inoltre, essa
consente di affermare che la covarianza misura la dipendenza lineare tra due variabili
aleatorie, in quanto e` massima in modulo se le due variabili aleatorie sono legate da una
relazione lineare.
Osserviamo che se a scostamenti (rispetto alla media) X X positivi corrispondono in media scostamenti Y Y positivi, e analogamente per scostamenti negativi, la
covarianza sarà positiva, e le variabili si diranno positivamente correlate; cio` accade se ad
esempio si considera altezza e peso di una persona. In altri termini, ad un incremento
di X (laltezza) corrisponde un incremento di Y (il peso). Viceversa, se a scostamenti positivi di una variabile corrispondono scostamenti negativi dellaltra, la covarianza
sarà negativa, e le variabili si diranno negativamente correlate; cio` accade ad esempio se
si considerano il numero di sigarette fumate giornalmente e la speranza di vita di una
persona. In questo caso, ad un incremento di X (il numero di sigarette) corrisponde un
decremento di Y (la speranza di vita).
7.4.4 Coefficiente di correlazione

La covarianza e` una misura assoluta di dipendenza lineare: per avere una misura relativa, e` sufficiente normalizzarla al suo valore massimo (in modulo) X Y , ottenendo cos`
il coefficiente di correlazione.
Definizione (coefficiente di correlazione). Il coefficiente di correlazione XY
di una coppia di variabili aleatorie (X, Y ) e` :
XY
Cov(X, Y )
.
X Y
159
160

Sulla base dellinterpretazione come covarianza normalizzata, ed in particolare richiamando la (7.4), si osserva che il coefficiente di correlazione gode della seguente proprietà:
|XY | 1 ,
con uguaglianza se e solo se X ed Y presentano una dipendenza di tipo lineare, ovvero
Y = a X + b (in media quadratica o quasi ovunque).
Esempio 7.1. Mostriamo che il parametro che compare nella pdf congiunta di due
variabili aleatorie congiuntamente gaussiane X ed Y e` proprio il coefficiente di correlazione XY . A tal scopo, consideriamo prima il calcolo della covarianza Cov(X, Y ): si
ha:

(x X )(y Y ) fXY (x, y) dx dy .
Cov(X, Y ) = E[(X X )(Y Y )] =
Per risolvere tale integrale, conviene decomporre la fXY (x, y) come già fatto nellesempio 6.2, e precisamente come

fXY (x, y) =
X 2
1
2 2
X
(xX )2

Y
1
1
1
2 2 (12 )
Y
yY Y (xX )
%2
Sostituendo nellespressione della covarianza, si ottiene:

Cov(X, Y ) =

(x X )
X 2
(y Y )
1
2 2
X
(xX )2
e
1 2 2
1
2 2 (12 )
Y
yY Y (xX )
%2
(7.5)
dy dx
Concentriamo lattenzione sullintegrale in dy: poiche la pdf che vi compare e` ancora

gaussiana, a media Y + XY (xX ), aggiungendo e sottraendo XY (xX ) nel termine
(y Y ) avremo che lintegrale si puo` decomporre come:
%2
$

2 1 2 yY Y (xX )
Y
1
2 (1 )
X

y Y (x X )
dy +
e Y
X
Y 1 2 2
%2
$

2 1 2 yY Y (xX )
Y
1
2 (1 )
X

dy .
+ (x X )
e Y
X
1 2 2
Y
Dei due integrali risultanti, il primo e` nullo per la definizione di media, mentre il secondo e` unitario, per la condizione di normalizzazione della pdf. In definitiva, il risultato

del calcolo e` semplicemente XY (x X ) che, sostituito nella (7.5), fornisce:

12 (xX )2
Y
1
e 2X
(x X )2
=
Cov(X, Y ) =
X 2
X
12 (xX )2
1
Y
e 2X
=
(x X )2
=
X
X 2
Y 2
=
= X Y ,
X X
per cui si ricava, dividendo la covarianza per X Y , che = XY , come si voleva
provare.
7.4.5 Incorrelazione tra due variabili aleatorie

Abbiamo visto che, come la covarianza, anche il coefficiente di correlazione misura la
dipendenza lineare esistente tra le due variabili aleatorie. Il vantaggio e` che esso, essendo normalizzato, e` piu` facilmente interpretabile: tale relazione lineare e` tanto piu`
forte quanto piu` XY in modulo e` prossimo ad uno. La completa assenza di dipendenza
lineare, viceversa, si ha se XY = 0, il che ovviamente equivale anche a Cov(X, Y ) = 0.
Tale condizione va sotto il nome di incorrelazione.
Definizione (incorrelazione). Due variabili aleatorie X ed Y si dicono
incorrelate se Cov(X, Y ) = 0 o, equivalentemente, se XY = 0.
Notiamo che, per la relazione (7.2) esistente tra covarianza e correlazione, la condizione
di incorrelazione si puo` esprimere equivalentemente come:
E(X Y ) = E(X)E(Y ) ,
che si interpreta come una proprietà di fattorizzazione della correlazione (la media del
prodotto X Y e` uguale al prodotto delle medie din X ed Y ). Questa proprietà va messa in relazione con quella di indipendenza, che rappresenta invece una proprietà di
fattorizzazione per la pdf congiunta: e` facile verificare che vale il seguente teorema.
Teorema 7.3 (incorrelazione e indipendenza). Se X ed Y sono due variabili aleatorie
indipendenti, allora esse sono anche incorrelate.
Prova. Se scriviamo E(X Y ) esplicitamente, si ha:

x y fXY (x, y) dx dy ,
E(X Y ) =
per cui, se le variabili aleatorie sono indipendenti, risulta fXY (x, y) = fX (x) fY (y), e quindi:

E(X Y ) =
x fX (x) dx
y fX (y) dy = E(X) E(Y ) ,
161
162

pertanto resta dimostrato lasserto.
E` altrettanto ovvio che, viceversa, lincorrelazione non implica lindipendenza: infatti se si fattorizzano le medie (gli integrali), non e` detto che si fattorizzino le pdf (le
funzioni integrande). Una eccezione degna di nota e` il caso delle variabili aleatorie
congiuntamente gaussiane, come mostrato dallesempio che segue.
Esempio 7.2. Siamo (X, Y ) N(X , Y , X , Y , ) due variabili aleatorie congiuntamente gaussiane. Supponiamo che (X, Y ) siano incorrelate, il che equivale alla condizione = 0, poichè tale parametro e` il coefficiente di correlazione. Se allora si considera
lespressione della pdf bidimensionale gaussiana (6.5) per = 0, si vede che essa si
fattorizza nel prodotto delle pdf marginali di due variabili aleatorie X N(X , X ) e

Y N(Y , Y ), per cui X ed Y sono statisticamente indipendenti.
Unaltra proprietà interessante delle variabili aleatorie incorrelate e` che risulta
Var(X + Y ) = Var(X) + Var(Y ) ,
ovvero la varianza della somma e` pari alla somma delle varianze. Tale risultato si
ottiene banalmente dalla (7.3) ponendovi Cov(X, Y ) = 0.
Notiamo infine che, nonostante una terminologia poco felice, non bisogna confondere i concetti di ortogonalità ed incorrelazione: lortogonalità corrisponde allannullarsi
della correlazione, lincorrelazione corrisponde allannullarsi della covarianza o del coefficiente di correlazione. Stante la relazione (7.2), ortogonalità e incorrelazione coincidono se
almeno una delle due variabili aleatorie e` a media nulla. Inoltre, dire che X ed Y sono
incorrelate equivale a dire che le variabili centrate X X e Y Y sono ortogonali.
7.5
Stima lineare a minimo errore quadratico medio
Unapplicazione interessante dei concetti introdotti nelle precedenti sezioni, basata in

particolare sullinterpretazione delle variabili aleatorie come vettori, e` il problema della
stima. Possiamo formalizzarlo come segue: abbiamo a disposizione una variabile aleatoria X, e a partire da questa vogliamo ottenere una stima di una seconda variabile
aleatoria Y , ad essa collegata.
Esempio 7.3. Sia Y laltezza ed X il peso di una persona; sappiamo che il peso e` X = x
e vogliamo stimare la sua altezza Y (tale problema e` significativo per esempio in ambito
pediatrico, per controllare la crescita dei neonati).

Chiameremo stimatore di Y , a partire dai dati X, una funzione Y = g(X), dove Y rappresenta la stima di Y . Notiamo che uno stimatore non e` altro che una trasformazione
7.5 Stima lineare a minimo errore quadratico medio
163
della variabile aleatoria X: sebbene la forma funzionale di g possa essere arbitraria, ci

limiteremo a considerare stimatori lineari, per i quali g e` una funzione lineare dei dati X,
e si ha quindi:
Y = a X + b ,
(7.6)
con a, b parametri reali.

Per determinare lespressione esplicita di uno stimatore (vale a dire la forma della
funzione g, o per uno stimatore lineare i coefficienti a e b) occorre introdurre una misura
di qualità dello stimatore stesso, per determinare quanto buona sia la stima Y . Una
misura molto utilizzata, per la sua semplicità matematica, e` lerrore quadratico medio
di stima:
MSE(Y, Y ) E[(Y Y )2 ] .
(7.7)
Il criterio di stima a minimo errore quadratico medio (MMSE) consiste nel determinare lo
stimatore che minimizza lerrore quadratico medio; nel caso di stima lineare, si tratta
semplicemente di determinare i parametri a e b che minimizzano lerrore quadratico
medio. Si ha:
a = XY
Y
,
X
(7.8)
b = Y X XY
Y
.
X
(7.9)
Prova. Si consideri lerrore quadratico medio (7.7): sostituendo lespressione dello stimatore data dalla
(7.6) nella (7.7) si trova:
MSE = E[(Y aX b)2 ] .
Per determinare i valori di a e b che rendono minimo lMSE, si calcolano le derivate parziali dellMSE
rispetto ad a e b e si eguagliano a zero (derivando sotto il segno di media):
MSE =
a
MSE =
b
2E[(Y aX b)X] = 0 ,
2 E[(Y aX b)] = 0 ,
Sviluppando le medie, si ottiene un sistema di due equazioni nelle incognite a e b:

a E(X 2 ) + b E(X)
a E(X) + b
= E(XY )
= E(Y )
che risolto rispetto ad a e b fornisce il risultato (7.8) ed (7.9).
Osserviamo che la media dello stimatore ottimo vale

E(Y ) = a E(X) + b = XY
Y
Y
X + Y X XY
= Y
X
X
164

cioè e` uguale alla media della variabile aleatoria Y da stimare. Uno stimatore che soddisfa una tale proprietà non commette un errore sistematico di stima, e si dice quindi
non polarizzato (in inglese, unbiased).
Passiamo ora a sostituire i valori di a e b appena determinati nella (7.7), per trovare
il valore dellerrore quadratico medio minimo; con facili passaggi algebrici, si ottiene
MSEmin = Y2 [1 2XY ] ,
dove XY e` il coefficiente di correlazione tra le variabili aleatorie X ed Y . Poiche |XY |
1, notiamo che lerrore minimo risulta maggiore o uguale a zero, come e` naturale; inoltre
esso e` minore o uguale alla varianza di Y ; in particolare, possiamo considerare i due casi
limite:
1. se XY = 0, ovvero se le variabili aleatorie X ed Y sono incorrelate, risulta a = 0 e
b = Y nelle (7.8) ed (7.9), per cui lo stimatore diventa Y = Y e lerrore minimo
e` Y2 . In questo caso, la migliore stima lineare di Y e` indipendente dai dati X e
coincide con la sua media Y , mentre lerrore quadratico medio coincide con la
varianza di Y . E` chiaro che in questo caso X non fornisce alcuna indicazione utile
per determinare Y ;
2. se XY = 1, ovvero se le variabili aleatorie X ed Y sono linearmente dipendenti,
allora lerrore quadratico medio minimo e` pari a zero. In questo caso, uno stimatore lineare si adatta perfettamente alla dipendenza lineare posseduta dalle variabili
aleatorie, per cui fornisce risultati assai soddisfacenti.
7.5.1 Principio di ortogonalità

Una formulazione geometrica interessante del problema della stima lineare MMSE si
ottiene supponendo che X ed Y siano a media nulla, ovvero X = Y = 0. In tal
caso, per avere uno stimatore non polarizzato, e` necessario porre b = 0 (si noti che tale
risultato discende anche dalla (7.9) per X = Y = 0) e scegliere quindi uno stimatore
lineare omogeneo:
Y = a X ,
in quanto solo in tal caso risulta in tal caso E(Y ) = a E(X) = 0, qualunque sia il parametro a. Questultimo va determinato in modo da minimizzare lerrore quadratico
medio (7.7).
In effetti, tale problema e` un caso particolare del precedente, con X = Y = 0, per
cui il valore di a e` dato ancora dalla (7.8),
a = XY
Y
.
X
7.5 Stima lineare a minimo errore quadratico medio
Y-Y
=aX
Y
165
Y-Y
=aX
Y
Fig. 7.1. Principio di ortogonalità: lerrore quadratico medio (MSE) rappresenta la norma del
vettore Y Y (a sinistra); al variare di a, il valore minimo dellMSE si ottiene quando il vettore
Y Y e` ortogonale ad X (a destra).
Vogliamo tuttavia reinterpretare tale problema da un punto di vista differente, ed in

particolare vogliamo fornirne una interessante interpretazione geometrica. Osserviamo
che, se X ed Y sono due vettori, lo stimatore Y = a X, al variare di a, sarà un vettore
proporzionale (Fig. 7.1) ad X, cioè allineato ad esso. Lerrore quadratico medio E[(Y
Y )2 ] rappresenta allora la norma al quadrato del vettore differenza Y Y . Con semplici
considerazioni geometriche, e` facile convincersi che, al variare di a, tale norma e` minima
quando il vettore Y Y e` ortogonale ad X. Daltra parte, se consideriamo lespressione
esplicita di tale norma (ovvero dellerrore quadratico medio):
MSE(Y, Y ) = E[(Y Y )2 ] = E[(Y aX)2 ]
e deriviamo rispetto ad a, annullando tale derivata si ottiene:
E[(Y aX)X] = E[(Y Y )X] = 0 ,
che rappresenta proprio la condizione di annullamento del prodotto scalare tra i vettori
Y Y e X, ovvero la condizione di ortogonalità precedentemente menzionata. Tale
risultato, in sintesi, afferma che la stima lineare MMSE e` quella che rende lerrore di
stima Y Y ortogonale ai dati X, e va sotto il nome di principio di ortogonalità.
Per quanto riguarda il valore minimo dellerrore quadratico medio, sfruttando ancora lortogonalità tra Y Y e X, si trova:
MSEmin = E[(Y Y )2 ] = E[(Y Y ) (Y Y )] =
= E[(Y Y )Y ] E[(Y Y )Y ] =
= E[(Y Y )Y ] a E[(Y Y )X] =

= E(Y ) E(Y Y ) =
2
=0
2
Y [1
(7.10)
2XY ] ,
che e` lo stesso valore trovato per il caso b = 0, e per il quale valgono le stesse considerazioni, adesso suscettibili di una chiara interpretazione geometrica. Infatti, se osserviamo
166

la Fig. 7.1 (a destra), in condizioni di ortogonalità risulta, per il teorema di Pitagora,
E(Y 2 ) = E(Y 2 ) + MSEmin ,
e inoltre si ha:
E(Y 2 ) = a2 E(X 2 ) = 2XY Y2 ,
dove abbiamo sostituito lespressione di a data dalla (7.8); in definitiva, si trova proprio
la (7.10).
In conclusione, va osservato che, tra tutti i tipi di stima possibile, la stima lineare e`
raramente ottima, in quanto la dipendenza tra X ed Y non e` generalmente di tipo lineare, ma spesso e` di tipo non lineare. Tuttavia, la stima lineare e` ampiamente considerata
nelle applicazioni, principalmente per la semplicità matematica della sua formulazione
e per linterpretazione geometrica. Degno di nota e` ancora il caso delle variabili aleatorie congiuntamente gaussiane, per le quali si puo` dimostrare limportante risultato
che la stima lineare e` ottima (in senso MMSE) tra tutti i possibili tipi di stima; cio` significa intuitivamente che le variabili aleatorie congiuntamente gaussiane presentano
esclusivamente dipendenze di tipo lineare.
Capitolo 8
8.1
Introduzione
Abbiamo visto nel capitolo 6 come descrivere probabilisticamente una coppia di variabili aleatorie X ed Y . Tuttavia, e` evidente che esistono casi in cui si presenta la necessità
di descrivere congiuntamente piu` di due variabili aleatorie. Ad esempio, un insieme di
misure di tensione effettuate su un circuito elettrico potrebbe essere rappresentato da
una n-pla di variabili aleatorie, in cui X1 rappresenta la tensione nel punto 1, X2 rappresenta la tensione nel punto 2, e cos` via. Allo stesso modo, unanalisi medica volta
a individuare una malattia potrebbe essere modellata come una n-pla di variabili aleatorie, in cui X1 rappresenta il livello di glucosio del sangue, X2 il livello di azoto, e cos`
via. E` necessario allora introdurre gli strumenti matematici per caratterizzare statisticamente n variabili aleatorie, con n > 2. Fortunatamente, vedremo che la maggior parte
dei concetti necessari si ottengono generalizzando semplicemente definizioni e risultati
già ottenuti per il caso di coppie di variabili aleatorie.
In alcuni casi, poi, interessa studiare il comportamento limite o asintotico di n variabili
aleatorie quando si faccia tendere n allinfinito, ottenendo cos` una sequenza di variabili
aleatorie. I principali risultati sono raccolti nei cosiddetti teoremi limite (legge dei grandi
numeri e teorema limite fondamentale o CLT), sulla base dei quali e` tra laltro possibile approfondire il legame tra la teoria assiomatica della probabilità e linterpretazione
frequentista.
8.2
Caratterizzazione statistica di n variabili aleatorie
Sia (, B, P ) uno spazio di probabilità, e siano X1 , X2 , . . . , Xn n variabili aleatorie costruite su tale spazio. Per adoperare una notazione sintetica, possiamo organizzare le n
168

variabili aleatorie in un vettore colonna1
X = [X1 , X2 , . . . , Xn ]T ,
dove con lapice T abbiamo denotato loperazione di trasposizione. Abbiamo costruito in questo modo un vettore di variabili aleatorie, e adopereremo indifferentemente la
terminologia n variabili aleatorie, n-pla di variabili aleatorie, oppure vettore di n
variabili aleatorie.
8.2.1 Funzione di distribuzione cumulativa (CDF)

Per caratterizzare statisticamente le n variabili aleatorie, dobbiamo generalizzare il concetto di CDF congiunta per una coppia di variabili aleatorie al caso di n variabili aleatorie.
Definizione (CDF congiunta di n variabili aleatorie). Date n variabili aleatorie X1 , X2 , . . . , Xn costruite su uno stesso spazio di probabilità (, B, P ), la loro
CDF congiunta e` :
FX1 X2 Xn (x1 , x2 , . . . , xn ) P (X1 x1 , X2 x2 , . . . , Xn xn ) ,
n
dove (x1 , x2 , . . . , xn ) R .
La CDF congiunta e` una funzione reale di n variabili reali, e spesso viene denominata
CDF di ordine n. Per adoperare una notazione sintetica, possiamo utilizzare una notazione vettoriale anche per i valori x1 , x2 , . . . , xn , ponendo x = [x1 , x2 , . . . , xn ], e denotare la CDF congiunta con FX (x). Va notato che, poiche la rappresentazione grafica di
una funzione di n variabili avviene in uno spazio (n + 1)-dimensionale, per n > 2 tale
rappresentazione e` praticamente impossibile.
8.2.2 Funzione densità di probabilità (pdf)

Analogamente al caso di coppie di variabili aleatorie, a partire dalla CDF congiunta si
ottiene la pdf congiunta per derivazione.
Definizione (pdf congiunta di n variabili aleatorie). Date n variabili aleatorie X1 , X2 , . . . , Xn con CDF congiunta FX1 X2 ...Xn (x1 , x2 , . . . , xn ), la loro pdf
congiunta e` :
fX1 X2 Xn (x1 , x2 , . . . , xn )
n
FX1 X2 Xn (x1 , x2 , . . . , xn ) .
x1 x2 xn
In questo capitolo, faremo sovente uso di nozioni elementari di algebra lineare, quali vettori, matrici,
prodotti matrici-vettori, etc; si assume pertanto che il lettore abbia familiarità con tali concetti.
8.2 Caratterizzazione statistica di n variabili aleatorie

Anche in questo caso assumeremo che valga la condizione di Schwartz, in modo che la
derivata mista non dipenda dallordine di integrazione. Inoltre, denoteremo sinteticamente la pdf congiunta con fX (x).
8.2.3 Funzione di distribuzione di probabilità (DF)

Infine, per vettori di variabili aleatorie discrete, possiamo definire la DF congiunta.
Definizione (DF congiunta di n variabili aleatorie). Date n variabili aleatorie
X1 , X2 , . . . , Xn discrete costruite su uno stesso spazio di probabilità (, B, P ),
a valori in X1 , X2 , . . . , Xn , rispettivamente, la loro DF congiunta e` :
pX1 X2 Xn (x1 , x2 , . . . , xn ) P (X1 = x1 , X2 = x2 , . . . , Xn = xn ) ,
dove (x1 , x2 , . . . , xn ) X1 X2 Xn .
Anche per la DF congiunta utilizzeremo spesso la notazione sintetica pX (x).
8.2.4 Proprietà delle distribuzioni congiunte di n variabili aleatorie

Le CDF, pdf e DF di n variabili aleatorie godono di proprietà che sono la naturale generalizzazione delle corrispondenti proprietà valide per il caso n = 2. Senza elencarle tutte in maniera sistematica, limitiamoci a considerare quelle piu` importanti nelle
applicazioni.
Ad esempio, notiamo che a partire dalla pdf congiunta e` possibile ricavare la CDF
congiunta per integrazione, come:
x1 x2
xn
fX1 X2 ...Xn (u1 , u2 , . . . , un ) du1 du2 dun ,

FX1 X2 ...Xn (x1 , x2 , . . . , xn ) =
o equivalentemente, utilizzando la notazione sintetica, come

x1 x2
xn
fX (u) du .
FX (x) =
Poichè, poi, FX1 X2 ...Xn (, , . . . , ) = 1, dalla precedente ricaviamo la condizione di

normalizzazione della pdf:

fX (x) dx = 1 ,
Rn
dove abbiamo utilizzato una notazione sintetica per lintegrale n-plo. Pertanto la pdf ha
volume unitario nello spazio n-dimensionale.
169
170

Linterpretazione della pdf congiunta come densità di probabilità scaturisce dalla seguente relazione:
fX (x) dx = P (x1 < X1 x1 + dx1 , x2 < X2 x2 + dx2 , . . . , xn < Xn xn + dxn ) ,
per cui la pdf congiunta nel punto x rappresenta la probabilità che la n-pla di variabili
aleatorie X1 , X2 , . . . , Xn appartengano ad un rettangolino n-dimensionale di lati infinitesimi centrato su x, divisa per il volume dx1 dx2 dxn del rettangolino. Anche
in questo caso, tale risultato prova implicitamente che fX (x) 0; inoltre, se D e` un
dominio qualsiasi di Rn , si ha:

P (X D) =
fX (x) dx .
D
Ponendo pari a + uno o piu` argomenti della CDF, e` poi possibile ottenere tutte
le statistiche di ordine k < n a partire da quelle di ordine n. Consideriamo, ad esempio, il caso di tre variabili aleatorie X1 , X2 , X3 , caratterizzate dalla loro CDF congiunta
FX1 X2 X3 (x1 , x2 , x3 ). E` facile verificare che si ha, ad esempio:
FX1 X2 (x1 , x2 ) = FX1 X2 X3 (x1 , x2 , +) ,
FX1 (x1 ) = FX1 X2 X3 (x1 , +, +) .
E` possibile procedere analogamente con le pdf, semplicemente integrando rispetto alle
variabili che non interessano. Le relazioni precedenti si scrivono, in termini di pdf,
come:

fX1 X2 X3 (x1 , x2 , x3 ) dx3
fX1 X2 (x1 , x2 ) =

fX1 (x1 ) =
fX1 X2 X3 (x1 , x2 , x3 ) dx2 dx3
Analoghe relazioni valgono per le DF, per le quali, anziche integrare rispetto alle variabili che non interessano, si effettua la somma.
In definitiva, osserviamo che assegnare le CDF, pdf o DF congiunte di ordine n
equivale ad assegnare implicitamente tutte le CDF, pdf e DF congiunte di ordine k < n.
8.3
Trasformazioni di n variabili aleatorie
Generalizzamo adesso i concetti già presentati per il caso di una e due variabili aleatorie, considerando trasformazioni di n variabili aleatorie. Il caso piu` generale e` che
possiamo considerare e` quello in cui, a partire da un vettore di n variabili aleatorie X =
8.3 Trasformazioni di n variabili aleatorie
171
[X1 , X2 , . . . , Xn ]T , si ottiene un vettore di k variabili aleatorie Y = [Y1 , Y2 , . . . , Yk ]T , utilizzando k funzioni g1 , g2 , . . . , gk di n variabili. Tale trasformazione di variabili aleatorie
si esprime esplicitamente come:
Y1 = g1 (X1 , X2 , . . . , Xn )
Y2 = g2 (X1 , X2 , . . . , Xn )
.
.. ..
..
.
.
.
Y = g (X , X , . . . , X )
k
Lobiettivo e` quello di determinare la pdf congiunta di Y a partire dalla pdf congiunta

di X. Possiamo distinguere tre casi: (i) k < n (sistema sottodeterminato); (ii) k > n
(sistema sovradeterminato); (iii) k = n (sistema quadrato). In particolare, vedremo
che nel caso k = n e` possibile fornire una interessante generalizzazione del teorema
fondamentale sulle trasformazioni di variabili aleatorie, che abbiamo già introdotto per
n = 1 (cfr. 4.2.3) ed n = 2 (cfr. 6.7.2).
In realtà, gli altri due casi si possono ricondurre al caso quadrato. Infatti, nel caso k < n, possiamo introdurre n k variabili aleatorie ausiliarie, ad esempio Yk+1 =
Xk+1 , Yk+2 = Xk+2 , . . . , Yn = Xn per ricondurci al caso k = n (quadrando, per cos` dire, il sistema). Una volta determinata la pdf congiunta di Y = [Y1 , Y2 , . . . , Yk , Yk+1 , . . . ,
Yn ], e` possibile ottenere quella di Y = [Y1 , Y2 , . . . , Yk ] semplicemente integrando la pdf
di Y rispetto alle variabili yk+1 , yk+2 , . . . , yn , che non interessano.
Nel caso k > n, un teorema di analisi (Dini) assicura che k n variabili aleatorie
appartenenti a Y , ad esempio Yn+1 , Yn+2 , . . . , Yk possono essere espresse in funzione
delle n rimanenti, siano esse Y1 , Y2 , . . . , Yn . In questo caso, la pdf congiunta del vettore
k-dimensionale Y e` singolare, ovvero e` definita su un sottospazio n-dimensionale di
Rk , e puo` essere espressa in termini della pdf delle sole Y1 , Y2 , . . . , Yn . Tale pdf si puo`
determinare considerando il sottosistema quadrato composto dalle prime n equazioni
(e quindi ci siamo ricondotti al caso k = n anche stavolta).
Resta allora da considerare il caso k = n: come accennato, esso si puo` affrontare
ricorrendo ad una generalizzazione del teorema fondamentale sulle trasformazioni di
Teorema 8.1 (teorema fondamentale sulle trasformazioni di n variabili aleatorie). Sia
X = [X1 , X2 , . . . , Xn ]T un vettore di variabili aleatorie con pdf fX1 X2 Xn (x1 , x2 , . . . , xn ),
e sia Y = [Y1 , Y2 , . . . , Yn ]T un vettore di variabili aleatorie ottenuto per trasformazione
da X, come:
Y1 = g1 (X1 , X2 , . . . , Xn )
Y2 = g2 (X1 , X2 , . . . , Xn )
.
.. ..
..
.
.
.
Y = g (X , X , . . . , X )
n
n
1
2
n
172

Si consideri il sistema di equazioni:
y1 = g1 (x1 , x2 , . . . , xn )
y2 = g2 (x1 , x2 , . . . , xn )
.
.. ..
..
.
.
.
y = g (x , x , . . . , x )
n
n 1
2
n
La pdf congiunta di Y e` data da:
0,
fY1 Y2 Yn (y1 , y2 , . . . , yn ) =
fX X X (xi , xi , . . . , xi )
n
1 2
1
2
n
i
i
i
|det[J (x1 , x2 , . . . , xn ))]|
i
in cui det() denota il determinante, e
J (x1 , x2 , . . . , xn ) =
(8.1)
se il sistema (8.1) non ha

soluzioni;
dove (xi1 , xi2 , . . . , xin ) e` una
soluzione del sistema (8.1);
x1
y2
x1
y1
x2
y2
x2
...
...
y1
xn
y2
xn
yn
x1
yn
x2
...
yn
xn
y1
(y1 , y2 , . . . , yn )
=
(x1 , x2 , . . . , xn ) ...
..
.
..
.
e` la matrice jacobiana della trasformazione.

Come nel caso n = 1 ed n = 2, lapplicazione del teorema richiede che il sistema (8.1)
abbia al piu` una infinità numerabile di soluzioni.
Esempio 8.1 (trasformazione lineare). Consideriamo ad esempio il caso particolarmente
semplice di una trasformazione lineare di variabili aleatorie:
Y1 = a11 X1 + a12 X2 + . . . a1n Xn
Y2 = a21 X1 + a22 X2 + . . . a2n Xn

.. ..
..
. .
.
Y = a X + a X + ...a X
n
n1
n2
nn
Tale trasformazione si puo` esprimere in forma assai compatta utilizzando la notazione

vettoriale:
Y = AX ,
dove Y = [Y1 , Y2 , . . . , Yn ]T ed X = [X1 , X2 , . . . , Xn ]T sono vettori colonna n-dimensionali, e la matrice A e` definita come:
a11 a12 . . . a1n

a21 a22 . . . a2n
A = ..
..
.. .
.
.
.
an1 an2 . . . ann
8.4 Indipendenza per n variabili aleatorie
173
Se assumiamo che det(A) = 0, il sistema numerico y = A x ammetterà, per ogni y Rn ,

una ed una sola soluzione nellincognita x, data da:
x = A1 y ,
dove A1 denota la matrice inversa di A. E` facile, inoltre, verificare che la matrice jacobiana J della trasformazione e` pari proprio ad A, per cui |det(J )| = |det(A)|. Per
il teorema fondamentale, allora, la pdf del vettore Y si puo` esprimere, con sintetica
notazione vettoriale, come:
fY (y) =
1
fX (A1 y) ,
|det(A)|
dove y = [y1 , y2 , . . . , yn ] Rn .
8.4
Indipendenza per n variabili aleatorie
Vogliamo ora estendere il concetto di indipendenza statistica a vettori di n variabili

aleatorie.
Definizione (variabili aleatorie indipendenti). Le variabili aleatorie X1 , X2 ,
. . . , Xn si dicono statisticamente indipendenti se
FX1 X2 Xn (x1 , x2 , . . . , xn ) = FX1 (x1 ) FX2 (x2 ) FXn (xn ) ,
(8.2)
per ogni (x1 , x2 , . . . , xn ) Rn .

Come si vede, lindipendenza equivale anche in questo caso alla fattorizzazione della
CDF congiunta (si confronti con la definizione di indipendenza per coppie di variabili
aleatorie, data nel 6.6). E` chiaro daltronde che la fattorizzazione della CDF congiunta
e` equivalente a quella della pdf congiunta, per cui si ha anche:
fX1 X2 Xn (x1 , x2 , . . . , xn ) = fX1 (x1 ) fX2 (x2 ) fXn (xn ) ,
per ogni (x1 , x2 , . . . , xn ) Rn .
Si puo` osservare, data linterpretazione della CDF, che lindipendenza statistica delle variabili aleatorie X1 , X2 , . . . , Xn equivale allindipendenza degli eventi {X1 x1 },
{X2 x2 }, . . . , {Xn xn }. Tuttavia, nel 2.3.1, abbiamo visto che per specificare lindipendenza di tre o piu` eventi, oltre alla fattorizzazione della probabilità congiunta di
tutti gli eventi, bisogna richiedere anche la fattorizzazione della probabilità congiunta di
un qualunque sottoinsieme di tutti gli eventi. In questo caso, tale fattorizzazione di ordine inferiore, che sarebbe equivalente a richiedere che anche le CDF di ordine k < n si
174

fattorizzino nel prodotto delle CDF marginali, non e` necessaria, in quanto discende necessariamente dalla fattorizzazione della CDF di ordine n: infatti, le statistiche di ordine
k < n sono univocamente determinate dalle statistiche di ordine n. Ad esempio, consideriamo il caso n = 3, per il quale la relazione di indipendenza si scrive esplicitamente
come
FX1 X2 X3 (x1 , x2 , x3 ) = FX1 (x1 ) FX2 (x2 ) FX3 (x3 ) .
Ponendo ad esempio x3 = +, si ha al primo membro FX1 X2 X3 (x1 , x2 , +) = FX1 X2 (x1 , x2 )
ed al secondo FX3 (+) = 1, per cui si trova:
FX1 X2 (x1 , x2 ) = FX1 (x1 ) FX2 (x2 ) ,
ovvero la relazione di indipendenza tra X1 ed X2 . Con analogo ragionamento si puo`
ricavare lindipendenza tra X1 ed X3 e tra X2 ed X3 . Lapparente discrepanza tra tale
definizione di indipendenza e quella fornita nel 2.3.1 sta nel fatto che in realtà la fattorizzazione (8.2), poichè deve valere (x1 , x2 , . . . , xn ) Rn , e` in realtà una condizione
assai piu` forte di quella fornita nel 2.3.1.
Con riferimento alle trasformazioni di variabili aleatorie, analogamente al caso di
due variabili, e` possibile provare che se si considera la trasformazione:
Y1 = g1 (X1 )
Y2 = g2 (X2 )
.. ..
..
. .
.
Y = g (X )
n
n
n
e le variabili aleatorie X1 , X2 , . . . , Xn sono indipendenti, allora sono indipendenti anche
le variabili aleatorie Y1 , Y2 , . . . , Yn . La prova e` semplice e ricalca quella per il caso di due
variabili (cfr. 6.6).
Anche per le variabili aleatorie, cos` come per gli eventi (cfr. 2.3.1), si puo` definire
il concetto di indipendenza a coppie.
Definizione (variabili aleatorie indipendenti a coppie). Le variabili aleatorie
X1 , X2 , . . . , Xn si dicono indipendenti a coppie se
FXi Xj (xi , xj ) = FXi (xi ) FXj (xj ) ,
i = j
(xi , xj ) R2 .
E` evidente che lindipendenza implica sempre lindipendenza a coppie, mentre il viceversa non e` vero. E` possibile anche definire lindipendenza tra gruppi di variabili
aleatorie appartenenti ad un vettore X.
8.5 Momenti di n variabili aleatorie
175
Definizione (variabili aleatorie statisticamente indipendenti a gruppi).

Le variabili aleatorie X1 , X2 , . . . , Xk si dicono indipendenti dalle variabili
aleatorie Xk+1 , Xk+2 , . . . , Xn se:
FX1 X2 Xn (x1 , x2 , . . . , xn ) =
= FX1 X2 Xk (x1 , x2 , . . . , xk ) FXk+1 Xk+2 Xn (xk+1 , xk+2 , . . . , xn ) ,
(8.3)
per ogni (x1 , x2 , . . . , xn ) Rn .

Infine, un concetto che spesso ricorre insieme a quello di variabili aleatorie statisticamente indipendenti, ma che non ha niente a che vedere con lindipendenza, e` quello di
variabili aleatorie identicamente distribuite .
Definizione (variabili aleatorie identicamente distribuite). Le variabili aleatorie X1 , X2 , . . . , Xn si dicono identicamente distribuite se
FXi (x) = F (x) ,
i {1, 2, . . . , n} .
In altri termini, variabili aleatorie identicamente distribuite sono caratterizzate dallavere la stessa CDF del primo ordine (ad esempio, sono tutte gaussiane con la stessa media
e la stessa varianza). Spesso si considerano n variabili aleatorie che sono sia indipendenti sia identicamente distribuite; in tal caso si parla di variabili aleatorie indipendenti ed
identicamente distribuite (iid). Si noti che per caratterizzare completamente n variabili iid
e` sufficiente assegnare la CDF del primo ordine F (x), che e` la stessa per tutte le variabili.
Infatti, data lindipendenza, qualsiasi CDF di ordine k > 1 si ottiene moltiplicando tra
loro k CDF del primo ordine.
8.5
Momenti di n variabili aleatorie
Il punto di partenza per definire i momenti di n variabili aleatorie e` introdurre la generalizzazione del teorema fondamentale della media.
Teorema 8.2 (teorema fondamentale della media per n variabili aleatorie). Sia Z =
g(X1 , X2 , . . . , Xn ) una trasformazione delle variabili aleatorie X1 , X2 , . . . , Xn aventi pdf
congiunta fX1 X2 Xn (x1 , x2 , . . . , xn ); si ha:
E(Z) = E[g(X1 , X2 , . . . , Xn )] =

=
g(x1 , x2 , . . . , xn ) fX1 X2 Xn (x1 , x2 , . . . , xn ) dx1 dx2 dxn ,
(8.4)
176

Notiamo che con notazione vettoriale la (8.4) si scrive molto piu` concisamente come:

E(Z) = E[g(X)] =
g(x)fX (x) dx .
Rn
Ovviamente anche in questo caso la media statistica e` un operatore lineare. Infatti,

siano gk (k = 1, 2, . . . , n) n arbitrarie funzioni di n variabili, e siano ak (k = 1, 2, . . . , n) n
costanti reali. Si ha:

n
n

ak gk (X) =
ak E[gk (X)] ,
E
k=1
k=1
e scegliendo g1 (X) = X1 , g2 (X) = X2 , . . . , gn (X) = Xn , si ha:

n
n

E
ak Xk =
ak E[Xk ] ,
k=1
k=1
e quindi la media statistica della combinazione lineare di n variabili aleatorie coincide

con la combinazione lineare delle medie statistiche.
Esempio 8.2 (media di una variabile aleatoria binomiale). Nel 5.2 abbiamo riportato, senza dimostrarlo, il risultato che la media di una variabile aleatoria X B(n, p) e` pari
a E(X) = n p. A questo punto, possiamo dimostrarlo semplicemente, riconoscendo
che una variabile aleatoria binomiale si puo` interpretare come la somma di n variabili
aleatorie bernoulliane, di parametro p, statisticamente indipendenti, cioè:
X=
n
Xi ,
i=1
con Xi Bern(p). Infatti, per contare il numero di successi in n prove, e` sufficiente

sommare i valori ottenuti associando ad un successo il valore 1 e ad un insuccesso il
valore 0. Poichè allora E(Xi ) = p, applicando la linearità della media si ha:
E(X) =
n
E(Xi ) = n p ,
i=1
come avevamo annunciato nel 5.2.
8.5.1 Vettore delle medie

Se abbiamo un vettore di variabili aleatorie X = [X1 , X2 , . . . , Xn ]T , possiamo calcolare
le medie delle sue componenti, date da

Xi = E(Xi )
xi fXi (xi ) dxi ,
177
per i = 1, 2, . . . , n, e raccoglierle in un vettore colonna X [X1 , X2 , . . . , Xn ]T . Tale vettore prende il nome di vettore delle medie, e formalmente possiamo scrivere X =
E(X), dove per media di un vettore intendiamo loperatore che calcola la media di ciascuna componente del vettore, restituendo un vettore di uguale dimensione. Notiamo
che, per calcolare il vettore delle medie, non e` necessario conoscere la pdf di ordine n,
ma e` sufficiente conoscere la pdf del primo ordine di ciascuna componente del vettore.
Questo e` in accordo con il fatto che la media e` un momento del primo ordine.
8.5.2 Matrice di correlazione

Dato un vettore di variabili aleatorie X = [X1 , X2 , . . . , Xn ]T , possiamo calcolare le
correlazioni tra le sue componenti prese due a due, date da

Corr(Xi , Xj ) = E(Xi Xj )
xi xj fXi Xj (xi , xj ) dxi dxj ,
per i, j = 1, 2, . . . , n, e raccoglierle in una matrice RX quadrata, di dimensioni n n,

che prende il nome di matrice di correlazione del vettore X o delle n variabili aleatorie
X1 , X2 , . . . , Xn . Notiamo che per calcolare tale matrice non e` necessario conoscere la
pdf di ordine n, ma e` sufficiente conoscere la pdf del secondo ordine di qualunque
coppia di componenti del vettore, coerentemente con il fatto che la correlazione e` un
momento del secondo ordine.
Applicando semplici risultati di algebra lineare, e` facile verificare che la matrice di
correlazione si puo` scrivere nella forma particolarmente compatta
R = E(X X T ) ,
(8.5)
dove X X T e` il prodotto2 di un vettore colonna n 1 per un vettore riga 1 n, il cui

risultato e` una matrice n n i cui elementi sono (è facile verificarlo) proprio Xi Xj , e per
media di una matrice intendiamo loperatore che calcola la media di ciascun elemento
della matrice, restituendo una matrice di uguali dimensioni.
Osserviamo che, per i = j, risulta Corr(Xi , Xi ) = E(Xi2 ), cioè la correlazione si riduce
al valore quadratico medio; pertanto, sulla diagonale principale di RX sono presenti
i valori quadratici medi E(X12 ), E(X22 ), . . . , E(Xn2 ). Notiamo poi che la matrice RX e`
simmetrica, cioè lelemento di posto (i, j) e` uguale allelemento di posto (j, i), come si
ricava facilmente dalla simmetria della correlazione:
Corr(Xi , Xj ) = E(Xi Xj ) = E(Xj Xi ) = Corr(Xj , Xi ) .
Il prodotto x y T , il cui risultato e` una matrice, viene chiamato talvolta prodotto esterno tra i vettori
(colonna) x e y, e non va confuso con il prodotto scalare o prodotto interno xT y, il cui risultato e` uno scalare.
2
178

Osserviamo infine che una matrice simmetrica coincide con la sua trasposta, cioè si ha
RX = RTX ; per verificare direttamente tale relazione, basta considerare la definizione
(8.5) e applicare semplici relazioni di algebra lineare:
RTX = E[(X X T )T ] = E[(X T )T X T ] = E(X X T ) = RX .
Unimportante proprietà della matrice di correlazione si trova considerando la combinazione lineare Y , con coefficienti arbitrari, delle n variabili aleatorie:
Y =
n
ak Xk = aT X ,
(8.6)
k=1
che abbiamo interpretato come prodotto scalare, introducendo il vettore colonna a =

[a1 , a2 , . . . , an ]T Rn . Calcoliamo il valor quadratico medio di Y adoperando semplici
relazioni di algebra lineare; si ha:
E(Y 2 ) = E[(aT X)2 ] = E[aT X(aT X)T ] = E(aT XX T a) = aT E(XX T ) a = aT RX a .
Poichè evidentemente E(Y 2 ) 0, si ha che
aT RX a 0,
a Rn ,
che si esprime dicendo che la matrice RX e` semidefinita positiva. Se vale la disuguaglianza stretta, ovvero se aT RX a > 0, a Rn {0}, allora la matrice RX e` definita positiva.
Si noti che la differenza tra i due casi e` la seguente: se la matrice e` solo semidefinita
positiva, allora esiste un valore di a = 0 tale che la forma quadratica aT RX a = 0. Poichè
tale forma quadratica coincide con il valor quadratico medio della combinazione lineare (8.6), allora una condizione sufficiente affinchè cio` accada e` che le variabili aleatorie
siano linearmente dipendenti, cioè che esista un vettore a di coefficienti non tutti nulli tali
che:
Y = a1 X1 + a2 X2 + . . . + an Xn = 0 .
In questo caso, allora, almeno una variabile aleatoria puo` essere espressa come combi
nazione lineare delle restanti. Viceversa, se risulta E[( nk=1 ak Xk )2 ] > 0 per ogni a = 0,
le variabili si diranno linearmente indipendenti, e la loro matrice di correlazione sarà definita positiva. Si puo` dimostrare che una matrice definita positiva e` di rango pieno, e
quindi e` invertibile, mentre una matrice semidefinita positiva non ha tale proprietà.
8.5.3 Matrice di covarianza

Cos` come la matrice di correlazione raccoglie le correlazioni tra tutte le possibili coppie di variabili aleatorie, e` possibile definire una matrice di covarianza C X quadrata, di
179
dimensioni n n, il cui elemento di posto (i, j) rappresenta la covarianza tra Xi ed Xj :

Cov(Xi , Xj ) = E[(X
i Xi )(Xj Xj )]
(xi Xi )(xj Xj ) fXi Xj (xi , xj ) dxi dxj ,
per i, j = 1, 2, . . . , n. Notiamo che la matrice C X si puo` scrivere con notazione compatta

come:
C X = E[(X X )(X X )T ] .
(8.7)
Poichè, per i = j, la covarianza si riduce alla varianza, sulla diagonale principale di

C X sono presenti le varianze 12 , 22 , . . . , n2 . Inoltre, poichè la covarianza, come la correlazione, e` simmetrica, allora la matrice C X e` anchessa simmetrica, ovvero C TX =
CX.
In effetti, si puo` notare che la matrice di correlazione e quella di covarianza condividono numerose proprietà; cio` consegue dal fatto che la matrice di covarianza di X si
puo` riguardare come la matrice di correlazione del vettore centrato Y = X X , ovvero:
RY = E(Y Y T ) = E[(X X )(X X )T ] = C X .
Per questo motivo, la matrice di covarianza possiede tutte le proprietà delle matrice di
correlazione, ed in particolare e` semidefinita positiva.
Infine, cos` come vale la seguente relazione tra la covarianza e la correlazione di una
coppia di variabili aleatorie (cfr. capitolo 7)
Cov(Xi , Xj ) = Corr(Xi , Xj ) Xi Xj ,
allora sussiste la seguente relazione tra le matrici di covarianza e di correlazione:
C X = RX X TX .
Tale relazione si puo` anche ricavare sviluppando la definizione (8.7) ed applicando
semplici risultati di algebra lineare.
8.5.4 Incorrelazione
Concludiamo questa sezione estendendo il concetto di incorrelazione ad un vettore di
Definizione (incorrelazione). Le variabili aleatorie X1 , X2 , . . . , Xn si dicono
incorrelate se Cov(Xi , Xj ) = 0, i = j.
180

Notiamo che la condizione di incorrelazione e` equivalente al fatto che la matrice di covarianza C X e` diagonale. Notiamo altres` che lindipendenza tra le variabili aleatorie
X1 , X2 , . . . , Xn implica lincorrelazione; in realtà e` sufficiente, in luogo dellindipendenza, lindipendenza a coppie, basta cioè che si fattorizzi la pdf congiunta (del secondo
ordine) di qualunque coppia di variabili aleatorie. Viceversa, lincorrelazione non implica lindipendenza, e neppure lindipendenza a coppie, salvo nel caso di vettori di
variabili aleatorie congiuntamente gaussiane, come vedremo nel seguito.
Unaltra implicazione della proprietà di incorrelazione e` che, per variabili aleatorie
X1 , X2 , . . . , Xn incorrelate, risulta:
, n
n

Var
Xi =
Var(Xi ) .
i=1
i=1
Prova. Sviluppando la definizione di varianza, si ha:

, n
2
n
n
n
n
n

Var
Xi = E
(Xi Xi )
E[(Xi Xi )(Xj Xj )] =
Cov(Xi , Xj ) .
=
i=1
i=1
i=1 j=1
i=1 j=1
Se le variabili aleatorie sono incorrelate, allora Cov(Xi , Xj ) = 0 per i = j, mentre Cov(Xi , Xi ) = Var(Xi );
in tal caso, la doppia sommatoria si riduce ad una singola sommatoria, per cui si ha lasserto.
Esempio 8.3 (varianza di una variabile aleatoria binomiale). Come applicazione del precedente risultato, osserviamo che la varianza di una variabile aleatoria X B(n, p) e` pari
a Var(X) = n p q, dove q = 1 p. Infatti, una variabile aleatoria binomiale si puo` esprimere (cfr. esempio 8.2) come somma di n variabili aleatorie bernoulliane Xi indipendenti: poichè lindipendenza implica lincorrelazione, tali variabili aleatorie bernoulliane saranno anche incorrelate, e quindi, poiche la varianza di una variabile aleatoria
Xi Bern(p) e` pari a Var(Xi ) = p q, si ha:
, n
n

Var(X) = Var
Xi =
Var(Xi ) = n p q .
i=1
i=1

Esempio 8.4 (n variabili aleatorie congiuntamente gaussiane). Un esempio particolarmente interessante di n variabili aleatorie e` la generalizzazione del concetto di coppie di
variabili aleatorie congiuntamente gaussiane al caso n-dimensionale. Le variabili aleatorie X = [X1 , X2 , . . . , Xn ]T si diranno congiuntamente gaussiane se la loro pdf congiunta
ammette la seguente espressione:

1
1
1
T
fX (x) =
exp (x X ) C X (x X ) ,
(8.8)
(2)n/2 det(C X )1/2
2
181
dove C X e` la matrice di covarianza di X e X e` il vettore delle medie di X. Notiamo

che, affinche la (8.8) abbia significato, occorre che: (i) il determinante della matrice di covarianza C X , del quale si calcola la radice, sia non negativo; cio` e` garantito dalla natura
semidefinita positiva della matrice di covarianza; (ii) linversa della matrice di covarianza esista; cio` e` garantito se la matrice di covarianza e` definita positiva, il che non e` vero
sempre, ma solo se le variabili aleatorie X1 , X2 , . . . , Xn sono linearmente indipendenti,
ipotesi che assumeremo vera nel seguito.
Possiamo osservare che la definizione (8.8) e` consistente con i risultati già noti per
il caso n = 1 ed n = 2. Infatti, per n = 1, possiamo porre X = X, X = X , C X =
2
2
2
, e quindi C 1
E[(X X )2 ] = X
X = 1/X e det(C X ) = X , per cui la (8.8) si riduce a:
fX (x) =
X 2
1
2 2
X
(xX )2
Per n = 2, possiamo porre X = [X, Y ]T , X = [X , Y ]T , mentre la matrice di covarianza e` una matrice 2 2, data da

2
X
Cov(X, X) Cov(X, Y )
X Y
,
CX =
=
X Y
Y2
Cov(Y, X) Cov(Y, Y )
per cui la sua inversa si calcola facilmente come:

1
Y2
1
CX =
det(C X ) X Y
X Y
2
X

,
2 2
dove det(C X ) = X
Y (12 ). Sostituendo lespressione di C X , dellinversa e del determinante nella (8.8), si ottiene una pdf bidimensionale di tipo gaussiano, come espressa
dalla (6.5).
Piu` in generale, si puo` mostrare che se n variabili aleatorie sono congiuntamente
gaussiane, allora qualsiasi sottoinsieme composto da k < n tra queste variabili aleatorie
sono ancora congiuntamente gaussiane. In particolare, X1 e` marginalmente gaussiana, di
parametri X1 e X1 , ed analogamente per X2 , X3 , . . . , Xn . Notiamo che il viceversa non
e` vero: n variabili aleatorie marginalmente gaussiane non sono necessariamente anche
congiuntamente gaussiane, salvo nel caso in cui siano statisticamente indipendenti.
Unaltra importante proprietà delle variabili aleatorie congiuntamente gaussiane e`
la seguente: se n variabili aleatorie congiuntamente gaussiane sono incorrelate, allora
esse sono statisticamente indipendenti. Questo e` un risultato che non vale in generale,
ma solo nel caso gaussiano; infatti lindipendenza in generale e` una proprietà piu` forte
dellincorrelazione, nel senso che lindipendenza implica lincorrelazione, ma non vale
il viceversa.
Prova. Se le variabili aleatorie X1 , X2 , . . . , Xn sono incorrelate, la loro matrice di covarianza risulta

2
2
2
, X
, . . . , X
). In tal caso, linversa e` ancora diagonale:
diagonale, ovvero C X = diag(X
1
2
n
2
2
2
C 1
X = diag(1/X1 , 1/X2 , . . . , 1/Xn ) ,
182

ed il determinante e` il prodotto dei valori della diagonale:
2
2
2
X
X
det(C X ) = X
1
2
n
per cui la (8.8) si semplifica, riducendosi a:

n
n

1
1
1
1 (x Xi )2
2
1
exp 2 (x Xi ) ,
exp
=
fX (x) =
n
2
2 i=1
X
2Xi
(2)n/2 i=1 Xi
2
i
i=1 Xi
cioè al prodotto delle pdf marginali, per cui le X1 , X2 , . . . , Xn sono indipendenti.
Probabilmente la proprietà piu` importante delle variabili aleatorie congiuntamente gaussiane e` la chiusura rispetto alle trasformazioni lineari, nel senso che una trasformazione
lineare trasforma vettori gaussiani in vettori gaussiani. Sia X un vettore gaussiano, e
consideriamo la trasformazione lineare (non omogenea)
Y = AX + b ,
dove A e` una matrice quadrata nn, invertibile, e b e` un vettore colonna n-dimensionale.
Il calcolo della pdf di Y si ottiene facilmente applicando il teorema fondamentale sulle
trasformazioni (si noti che questa e` una generalizzazione dellesempio 8.1). La soluzione
del sistema numerico y = Ax + b e` unica, ed e` data da:
x = A1 (y b) ,
mentre la matrice jacobiana J della trasformazione e` pari ad A, per cui la pdf del vettore
Y si scrive come:
fY (y) =
1
fX [A1 (y b)] .
|det(A)|
Sostituendo lespressione di fX (x) data dalla (8.8), e tenendo conto che

x X = A1 (y b) X = A1 (y b AX ) ,
si trova:
fY (Y ) =
(2)n/2 det(C X )1/2 |det(A)|

1
1 T
1 1
T
exp (y b A X ) (A ) C X A (y b A X ) ,
2
(8.9)
che si riconosce essere la pdf di un vettore di variabili aleatorie gaussiane di media

Y = A X + b e con matrice di covarianza C Y = A C X AT .
8.6
183
Teoremi limite e convergenza di una sequenza di variabili aleatorie
Concludiamo il capitolo introducendo due fondamentali teoremi, denominati teoremi

limite perchè descrivono il comportamento al limite (per n ) di una sequenza di
variabili aleatorie X1 , X2 , . . . , Xn . I due teoremi sono la legge dei grandi numeri (nella forma debole e forte) ed il teorema limite fondamentale. Vedremo che tali teoremi definiscono
varie forme di convergenza associate alla sequenza di variabili aleatorie X1 , X2 , . . . , Xn .
8.6.1 Legge dei grandi numeri

Teorema 8.3 (legge debole dei grandi numeri). Siano X1 , X2 , . . . , Xn variabili aleatorie
indipendenti, aventi la stessa media E(Xk ) = e la stessa varianza Var(Xk ) = 2 < ,
e si consideri la variabile aleatoria
1
Xk .
n
n k=1
n
Si ha:
n | < ) = 1 ,
lim P (|
> 0 .
(8.10)
Prova. Iniziamo col calcolare media e varianza di

n . Per la media, utilizzando la linearità, si ha:
1
1
E(Xk ) = n = ;
n
n
n
E(
n ) =
k=1
inoltre, sfruttando le proprietà della varianza e lipotesi di indipendenza (che implica lincorrelazione), si
ha:
Var(
n ) =
n
1
1
2
2
.
Var(X
)
=
n
=
k
n2
n2
n
k=1
A questo punto il teorema e` una conseguenza diretta della disuguaglianza di Chebishev:

P (|
n | < ) 1
Var(
n )
2
=
1
2
n 2
Al tendere di n si ha P (|
n | < ) 1 e quindi necessariamente P (|
n | < ) = 1.
Dal punto di vista matematico, il teorema3 afferma in sostanza che la probabilità di avere
n converge
n prossimo a piacere a tende ad 1 al tendere di n , e pertanto che

a per n . La convergenza definita dalla (8.10) viene chiamata convergenza in
3
Il teorema e` stato enunciato e dimostrato per la prima volta dal matematico svizzero J. Bernoulli
(16541705) nel trattato Ars Conjectandi.
184

probabilità; la legge dei grandi numeri si dice debole perchè la convergenza in probabilità
e` una forma debole di convergenza, vale a dire che non sono richieste condizioni molto
stringenti. Notiamo inoltre che lassunzione di indipendenza tra le variabili aleatorie
X1 , X2 , . . . , Xn non e` in realtà richiesta per la dimostrazione del teorema, in quanto e`
sufficiente lincorrelazione.
Dobbiamo ora dare una interpretazione intuitiva della legge dei grandi numeri. Osserviamo che la quantità
n rappresenta la media aritmetica delle variabili aleatorie
X1 , X2 , . . . , Xn . Se interpretiamo X1 , X2 , . . . , Xn , anziche come variabili aleatorie, come
valori osservati, allora la
n rappresenta la media empirica delle osservazioni. Nellipotesi
che le osservazioni siano ripetute nelle medesime condizioni, si osserva sperimentalmente che la media empirica, al divergere del numero delle osservazioni, presenta fluttuazioni sempre meno marcate, convergendo ad un valore costante. La legge dei grandi
numeri afferma, in sostanza, che tale valore costante e` la media delle variabili aleatorie
X1 , X2 , . . . , Xn associate alle osservazioni.
Un altra interpretazione della legge dei grandi numeri consiste nel riguardare
n
come uno stimatore della media statistica delle variabili aleatorie. Il fatto che E(
n ) =
si esprime dicendo che lo stimatore e` non polarizzato, ovvero che non si commette un
errore sistematico di stima, almeno in media. E` desiderabile che uno stimatore sia non
polarizzato, ma evidentemente questa condizione da sola non caratterizza la bontà dello
stimatore. Infatti, un buono stimatore dovrà presentare una varianza piccola, e tendente
a zero al divergere di n; tale proprietà e` chiamata consistenza. Notiamo che la legge
debole dei grandi numeri esprime proprio il fatto che lo stimatore
n e` consistente, in
quanto la sua varianza e` inversamente proporzionale ad n. Possiamo pensare ad uno
` per
stimatore consistente e non polarizzato come ad una quantità aleatoria che pero,
n , presenta una pdf sempre piu` stretta centrata intorno alla media, per cui tende a
diventare una quantità deterministica.
Notiamo infine che la condizione di consistenza si puo` esprimere esplicitamente
come segue:
n ) = lim E[(
n )2 ] = 0 ,
lim Var(
per cui equivale alla convergenza in media quadratica di

n a . Utilizzando la disuguaglianza di Chebishev, come si e` fatto nella dimostrazione della legge debole dei grandi numeri, si prova facilmente che la convergenza in media quadratica implica quella
in probabilità, il che giustifica anche il motivo per cui la convergenza in probabilità e`
ritenuta una forma debole di convergenza.
E` possibile dimostrare che
n converge a in un senso piu` forte di quello espresso
dalla legge debole dei grandi numeri. Tale risultato e` stato dimostrato dal matematico
francese E. Borel (1871-1956) e prende il nome di legge forte dei grandi numeri.
185
Teorema 8.4 (legge forte dei grandi numeri). Siano X1 , X2 , . . . , Xn variabili aleatorie indipendenti, aventi la stessa media E(Xk ) = e la stessa varianza Var(Xk ) = 2 < , e
si consideri la variabile aleatoria
1
Xk .
n
n k=1
n
Si ha:

P

lim |
n | < = 1 ,
> 0 .
(8.11)
La tesi (8.11) della legge forte dei grandi numeri (per una dimostrazione si veda ad
esempio [1]) sembra quasi identica a quella della legge debole, ma fondamentale e` lo
scambio tra loperazione di limite e la probabilità (si confrontino la (8.10) e la (8.11)) La
convergenza definita dalla (8.11) e` un tipo di convergenza piu` forte della convergenza
in media quadratica o in probabilità, e prende il nome di convergenza con probabilità 1 o
convergenza quasi certa. E` altres` interessante notare che la legge forte dei grandi numeri
vale nelle stesse ipotesi della legge debole.
Le leggi dei grandi numeri (sia la versione forte che quella debole) descrivono il
comportamento della media aritmetica di n variabili aleatorie al divergere di n. E` tuttavia semplice verificare che tali leggi possono applicarsi anche per dimostrare che la
frequenza di successo di un evento A in n prove indipendenti e ripetute sotto identiche
condizioni tende alla probabilità p = p(A) dellevento al divergere di n (si noti che questo
problema e` esattamente quello delle prove ripetute, affrontato nel 2.4.2). Per mostrare
` e` sufficiente associare, ad ogni ripetizione dellesperimento, la variabile aleatoria
cio,
indicatrice dellevento A, definita come:

1, se A si verifica nella k-esima ripetizione;
Xk =
0, altrimenti.
E` chiaro che le variabili aleatorie cos` definite sono Xk Bern(p), e inoltre sono iid. Si
ha, per le proprietà delle variabili aleatorie bernoulliane:
E(Xk ) = p ,
Var(Xk ) = p q .
Osserviamo che in questo caso la media aritmetica delle variabili aleatorie X1 , X2 , . . . , Xn ,
ovvero
1
Xk
pn =
n k=1
n
186

rappresenta proprio la frequenza di successo dellevento A nelle n prove. Notiamo, poi,
che:
(8.12)
E(
pn ) = p ,
pq
;
Var(
pn ) =
n
(8.13)
per cui possiamo affermare che pn e` uno stimatore non polarizzato e consistente della
probabilità p.
Poichè ci troviamo esattamente nelle ipotesi delle leggi dei grandi numeri, possiamo
affermare che pn tende a p, al divergere di n, sia in probabilità (legge debole) che con probabilità 1 (legge forte). Questo risultato e` di grande importanza, in quanto costituisce il
legame tra la teoria assiomatica della probabilità e linterpretazione frequentista.
Esempio 8.5. Unapplicazione estremamente importante della legge dei grandi numeri e` la seguente. Supponiamo di voler stimare la probabilità p con una certa affidabilità:
sappiamo che per n laffidabilità puo` essere migliorata a piacere, ma vogliamo
avere unindicazione su quale devessere il valore effettivo di n per avere un determinato livello di affidabilità. Come misura di affidabilità potremmo prendere la varianza
(8.13) dello stimatore pn ; tuttavia notiamo che una misura assoluta non ha molto senso, mentre e` piu` significativo considerare una misura relativa, ottenuta normalizzando
la varianza al valore da stimare. Piu` precisamente, poiche la varianza e` un momento
quadratico, e` opportuno normalizzare la sua radice (la deviazione standard) alla media
dello stimatore, in modo da avere due quantità dimensionalmente omogenee. Si ottiene
cos` la seguente misura di qualità, denominata coefficiente di variazione di pn :

Var(
pn )
=
.
E(
pn )
Sostituendo i valori, si trova:
=
pq
n

=
q
=
np
1p
.
np
Un caso tipico e` quello in cui levento A e` poco probabile, ovvero p 1, per cui
possiamo approssimare nella precedente 1 p 1 e scrivere:
1
.
np
Se allora imponiamo che il coefficiente di variazione sia 0.1, che corrisponde ad un
errore relativo del 10%, troviamo:
n=
100
,
p
(8.14)
187
cioè il numero di prove deve eccedere di due ordini di grandezza linverso della probabilità da stimare. Ad esempio, se p = 102 , allora n = 104 , e cos` via.
Un problema che puo` sorgere in pratica e` il seguente: poichè non conosciamo in
anticipo p, come facciamo a determinare a priori il numero di prove da effettuare? Osserviamo che se effettuiamo n prove, e levento A si verifica k volte, allora pn = nk .
Sostituendo pn in luogo di p nella (8.14), troviamo k = 100. Questo significa che per
avere laffidabilità desiderata levento A si deve verificare almeno 100 volte. Pertanto,
sebbene non sappiamo calcolare a priori il numero di prove da effettuare, abbiamo una
condizione di arresto del nostro algoritmo: ripetere lesperimento finche levento A
non si e` verificato 100 volte.
8.6.2 Teorema limite fondamentale

Le legge dei grandi numeri, sia nella versione forte che in quella debole, afferma che
la media aritmetica
n converge a quella statistica al crescere di n. Abbiamo visto,
inoltre, che essa puo` essere applicata per dimostrare che la frequenza di successo pn
converge alla probabilità p al crescere di n. Limportanza, teorica ed applicativa, di
tale risultato e` enorme, come abbiamo discusso nel precedente paragrafo; inoltre, conoscendo la varianza di
n , ed applicando la disuguaglianza di Chebishev, possiamo
maggiorare la probabilità che
n si discosti arbitrariamente da , in quanto si ha:
P (|
n | )
Var(
n )
2
=
.
2
n 2
(8.15)
Tuttavia nel 5.5 abbiamo verificato che la disuguaglianza di Chebishev fornisce risultati anche assai lontani dal vero, cioè non e` una disuguaglianza stretta. Per una valutazione piu` accurata della probabilità (8.15), allora, bisogna necessariamente conoscere
la pdf di
n , eventualmente per valori elevati di n. La determinazione di tale pdf e`
loggetto proprio dal teorema limite fondamentale,4 che fornisce un risultato per certi versi
sorprendente: la pdf di
n , per n , tende a diventare gaussiana, indipendentemente dalle pdf delle variabili aleatorie X1 , X2 , . . . , Xn . Cio` giustifica lenfasi che abbiamo
dato alle variabili aleatorie gaussiane durante tutta la nostra trattazione.
Teorema 8.5 (teorema limite fondamentale). Siano X1 , X2 , . . . , Xn variabili aleatorie indipendenti, aventi la stessa media E(Xk ) = e la stessa varianza Var(Xk ) = 2 < , e
si consideri la variabile aleatoria
n
1
n
Xk
n k=1
4
In inglese, tale teorema viene denominato Central Limit Theorem (CLT), che spesso viene tradotto
come teorema del limite centrale. Tale terminologia e` quella adottata in quasi tutti i testi italiani di
probabilità e statistica.
188

e la sua versione normalizzata (a media nulla e varianza unitaria)
n )
n E(
.
Zn =
Var(
n )
Detta FZn (x) la CDF di Zn , si ha:
1
lim FZn (x) = G(x) =
n
2
u2
2
du .
ovvero, per n , Zn ha la CDF di una variabile aleatoria Z N(0, 1) (normale

standard).
Dal punto di vista matematico, notiamo che anche il teorema limite fondamentale esprime una forma di convergenza della sequenza Zn alla variabile aleatoria Z N(0, 1); poichè tale convergenza e` in realtà una convergenza delle rispettive CDF, viene chiamata
convergenza in distribuzione, e si puo` provare che e` un tipo di convergenza debole.5
Dal punto di vista pratico, sebbene enunciato con riferimento alla media aritmetica di n variabili aleatorie, il teorema limite fondamentale stabilisce in pratica che la
somma di un gran numero di variabili aleatorie indipendenti tende ad assumere la distribuzione gaussiana. Si noti che il teorema si puo` generalizzare anche al caso in cui
le variabili aleatorie non abbiano tutte la stessa media e la stessa varianza, mantenendo
sempre lassunzione di indipendenza. Ad esempio, se le variabili aleatorie indipendenti
X1 , X2 , . . . , Xn hanno medie E(Xk ) = k e varianze Var(Xk ) = k2 < , e consideriamo

la somma Sn = nk=1 Xk , che ha media E(Sn ) = nk=1 k e varianza Var(Sn ) = nk=1 k2 ,
la versione normalizzata di Sn , sia essa
Sn E(Sn )
Zn =
,
Var(Sn )
tende ad assumere una distribuzione gaussiana standard, cioè Zn Z N (0, 1). Per
n sufficientemente grande, notiamo che questo equivale a dire che Sn ha approssimativamente una distribuzione gaussiana con media E(Sn ) e varianza Var(Sn ), e questo
risultato ha una grossa rilevanza applicativa nei calcoli di probabilità riguardanti Sn ,
in quanto consente di sostituire alla vera CDF di Sn una CDF gaussiana con media e
varianza pari a quelli di Sn .
Esempio 8.6. Il teorema limite fondamentale si puo` applicare per ricavare la distribuzione limite della somma Sn di n variabili aleatorie iid bernoulliane, cioè Xk Bern(p).
Notiamo che e` possibile calcolare esattamente tale distribuzione per ogni valore di n, in
5
Notiamo anche che la formulazione precedente del teorema e` una formulazione integrale, perchè
riguarda la CDF che si puo` esprimere come un integrale; vedremo successivamente poi che e` possibile
darne anche una formulazione locale, con riferimento cioè alla pdf.
189
quanto risulta Sn B(n, p), cioè e` una variabile aleatoria binomiale. Poichè E(Xk ) = p
e Var(Xk ) = p q, allora E(Sn ) = n p e Var(Sn ) = n p q, per cui la variabile aleatoria
normalizzata si scrive:
Sn n p
.
Zn =
npq
Se allora vogliamo calcolare la probabilità che k1 Sn k2 , per n sufficientemente
grande, possiamo scrivere:

Sn n p
k2 n p
k1 n p

=
P (k1 Sn k2 ) = P
n
p
q
n
p
q
n
p
q

k2 n p
k1 n p
=G
G
,
npq
npq
cioè ritroviamo il teorema di de Moivre-Laplace (cfr. 2.4.3) nella forma integrale, che
adesso possiamo riguardare come una semplice applicazione del teorema limite fondamentale alla somma di n variabili aleatorie bernoulliane.

Come accennato precedentemente, e` possibile anche fornire una formulazione locale del
teorema limite fondamentale. Nelle stesse ipotesi già enunciate per la formulazione
integrale, con in piu` lassunzione che le variabili aleatorie X1 , X2 , . . . , Xn siano continue,
si puo` mostrare che la variabile aleatoria Zn ha, per n , ha la pdf di una variabile
aleatoria Z N(0, 1) (normale standard), ovvero:
x2
1
lim fZn (x) = e 2
n
2
Per variabili aleatorie discrete, la pdf e` una somma di impulsi di Dirac, per cui
non puo` convergere ad una pdf ordinaria, qual e` la distribuzione gaussiana. Tuttavia, per variabili aleatorie discrete di tipo reticolare, che assumono cioè i valori a + bk,
con a, b R e k K Z, vale un risultato molto interessante. Infatti, osserviamo
che se X1 , X2 , . . . , Xn sono variabili aleatorie di tipo reticolare, anche la loro somma

Sn = nk=1 Xk e` di tipo reticolare, in quanto puo` assumere i valori n a + b k. Nellipotesi che le X1 , X2 , . . . , Xn siano statisticamente indipendenti, con medie k = E(Xk ) e

varianze Var(Xk ) = k2 < , posto E(Sn ) = nk=1 k e 2 Var(Sn ) = nk=1 k2 , si
ha:
1
2
1
lim P (Sn = a + b k) = e 2 2 (a+b k)
n
2
(8.16)
per cui in pratica la DF, nei punti x = a + b k, puo` essere approssimata dai campioni di
una pdf gaussiana, avente media e varianza uguali a quelle di X.
190

Esempio 8.7. Il risultato precedente puo` essere applicato al caso della somma Sn di
n variabili aleatorie iid bernoulliane Xk Bern(p). Tale somma ha una distribuzione
binomiale, che e` di tipo reticolare, in quanto assume i valori {0, 1, . . . , n}. Poichè si ha
E(Sn ) = n p e Var(Sn ) = n p q, la (8.16) si scrive:
lim P (Sn = k) =
(knp)2
1
e 2npq
2 n p q
che esprime proprio il teorema di de Moivre-Laplace nella forma locale (cfr. equazione
(2.7)).

In conclusione, qualche considerazione critica dellutilità pratica del teorema limite fondamentale. In primo luogo, notiamo che la bontà dellapprossimazione gaussiana, per
n finito, non e` quantificabile a priori, e dipende criticamente dalla distribuzione delle
variabili aleatorie X1 , X2 , . . . , Xn . Cio` nonostante, nel passato anche recente il teorema
limite fondamentale era ampiamente utilizzato nelle applicazioni, in quanto il calcolo della pdf di un gran numero di variabili aleatorie risultava un problema matematicamente poco trattabile. Al giorno doggi, la disponibilità di calcolatori sempre piu`
veloci ha reso tale problema relativamente semplice da affrontare con tecniche numeriche, per cui lutilità pratica del teorema limite fondamentale e` diminuita. Tuttavia, per
motivi teorici, esso resta uno dei risultati piu` importanti e noti dellintera teoria della
probabilità.
Capitolo 9
9.1
Introduzione
La CDF, sia essa di una singola variabile aleatoria, di una coppia di variabili aleatorie, o
piu` in generale di un vettore di variabili aleatorie, rappresenta in ultima analisi la probabilità di un evento, semplice o composto. Poichè la probabilità condizionale definita
nel capitolo 2 e` una valida legge di probabilità, ci chiediamo se sia possibile definire
valide CDF anche in termini di probabilità condizionali. La risposta e` affermativa, e
conduce allintroduzione delle cosiddette distribuzioni condizionali (CDF, pdf e DF). Tali
distribuzioni condizionali1 consentono di approfondire le relazioni esistenti tra variabili
aleatorie ed eventi dello spazio campione su cui sono definite, nonche le relazioni esistenti tra le variabili aleatorie stesse. Ovviamente, a tali distribuzioni condizionali sono
associati i corrispondenti momenti, cosiddetti momenti condizionali, la cui definizione si
basa sul concetto fondamentale di media condizionale.
9.2
Distribuzioni condizionali per una variabile aleatoria
9.2.1 Funzione di distribuzione cumulativa (CDF) condizionale

Iniziamo col considerare il caso di una singola variabile aleatoria X. Ricordiamo che
dati due eventi A e B, con P (B) = 0, la probabilità condizionale di A dato B (cfr. 2.2)
si definisce come:
P (A|B) =
P (AB)
.
P (B)
Scegliendo allora A = {X x} e B qualsiasi, con P (B) = 0, possiamo definire la CDF

condizionale di X dato un evento B.
1
Si usa indifferentemente la terminologia distribuzioni condizionali o condizionate.
192

F(x|B)
f(x|B)
area =1/3
1
2/3
1/3
20
40
60
Fig. 9.1. La CDF condizionale F (x|B) della

variabile aleatoria dellesempio 9.1.
20
40
60
Fig. 9.2. La pdf condizionale f (x|B) della

Definizione (CDF condizionale di una variabile aleatoria). Sia X una variabile aleatoria definita su uno spazio di probabilità (, B, P ), e sia B un evento
di , con P (B) = 0. La CDF condizionale di X dato levento B e` :
F (x|B) P (X x|B) =
P (X x, B)
.
P (B)
Osserviamo subito che, poiche la probabilità condizionale e` una valida legge di probabilità, ne consegue che la CDF condizionale e` una valida CDF, e pertanto gode di tutte le
proprietà caratteristiche della CDF di una variabile aleatoria (cfr. 3.2.1). In particolare,
essa e` una funzione continua da destra, e si ha:
1. F (+|B) = 1, F (|B) = 0;
2. P (x1 < X x2 |B) = F (x2 |B) F (x1 |B) =
P (x1 < X x2 , B)
.
P (B)
Per denotare che la CDF condizionale di una variabile aleatoria, dato B, e` F (x|B), si
scrive X|B F (x|B).
Esempio 9.1. Consideriamo lo spazio = {1 , 2 , . . . , 6 } (lancio di un dado) e la
variabile aleatoria
X(i ) = 10 i ,
che abbiamo già considerato nellesempio 3.7. Sia B = {pari} = {2 , 4 , 6 } e calcolia-
9.2 Distribuzioni condizionali per una variabile aleatoria
193
mo la F (x|B). Si ha:
x < 20 {X x} B = F (x|B) = 0 ;
1/6
= 1/3 ;
1/2
1/3
40 x < 60 {X x} B = {2 , 4 } F (x|B) =
= 2/3 ;
1/2
1/2
x 60 {X x} B = {2 , 4 , 6 } F (x|B) =
=1;
1/2
20 x < 40 {X x} B = {2 } F (x|B) =
per cui la CDF condizionale F (x|B) e` costante a tratti ed e` mostrata in Fig. 9.1.
9.2.2 Funzione densità di probabilità (pdf) condizionale

In maniera naturale, passiamo ora a definire la pdf condizionale di una variabile aleatoria
X dato un evento B.
Definizione (pdf condizionale di una variabile aleatoria). Sia X una variabile aleatoria definita su uno spazio di probabilità (, B, P ), e sia B un evento di
, con P (B) = 0. La pdf condizionale di X dato levento B e` la derivata (in senso
generalizzato) di F (x|B) rispetto a x:
f (x|B)
d
F (x|B) .
dx
Valgono per la pdf condizionale considerazioni analoghe a quelle per la CDF condizionale: poichè essa e` a tutti gli effetti una pdf, gode di tutte le proprietà della pdf (cfr.
3.3.1). In particolare, essa gode della proprietà di normalizzazione, cioè si ha

f (x|B) dx = 1 .
Esempio 9.2. Consideriamo la CDF condizionale dellesempio 9.1. Poiche la CDF ha

un andamento costante a tratti, la pdf condizionale sarà puramente impulsiva, ed e` data
da:
f (x|B) =
1
1
1
(x 20) + (x 40) + (x 60) ,
3
3
3
che e` rappresentata in Fig. 9.2.
194

p(x|B)
1/3
20
40
60
Fig. 9.3. La DF condizionale p(x|B) della

9.2.3 Funzione distribuzione di probabilità (DF) condizionale

Infine, per variabili aleatorie discrete e` utile definire la DF condizionale.
Definizione (DF condizionale di una variabile aleatoria). Sia X una variabile aleatoria discreta definita su uno spazio di probabilità (, B, P ) e a valori in
X, e sia B un evento di , con P (B) = 0. La DF condizionale di X dato levento
B e`
p(x|B) P (X = x|B) ,
con x X.
Anche la DF condizionale, essendo una valida DF, gode delle proprietà caratteristiche
della DF (cfr. 3.4).
Esempio 9.3. Riprendiamo lesempio 9.1: poichè X e` una variabile aleatoria discreta,
risulta piu` immediato calcolare, in luogo della CDF condizionale, la DF condizionale:
P (X = x, B)
P (X = x, B)
=
.
P (B)
1/2
p(x|B) = P (X = x|B) =
La variabile aleatoria X assume valori in X = {10, 20, 30, 40, 50, 60}; si verifica immediatamente che per x = 10, 30, 50 (corrispondenti a risultati dispari dellesperimento)
risulta P (X = x, B) = 0, mentre per x = 20, 40, 60 (corrispondenti a risultati pari) si ha:
P (X = x, B) = P (X = x) =
e quindi in definitiva la DF cercata e` :
p(x|B) =
1
3
,
0,
1
,
6
x = 20, 40, 60;

altrimenti,
che e` rappresentata in Fig. 9.3.

Osserviamo che, per determinare la CDF, la pdf o la DF condizionale, dobbiamo in genere conoscere in dettaglio lesperimento su cui e` costruita la variabile aleatoria. Tuttavia,
abbiamo osservato che in molti casi si assegna una variabile aleatoria X attraverso la sua
CDF, pdf o DF, senza descrivere esplicitamente lesperimento probabilistico sul quale la
variabile aleatoria e` definita. Diventa allora particolarmente interessante il caso in cui
levento B possa essere espresso esso stesso in termini della variabile aleatoria X. Cio`
accade se, ad esempio, B = {X a}, con a R. In casi del genere, e` sufficiente la conoscenza della sola CDF F (x) (o della sola pdf o DF) di X per calcolare le corrispondenti
distribuzioni condizionali, e non occorre quindi conoscere lesperimento probabilistico.
Approfondiamo meglio questo concetto negli esempi che seguono.
Esempio 9.4. Sia X una variabile aleatoria con CDF F (x) (supposta continua) e sia
B = {X a}. Si ha:
F (x|B) = P {X x|X a} =
P {X x, X a}
.
P {X a}
Se x a, allora {X x, X a} = {X a} e quindi
F (x|B) =
P {X a}
=1.
P {X a}
Viceversa, se x < a, allora {X x, X a} = {X x}, e quindi

F (x|B) =
In definitiva, allora
P {X x}
F (x)
=
.
P {X a}
F (a)
F (x) , x < a ;
F (x|X a) = F (a)
1,
xa.
Derivando, si ottiene la pdf
f (x) , x < a ;
f (x|X a) = F (a)
0,
xa.
Notiamo che nella derivazione il punto x = a potrebbe essere punto di discontinuità

per la F (x|B), e quindi potrebbe comparire un impulso di Dirac in x = a. Tuttavia,
calcolando i limiti da sinistra e da destra della F (x|B) nel punto x = a, si ha:
F (a |B) =
1
F (a ) = 1 = F (a+ |B)
F (a)
per lipotesi di continuità di F (x). Pertanto, F (x|B) e` continua e quindi la pdf condizionale non contiene impulsi. Piu` in generale, bisogna applicare qualche cautela nella
derivazione, per non ignorare possibili discontinuità della CDF.
195
196

Esempio 9.5. Sia X una variabile aleatoria con CDF F (x) (supposta continua), e sia
B = {a < X b}. Si ha:
F (x|B) = P (X x|a < X b) =
P (X x, a < X b)
.
P (a < X b)
Se x > b, allora {X x, a < X b} = {a < X b} e quindi

F (x|B) =
P (a < X b)
=1.
P (a < X b)
Se a < x b, allora {X x, a < X b} = {a < X x}, e quindi

F (x|B) =
F (x) F (a)
P (a < X x)
=
.
P (a < X b)
F (b) F (a)
Infine, se x a, allora {X x, a < X b} = {}, e quindi

F (x|B) = 0 .
In definitiva, allora:
F (x|a < X b) =
0,
F (x)F (a)
,
F (b)F (a)
1,
xa;
a<xb;
x>b.
Derivando, si ottiene la pdf:
f (x|a < X b) =
0,
f (x)
,
F
(b)F
(a)
0,
xa;
a<xb;
x>b.
Anche qui, i punti x = a e x = b potrebbero essere di discontinuità per la CDF condizionale. Tuttavia, nellipotesi che F (x) sia continua, e` facile verificare che anche F (x|B) lo

e` , e quindi nella pdf condizionale non compaiono impulsi di Dirac.2
In realtà, calcolando i limiti da destra, si può facilmente verificare che la CDF condizionale e` continua in x = a anche se la variabile aleatoria X non e` continua; viceversa, lipotesi di X continua e`
indispensabile per garantire la continuità in x = b.
9.2.4 Teorema della probabilità totale per CDF, pdf, DF

Poichè le CDF, pdf e DF condizionali si definiscono a partire dalla probabilità condizionale, tutta una serie di relazioni e teoremi (probabilità totale, Bayes, probabilità a
posteriori) visti per le probabilità condizionali si possono estendere anche alle CDF, pdf
e DF di variabili aleatorie. Ad esempio, ricordiamo che per il teorema della probabilità
totale (vedi 2.2.3) si ha:
P (B) =
n
P (B|Ai ) P (Ai ) .
i=1
Scegliendo allora B = {X x}, si ha P (B) = P (X x) = F (x) e P (B|Ai ) = P (X

x|Ai ) = F (x|Ai ), per cui si ottiene il teorema della probabilità totale per la CDF:
F (x) =
n
F (x|Ai ) P (Ai ) ,
i=1
e, derivando, si ottiene il teorema della probabilità totale per la pdf:

f (x) =
n
f (x|Ai ) P (Ai ) .
i=1
Se X e` una variabile aleatoria discreta, e` possibile considerare direttamente B = {X =

x}, ottenendo quindi il teorema della probabilità totale per la DF:
p(x) =
n
p(x|Ai ) P (Ai ) .
i=1
Esempio 9.6 (variabili aleatorie di tipo mixture). Supponiamo di voler modellare la seguente situazione: abbiamo una famiglia di dispositivi, che possono essere suddivisi
in due classi: la classe A1 rappresenta dispositivi a bassa affidabilità, mentre la classe
A2 = A1 rappresenta dispositivi ad alta affidabilità. Supponiamo che il tempo di vita
dei dispositivi appartenenti alla prima classe sia modellabile come una variabile aleatoria X|A1 Exp(1 ), mentre il tempo di vita dei dispositivi appartenenti alla seconda
classe sia modellabile come una variabile aleatoria X|A2 Exp(2 ). Poichè la media
di una variabile aleatoria X Exp() e` pari a 1/, allora deve risultare 1/1 < 1/2 , e
quindi 1 > 2 , perche abbiamo supposto che la classe A1 abbia affidabilità piu` bassa.
La variabile aleatoria X che descrive il tempo di vita (laffidabilità) di un qualunque dispositivo scelto a caso tra quelli appartenenti alle due classi ha una pdf di tipo
mixture, che si puo` calcolare applicando il teorema della probabilità totale. Infatti,
se denotiamo con p = P (A1 ) la probabilità che un dispositivo appartenga alla prima
197
198

classe, e con q = 1 p la probabilità che un dispositivo appartenga alla seconda classe,
si ha:
F (x) = F (x|A1 ) P (A1 ) + F (x|A2 ) P (A2 ) .
Poichè
F (x|A1 ) = (1 e1 x ) u(x) ;
F (x|A2 ) = (1 e2 x ) u(x) ;
allora si ha:
F (x) = [(1 e1 x )p + (1 e2 x )(1 p)] u(x) ,
e derivando
f (x) = [1 e1 x p + 2 e2 x (1 p)] u(x) .
Abbiamo ottenuto in questo modo una variabile aleatoria di tipo mixture (vedi 3.5.2)
con = p.
Linterpretazione della variabile aleatoria di tipo mixture fornita da questo esempio
suggerisce anche una strategia per la sua generazione. Infatti, se per generare una variabile aleatoria del tipo precedentemente visto, e` sufficiente avere due generatori, uno
per X|A1 Exp(1 ) ed un altro per X|A2 Exp(2 ), e scegliere luscita di un generatore oppure di un altro in accordo con i valori di una terza variabile aleatoria binaria, che
assume il valore 1 con probabilità p ed il valore 2 con probabilità q = 1 p.
9.2.5 Probabilità a posteriori di un evento

Unaltra relazione utile e` quella che calcola la probabilità a posteriori di un evento in
termini di CDF condizionale. Partiamo dallidentità
P (A|B) =
P (B|A) P (A)
,
P (B)
valida per P (B) = 0. Scegliendo B = {X x}, possiamo scrivere:

P (A|X x) =
P (X x|A) P (A)
F (x|A)
=
P (A) .
P (X x)
F (x)
Questa relazione si interpreta come la probabilità a posteriori dellevento A, sapendo che

il valore della variabile aleatoria X e` minore o uguale ad un certo numero x. La denominazione di probabilità a posteriori per P (A|X x) e` utilizzata per contrasto con la
199
probabilità P (A), denominata probabilità a priori. In altri termini, a priori sappiamo che la probabilità di A e` pari a P (A), poi veniamo a conoscenza del fatto che X x,
per cui a posteriori calcoliamo la probabilità P (A|X x). Si osservi che tale probabilità a posteriori e` maggiore, uguale o minore alla probabilità a priori, in dipendenza del
fatto che il rapporto tra la CDF condizionale F (x|A) e la CDF F (x) sia maggiore, uguale,
o minore dellunità.
In maniera analoga, se scegliamo B = {x1 < X x2 }, si ha:
P (A|x1 < X x2 ) =
P (x1 < X x2 |A) P (A)

F (x2 |A) F (x1 |A)
=
P (A) ,
P (x1 < X x2 )
F (x2 ) F (x1 )
(9.1)
che si interpreta come la probabilità a posteriori dellevento A sapendo che il valore della
variabile aleatoria X e` compreso nellintervallo (aperto a sinistra) ]x1 , x2 ]. Gli esempi
precedenti si possono estendere facilmente al caso in cui B e` un qualunque evento (con
P (B) = 0) che puo` essere espresso in termini della variabile aleatoria X.
9.2.6 Probabilità a posteriori dato X = x

Notiamo che se la variabile aleatoria X e` discreta possiamo senza difficoltà estendere il
calcolo della probabilità a posteriori effettuato nel precedente paragrafo al caso in cui
B = {X = x}, in quanto P (B) = 0. Si ha in tal caso:
P (A|X = x) =
P (X = x|A) P (A)
p(x|A)
=
P (A) ,
P (X = x)
p(x)
(9.2)
ovvero tale probabilità a posteriori si esprime in termini del rapporto tra la DF condizionale p(x|A) e la DF p(x). Se invece X e` una variabile aleatoria continua, sappiamo che
P (X = x) = 0, e quindi non possiamo procedere direttamente come nel caso precedente,
in quanto il denominatore della (9.2) si annulla. Daltra parte, si ha anche:
P (X = x|A) =
P ({X = x} A)
=0,
P (A)
perche {X = x} A {X = x} e quindi P ({X = x} A) P ({X = x}) = 0. In

sostanza, nella (9.2) sia il numeratore che il denominatore sono nulli, per cui P (A|X = x)
si presenta in forma indeterminata, e puo` darsi che il risultato esista lo stesso finito al
limite. Supponiamo allora che X sia continua, e procediamo ponendo
P (A|X = x) lim P (A|x < X x + x) .
x0
200

Possiamo calcolare facilmente tale probabilità, in quanto e` del tipo (9.1) con x1 = x e
x2 = x + x. Si ha:
P (x < X x + x|A) P (A)
P (x < X x + x)
F (x + x|A) F (x|A)
P (A)
=
F (x + x) F (x)
[F (x + x|A) F (x|A)]/x
=
P (A) ,
[F (x + x) F (x)]/x
P (A|x < X x + x) =
da cui, al limite per x 0, e ricordando la definizione di pdf e di pdf condizionale

dato A, si ottiene la relazione cercata:
P (A|X = x) =
f (x|A)
P (A) ,
f (x)
(9.3)
che costituisce una generalizzazione della (9.2) al caso di variabili aleatorie continue.
Esempio 9.7 (test di ipotesi). Come esempio di applicazione della precedente relazione,
riprendiamo lesempio 9.6. Supponiamo di voler valutare, osservato un valore della variabile aleatoria mixture X, se sia piu` probabile che si sia verificato levento A1 oppure
A2 . Ad esempio, se X rappresenta il tempo di vita di un dispositivo, e A1 e A2 = A1
rappresentano due classi di affidabilità, vogliamo determinare, osservato che il dispositivo in esame ha vissuto un tempo X = x, a quale classe sia piu` probabile il dispositivo appartenga. Questo equivale a valutare quale delle due quantità P (A1 |X = x) e
P (A2 |X = x) sia la piu` grande, il che si puo` formalizzare come un test di ipotesi:
A1
>
P (A1 |X = x) < P (A2 |X = x) ,
A2
che si interpreta nel modo seguente: se il primo membro e` maggiore del secondo, allora
diremo che levento A1 e` piu` probabile, per cui sceglieremo lipotesi il componente
appartiene alla classe A1 , viceversa se il primo membro e` minore del secondo. Poiche
tale test sceglie lipotesi che ha probabilità a posteriori maggiore, esso prende il nome di
test a massima probabilità a posteriori (MAP). Applicando la (9.3), tale test si puo` scrivere
come segue:
A1
f (x|A1 )
> f (x|A2 )
P (A1 ) <
P (A2 ) ,
f (x)
f (x)
A2
e semplificando un termine f (x) > 0 in ambo i membri, si ha:
A1
>
f (x|A1 ) P (A1 ) < f (x|A2 ) P (A2 ) .
A2
201
Se si suppone poi che gli eventi A1 e A2 siano equiprobabili, il test MAP si semplifica
ulteriormente:
A1
>
f (x|A1 ) < f (x|A2 ) .
A2
Tale test prende il nome di test a massima verosimiglianza (ML), e la funzione f (x|A1 )
prende il nome di funzione di verosimiglianza dellevento A1 . Pertanto il test ML si ottiene
come particolarizzazione del test MAP nel caso di ipotesi equiprobabili.
Sostituendo le pdf condizionali di tipo esponenziale (cfr. esempio 9.6), il test si puo`
scrivere nella forma esplicita
A1
1 x
1 e
>
2 x
,
< 2 e
A2
che, nel caso 1 > 2 (corrispondente al caso in cui A1 sia la classe a piu` bassa affidabilità
rispetto a A2 ), puo` essere posto nella forma:
A1
1 >
1
ln
x.
1 2 2 A<2
Notiamo che nelle ipotesi fatte il primo membro e` positivo. Osserviamo che il test si
1
ln 12 ;
riduce a confrontare il tempo di vita osservato x con una soglia positiva = 1
2
se il tempo di vita e` inferiore a tale soglia, si dichiara che il dispositivo appartiene alla
classe A1 a piu` bassa affidabilità; viceversa, se il tempo di vita e` superiore a tale soglia,
si dichiara che il dispositivo appartiene alla classe A2 a piu` alta affidabilità. Il risultato
pare intuitivamente accettabile, meno intuitiva e` lespressione della soglia che abbiamo
ricavato. Se il tempo di vita e` esattamente uguale alla soglia (il che peraltro accade,
essendo X una variabile aleatoria continua, con probabilità zero), scegliere unipotesi
oppure unaltra e` indifferente (le due ipotesi hanno la stessa probabilità a posteriori).
9.2.7 Teorema della probabilità totale (versione continua)

Sulla base della (9.3), possiamo a questo punto ottenere una generalizzazione del teorema della probabilità totale visto al 2.2.3. Si riscriva infatti la (9.3) nella forma:
f (x|A) P (A) = P (A|X = x) f (x) .
Poichè f (x|A) e` una valida pdf, allora avrà area unitaria:

f (x|A) dx = 1 ,
(9.4)
202

per cui, integrando membro a membro la (9.4), si ha:

P (A|X = x)f (x) dx .
P (A) =
(9.5)
Questa relazione rappresenta una versione continua del teorema della probabilità totale

P (A) = i P (A|Bi ) P (Bi ), nella quale gli eventi condizionanti sono del tipo {X = x} e
costituiscono una infinità continua (e non finita o numerabile).
9.2.8 Teorema di Bayes per le pdf

Come ultima relazione utile, introduciamo una relazione per le pdf affine a quella di
Bayes. Dalla (9.3), si ottiene:
f (x|A) =
P (A|X = x)
f (x) ,
P (A)
per cui, sostituendo a P (A) il valore dato dalla (9.5) si ha:

P (A|X = x)f (x)
,
P
(A|X
=
x)f
(x)dx
f (x|A) =
che rappresenta una sorta di teorema di Bayes per le pdf.
9.3
Distribuzioni condizionali per coppie di variabili aleatorie
Analogamente a quanto fatto nel paragrafo precedente per il caso di una variabile aleatoria, e` possibile definire distribuzioni condizionali (CDF, pdf e DF) anche per una coppia di variabili aleatorie. Ad esempio, date due variabili aleatorie (X, Y ) ed un evento
B con P (B) = 0, possiamo definire la CDF condizionale di (X, Y ) dato B.
Definizione (CDF condizionale di una coppia di variabili aleatorie). Siano
(X, Y ) una coppia di variabili aleatorie definite su uno spazio di probabilità
(, B, P ), e sia B B un evento di , con P (B) = 0. La CDF condizionale di
(X, Y ) dato levento B e` :
FXY (x, y|B) P (X x, Y y|B) =
P (X x, Y y, B)
.
P (B)
La corrispondente pdf condizionale si ricava per derivazione dalla CDF, ed e` :

fXY (x, y|B)
2
FXY (x, y|B) .
x y
9.3 Distribuzioni condizionali per coppie di variabili aleatorie

Se le variabili aleatorie X ed Y sono discrete, a valori in X e Y, rispettivamente, e` utile
definire la DF condizionale di (X, Y ) dato B:
pXY (x, y|B) P (X = x, Y = y|B) =
P (X = x, Y = y, B)
,
P (B)
con (x, y) X Y.
Esempio 9.8. Come per il caso di una singola variabile aleatoria, il calcolo della CDF
condizionale e` particolarmente semplice se levento B si esprime in funzione delle variabili aleatorie (X, Y ) o di una di esse. Supponiamo, ad esempio, che B = {X a}, con
a numero reale (cfr. esempio 9.4 per un calcolo simile per il caso di una singola variabile
aleatoria). Si ha:
FXY (x, y|B) P (X x, Y y|B) =
P (X x, Y y, X a)
.
P (X a)
Se x < a, si ha che {X x, Y y, X a} = {X x, Y y}, per cui:

FXY (x, y|B)
FXY (x, y)
;
FX (a)
mentre se x a si ha che {X x, Y y, X a} = {X a, Y y}, per cui:

FXY (x, y|B)
FXY (a, y)
.
FX (a)
Calcolando la derivata mista rispetto ad x ed y (escludiamo la presenza di impulsi) si

ottiene la pdf condizionale:
fXY (x, y) , x < a ;

FX (a)
fXY (x, y|B) =
0,
xa.
Verifichiamo che la precedente e` una valida pdf, osservando se e` soddisfatta la condizione di normalizzazione. Si ha:
a

1
fXY (x, y|B) dx dy =
fXY (x, y) dx dy
FX (a)

1
=
FXY (a, +) = 1 ,
FX (a)
dove abbiamo sfruttato la (6.2) e la relazione tra CDF congiunte e marginali, in accordo
alla quale FXY (a, +) = FX (a).
203
204

Esempio 9.9. Consideriamo adesso il caso in cui B = {a < X b} (cfr. esempio 9.5
per un calcolo simile per il caso di una singola variabile aleatoria). Si ha:
FXY (x, y|B) = P (X x, Y y|a < X b) =
P (X x, Y y, a < X b)
.
P (a < X b)
Se x > b, allora {X x, Y y, a < X b} = {a < X b, Y y}, e quindi

FXY (x, y|B) =
FXY (b, y) FXY (a, y)

P (a < X b, Y y)
=
.
P (a < X b)
FX (b) FX (a)
Se a < x b, allora {X x, Y y, a < X b} = {a < X x, Y y}, e quindi

FXY (x, y|B) =
P (a < X x, Y y)
FXY (x, y) FXY (a, y)
=
.
P (a < X b)
FX (b) FX (a)
Infine, se x a, allora {X x, Y y, a < X b} = {}, e quindi

FXY (x, y|B) = 0 .
In definitiva, allora:
FXY (x, y|a < X b) =
0,
FXY (x,y)FXY (a,y)

,
FX (b)FX (a)
FXY (b,y)FXY (a,y)

,
FX (b)FX (a)
xa;
a<xb;
x>b.
Calcolando la derivata mista rispetto ad x e ad y, si ottiene la corrispondente pdf:
xa;
0,
fXY (x,y)
fXY (x, y|a < X b) = FX (b)FX (a) , a < x b ;
0,
x>b.
Anche in questo caso, verifichiamo che la condizione di normalizzazione delle pdf sia
soddisfatta. Si ha:
b

fXY (x, y)
dy
fXY (x, y|a < X b) dx dy =
dx

a
FX (b) FX (a)
b
1
=
dx
fXY (x, y) dy
FX (b) FX (a) a
b
1
=
fX (x) dx = 1 ,
FX (b) FX (a) a
dove abbiamo sfruttato la relazione tra pdf congiunte e marginali e le proprietà della
pdf.
9.3 Distribuzioni condizionali per coppie di variabili aleatorie
205
9.3.1 Distribuzioni condizionali dato X = x ed Y = y

Consideriamo ora il caso particolarmente interessante in cui levento condizionante e`
B = {X = x}, che non puo` rientrare come caso particolare delle precedenti definizioni,
in quanto, se X e` una variabile aleatoria continua, allora risulta P (B) = 0. Lobiettivo e`
calcolare le distribuzioni condizionali di Y dato B = {X = x}, per capire come si modifica la distribuzione marginale di Y se fissiamo un valore X = x di unaltra variabile
aleatoria; ad esempio, come si modifica la distribuzione del peso Y di una persona se
conosciamo la sua altezza X. Per aggirare il problema insito nellannullamento di P (B),
procediamo al limite, ponendo per definizione:
FY (y|X = x) lim P (Y y|x < X x + x) .
x0
Si trova:
FY (y|X = x) =
FXY (x, y) .
fX (x) x
(9.6)
Prova. Si ha:
P (Y y|x < X x + x) =
FXY (x + x, y) FXY (x, y)

P (Y y, x < X x + x)
=
,
P (x < X x + x)
FX (x + x) FX (x)
da cui, dividendo numeratore e denominatore per x e passando al limite per x 0, si ha lasserto.
Scambiando i ruoli di X ed Y , si ottiene la relazione simmetrica:

FX (x|Y = y) =
FXY (x, y) .
fY (y) y
(9.7)
Particolarmente interessante e` lespressione delle pdf condizionali, che si ottengono derivando la (9.6) rispetto a y e la (9.7) rispetto ad x. Si ha, infatti:
fY (y|X = x) =
1
fXY (x, y)
2
FY (y|X = x) =
FXY (x, y) =
,
y
fX (x) y x
fX (x)
e similmente:
fX (x|Y = y) =
fXY (x, y)
.
fY (y)
Spesso le relazioni precedenti si esprimono, in forma piu` sintetica, come:

fXY (x, y)
;
fY (y)
fXY (x, y)
fY (y|x) =
.
fX (x)
fX (x|y) =
(9.8)
(9.9)
206

Si noti laffinità formale tra tali relazioni e la definizione (2.1) di probabilità condizionale. Ricordiamo, inoltre, che fX (x|y) e` una pdf monodimensionale vista come funzione
di x, ma non di y, per cui risulta verificata la condizione di normalizzazione in x:

fX (x|y) dx = 1 ,
ma il corrispondente integrale in dy non e` unitario. Analogo discorso, scambiando i

ruoli di x ed y, vale per fY (y|x). Notiamo poi che, per denotare che fY (y|x) e` la pdf
condizionale di Y dato {X = x}, si usa la notazione sintetica Y |x fY (y|x).
Osserviamo infine che se X ed Y sono statisticamente indipendenti, la fattorizzazione fXY (x, y) = fX (x) fY (y) della pdf congiunta implica che
fX (x|y) = fX (x) ,
fY (y|x) = fY (y) ,
ovvero la pdf condizionale e` uguale a quella marginale (levento {X = x} non modifica
la pdf di Y , e simmetricamente levento {Y = y} non modifica la pdf di X).
Data la somiglianza formale tra lespressione delle pdf condizionali e la definizione
di probabilità condizionale, non sorprende che alcuni teoremi tipici della probabilità
condizionale abbiano una loro controparte per le pdf condizionali. Ad esempio, sulla
base della definizione, la pdf congiunta ammette due distinte fattorizzazioni in termini
di pdf condizionali:
fXY (x, y) = fX (x|y) fY (y) = fY (y|x) fX (x) ,
(9.10)
che e` una relazione simile alla legge della probabilità composta (2.2). Utilizzando la relazione tra statistiche congiunte e marginali, si ha poi:

fY (y) =
fXY (x, y) dx =
fY (y|x) fX (x) dx ,
(9.11)
che e` una relazione analoga al teorema della probabilità totale (cfr. teorema 2.1, capitolo
2) e generalizza il teorema della probabilità totale per le pdf (cfr. 9.2) al caso in cui
gli eventi condizionanti siano una infinità continua. Per questo motivo, tale relazione
costituisce una versione continua del teorema della probabilità totale per le pdf. Infine,
combinando la legge della probabilità composta (9.10) e quella della probabilità totale
(9.11), possiamo ottenere la relazione
fX (x|y) =
fY (y|x) fX (x)
fY (y|x) fX (x)
=
fY (y)
f (y|x) fX (x) dx
Y
(9.12)
che consente di esprimere una pdf condizionale in funzione dellaltra, ed e` una relazione
analoga al teorema di Bayes (cfr. teorema 2.2, capitolo 2).
9.4 Distribuzioni condizionali per vettori di variabili aleatorie
207
Esempio 9.10. Consideriamo il caso di una coppia di variabili aleatorie congiuntamente gaussiane (X, Y ) N(X , Y , X , Y , ), e calcoliamo le pdf condizionali fX (x|y) e
fY (y|x). Il risultato si ottiene semplicemente se ricordiamo la fattorizzazione della pdf
congiunta ricavata nellesempio 6.2, che si riporta di seguito per comodità del lettore:
$
%2

12 (xX )2
2 1 2 yY Y (xX )
1
1
X
e 2X

fXY (x, y) =
.
e 2Y (1 )
2
X 2
Y 1 2
Infatti, poiche nellesempio 6.2 abbiamo dimostrato che il primo fattore rappresenta
la pdf marginale fX (x), allora il secondo fattore per la (9.10) deve necessariamente
rappresentare la pdf condizionale fY (y|x), ovvero si ha:
2 1 2
fXY (x, y)
1

=
fY (y|x) =
e 2Y (1 )
fX (x)
Y 1 2 2
yY Y (xX )
%2
Tale pdf (come funzione di y) ha ancora la forma gaussiana monodimensionale, con

parametri media e varianza che si identificano facilmente, per cui Y |x N(Y + XY (x

X ), Y 1 2 ), cioè Y dato X = x e` condizionalmente gaussiana, con i parametri indicati
(dipendenti dal valore di y). In maniera simmetrica, si trova:
$
%2
2 1 2 xX X (yY )
fXY (x, y)
1
Y

,
=
fX (x|y) =
e 2X (1 )
fY (y)
X 1 2 2

per cui X|y N(X + XY (y Y ), X 1 2 ), per cui anche X, dato Y = y, e`
condizionalmente gaussiana, con i parametri indicati. In conclusione, possiamo affermare che variabili aleatorie (X, Y ) congiuntamente gaussiane sono anche marginalmente e
condizionalmente gaussiane.
9.4
Distribuzioni condizionali per vettori di variabili aleatorie
E` possibile generalizzare la definizione di distribuzioni condizionali introdotte per due

variabili aleatorie al caso di vettori di variabili aleatorie. Ad esempio, la definizione di
CDF congiunta delle variabili aleatorie X1 , X2 , . . . , Xn dato un evento B si generalizza
come segue.
Definizione (CDF condizionale di un vettore di variabili aleatorie). Siano
X1 , X2 , . . . , Xn n variabili aleatorie definite su uno spazio di probabilità
(, B, P ), e sia B B un evento di , con P (B) = 0. La CDF condizionale di
X1 , X2 , . . . , Xn dato levento B e` :
FX1 X2 Xn (x1 , x2 , . . . , xn |B) P (X1 x1 , X2 x2 , . . . , Xn xn |B) .
208

La corrispondente pdf condizionale si ricava per derivazione della CDF condizionale.
Particolarmente interessante e` calcolare la pdf condizionale di X1 , X2 , . . . , Xk dati i
valori assunti da Xk+1 , Xk+2 , . . . , Xn , siano essi xk+1 , xk+2 , . . . , xn , che si ottiene generalizzando le (9.8) e (9.9):
fX1 X2 Xk (x1 , x2 , . . . , xk |xk+1 , xk+2 , . . . , xn )
fX1 X2 Xn (x1 , x2 , . . . , xn )
.
fXk+1 Xk+2 Xn (xk+1 xk+2 , . . . , xn )
Ovviamente tale funzione e` una pdf vista come funzione di x1 , x2 , . . . , xk , ed in particolare soddisfa la condizione di normalizzazione, per ogni (xk+1 , xk+2 , . . . , xn ):

fX1 X2 Xk (x1 , x2 , . . . , xk |xk+1 , xk+2 , . . . , xn ) dx1 dx2 dxk .
Il modo per costruire una qualunque pdf condizionale dovrebbe essere a questo punto
chiaro al lettore. Al numeratore va la pdf congiunta di tutte le variabili aleatorie in
gioco, al denominatore quella delle sole variabili aleatorie condizionanti.
Esempio 9.11. Consideriamo il caso di quattro variabili aleatorie X1 , X2 , X3 , X4 , e calcoliamo esplicitamente alcune distribuzioni condizionali:
fX1 X2 X3 X4 (x1 , x2 , x3 , x4 )
;
fX1 X3 X4 (x1 , x3 , x4 )
fX1 X2 X3 X4 (x1 , x2 , x3 , x4 )
fX1 X2 (x1 , x2 |x3 , x4 ) =
;
fX3 X4 (x3 , x4 )
fX1 X2 X3 X4 (x1 , x2 , x3 , x4 )
fX1 X2 X4 (x1 , x2 , x4 |x1 ) =
.
fX1 (x1 )
fX2 (x2 |x1 , x3 , x4 ) =

Le corrispondenti CDF condizionali si possono ottenere per integrazione, ad esempio si
ha:
FX1 X2 Xk (x1 , x2 , . . . , xk |xk+1 , xk+2 , . . . , xn ) =
x1 x2
xk
=
fX1 X2 Xk (u1 , u2 , . . . , uk |xk+1 , xk+2 , . . . , xn ) du1 du2 duk . (9.13)
Per variabili aleatorie discrete, e` possibile estendere in maniera analoga anche la definizione di DF condizionali.
9.4.1 Indipendenza condizionale e regola della catena per le pdf

Consideriamo il caso in cui le variabili aleatorie X1 , X2 , . . . Xk siano indipendenti dalle
variabili aleatorie Xk+1 , Xk+2 , . . . , Xn : evidentemente si ha:
fX1 X2 Xk (x1 , x2 , . . . , xk |xk+1 , xk+2 , . . . , xn ) = fX1 X2 Xk (x1 , x2 , . . . , xk )
9.5 Media condizionale e momenti condizionali

cioè il condizionamento non opera. Avendo introdotto le CDF e pdf condizionali, possiamo anche introdurre il concetto di indipendenza condizionale tra le variabili aleatorie componenti il vettore X. Ad esempio, X1 ed X2 si diranno condizionalmente indipendenti, data una terza variabile X3 , se vale la seguente fattorizzazione della pdf
condizionale:
fX1 X2 (x1 , x2 |x3 ) = fX1 (x1 |x3 ) fX2 (x2 |x3 ) ,
che con semplici manipolazioni si puo` mostrare che implica le:
fX1 (x1 |x2 , x3 ) = fX1 (x1 |x3 ) ;
fX2 (x2 |x1 , x3 ) = fX2 (x2 |x3 ) ;
che si interpretano nel seguente modo: dato X3 = x3 , il condizionamento X2 = x2 o
X1 = x1 non opera. Il concetto di indipendenza condizionale si puo` estendere banalmente anche a gruppi di variabili aleatorie.
Una relazione interessante che scaturisce dalla definizione di pdf condizionale e` la
cosiddetta regola della catena per le pdf. Infatti, notiamo che, con successivi condizionamenti, la pdf congiunta di X si puo` fattorizzare nel prodotto di n pdf condizionali
monodimensionali, come:
fX1 X2 Xn (x1 , x2 , . . . , xn ) = fX1 (x1 ) fX2 X3 Xn (x2 , x3 , . . . , xn |x1 )
= fX1 (x1 ) fX2 (x2 |x1 ) fX3 Xn (x3 , . . . , xn |x1 , x2 )
= ...
= fX1 (x1 ) fX2 (x2 |x1 ) fX3 (x3 |x1 , x2 ) fXn (xn |x1 , x2 , . . . , xn ) .
9.5
Media condizionale e momenti condizionali
La definizione di media condizionale di una variabile aleatoria X, dato un evento B, e`

una semplice estensione dalla definizione di media di una variabile aleatoria, ottenuta
sostituendo alla pdf f (x) la pdf condizionale f (x|B).
Definizione (media condizionale di una variabile aleatoria). La media condizionale E(X|B) di una variabile aleatoria X con pdf condizionale f (x|B)
e` :

E(X|B)
x f (x|B) dx ,
209
210

Esempio 9.12. Abbiamo già visto (cfr. esempio 9.4) che se B = {X a}, allora:

f (x)
, x<a;
f (x|X a) = F (a)
0,
xa.
Pertanto, si ha:

f (x)
1
E(X|B) =
x
dx =
F (a)
F (a)
a
x f (x) dx =
a
x f (x) dx
f (x) dx
.
Osserviamo che la media condizionale gode di tutte le proprietà della media (cfr. 5.2):
in particolare ad essa si applica il teorema fondamentale della media. Infatti, se si vuole
calcolare la media condizionale di g(X) dato un evento B, si ha:

g(x) fX (x|B) dx ,
E[g(X)|B] =
mentre per variabili aleatorie discrete il teorema si puo` particolarizzare come:

E[g(X)|B] =
g(x) P (X = x|B) =
g(x) pX (x|B) ,
xX
xX
ovvero si esprime in termini della DF condizionale p(x|B) della variabile aleatoria X.

A partire dal teorema fondamentale della media, poi, e` possibile definire qualunque
momento condizionale: ad esempio, il valor quadratico medio condizionale e` dato da:

2
x2 f (x|B) dx ,
E(X |B)
mentre la varianza condizionale si puo` esprimere facilmente in termini del valor quadratico medio condizionale e della media condizionale, come:
Var(X|B) = E(X 2 |B) E 2 (X|B) .
La definizione di media condizionale dato un evento B si estende naturalmente al
caso di coppie di variabili aleatorie e, piu` in generale, al caso di vettori di variabili aleatorie; basta sostituire alla pdf, nellintegrale che definisce la media, la pdf condizionale
dato B. Il teorema fondamentale della media si estende anche al caso in cui desideriamo calcolare la media condizionale di g(X, Y ) dato un evento B, e conosciamo la pdf
condizionale fXY (x, y|B). Si ha:

E[g(X, Y )|B] =
g(x, y) fXY (x, y|B) dx dy .
(9.14)

Tale teorema consente di definire i momenti congiunti condizionali di una coppia di
variabili aleatorie, come la correlazione condizionale e la covarianza condizionale.
Infine, piu` in generale, nel caso in cui abbiamo un vettore X = [X1 , X2 , . . . , Xn ]T di
n variabili aleatorie, e vogliamo calcolare la media condizionale di g(X) dato un evento
B, conoscendo la pdf condizionale fX (x|B), si ha:

g(x) fX (x|B) dx .
E[g(X)|B] =
Rn
Anche in questo caso il teorema fondamentale della media consente di definire un

qualunque momento condizionale associato al vettore X.
9.5.1 Teorema della media condizionale

La media condizionale puo` essere calcolata anche per le pdf condizionali fX (x|y) e
fY (y|x) viste nel 9.3. Infatti, abbiamo visto che la pdf condizionale fY (y|x) rappresenta
la pdf di Y , per un fissato valore x della variabile aleatoria X. A tale pdf e` associato un
valor medio, che prende il nome di media condizionale di Y dato X = x.
Definizione (media condizionale di Y dato X = x). La media condizionale di
Y dato X = x e` :

E(Y |x)
y fY (y|x) dy ,

La definizione precedente si puo` estendere anche al caso in cui consideriamo una trasformazione g(Y ) di Y , e vogliamo calcolarne la media. Vale infatti anche in questo caso
il teorema fondamentale della media, per cui:

E[g(Y )|x] =
g(y) fY (y|x) dy .
Osserviamo che, per ogni fissato x, la media condizionale E[g(Y )|x] e` un numero; se
allora facciamo variare x, la media condizionale E[g(Y )|x] definisce una funzione (x)
di x. Possiamo allora costruire una variabile aleatoria Z = (X) = E[g(Y )|X] semplicemente associando ad ogni valore X = x il valore z = E[g(Y )|x]. Il calcolo della media
di Z rappresenta loggetto del seguente teorema della media condizionale.
Teorema 9.1 (media condizionale). Sia E[g(Y )|x] = (x) la media condizionale di g(Y )
dato X = x, e costruiamo la variabile aleatoria Z = (X) = E[g(Y )|X]. Si ha:
E[E(g(Y )|X)] = E[g(Y )] ,
se tale media esiste finita.
211
212

Prova. Con facili passaggi, si ha:

E[g(Y )|x] fX (x)dx =
g(y) fY (y|x) dy fX (x)dx =
E[E(g(Y )|X)] =

g(y) fY (y|x) fX (x) dx dy =
g(y) fXY (x, y) dx dy =
=

=
g(y)
fXY (x, y) dx dy =
g(y) fY (y) dy = E[g(Y )] ,
dove abbiamo applicato la legge della probabilità composta per le pdf e le relazioni tra statistiche con
giunte e marginali.
Il teorema si applica anche al caso in cui g(Y ) = Y , ed in questo caso assume una forma
particolarmente semplice:
E[E(Y |X)] = E(Y ) ,
secondo la quale la media di una variabile aleatoria Y , che dipende da unaltra variabile aleatoria X, si puo` calcolare prima fissando un valore di X = x, e calcolando la
media condizionale E(Y |x), e successivamente mediando tale risultato rispetto a tutti i
possibili valori di X.
Esempio 9.13. Consideriamo il caso di due variabili aleatorie
congiuntamente gausY
siane. Abbiamo osservato che Y |x N(Y + X (x X ), Y 1 2 ), per cui:
E(Y |x) = Y +
Y
(x X ) .
X
Si ha, pertanto, mediando su X:

E[E(Y |X)] = Y +
Y
E(X X ) = Y = E(Y ) ,

X
=0
come previsto dal teorema della media condizionale.
Il teorema della media condizionale si puo` generalizzare al caso di coppie di variabili

aleatorie, e precisamente si puo` applicare al calcolo della media di g(X, Y ). Supponiamo
infatti di fissare X = x e di voler calcolare la media condizionale E[g(X, Y )|X = x], che
possiamo denotare sinteticamente come E[g(X, Y )|x], essendo una funzione di x. Poichè levento condizionante e` B = {X = x}, possiamo applicare il teorema fondamentale
della media (9.14)

E[g(X, Y )|x] =
g(u, v) fXY (u, v|x) du dv ,
dove fXY (u, v|x) denota sinteticamente fXY (u, v|X = x). Il calcolo di tale pdf pone,
tuttavia, qualche problema; infatti, potremmo pensare di ottenere fXY (u, v|x) sulla base
213
del risultato dellesempio 9.9 che fornisce fXY (u, v|a < x b), ponendo a = x e b =
x + x, e facendo tendere x a zero. Si avrebbe (cfr. esempio 9.9):
ux;
0,
fXY (u,v)
fXY (u, v|x < X x + x) = FX (x+x)FX (x) , x < u x + x ;
0,
u > x + x .
Il problema e` che passando al limite per x 0 tale espressione diverge, in quanto
FX (x + x) FX (x) 0, per cui la pdf fXY (u, v|x < X x + x) e` singolare. Possiamo
aggirare tale problema calcolando direttamente la E[g(X, Y )|x] con procedura al limite,
ponendo cioè:
E[g(X, Y )|x] = E[g(X, Y )|X = x] = lim E[g(X, Y )|x < X x + x] .
x0
Si trova:
E[g(X, Y )|x] =
Prova. Si ha:
E[g(X, Y )|x < X x + x] =
g(x, y) fY (y|x) dy .
g(u, v) fXY (u, v|x < X x + x) du dv =

x+x
fXY (u, v)
du =
FX (x + x) FX (x)
x

fXY (x, v)
x dv .
g(x, v)
F
(x
+ x) FX (x)
X
Facendo tendere x 0, si ha che
dv
g(u, v)
FX (x+x)FX (x)
x
fX (x), per cui:

fXY (x, v)
dv =
E[g(X, Y )|X = x] =
g(x, v)
g(x, v) fY (v|x) dv ,
fX (x)
cioè lasserto, cambiando nome alla variabile di integrazione v.
Siamo in grado adesso di formulare lannunciata generalizzazione del teorema della

media condizionale. Osserviamo che E[g(X, Y )|x] rappresenta, anche in questo caso, al
variare di x, una funzione (x); definiamo allora una variabile aleatoria Z = (X) =
E[g(X, Y )|X], della quale calcoliamo la media. Si trova:
E[E[g(X, Y )|X]] = E[g(X, Y )] .
Prova. La prova e` analoga a quella del teorema della media condizionale. Si ha:

E[E(g(X, Y )|X)] =
E[g(X, Y )|x] fX (x)dx =
g(x, y) fY (y|x) dy fX (x)dx =

g(x, y) fY (y|x) fX (x) dx dy =
g(x, y) fXY (x, y) dx dy =
=
= E[g(X, Y )] .
214

Esempio 9.14. Applichiamo il risultato precedente per calcolare la correlazione tra due
variabili aleatorie gaussiane. In questo caso g(X, Y ) = X Y , e si ha:
E(X Y ) = E[E(X Y |X)] .
Inoltre, risulta:
E(X Y |x) = E(x Y |x) = xE(Y |x) ,
poichè x e` fissato; poichè (cfr. esempio 9.13)
E(Y |x) = Y +
Y
(x X ) ,
X
si ha:
E(X Y |x) = xY +
Y 2
(x x X ) .
X
Mediando il risultato precedente rispetto ad X troviamo il risultato cercato:

Y
Y 2
(E(X 2 ) 2X ) = X Y + (X
)=
X
X
= X Y + X Y ,
E(X Y ) = X Y +
da cui si ha anche
Cov(X, Y ) = E(X Y ) X Y = X Y ,
per cui ritroviamo anche che XY = , cioè il parametro coincide con il coefficiente di
correlazione.

I concetti precedenti si estendono al caso di n variabili aleatorie in maniera naturale. Ad
esempio, possiamo calcolare la media condizionale di X1 per fissati valori x2 , x3 , . . . , xn
delle variabili aleatorie X2 , X3 , . . . , Xn :

E(X1 |x2 , x3 , . . . , xn )
x1 fX1 (x1 |x2 , x3 , . . . , xn ) dx1 .
(9.15)
La relazione precedente definisce una funzione (x2 , x3 , . . . , xn ); se allora consideriamo

la variabile aleatoria Z = (X2 , X3 , . . . , Xn ) E(X1 |X2 , X3 , . . . , Xn ) e ne calcoliamo la
media, si trova:
E[E(X1 |X2 , X3 , . . . , Xn )] = E(X1 ) .
che rappresenta la generalizzazione del teorema della media condizionale.
215
Prova. Applicando il teorema fondamentale della media, si ha:

E[E(X1 |X2 , X3 , . . . , Xn )] = E[(X2 , X3 , . . . , Xn )] =

...
(x2 , x3 , . . . , xn ) fX2 X3 Xn (x2 , x3 , . . . , xn )dx2 dx3 dxn
Sostituendo la (9.15), si ha:

=
E[E(X1 |X2 , X3 , . . . , Xn )]

=
...
x1 fX1 (x1 |x2 , x3 , . . . , xn ) dx1 fX2 X3 Xn (x2 , x3 , . . . , xn ) dx2 dx3 dxn

=
...
x1 fX1 (x1 |x2 , x3 , . . . , xn ) fX2 X3 Xn (x2 , x3 , . . . , xn ) dx1 dx2 dxn
= fX1 X2 Xn (x1 , x2 , . . . , xn )

=
...
x1 fX1 X2 Xn (x1 , x2 , . . . , xn ) dx1 dx2 dxn

=
x1
...
fX1 X2 Xn (x1 , x2 , . . . , xn ) dx2 dx3 dxn
= fX1 (x1 )

x1 fX1 (x1 ) dx1 = E(X1 ) ,
=
cioè lasserto.
Esercizio 9.1. Si considerino le variabili aleatorie iid X1 , X2 , . . . , Xn , con media e varianza 2 , ed una variabile aleatoria N discreta, indipendente dalle precedenti, a valori
in {1, 2, . . . , n}. Costruiamo la variabile aleatoria S come:
S=
N
Xk ,
k=1
dove lestremo superiore della somma e` aleatorio. Calcolare media, valor quadratico
medio e varianza di S.
Svolgimento. Il problema si risolve semplicemente adoperando il teorema della media
condizionata, ed in particolare condizionando ai possibili valori assunti da N . Infatti,
per quanto riguarda il calcolo della media di S, si ha:
E(S) = E[E(S|N )] ,
e risulta:
E(S|n) = E
, N

k=1
, n
2
n

2
Xk 22N = n = E
Xk =
E(Xk ) = n ,
k=1
k=1
dove abbiamo sfruttato lindipendenza tra N e le X1 , X2 , . . . , Xn , per cui:

E(S) = E(N ) = E(N ) .
216

In maniera simile si puo` calcolare il valore quadratico medio, ovvero:
E(S 2 ) = E[E(S 2 |N )] ,
e si ha:
E(S 2 |n) = E
, N N

k=1 h=1
2
n
n

2
2
Xk Xh 2N = n =
E(Xk Xh ) =
n
n

Cov(Xk , Xh ) + 2 .
=
k=1 h=1
k=1 h=1
Poichè le variabili aleatorie X1 , X2 , . . . , Xn sono indipendenti, allora saranno anche

incorrelate, per cui Cov(Xk , Xh ) = 2 kh , e si ha quindi:
E(S 2 |n) = n 2 + n2 2 ,
per cui
E(S 2 ) = E(N 2 + N 2 2 ) = E(N ) 2 + E(N 2 ) 2 .
La varianza si ottiene infine come:
Var(S) = E(S 2 ) E 2 (S) = E(N ) 2 + 2 [E(N 2 ) E 2 (N )] = E(N ) 2 + 2 Var(N ) .
Capitolo 10
Elementi di teoria dellinformazione
10.1
Introduzione
Lo scopo della teoria dellinformazione e` quello di porre le basi teoriche per i problemi
della trasmissione, della ricezione, dellelaborazione e della memorizzazione dellinformazione. Tale disciplina e` relativamente recente, essendo nata solo negli anni 40 e
principalmente per effetto di un singolo e decisivo contributo del ricercatore statunitense della Bell Claude E. Shannon, che pubblico` nel 1948 il fondamentale A mathematical
theory of communication, nel quale si sviluppano i principali concetti della teoria.1
Il punto di partenza della teoria dellinformazione e` ovviamente il concetto stesso di
informazione, che ricorre in varie discipline e assume significati e sfumature differenti a
seconda dei contesti nei quali viene utilizzato. Noi ci riferiremo al caso di un sistema
di comunicazione (lo schema in Fig. 10.1 e` dovuto allo stesso Shannon), nel quale linformazione emessa da una sorgente viene trasportata fino ad una destinazione, mediante
un canale di comunicazione; sorgente e destinazione possono essere due persone (es.
comunicazione telefonica), due apparecchiature (es. comunicazione tra due calcolatori), o due parti di una stessa apparecchiatura (es. comunicazione tra microprocessore e
memoria RAM di un calcolatore).
Spesso linformazione e` di natura simbolica, o puo` comunque essere espressa mediante un insieme di simboli (si pensi alle lettere dellalfabeto); tale rappresentazione
non e` necessariamente efficiente, anzi contiene sovente un elevato grado di ridondanza.
Poiche il trasporto e la memorizzazione di ridondanza comporta uno spreco di risorse, compito del codificatore di sorgente e` quello di fornire una rappresentazione il piu`
possibile compatta e sintetica dei simboli emessi dalla sorgente, eliminando se possibile ogni ridondanza (il decodificatore di sorgente opera la trasformazione inversa alla
destinazione).
1
Si veda lURL http://cm.bell-labs.com/cm/ms/what/shannonday/paper.html per una versione

Postscript o pdf del lavoro di Shannon.
218
Codificatore
sorgente
Sorgente
di
Codificatore
canale
di
Modulatore
Canale
Destinazione
Decodificatore
di sorgente
Decodificatore
di canale
Demodulatore
Fig. 10.1. Schema di Shannon di un sistema di comunicazione per la trasmissione di

informazione da una sorgente ad una destinazione.
Poiche poi il canale di comunicazione e` un canale fisico (ad esempio, un doppino telefonico, una fibra ottica o lo spazio libero), si richiede per la trasmissione che i simboli
vengano rappresentati con segnali fisici (elettrici, ottici o di altra natura): questo compito e` svolto dal modulatore, mentre il demodulatore opera la trasformazione inversa alla
destinazione (il blocco modulatore/demodulatore e` spesso comunemente denominato
modem).
Osserviamo infine che qualunque canale di comunicazione e` rumoroso, cioè introduce errori; per ridurre il loro effetto, e consentire comunque una comunicazione affidabile, prima della modulazione si puo` effettuare una codifica di canale, che ha lo scopo di
introdurre una quantità controllata di ridondanza per irrobustire la trasmissione dellinformazione attraverso il canale (un semplice esempio di codifica di canale e` costituito dal bit di parità che viene concatenato ad una stringa di bit prima della trasmissione).
Tale ridondanza viene rimossa alla destinazione dal decodificatore di canale.
Esempio 10.1. Per fornire un esempio tratto dallesperienza quotidiana, supponiamo
di voler invitare il nostro amico Mario Rossi, che vive allestero, alla nostra laurea, e di
volerlo fare per telegramma. La codifica di sorgente in questo caso consiste nel trasformare il nostro invito in una formula telegrafica, del tipo GRADITA TUA PARTECIPAZIONE MIA LAUREA PROSSIMO 15 GIUGNO ORE 9:00 FACOLTA INGEGNERIA
NAPOLI, nella quale abbiamo fornito le informazioni essenziali, eliminando un certo
livello di ridondanza tipica della lingua parlata. A questo punto, telefoniamo al servizio
dettatura telegrammi, e per essere sicuri che limpiegato (un po duro dorecchi) capisca
bene tutte le parole del telegramma, le ripetiamo scandendole piu` volte; in particolare
per fargli capire che il cognome e` Rossi usiamo frasi del tipo R come Roma, O come
Orvieto, S come Sassari, etc.: in questo caso stiamo introducendo ridondanza, ovvero
stiamo effettuando una codifica di canale.
10.2 Misura dellinformazione ed entropia

Le principali aree di studio della teoria dellinformazione sono strettamente collegate ai
blocchi funzionali dello schema di Shannon (Fig. 10.1); in particolare, essa si occupa dei
seguenti problemi:
1. la rappresentazione dellinformazione nella forma piu` efficiente possibile, eliminando ogni possibile ridondanza, in modo da ridurre il numero di simboli necessari per la sua descrizione (codifica di sorgente);
2. la determinazione della massima quantità di informazione che e` possibile trasmettere con degradazione piccola a piacere su un canale di trasmissione (capacità di
canale);
3. lintroduzione di ridondanza controllata in trasmissione, cos` da limitare le degradazioni introdotte dal canale (codifica di canale).
La teoria dellinformazione e` una disciplina dal forte contenuto matematico, e noi ci
limiteremo semplicemente ad introdurre i concetti fondamentali, quali la misura dellinformazione, ed a fornire qualche elemento di codifica di sorgente. Per non sottovalutare limportanza applicativa di tale disciplina, tuttavia, menzioniamo solo che alcuni
tra i piu` importanti standard tecnologici utilizzati al giorno doggi (JPEG, MPEG, MP3,
ADSL tra essi) devono la loro nascita ai risultati della teoria dellinformazione.
10.2
Misura dellinformazione ed entropia
Come già accennato, informazione e` un concetto necessariamente vago, che talvolta assume caratteristiche soggettive; tuttavia, per costruire una teoria matematica, dovremo definirla in maniera piu` rigorosa, tanto rigorosa da fornire degli strumenti per
misurarla.
Losservazione fondamentale per arrivare ad introdurre una misura dellinformazione e` che il concetto di informazione e` intrinsecamente associato a quello di impredicibilità
o di incertezza. Ad esempio, se telefoniamo al servizio informazioni meteorologiche in
pieno agosto, e ci viene detto domani sarà una bella giornata, sicuramente attribuiremo a tale asserzione un minore contenuto informativo rispetto ad una previsione del
tipo domani si scatenerà un uragano tropicale, semplicemente perchè alle nostre latitudini e nel mese di agosto la prima eventualità e` sicuramente di gran lunga piu` probabile
del secondo. Per questo motivo, a livello intuitivo accettiamo che linformazione associata ad un evento sia inversamente proporzionale alla probabilità con la quale quel dato
evento puo` verificarsi. Sulla base di questa osservazione, possiamo passare ad introdurre una definizione operativa di misura dellinformazione. Parlando di eventi e di probabilità, e` naturale modellare loggetto del nostro studio come un esperimento aleatorio,
219
220

dotato di struttura di spazio di probabilità discreto2 (, B, P ). Poichè intendiamo misurare linformazione associata ad eventi di , supponiamo (senza ledere la generalità) che
ai possibili risultati dellesperimento siano associati i valori x X = {x1 , x2 , . . . , xn , . . . }
assunti da una variabile aleatoria discreta X, avente DF pX (x) P (X = x). Per comodità di notazione, porremo talvolta pk pX (xk ); supporremo poi che la variabile
aleatoria assuma un numero finito di valori x1 , x2 , . . . , xK .
10.2.1 Autoinformazione
Avendo osservato che ad una minore probabilità corrisponde una maggiore quantità di
informazione, definiamo lautoinformazione dellevento {X = x}.
Definizione (autoinformazione). Sia X una variabile aleatoria discreta a valori x X e con DF pX (x): lautoinformazione associata allevento {X = x} e`
data da:
H(x) log
1
= log pX (x) ,
pX (x)
dove il logaritmo e` in una base qualsiasi maggiore di 1.

Osserviamo che il valore dellautoinformazione dipende solo della probabilità pX (x), e
non dal valore di x; inoltre essa puo` assumere solo valori maggiori o uguali a zero (in
quanto pX (x), essendo una probabilità, e` minore o uguale ad uno), e assume valori tanto
maggiori quanto meno probabile e` levento {X = x}: in particolare, se pX (x) 0, lautoinformazione H(x) tende allinfinito, mentre se pX (x) 1, lautoinformazione H(x)
tende a zero. Tale proprietà soddisfa il ragionamento intuitivo effettuato in precedenza:
il verificarsi di un evento poco probabile possiede un maggior contenuto informativo
rispetto ad un evento molto probabile o addirittura certo. La presenza del logaritmo
nella definizione di autoinformazione si puo` poi giustificare per la proprietà della funzione logaritmo di trasformare prodotti in somme. Infatti, siano X ed Y due variabili
aleatorie discrete con DF congiunta pXY (x, y): lautoinformazione associata allevento
{X = x, Y = y} e` :
H(x, y) = log
1
.
pXY (x, y)
Se gli eventi {X = x} ed {Y = y} sono statisticamente indipendenti, la DF congiunta

pXY (x, y) si fattorizza nel prodotto delle DF marginali, e quindi si ha:
H(x, y) = log
1
1
1
= log
+ log
= H(x) + H(y) ,
pX (x) pY (y)
pX (x)
pY (y)
La misura dellinformazione associata a spazi di probabilità continui e` un problema matematicamente piu` complesso, che non prenderemo in cosiderazione.

per cui lautoinformazione associata ad eventi statisticamente indipendenti e` la somma
delle autoinformazioni associate ai singoli eventi, come pare intuitivamente accettabile.
Sebbene in teoria il logaritmo possa essere calcolato in una base qualsiasi maggiore
di uno, le scelte piu` comuni sono il logaritmo in base e (logaritmo naturale o neperiano,
che denoteremo con ln()) oppure il logaritmo in base 2, che denoteremo semplicemente
con log(); nel primo caso, lautoinformazione si misura in nat, nel secondo si misura
in bit.3 . Poiche log x = ln x/ ln 2, per convertire linformazione da nat a bit, e viceversa,
basta applicare le seguenti relazioni:
[H(x)]nat = ln 2 [H(x)]bit = 0.693 [H(x)]bit ;
[H(x)]bit = ln12 [H(x)]nat = 1.443 [H(x)]nat .
Nel seguito, misureremo linformazione sempre in bit. Notiamo che non bisogna confondere il bit come unità di misura dellinformazione con il bit inteso come simbolo
binario (0 oppure 1), come il seguente esempio dovrebbe chiarire.
Esempio 10.2. Supponiamo che X assuma K valori equiprobabili, per cui pX (x) = K1 .
In tal caso, lautoinformazione associata ad un qualunque valore di X e` la stessa, e vale
H(x) = log
1
= log K .
pX (x)
Ad esempio, supponiamo di avere una stringa composta da n simboli binari (bit); possiamo costruire K = 2n di tali stringhe, e se esse sono ugualmente probabili si avrà
H(x) = log 2n = n, misurando linformazione in bit. Pare abbastanza naturale che linformazione associata ad una stringa di n bit sia pari ad n bit! Osserviamo, tuttavia, che
questo e` vero solo nellipotesi che le K stringhe siano equiprobabili: se cio` non accade,
lautoinformazione di ogni stringa potrà essere maggiore o minore di n bit. Quindi la
conclusione leggermente paradossale e` : una stringa di n bit non porta sempre n bit di
informazione!
10.2.2 Entropia
A questo punto, osserviamo che lautoinformazione H(x) precedentemente definita e`
una funzione che associa ad ogni x il numero reale H(x). Pertanto, al variare di x X
essa definisce una variabile aleatoria funzione della variabile aleatoria X. Possiamo
allora calcolare la media statistica di tale variabile aleatoria, ottenendo una misura media
dellautoinformazione associata ad X che, per affinità con la corrispondente grandezza
termodinamica, prende il nome di entropia (informazionale).
3
Il termine bit, proposto da J.W. Tukey, e` lacronimo per binary digit.
221
222

Definizione (entropia). Data una variabile aleatoria X, lentropia di X e` la
media statistica dellautoinformazione H(x), ed e` data da:
H(X) = E[ log pX (x)] =

xX
pX (x) log pX (x) =
pX (x) log
xX
1
,
pX (x)

Come già osservato per lautoinformazione, anche lentropia H(X) non dipende in effetti dai valori assunti dalla variabile aleatoria, ma soltanto dalle probabilità pX (x) con
cui vengono assunti tali valori. Quindi in sostanza lentropia non dipende dal significato dellinformazione ma solo dalle probabilità con cui essa si puo` manifestare. Se
denotiamo tali probabilità (in numero finito) con pk = pX (xk ), e costruiamo il vettore
p = [p1 , p2 , . . . , pK ], possiamo parlare di entropia associata al vettore di probabilità p, e
scrivere anche H(p) in luogo di H(X).
Esempio 10.3. . Supponiamo che gli eventi di interesse siano due, ad esempio A =
{oggi piove} e A = {oggi non piove}. E` chiaro che possiamo descrivere tale esperimento mediante una variabile aleatoria bernoulliana X Bern(p), a valori 0 ed 1, dove
possiamo convenzionalmente associare il valore 1 ad A ed il valore 0 a A. In ogni caso,
lentropia associata ad X non dipende dai valori della variabile aleatoria, ma solo dalle
probabilità con cui tali valori sono assunti; essa si calcola immediatamente, e vale
H(X) = H(p) = p log p (1 p) log(1 p) .
(10.1)
Tale entropia si denota anche con H(p), poiche dipende solo dal valore di p, e prende
il nome di entropia binaria. Il suo andamento e` diagrammato in Fig. 10.3, dalla quale si vede che essa vale 0 per p = 0 oppure p = 1, mentre e` massima (vale 1 bit) per
p = 1/2 (osserviamo che poniamo 0 log 0 = limp0 p log p = 0). Anche in questo caso,
allora, per specificare una tra due alternative equiprobabili occorre un bit di informazione, mentre per specificare una tra due alternative non equiprobabili e` sufficiente una
quantità di informazione inferiore ad 1 bit. Pertanto, lequiprobabilità, essendo la situazione di massima incertezza, equivale anche ad un massimo di informazione, il che
pare intuitivamente accettabile.
10.2.3 Proprietà dellentropia

Lentropia gode delle seguenti proprietà fondamentali, alcune delle quali di immediata
verifica ed interpretazione.
1. H(X) e` simmetrica rispetto al vettore di probabilità p da cui dipende, nel senso
che se si effettua una permutazione degli elementi del vettore p lentropia non
cambia.
223
0.9
0.8
0.7
H(X) (bit)
0.6
0.5
0.4
0.3
0.2
0.1
0.1
0.2
0.3
0.4
0.5
p
0.6
0.7
0.8
0.9
Fig. 10.2. Entropia binaria H(X) (espressa in bit) in

funzione della probabilità p.
2. H(X) e` nulla se la distribuzione di probabilità e` del tipo:

1,
pX (x) =
0,
per x = x;
altrimenti.
3. H(X) e` massima, e vale H(X) = log K, se pX (x) =
1
K
(alternative equiprobabili)
Di queste proprietà, la prima riafferma che lentropia non dipende dallordine in cui si
considerano i possibili eventi; la seconda afferma che se esiste un risultato certo (per cui
gli altri hanno necessariamente probabilità nulla) il contenuto informativo medio e` nullo; infine, la terza proprietà afferma che il contenuto informativo, a parità di alternative,
e` massimo se tali alternative sono equiprobabili. Notiamo per inciso che al crescere di K
il valore massimo log K dellentropia aumenta, il che significa che un maggior numero
di alternative porta potenzialmente una maggior quantità di informazione.
10.2.4 Entropia congiunta

Nelle precedenti sezioni, abbiamo definito lentropia di una singola variabile aleatoria X. E` immediato estendere tale definizione al caso di due o piu` variabili aleatorie
X1 , X2 , . . . , Xn .
224

Definizione (entropia congiunta). Date n variabili aleatorie X
=
T
[X1 , X2 , . . . , Xn ] , a valori x = [x1 , x2 , . . . , xn ] in X = X1 X2 Xn ,
con DF congiunta pX (x), lentropia congiunta H(X) di X e` data da:

H(X) E[ log pX (x)] =
pX (x) log pX (x) ,
xX

Ad esempio, nel caso n = 2, ponendo X1 = X ed X2 = Y , si ha esplicitamente:

pXY (x, y) log pXY (x, y) .
H(X, Y ) =
xX,yY
Se le variabili aleatorie X ed Y sono indipendenti, la DF congiunta si fattorizza, e per le

proprietà del logaritmo si ha:

H(X, Y ) =
pXY (x, y) log[pX (x) pY (y)] =
xX,yY
pXY (x, y) log pX (x)
xX,yY
pXY (x, y) log pY (x)
xX,yY
= H(X) + H(Y ) ,
dove abbiamo sfruttato la relazione tra DF congiunte e marginali, e la definizione di
entropia. Per cui, lentropia congiunta associata a variabili aleatorie indipendenti e` la
somma delle entropie delle singole variabili aleatorie. Il risultato si generalizza ovviamente al caso di un vettore X = [X1 , X2 , . . . , Xn ] di n variabili aleatorie indipendenti,
per il quale si ha:
H(X) =
n
H(Xi ) ;
i=1
se poi le variabili aleatorie che compongono X, oltre ad essere indipendenti, sono anche
identicamente distribuite, si ha H(Xi ) = H(Xj ) = H(X1 ), per cui si ottiene semplicemente:
H(X) = n H(X1 ) .
Osserviamo, infine, che sostituendo alle DF congiunte le DF condizionali, e` possibile
definire anche le entropie condizionali, la cui trattazione esula comunque dalla natura
introduttiva di questo capitolo.
Esempio 10.4. Consideriamo ancora il caso della stringa di n bit, che possiamo riguardare come n variabili aleatorie iid X1 , X2 , . . . , Xn , con Xi Bern(p). In tal caso, si
ha:
H(X) = n H(X1 ) = n H(p) ,
10.3 Sorgenti di informazione

dove H(p) e` lentropia binaria data dalla (10.1). Pertanto landamento dellentropia
H(X) al variare di p e` , a meno di un fattore di scala n, lo stesso di quello di Fig. 10.3; la
conclusione e` che il valore massimo di H(X) al variare di p vale n, e si ottiene quando
p = 1/2. In tutti gli altri casi, lentropia di una stringa di n bit assume un valore inferiore
ad n bit.
10.3
Sorgenti di informazione
Con riferimento allo schema di Shannon (Fig. 10.1), il punto di partenza per affrontare un qualunque problema di teoria dellinformazione e` definire con esattezza cosa
intendiamo per sorgente di informazione e misurare la quantità di informazione da essa
prodotta: senza dare una definizione formale, possiamo assimilare una sorgente di informazione discreta ad un dispositivo (fisico, elettronico, astratto etc.) che emette simboli appartenenti ad un insieme discreto con una determinata regolarità statistica. Alcuni esempi di sorgenti discrete di informazione sono i seguenti: un utente che scrive
ad una tastiera alfanumerica di un calcolatore (i simboli sono in tal caso le lettere dellalfabeto piu` i caratteri speciali); un termometro che registra i valori della temperatura
esterna a passi di 1o C (i simboli sono in tal caso un sottoinsieme dei numeri interi relativi); la successione dei valori dellindice di borsa italiana (Mibtel) nei diversi giorni della
settimana (i simboli sono in tal caso numeri interi). Non tutte le sorgenti di informazione sono, ovviamente, discrete (sia nei valori prodotti, che nel tempo); molte sorgenti
emettono simboli appartenenti ad un insieme continuo e con comtinuità nel tempo (ad
esempio, un voltmetro analogico per la misura della tensione continua in un dispositivo
elettronico puo` emettere in ogni istante reale un valore reale di tensione nellintervallo
[0, 5V ]). Comunque, nel seguito, coerentemente con la scelta di introdurre la misura
dellinformazione solo negli spazi di probabilità discreti, ci limiteremo a considerare
esclusivamente il caso di sorgenti discrete.4
10.3.1 Tasso dentropia di una sorgente

Dal punto di vista matematico, poichè generalmente una sorgente emette non un solo
simbolo, ma una sequenza di simboli, potremo assimilare una sorgente S discreta ad
una sequenza X1 , X2 , . . . (potenzialmente infinita) di variabili aleatorie discrete.
Assumeremo che ogni simbolo della sequenza appartenga ad un alfabeto numeri5
co di cardinalità K finita, sia esso X = {x1 , x2 , . . . , xK }. Poniamoci ora il problema
4
In molti casi, i risultati ottenuti sono applicabili anche al caso delle sorgenti continue, purche
queste siano appropriatamente discretizzate, ad esempio con una procedura di campionamento (per la
discretizzazione dei tempi) e quantizzazione (per la discretizzazione dei valori).
225
226

di misurare linformazione associata alla sequenza (potenzialmente infinita) di simboli
X1 , X2 , . . . emessi dalla sorgente; e` chiaro che se vogliamo catturare la struttura della
sequenza di simboli, ovvero le dipendenze tra simbolo e simbolo, non possiamo limitarci a considerare lentropia di un solo simbolo H(X1 ), ma dobbiamo calcolare quella
associata a blocchi di due simboli H(X1 , X2 ), a blocchi di tre simboli H(X1 , X2 , X3 ), e cos`
via, il caso generale essendo H(X1 , X2 , . . . , Xn ). Se teniamo presente che al crescere della dimensione n del blocco aumenta il numero delle alternative possibili (esistono K n
differenti blocchi di lunghezza n), ci rendiamo conto che tale sequenza di entropie potrebbe aumentare indefinitamente. Daltra parte possiamo considerare linformazione
media per simbolo semplicemente dividendo H(X1 , X2 , . . . , Xn ) per n. Possiamo allora
definire il tasso dentropia H(S) della sorgente come il limite:
1
H(X1 , X2 , . . . , Xn ) ,
n n
H(S) lim
ammesso che esso esista finito. Tale quantità rappresenta il contenuto medio di informazione associata a ciascun simbolo della sorgente, nella trasmissione di una lunga (al
limite, infinita) sequenza di simboli.
10.3.2 Sorgenti discrete senza memoria (DMS)

In generale, i simboli emessi in successione dalla sorgente presenteranno qualche forma
di dipendenza statistica; ad esempio, se un utente (italiano) digita sulla tastiera le lettere
a e c in successione, e` piu` probabile che la successiva lettera sia una q piuttosto
che una t; se la temperatura in una giornata vale 18o , e` probabile che il valore nel
giorno successivo sia compreso tra 16o e 20o ; se lindice di borsa in una giornata vale x,
e` probabile che il valore nel giorno successivo non si discosti di 2% da x, e cos` via.
In sostanza, tale livello di dipendenza statistica o di ridondanza puo` essere sfruttato con
vantaggio per rappresentare linformazione emessa dalla sorgente in maniera efficiente,
cos` come avviene nella codifica di sorgente (vedi 10.4).
Nonostante le sorgenti con simboli statisticamente dipendenti siano praticamente la
norma (si pensi ad esempio alle forti dipendenze statistiche del linguaggio parlato), la
trattazione matematica di tali sorgenti risulta estremamente difficoltosa; spesso risulta
utile considerare il caso particolarmente semplice, seppure ideale, di sorgente discreta
senza memoria (DMS): in questo caso i successivi simboli X1 , X2 , . . . emessi dalla sorgente sono assunti statisticamente indipendenti, ed identicamente distribuiti, con DF
5
Tale assunzione non e` limitativa, in quanto se i simboli emessi dalla sorgente non sono numerici (ad
esempio, lalfabeto italiano), essi possono essere messi in corrispondenza biunivoca con un sottoinsieme dei numeri interi. Inoltre abbiamo osservato che lentropia non dipende dai valori della variabile
aleatoria, ma solo dalle probabilità con cui tali valori sono assunti.
10.3 Sorgenti di informazione
227
comune pX (x). In questo caso, si ha H(X1 , X2 , . . . , Xn ) = n H(X1 ) e quindi

1
n H(X1 )
H(X1 , X2 , . . . , Xn ) = lim
= H(X1 ) ,
n n
n
n
H(S) = lim
cioè il tasso dentropia della sorgente DMS coincide con lentropia di un singolo simbolo
emesso dalla sorgente.
Esempio 10.5 (tasso di entropia del linguaggio). Un esempio di sorgente discreta di informazione e` il linguaggio scritto, che possiamo vedere come una successione di simboli
appartenenti ad un certo alfabeto, con in aggiunta lo spazio ed i simboli di interpunzione. Il modello di sorgente discreta senza memoria non e` assolutamente appropriato per
il linguaggio, in quanto e` intuitivamente comprensibile che qualsiasi lingua o dialetto
presenta un elevato grado di struttura e quindi di ridondanza statistica, come provato anche dalla possibilità, spesso sfruttata nei giochi enigmistici, di ricostruire parole
o anche frasi a partire da poche lettere. Consideriamo ad esempio la lingua italiana:
senza considerare per semplicità la punteggiatura, e senza distinguere tra lettere maiuscole e minuscole, limitiamoci a considerare le 21 lettere dellalfabeto (a, b, c, d, e, f,
g, h, i, l, m, n, o, p, q, r, s, t, u, v, z) piu` lo spazio, che indichiamo con , e lapostrofo
(23 simboli in totale). Se si dispone di un campione di testo sufficientemente lungo,
e di un po di pazienza (meglio ancora, di un buon programma al calcolatore) e` possibile calcolare la frequenza di occorrenza dei 23 simboli, i cui risultati sono riportati
in Tab. 10.1. Osserviamo che la massima entropia che si puo` ottenere con 23 lettere e`
lettera
a
e
o
i
s
n
l
t
r
c
probabilità
0.161
0.108
0.085
0.079
0.073
0.060
0.055
0.053
0.051
0.050
0.049
lettera probabilità
d
0.038
u
0.027
v
0.025
m
0.016
p
0.015
f
0.014
b
0.010
lettera probabilità
h
0.009
z
0.008
g
0.006
q
0.004
0.004
Tab. 10.1. Lettere dellalfabeto italiano con probabilità di occorrenza (in ordine decrescente di
probabilità).
pari a log 23 = 4.52 bit, mentre quella effettiva delle lettere dellalfabeto italiano e` pari a
H(X1 ) 4 bit, con una ridondanza di circa 0.5 bit. Lesempio non deve pero` indurre a
228

conclusioni errate: in realtà, la ridondanza e` molto piu` elevata, ma richiede che si considerino gruppi di 2 lettere, di 3 lettere e cos` via, cioè richiede il calcolo dellentropia
media per lettera n1 H(X1 , X2 , . . . , Xn ) e, al limite per n , del tasso di entropia.
Un esempio di questo tipo e` riportato in [11] per la lingua inglese, con un alfabeto di 27 simboli (26 lettere ed uno spazio), per il quale la massima entropia e` pari a log 27 = 4.76 bit. Lentropia di una singola lettera della lingua inglese e` invece
pari a H(X1 ) 4 bit, quindi praticamente coincidente con quella dellalfabeto italiano, nonostante il maggior numero di simboli; se si considerano gruppi di piu` lettere,
lentropia per lettera diminuisce; ad esempio, per 4 lettere lentropia media per lettera
1
H(X1 , X2 , X3 , X4 ) e` pari a 2.8 bit. Esperimenti condotti dallo stesso Shannon e da al4
tri ricercatori stimano il tasso di entropia H(S) della lingua inglese pari a circa 1.3 bit
per lettera, che confrontato con il valore massimo di 4.76 bit mostra lelevato grado di
ridondanza della lingua inglese.
10.4
Codifica di sorgente
Unimportante applicazione dei concetti di misura dellinformazione e di entropia e`

rappresentata dalla cosiddetta codifica di sorgente, che consiste nella rappresentazione
efficiente dei simboli emessi da una sorgente di informazione. Piu` precisamente, sulla
base della definizione di sorgente di informazione data nel paragrafo precedente, possiamo formalizzare il problema della codifica di sorgente come segue: data una sorgente
di informazione S, si desidera codificare le sequenze di simboli emessi dalla sorgente,
che appartengono ad un alfabeto di sorgente X = {x1 , x2 , . . . , xK } di cardinalità K, in sequenze binarie, ovvero composte da soli due valori, 0 ed 1, che costituiscono lalfabeto
codice.6 Un esempio tipico di codifica binaria e` quello fornito dal codice ASCII, mediante
il quale si codificano caratteri alfanumerici, piu` alcuni caratteri di controllo, in stringhe
composte da 8 bit (1 byte).
Lobiettivo tipico della codifica di sorgente e` quello di ridurre al minimo (compattare) la lunghezza delle stringhe binarie necessarie a codificare le sequenze di simboli emessi dalla sorgente, eliminando, o riducendo al minimo, ogni ridondanza di
informazione presente nella sorgente.
Tale riduzione di ridondanza, effettuata da un dispositivo denominato codificatore di
sorgente, puo` essere anche assai rilevante, a spese tuttavia della possibilità di ricostruire
esattamente i simboli emessi dalla sorgente a partire dalle stringhe codificate: si parla in
6
La codifica binaria non e` lunico tipo di codifica esistente: il caso piu` generale puo` prevedere un
alfabeto codice composto da tre o piu` valori. Tuttavia la rilevanza della codifica binaria discende dal fatto
che linformazione binaria puo` piu` facilmente essere trasmessa, elaborata, e memorizzata.
10.5 Codici per la compattazione dati

tal caso di codifica di sorgente con perdite o di compressione dati. Tale perdita di informazione in molte applicazioni e` accettabile, in quanto il destinatario ultimo dellinformazione
(tipicamente un essere umano) ha una sensibilità finita; la compressione dati si applica
infatti utilmente nella trasmissione telefonica, nella telefonia via Internet, nella trasmissione del segnale televisivo, nella codifica di file audio, ed in numerose altre applicazioni. Ad esempio, gli standard JPEG (per la compressione di immagini fisse), MPEG
(per la compressione di immagini in movimento) ed MP3 (per la compressione di file
audio) sono tutti esempi di codifica con perdite, quindi senza la possibilità di ricostruire
esattamente linformazione originaria a partire da quella codificata.
Risultati piu` modesti, ma comunque rilevanti, si conseguono se si richiede la perfetta
ricostruibilità dei simboli emessi dalla sorgente, il che nella comunicazione tra macchine
(si pensi alla compressione di un file eseguibile di un programma) e` un requisito imprescindibile: si parla in tal caso di codifica di sorgente senza perdite o di compattazione dati .
Esempi di codifica senza perdite sono quelli effettuati dai popolari programmi di compattazione file, quali Winzip (per sistemi operativi Windows) o il comando compress
o gzip (per sistemi operativi Unix/Linux).
Esempio 10.6. La codifica senza perdite consente di rappresentare linformazione in
maniera esatta, ma meno efficiente: per convincersene, basta citare un esempio concreto: un file audio in formato WAV di circa 16 MB, corrispondente a circa 1 minuto e
mezzo di musica stereo con qualità CD, viene convertito senza perdite dal programma
Winzip, basato sullalgoritmo cosiddetto di Lempel-Ziv, in un file ZIP di circa 14 MB; viene invece convertito con perdite in un file MP3 a 128 kbps di circa 1.5 MB. In questo caso,
la codifica con perdite risulta quasi 10 volte piu` efficiente della codifica senza perdite,
senza unapprezzabile degradazione della qualità percepita.

Nel seguito, ci occuperemo esclusivamente della compattazione dati, ovvero della codifica senza perdite.
10.5
Codici per la compattazione dati
Prima di introdurre le tecniche piu` semplici per la compattazione dati, forniamo alcune nozioni e la terminologia principale riguardanti i codici, iniziando dalla definizione
formale di codice binario.
Definizione (codice binario). Sia S una sorgente discreta, un codice binario C
per la sorgente S e` una regola che trasforma sequenze di simboli emessi da S
in sequenze di simboli binari, per esempio appartenenti allalfabeto di codice
{0, 1}.
229
230

Applichiamo poi tale definizione individuando tipologie e proprietà di alcuni fondamentali codici. In particolare, tra le possibili strategie di codifica, considereremo due
famiglie di codici: i codici a lunghezza fissa ed i codici a lunghezza variabile.
10.5.1 Codici a lunghezza fissa

Nei codici a lunghezza fissa, le sequenze di simboli di sorgente da codificare sono segmentate in blocchi di lunghezza fissa, pari ad n simboli; ciascun blocco viene poi trasformato in un blocco codificato (binario) anchesso di lunghezza fissa, pari ad A cifre
binarie o bit. Comunemente i blocchi codificati si chiamano parole codice, e linsieme
delle parole codice prende il nome di dizionario del codice.
Esempio 10.7 (codice ASCII). Un esempio particolarmente semplice di codice a lunghezza fissa e` rappresentato dal codice ASCII, nel quale tutti i caratteri alfanumerici
ed i caratteri speciali sono codificati con parole di lunghezza fissa e pari a A = 8 bit.
10.5.2 Codici a lunghezza variabile

Nei codici a lunghezza variabile, le sequenze di simboli di sorgente da codificare sono
ancora segmentate in blocchi di lunghezza fissa pari ad n, mentre le parole codice non
sono piu` vincolate ad avere tutte la stessa lunghezza. Il motivo per cui si introduce
questo grado di libertà e` intuitivamente comprensibile: si tende a codificare simboli
(o blocchi di simboli) di sorgente meno probabili con parole codice lunghe, e viceversa
simboli (o blocchi di simboli) piu` probabili con parole codice corte; in questo modo si
riduce la lunghezza media della sequenza codificata, rispetto ad un codice a lunghezza
fissa.
Esempio 10.8 (codice Morse). Un classico esempio di codice a lunghezza variabile e` il
codice telegrafico Morse (ormai in disuso), nel quale lalfabeto codice e` costituito da
punti (dot) e linee (dash), e il codice e` costruito in modo da tener conto della frequenza relativa delle lettere nella lingua inglese: ad esempio, alla frequente lettera e
e` associata la parola codice breve . (punto), mentre alla poco frequente lettera q e`
associata la parola codice lunga . . (punto, punto, linea, linea).

Nel seguito, considereremo prevalentemente il caso in cui la codifica sia effettuata su
blocchi di sorgente di lunghezza n = 1, ovvero su singoli simboli della sorgente (codifica
simbolo a simbolo); il caso n > 1 si puo` trattare come generalizzazione del precedente,
considerando una macro-sorgente che emette blocchi anziche simboli.
231
10.5.3 Codici univocamente decifrabili

In una codifica senza perdite, una proprietà irrinunciabile di un codice e` che esso sia
univocamente decifrabile.
Definizione (codice univocamente decifrabile). Un codice C si dice univocamente decifrabile se e` possibile ricostruire senza ambiguità le sequenze di simboli
originali a partire dalle sequenze codificate.
Esempio 10.9. Consideriamo una sorgente S che emette simboli X appartenenti allalfabeto X = {x1 , x2 , x3 , x4 }. Quattro possibili codici binari simbolo a simbolo per tale
sorgente sono riportati in Tab. 10.2: i codici C1 e C2 sono a lunghezza fissa, mentre i
codici C3 e C4 sono a lunghezza variabile.
X
x1
x2
x3
x4
C1
00
01
10
11
C2 C3
00 0
01 11
01 00
11 01
C4
0
10
110
1110
Tab. 10.2. Codici binari per una sorgente con K = 4 simboli.
Affinchè un codice risulti univocamente decifrabile, in primo luogo le parole codice

devono essere tutte differenti; codici che non soddisfano tale proprietà, come il codice C2 , si dicono singolari, e non saranno considerati piu` nel seguito. A questo punto, e`
facile verificare che, se il codice e` a lunghezza fissa, affinche esso risulti univocamente
decifrabile e` necessario e sufficiente che esso sia non singolare, come il codice C1 . Piu`
complesso e` il problema di riconoscere lunivoca decifrabilità per codici a lunghezza
variabile, in quanto il fatto che il codice sia non singolare non garantisce che esso sia anche univocamente decifrabile. Ad esempio, i codici C3 e C4 sono entrambi non singolari;
tuttavia, se si considera il codice C3 , e` facile verificare che la stringa codificata 0011 puo`
corrispondere alla sequenza di sorgente x1 x1 x2 ma anche alla sequenza di sorgente x3 x2 ,
per cui tale codice non e` univocamente decifrabile. Viceversa, si verifica facilmente che
il codice C4 e` univocamente decifrabile, in quanto le sue parole codice terminano tutte
per 0 (che puo` essere considerato come una specie di simbolo di separazione tra due
parole codice consecutive).
10.5.4 Codici a prefisso

Tra i codici a lunghezza variabile univocamente decifrabili, unimportante classe di
codici e` rappresentata dalla classe dei cosiddetti codici a prefisso.
232

Definizione (codice a prefisso). Un codice C si dice a prefisso se nessuna
parola codice e` prefissa di unaltra parola codice.
Si intende che una parola codice e` prefissa di unaltra parola codice se ne costituisce la
sottostringa iniziale; ad esempio, la parola codice 01 e` prefissa delle parole codice 011,
0110, e 01111. A questo punto, e` chiaro che, se un codice e` a prefisso, nella decodifica
di una sequenza codificata non possono sorgere ambiguità, e quindi un tale codice e`
sicuramente univocamente decifrabile.
Esempio 10.10. Consideriamo nuovamente i codici C3 e C4 dellesempio 10.9. Per il
primo, osserviamo che la parola codice 0 e` prefissa delle parole codice 00 e 01, per cui
tale codice non e` un codice a prefisso (peraltro, abbiamo già verificato che esso non
e` univocamente decifrabile). Viceversa, se consideriamo il codice C4 , osserviamo che
nessuna parola codice e` prefissa di unaltra parola codice, per cui tale codice e` a prefisso,
e quindi univocamente decifrabile.

Per verificare se un codice e` a prefisso oppure no, e` assai utile la sua rappresentazione
mediante un albero di codice, dove per albero intendiamo un grafo orientato (generalmente da sinistra a destra), composto da punti, detti nodi, e da linee, dette rami, con la
condizione che da ogni nodo partano due rami (albero binario). Con ovvia similitudine
botanica, il nodo allestrema sinistra dellalbero prende il nome di radice, mentre i
nodi allestrema destra, da cui non partono rami, si dicono nodi terminali o foglie;
i nodi che non sono nè radice nè terminali si dicono interni. Se si contrassegnano i
rami partenti da un nodo sempre allo stesso modo (ad esempio, il ramo superiore con
1 e quello inferiore con 0), ad ogni nodo viene assegnata unetichetta univoca, ottenuta
concatenando ordinatamente i contrassegni dei rami che si percorrono dalla radice fino
al nodo in esame.7 Un nodo i si dice predecessore di un nodo j se muovendosi dalla
radice verso j si incontra prima i; equivalentemente, j si dirà successore di i.
E` possibile allora costruire la rappresentazione ad albero di un codice semplicemente
associando le parole codice (stringhe binarie) ai nodi corrispondenti dellalbero, scelto
di lunghezza appropriata. A questo punto, e` semplice verificare se un codice e` a prefisso
oppure no: infatti, se una parola codice ci e` prefissa di unaltra parola cj , il nodo i e`
predecessore di j; pertanto, affinche il codice sia a prefisso, tutte le parole codice devono
corrispondere a nodi terminali dellalbero.
Osserviamo infine che un codice a prefisso e` anche detto istantaneo perche, nella fase
di decodifica, non appena percorrendo lalbero si riconosce una parola codice, e` possibile decodificarla istantaneamente, garantendo in questo modo un ritardo di decodifica
nullo. In generale, un codice univocamente decifrabile ma non a prefisso non soddisfa a
tale proprietà.
7
Notiamo che tale percorso sullalbero, dalla radice ad un nodo, e` necessariamente unico.
233
11
1110
1
1
110
01
10
0
00
(a)
(b)
Fig. 10.3. Alberi di codice per il codice C3 (a) ed il codice C4 (b).
Esempio 10.11. Consideriamo la rappresentazione ad albero dei codici C3 e C4 dellesempio 10.9, riportata in Fig. 10.3. Dallesame degli alberi di codice, si nota chiaramente
come il codice C3 (albero a sinistra) non sia a prefisso (la parola codice 0 e` predecessore
delle parole codice 01 e 00), mentre il codice C4 (albero a destra) e` chiaramente a prefisso,
in quanto tutte le sue parole codice corrispondono a nodi terminali.
10.5.5 Condizioni per lunivoca decifrabilità

Osserviamo che un codice univocamente decifrabile non e` necessariamente a prefisso:
in altri termini, la classe dei codici univocamente decifrabili comprende la classe dei
codici a prefisso, ma non si limita ad essa. Pertanto, esistono codici univocamente decifrabili che non sono a prefisso, e quindi verificare mediante lanalisi dellalbero che il
codice non e` a prefisso non consente di dire con sicurezza che esso non e` univocamente
decifrabile.
In effetti, esiste una procedura sistematica (metodo di Sardinas e Patterson) per individuare se un dato codice (a prefisso oppure no) sia univocamente decifrabile, che
tuttavia non approfondiremo. Approfondiamo invece tale problema da un punto di
vista leggermente diverso, che risulterà piu` proficuo per determinare i limiti ultimi
dellefficienza con cui e` possibile compattare i simboli emessi da una sorgente. Sia
S una sorgente che emette simboli appartenenti ad un alfabeto X = {x1 , x2 , . . . , xK }
con K possibili simboli, e sia C un codice binario simbolo a simbolo, avente parole codice c1 , c2 , . . . , cK , di lunghezze A1 , A2 , . . . , AK . Se il codice e` univocamente decifrabile, le lunghezze Ak devono soddisfare al seguente teorema, che enunciamo senza
dimostrazione.
234

Teorema 10.1 (disuguaglianza di Mc Millan). Se il codice binario C con parole codice
aventi lunghezze A1 , A2 , . . . , AK e` univocamente decifrabile, risulta necessariamente
K
21k 1 .
k=1
Esempio 10.12. Applichiamo la disuguaglianza di Mc Millan ai codici C3 e C4 dellesempio 10.9. Per il primo, che già sappiamo essere non univocamente decifrabile, si
ha:
K
21k = 21 + 22 + 22 + 22 =
k=1
5
>1
4
per cui, come ci attendiamo, la disuguaglianza di Mc Millan non e` verificata. Per

il secondo, che sappiamo essere a prefisso e quindi univocamente decifrabile, risulta
invece:
K
21k = 21 + 22 + 23 + 23 = 1
k=1
per cui la disuguaglianza di Mc Millan e` verificata (con il segno di uguaglianza).
Notiamo che la disuguaglianza di Mc Millan fornisce solo una condizione necessaria per
lunivoca decifrabilità, condizione che coinvolge tra laltro soltanto le lunghezze delle
parole codice; in altri termini, non e` detto che un codice le cui lunghezze soddisfino la
disuguaglianza di Mc Millan sia univocamente decifrabile: al limite, un tale codice potrebbe addirittura essere singolare, cioè avere due parole codice coincidenti! Tuttavia,
la disuguaglianza di Mc Millan puo` essere utilizzata anche come condizione sufficiente per la costruzione di un codice a prefisso (e quindi univocamente decifrabile), come
evidenziato dal seguente teorema, che enunciamo senza dimostrazione.
Teorema 10.2 (disuguaglianza di Kraft). Se i K numeri interi positivi A1 , A2 , . . . , AK soddisfano la disuguaglianza
K
21k 1 ,
k=1
allora e` possibile costruire un codice binario C a prefisso (e quindi univocamente decifrabile) con K parole codice aventi lunghezze A1 , A2 , . . . , AK .
10.6 Efficienza di codifica
235
Notiamo che la disuguaglianza che compare nei due teoremi precedentemente enunciati e` la stessa, e per questo motivo essi vengono spesso condensati in un unico teorema,
che prende il nome di disuguaglianza di Kraft-Mc Millan. Una conseguenza notevole
di tale disuguaglianza e` che essa ci consente, senza ledere la generalità, di considerare, tra i codici univocamente decifrabili, solo quelli a prefisso. Infatti, se ho un codice
univocamente decifrabile, le lunghezze delle parole codice soddisfano necessariamente
il teorema 10.1; allora, in virtu` del teorema 10.2, e` possibile trovare un codice a prefisso avente lo stesso insieme di lunghezze, e quindi la stessa efficienza, in termini di
lunghezza media delle parole codificate.
10.6
Efficienza di codifica
Possiamo adesso affrontare il problema di misurare lefficienza di una data strategia di

codifica, facendo riferimento per il momento a strategie di codifica simbolo a simbolo.
Sia S una sorgente discreta, che emette simboli X appartenenti ad un alfabeto X =
{x1 , x2 , . . . , xK }, di cardinalità K, con probabilità p1 , p2 , . . . , pK . Lentropia H(X) associata ai simboli emessi dalla sorgente e` pari a:
H(X) =
K
pk log pk .
k=1
Lobiettivo della codifica di sorgente e` quello di costruire un codice univocamente decifrabile, in modo da ottenere sequenze codificate che risultino mediamente le piu` corte
possibile. Per codici a lunghezza fissa, la lunghezza A e` la stessa per tutte le parole
codice, mentre per codici a lunghezza variabile, la lunghezza di ogni parola codice e`
differente. Poiche le parola codice di lunghezza Ak , essendo associata al simbolo di sorgente xk , ricorre con probabilità pk , la lunghezza A e` in effetti una variabile aleatoria, di
cui possiamo calcolare la media statistica, ottenendo la lunghezza media del codice:
A E[A] =
K
p k Ak .
k=1
Possiamo allora, sulla base della disuguaglianza di Kraft-Mc Millan, introdurre un fondamentale risultato, che mette in relazione la lunghezza media A di un codice simbolo a simbolo univocamente decifrabile con lentropia H(X) dei simboli emessi dalla
sorgente.
Teorema 10.3. Per ogni codice C binario simbolo a simbolo univocamente decifrabile, la
lunghezza media A del codice soddisfa la seguente disuguaglianza:
A H(X) ,
dove H(X) e` lentropia dei simboli emessi dalla sorgente (espressa in bit).
236

Prova. Proviamo che H(X) 8 0, scrivendo (si ricordi che i logaritmi sono in base 2):
H(X) 8 =
K
pk log pk
k=1
K
k=1
K
pk 8k =
k=1
K
pk log pk +
k=1
K
pk log 2k =
k=1
2k
pk log
.
pk
Possiamo adoperare la seguente disuguaglianza, valida per i logaritmi naturali:

ln x x 1 ,
che per i logaritmi in base 2 si scrive, adoperando le formula per il cambiamento di base, come
log x log e (x 1) ,
per cui si ha:
,K

k
K
K

2
2k
pk log
log e
pk
1 = log e
2k
pk
H(X) 8 =
pk
pk
k=1 ,
k=1
k=1
k=1
K

k
2
1 .
= log e
K
k=1
Poichè il codice C e` univocamente decifrabile, allora esso soddisfa la disuguaglianza di Mc Millan (cfr.
K
teorema 10.1) per cui k=1 2k 1 0, ed essendo log e 0 si ha
H(X) 8 0 ,
cioè lasserto.
Il precedente teorema fornisce una interpretazione nuova ed estremamente importante

dellentropia dei simboli emessi da una sorgente; infatti, esso consente di interpretare
tale entropia (in bit) come la minima lunghezza media di un codice binario simbolo
a simbolo che rappresenti i simboli di sorgente in maniera non ambigua (vincolo di
univoca decifrabilità). Di converso, il teorema fornisce anche un limite inferiore alla
capacità di compattazione dati operata dalla codifica di sorgente: infatti la lunghezza
media di un codice simbolo a simbolo univocamente decifrabile non potrà mai essere
inferiore allentropia della sorgente. Per confrontare tra loro differenti codici, possiamo
allora definire lefficienza di un codice con lunghezza media A come:
H(X)
,
A
che ovviamente assume valori tra 0 ed 1, ed e` sovente espressa in percentuale.
10.6.1 Codici di Shannon

Bisogna osservare che in pratica la lunghezza media A di un cattivo codice puo` anche essere molto maggiore dellentropia H(X), e quindi lefficienza puo` essere anche
237
molto minore dellunità. E` utile allora disporre di una procedura per costruire codici
univocamente decifrabili la cui lunghezza media A sia, oltre che inferiormente, anche
superiormente limitata; tale procedura e` dovuta allo stesso Shannon, ed e` descritta dal
seguente teorema.
Teorema 10.4. Data una sorgente discreta S di simboli appartenenti ad un alfabeto X =
{x1 , x2 , . . . , xk } e con probabilità p1 , p2 , . . . , pk , e` sempre possibile costruire un codice
binario simbolo a simbolo a prefisso (e quindi univocamente decifrabile) tale che la sua
lunghezza media A sia compresa tra i seguenti limiti:
H(X) A < H(X) + 1 .
Prova. Il limite inferiore e` valido per qualunque codice univocamente decifrabile, e quindi anche per
un codice a prefisso, come stabilito dal precedente teorema. Resta da dimostrare la validità del limite
superiore, e per far questo si procede in maniera costruttiva. Definiamo allora le lunghezze delle parole
codice come:
8k = & log pk ' ,
(10.2)
dove il simbolo &x' denota il piu` piccolo numero intero maggiore o uguale ad x. Risulta allora 8k
log pk e quindi 2k pk . Sommando su k si ha:
K

k=1
2k
K
pk = 1 ,
k=1
per cui risulta verificata la disuguaglianza di Kraft (teorema 10.2), e pertanto esiste un codice a prefisso
univocamente decifrabile con parole codice aventi lunghezze 81 , 82 , . . . , 8K . Poiche poi, per la definizione
(10.2) delle lunghezze 8k , risulta anche
8k < log pk + 1 ,
allora si ha
8=
K

k=1
pk 8k <
K
pk ( log pk + 1) =
k=1
K

k=1
pk log pk +
K
pk = H(X) + 1 ,
k=1
per cui risulta provato anche il limite superiore. Notiamo che il codice costruito secondo questa procedura
prende il nome di codice di Shannon.
Per costruire effettivamente il codice di Shannon, una volta determinate le lunghezze

sulla base della (10.2), basta costruire un albero binario di lunghezza pari a L = maxk Ak
ed assegnare le parole codice ai nodi dellalbero, partendo dalle parole piu` corte ed
eliminando via via dallalbero tutti i nodi discendenti dei nodi già assegnati, in modo
da soddisfare la condizione di prefisso. Al termine di questa procedura, tipicamente
si riconosce che alcuni rami che portano alle parole codice possono essere accorciati
senza ledere la condizione di prefisso; a valle di tale potatura dellalbero, si ottiene
allora un codice a prefisso con lunghezza media inferiore a quella del codice di Shannon
originario.
238

In effetti, bisogna osservare che le prestazioni di un codice di Shannon (senza potatura) non sono necessariamente buone, in quanto la sua efficienza e` compresa tra i
seguenti limiti:
H(X)
<1
H(X) + 1
per cui se H(X) 1 lefficienza puo` assumere valori estremamente bassi, come mostrato dal seguente esempio.
Esempio 10.13. Sia S una sorgente che emette i simboli x1 ed x2 con probabilità p1 =
0.99 e p2 = 0.01. Lentropia dei simboli emessi da una tale sorgente e` estremamente
bassa:
H(X) = 0.99 log 0.99 0.01 log 0.01 = 8.08 102 bit .
Le parole codice del codice di Shannon avranno lunghezze date dalla (10.2), ovvero
A1 = &log 0.99' = 1 ,
A2 = &log 0.01' = 7 ,
per cui la lunghezza media del codice e` :
A = 1 0.99 + 7 0.01 = 1.06 ,
che risulta minore di H(X) + 1, ma molto prossimo ad esso, per cui lefficienza e`
estremamente bassa, essendo pari a 0.076. Daltra parte, pare abbastanza stravagante utilizzare un codice a lunghezza variabile per codificare due simboli di sorgente, in
quanto sarebbe sufficiente considerare un codice a lunghezza fissa, con parole codice
0 ed 1, la cui lunghezza media, esattamente pari ad 1, e` tuttavia ancora molto distante
dallentropia H(X). Daltra parte, questo il meglio che possiamo fare con una codifica
simbolo a simbolo.

Va osservato che lesempio precedente e` un caso limite, in quanto spesso il codice di
Shannon presenta valori di A non troppo lontani dallentropia H(X). In particolare, si
puo` osservare che se le probabilità pk sono del tipo pk = 21k , con Ak interi positivi, allora
risulta per la (10.2) Ak = log pk , ed inoltre
A=
K

k=1
p k Ak =
K
pk log pk = H(X) ,
k=1
per cui si ottiene una lunghezza media esattamente pari allentropia, e quindi il codice
di Shannon e` ottimo in questo caso; ovviamente e` raro che la sorgente S presenti proprio
probabilità esprimibili come 21k .
239
10.6.2 Primo teorema di Shannon

Lesempio 10.13 mostra che la codifica simbolo a simbolo non consente sempre di ottenere lunghezze media prossime allentropia, in particolar modo per sorgenti con pochi
` dobbiamo
simboli e con probabilità dei simboli fortemente sbilanciate. Per ovviare a cio,
rimuovere il vincolo della codifica simbolo a simbolo, passando a codificare blocchi di
n simboli. Consideriamo allora un blocco di n simboli consecutivi emessi dalla sorgente, siano essi X1 , X2 , . . . , Xn . Per applicare i risultati della codifica simbolo a simbolo, e`
sufficiente interpretare la sorgente come una sorgente che emette blocchi anziche simboli, e sostituire allentropia del simbolo H(X) lentropia del blocco H(X1 , X2 , . . . , Xn ).
Pertanto, detta A la lunghezza media di un codice di Shannon per i blocchi di n simboli
emessi dalla sorgente, risulta, per il teorema 10.4,
H(X1 , X2 , . . . , Xn ) A < H(X1 , X2 , . . . , Xn ) + 1 .
Ovviamente, al crescere di n crescerà anche la lunghezza media A del codice di Shannon;
pertanto, per avere un confronto equo per differenti valori di n, calcoliamo la lunghezza
media per simbolo di sorgente An = A/n. Si ha:
1
1
1
H(X1 , X2 , . . . , Xn ) An < H(X1 , X2 , . . . , Xn ) + ,
n
n
n
(10.3)
Osserviamo allora che tale strategia di codifica a blocchi consente di ottenere per n grandi valori arbitrariamente prossimi allentropia media per simbolo n1 H(X1 , X2 , . . . , Xn ).
In particolare, se la sorgente e` senza memoria (DMS), risulta n1 H(X1 , X2 , . . . , Xn ) =
H(X1 ), per cui:
H(X1 ) An < H(X1 ) +
1
,
n
per cui lefficienza puo` essere resa arbitrariamente prossima allunità aumentando la
lunghezza del blocco n.
La (10.3) non si applica pero` solo alle sorgenti DMS, ma a qualunque sorgente per
la quale si possa definire il tasso di entropia H(S). Infatti, passando al limite per n
nella (10.3), si ha che limn n1 H(X1 , X2 , . . . , Xn ) = H(S), se tale limite esiste finito, per
cui
lim An = H(S) ,
secondo la quale il tasso dentropia di una sorgente S rappresenta proprio la minima

lunghezza media per simbolo di un codice per la rappresentazione non ambigua dellinformazione emessa da tale sorgente. Tale risultato e` di fondamentale importanza
nella codifica di sorgente, e prende il nome di primo teorema di Shannon, che possiamo
formulare sinteticamente come segue.
240

Teorema 10.5 (Primo teorema di Shannon). Data una sorgente discreta S, e` sempre possibile costruire un codice binario a blocchi a prefisso (e quindi univocamente decifrabile)
tale che la sua lunghezza media per simbolo di sorgente A sia compresa tra i seguenti
limiti:
1
1
1
H(X1 , X2 , . . . , Xn ) An < H(X1 , X2 , . . . , Xn ) + ,
n
n
n
e quindi arbitrariamente prossima allentropia media per simbolo della sorgente. Inoltre, se H(S) e` il tasso di entropia della sorgente (supposto esistente), risulta
lim An = H(S) .
10.6.3 Efficienza dei codici a lunghezza fissa

Molti dei risultati del paragrafo precedente si applicano, come caso particolare, anche
ai codici a lunghezza fissa. Per questi ultimi, tuttavia, possiamo ragionare in maniera
diretta e molto semplice. Infatti, supponiamo di effettuare la codifica simbolo a simbolo
di una sorgente con K possibili simboli, utilizzando un codice binario di lunghezza fissa
A: le possibili parole codice sono 21 , per cui si richiede, per lunivoca decifrabilità, che
(si ricordi che il logaritmo e` in base 2):
21 K A log K .
Daltra parte, log K rappresenta proprio il massimo valore dellentropia H(X) associata
ad una sorgente con K simboli, valore che si ottiene quando i simboli sono equiprobabili, per cui H(X) log K. Combinando tali disuguaglianze, si ha per codici a lunghezza
fissa:
A log K H(X)
e quindi, se H(X) log K, si ha unefficienza 1, per cui non riusciremo ad ottenere
prestazioni confrontabili a quelle dei codici a lunghezza variabile, salvo nel caso in cui
la sorgente emetta simboli equiprobabili. Daltra parte, le cose non migliorano se pensiamo di estendere la codifica a blocchi di n simboli. Infatti, in questo caso avremo K n
differenti blocchi, per cui la lunghezza media del codice binario dovrà soddisfare alla
seguente disuguaglianza:
21 K n A log K n = n log K .
Se allora calcoliamo la lunghezza media per simbolo An = A/n, avremo:
An log K ,
10.7 Codici di Huffmann
241
cioè la stessa limitazione che ottenevamo per la codifica simbolo a simbolo, per cui le
cose non sono affatto migliorate.
Possiamo pertanto affermare che i codici a lunghezza fissa, almeno sulla base di
queste semplici considerazioni, non sono competitivi con i codici a lunghezza variabile.
Considerazioni piu` avanzate porterebbero a strategie di codifica piu` sofisticate, nelle
quali i simboli di sorgente vengono raccolti in blocchi molto lunghi e non a tutti i blocchi
si associano parole codice (si accetta cioè la possibilità che alcuni blocchi possano non
essere codificati). In questo modo si riesce ad ottenere una lunghezza del codice che
approssima a piacere lentropia della sorgente, a patto tuttavia di accettare una (piccola)
probabilità di mancata codifica.
10.7
Codici di Huffmann
In questa sezione introdurremo una classe di codici a prefisso, noti come codici di Huffmann, che risultano ottimi e per i quali e` possibile fornire una procedura di costruzione
sistematica. Lottimalità di tali codici non va intesa nel senso che essi presentano necessariamente lunghezza media pari al valore minimo possibile, cioè allentropia, ma nel
senso che tra tutti i codici che utilizzano la stessa lunghezza dei blocchi di sorgente i
codici di Huffmann presentano la minima lunghezza media.8
Anziche definire formalmente le proprietà dei codici di Huffmann, nei seguenti
esempi mostriamo direttamente come sia possibile costruire tali codici per determinate
sorgenti S.
Esempio 10.14. Sia S una sorgente con alfabeto di K = 7 simboli X = {x1 , x2 , . . . , x7 },
caratterizzati dalle seguenti probabilità (che assumiamo ordinate in senso decrescente,
senza ledere la generalità):
p1
p2
p4
p5
p6
= 3/8
= p3 = 3/16
= 1/8
= 1/16
= p7 = 1/32
Codificare tale sorgente con un codice a lunghezza fissa richiede &log K' = 3 bit per
8
Per una discussione piu` approfondita ed una prova dellottimalità di tali codici, si veda [11].
242
x1
3/8
1
x2
x3
x4
x5
x6
x7
3/16
3/16
3/8
5/8
1/8
1
1/16
1
1/32
1/32
1/16
1/8
1/4
Fig. 10.4. Costruzione di un codice di Huffmann per una sorgente con K = 7 simboli.
simbolo. Se pero` calcoliamo lentropia della sorgente (in bit), troviamo:

H(X) =
7
pk log pk =
k=1
= (3/8) log(3/8) 2(3/16) log(3/16) +

(1/8) log(1/8) (1/16) log(1/16) 2(1/32) log(1/32) =
= 2.37 bit ,
per cui lefficienza di un tale codice a lunghezza fissa e` pari a = 2.37/3 = 79%, e
pertanto relativamente modesta; ci aspettiamo di poter ottenere un risultato migliore
costruendo un codice a lunghezza variabile.
La procedura sistematica per la costruzione di un codice di Huffmann si articola come segue: si costruisce un albero, partendo da sinistra dai simboli di sorgente ordinati
secondo le loro probabilità in senso decrescente (vedi Fig. 10.4). Ad ogni passo, i due
simboli con probabilità piu` piccole sono accorpati in un nuovo simbolo, cui si assegna
una probabilità pari alla somma delle due. Lalbero in questo modo viene costruito a
partire dai nodi terminali fino alla radice, procedendo da sinistra verso destra ed accorpando via via i simboli meno probabili, fino ad esaurire i simboli a disposizione. A
questo punto, il codice di Huffmann si ottiene ripercorrendo lalbero da destra verso
sinistra ed associando a ciascun simbolo la stringa costituita dai contrassegni dei rami.
Il codice che si ottiene con tale procedura e` riportato in Tab. 10.3.
La lunghezza media A di tale codice di Huffmann e` pari a 2.44 bit per simbolo di
sorgente, il che confrontato con lentropia, che e` pari a 2.37 bit, mostra che siamo molto

X
x1
x2
x3
x4
x5
x6
x7
probabilità pk
3/8
3/16
3/16
1/8
1/16
1/32
1/32
243
parola codice lunghezza Ak
1
1
011
3
010
3
001
3
0001
4
00001
5
00000
5
Tab. 10.3. Codice di Huffmann per una sorgente con K = 7 simboli.
vicini al massimo livello di compattazione ottenibile (lefficienza del codice e` pari a

= 2.37/2.44 97%).

Esempio 10.15. Mostriamo adesso con un esempio come sia generalmente piu` conveniente la codifica a blocchi rispetto a quella simbolo a simbolo. Consideriamo una
sorgente S senza memoria con alfabeto di sorgente X = {x1 , x2 , x3 }, aventi probabilità
3/4, 3/16, e 1/16. Per semplicità di notazione, poniamo x1 = A, x2 = B e x3 = C. Lentropia per simbolo di sorgente e` pari a 1.012 bit, ed il codice di Huffmann costruito sulla
base dellalbero in Fig. 10.5 e riportato in Tab. 10.4 ha lunghezza media A pari a 1.25, per
unefficienza pari a = 1.012/1.25 = 81%.
A
B
C
3/4
3/16
1/16
1/4
Fig. 10.5. Costruzione di un codice di Huffmann per una sorgente con K = 3 simboli (codifica
simbolo a simbolo)
X
A
B
C
probabilità pk
3/4
3/16
1/16

1
1
01
2
00
2
Tab. 10.4. Codice di Huffmann per una sorgente con K = 3 simboli (codifica simbolo a simbolo).
Possiamo migliorare questo risultato codificando anziche singoli simboli di sorgente

blocchi di lunghezza n = 2. In questo caso, tutto procede come se considerassimo una
244

AA
0.5625
1
AB
AC
BA
BB
0.1406
1.0000
0.2812
0.0469
0.1406
0.4375
0.1563
0.0352
BC
CA
CB
CC
0.0117
0.0625
0.0469
0.0273
0.0117
0.0039
0
1
0.1094
0
0
0.0156
Fig. 10.6. Costruzione di un codice di Huffmann per una sorgente con K = 3 simboli (codifica a
blocchi di n = 2 simboli).
sorgente equivalente di blocchi, che emette i blocchi AA, AB, etc. Poichè la sorgente
e` senza memoria, e quindi i simboli successivamente emessi dalla sorgente sono statisticamente indipendenti, le probabilità associate ai blocchi si ottengono semplicemente
moltiplicando le probabilità dei simboli, e sono riportate in Tab. 10.5.
Lentropia di questa nuova sorgente e` chiaramente doppia rispetto a quella della
sorgente per n = 1, essendo i simboli indipendenti (sorgente senza memoria), e vale
pertanto 2.024 bit; lentropia per simbolo pero` non e` cambiata, e vale ancora 1.012 bit.
La costruzione del codice di Huffmann procede come mostrato in Fig. 10.6 (notiamo
che non abbiamo ordinato i blocchi in ordine decrescente di probabilità), ed il codice
X1 X2
AA
AB
AC
BA
BB
BC
CA
CB
CC
probabilità pk
0.5625
0.1406
0.0469
0.1406
0.0352
0.0117
0.0469
0.0117
0.0039

1
1
011
3
001
3
010
3
00011
5
000101
6
0000
4
0001001
7
0001000
7
Tab. 10.5. Codice di Huffmann per una sorgente con K = 3 simboli (codifica a blocchi di n = 2
simboli).

relativo e` riportato in Tab. 10.5.
Se si calcola la lunghezza media del codice, si trova A = 2.09, ma stavolta con tale
codice si codificano 2 simboli di sorgente, per cui la lunghezza media per simbolo di
sorgente An e` pari a 2.09/2 = 1.045 bit, inferiore al valore ottenuto con la codifica di un
simbolo alla volta. Difatti, lefficienza passa dal valore = 81% a = 2.024/2.09 =
1.012/1.045 97%, mostrando il significativo vantaggio conseguito con tale strategia
di codifica a blocchi. Notiamo che tale vantaggio della codifica a blocchi si e` manifestato anche se di fatto la sorgente e` senza memoria: vantaggi ancora maggiori si ottengono per sorgenti con memoria. Il prezzo da pagare per questa compattazione piu`
spinta e` la maggiore complessità realizzativa del codificatore e del decodificatore. Tale
complessità e` certamente proporzionale al numero K n di parole codice e quindi cresce
esponenzialmente con la lunghezza n del blocco da codificare.
245
246
Appendice A
Fattoriale e coefficiente binomiale
A.1
Fattoriale
Il fattoriale n! di un numero n N {0} e` definito come:

n! n (n 1) (n 2) 3 2 1 .
Ad esempio, si ha 3! = 3 2 1 = 6 e 5! = 5 4 3 2 1 = 120. Convenzionalmente, si
pone 0! = 1. Nel calcolo combinatorio, il fattoriale rappresenta il numero di differenti
permutazioni di n elementi.
In Matlab, il fattoriale si puo` calcolare come prod(1:n). Il fattoriale e` una funzione
che cresce molto rapidamente, ed unapprossimazione valida per valori elevati di n e` la
cosiddetta formula di Stirling:
n!
A.2
2 nn+1/2 en .
Coefficiente binomiale
Il coefficiente binomiale di parametri n e k n e` definito come:

n!
n
n (n 1) (n k + 2) (n k + 1)
=
.

k!
k! (n k)!
k
(A.1)
Nel calcolo combinatorio, il coefficiente binomiale di parametri n e k rappresenta il

numero di disposizioni non ordinate e senza sostituzioni di n oggetti su k posti.
Valgono le seguenti identità notevoli:

n
= 1;
0

n
= n;
1

n
n
=
.
k
nk
248

nonche la seguente:

n
n
n+1
+
=
.
k
k+1
k+1
In Matlab, il coefficiente binomiale si puo` calcolare con il comando nchoosek(n,k).
A.3
Espansioni binomiali
Il coefficiente binomiale compare nellespansione della potenza n-esima di un binomio,

come enunciato dal seguente teorema binomiale:
n
(a + b) =
n

n
k=0
ak bnk ,
(A.2)
valido per ogni n N e per ogni a, b R.

Il teorema puo` essere generalizzato al caso di elevazione a potenza qualsiasi, ricorrendo allo sviluppo in serie di Mc-Laurin di (1 + x) . Si ha:
(1 + x) =

k=0
xk
(A.3)
dove R, e lespansione vale se |x| < 1. Nella (A.3), la definizione di coefficiente

binomiale e` una semplice generalizzazione della (A.1):

( 1) ( k + 2) ( k + 1)
.
(A.4)

k!
k
Per sviluppare (a + b) , allora, ci si riconduce al caso della (A.3), mettendo in evidenza
il maggiore tra a e b.
La relazione (A.3) puo` essere applicata, in particolare, al caso in cui = n, con
n N. Si ha in tal caso:

n
n
n
k
(x) =
(1)k xk .
(1 + x) =
k
k
k=0
k=0
Ma essendo, per la (A.4),

n
(n)(n 1) (n k + 1)
n(n + 1) (n + k 1)
=
= (1)k
k
k!
k!

n+k1
(n + k 1)!
= (1)k
= (1)k
k
k! (n 1)!
A.3 Espansioni binomiali
249
si ottiene
(1 + x)

n+k1
k=0
(1)k xk ,
|x| < 1 .
Ponendo x in luogo di x, si ottiene poi la formula piu` compatta:

n
(1 x)

n+k1
k=0
xk ,
|x| < 1 ,
che va sotto il nome di espansione binomiale negativa.
(A.5)
250
Appendice B
La funzione G(x)
La funzione G(x) e` definita dallintegrale:
1
G(x) =
2
u2
2
du .
Le principali proprietà della G(x) sono le seguenti:

1. G() = 0, G(+) = 1, G(0) = 12 ;
2. G(x) e` una funzione monotona strettamente crescente;
3. G(x) = 1 G(x);
4. per valori grandi di x, si ha
x2
1
G(x) 1 e 2 .
x 2
Inoltre la funzione G(x) puo` essere espressa in termini della funzione di errore:
x
2
2
erf(x)
eu du .
0
Infatti si ha:
x
x
2
u2
1
1
1
u2
G(x) =
e
du = +
e 2 du ,
2
2
2 0
e con il cambio di variabile u/ 2 = v nellintegrale si ha:

1
1
G(x) = +
2

0
v 2

1
x
dv =
1 + erf
.
2
2
(B.1)
La funzione G(x)
252
0.9999
0.999
0.998
0.99
0.98
0.95
0.9
0.8
G(x)
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.05
0.02
0.01
0.005
0.002
0.001
0.0005
0.0001
4
x
Fig. B.1. Grafico in scala gaussiana della funzione G(x).
Tale espressione e` conveniente quando si voglia implementare la funzione G(x) al calcolatore, in quanto quasi tutti i linguaggi di programmazione (Matlab tra essi) possiedono
la erf(x) tra le funzioni di libreria.
Ad esempio, riportiamo di seguito una function Matlab per il calcolo della G(x), che
puo` essere salvata nel file G.m.
function y = G(x);
%G Funzione G.
%
G(X) Calcola la funzione G nel valore x.
y = (1/2) * (1+erf(x/sqrt(2)));
Ad esempio, per ottenere il grafico di Fig. 2.6, si possono utilizzare i comandi
>> x = [-4:0.01:4];
>> plot(x,G);
Se non si dispone di un calcolatore, un grafico in scala gaussiana (Fig. B.1) della
G(x), nel quale la funzione appare come una retta, consente di determinare abbastanza
precisamente i valori della funzione. Per una valutazione ancora piu` accurata, e` tuttavia
indispensabile utilizzare una tabella dei valori della G(x). In Tab. B.1, tratta da [1, pp.
253
176177], sono riportati i valori di G(x) con quattro cifre decimali per 0 x 3.29.
Per valori di x < 0, si usi la relazione G(x) = 1 G(x), per valori di x 3.29 si
usi lapprossimazione (B.1). La tabella va letta come segue: sulle righe sono riportati i
valori di x con passo 0.1, spostandosi poi lungo una riga si ottengono i valori con passo
0.01. Ad esempio, la terza colonna della terza riga corrisponde a x = 0.22.
x
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0.00
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159
0.01
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7612
0.7910
0.8186
0.02
0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212
0.03
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238
0.04
0.5159
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7704
0.7995
0.8264
0.05
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289
0.06
0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315
0.07
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.8340
0.08
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7518
0.7823
0.8016
0.8365
0.09
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8380
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9554
0.9641
0.9713
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719
0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0.8485
0.8718
0.8907
0.9083
0.9236
0.9370
0.9485
0.9582
0.9664
0.9732
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9509
0.9678
0.9744
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9758
0.8599
0.8810
0.8997
0.9162
0.9306
0.9430
0.9535
0.9625
0.9699
0.9762
0.8621
0.8836
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
0.9773
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981
0.9778
0.9826
0.9865
0.9896
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9983
0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9984
0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9977
0.9984
0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984
0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9989
0.9985
0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9980
0.9985
0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
3.0
3.1
3.2
0.9986
0.9990
0.9993
0.9987
0.9991
0.9993
0.9987
0.9991
0.9993
0.9988
0.9991
0.9994
0.9988
0.9992
0.9994
0.9988
0.9992
0.9994
0.9989
0.9992
0.9994
0.9989
0.9992
0.9994
0.9989
0.9993
0.9995
0.9990
0.9993
0.9995
Tab. B.1. Valori della funzione G(x) (adattata da [1, pp. 176177]).
254
La funzione G(x)
Appendice C
Limpulso di Dirac
Limpulso di Dirac (x) non e` una funzione ordinaria, ma una funzione generalizzata o,
piu` precisamente, una distribuzione. Proviamo a darne una definizione formale, anche
se un maggior rigore matematico richiederebbe luso della teoria delle distribuzioni:
Definizione (impulso di Dirac). Sia (x) una qualsiasi funzione continua in
x = 0. Limpulso di Dirac (x) e` definito dalla seguente condizione:

b
(0), se 0 ]a, b[
(x) (x) dx =
(C.1)
0,
se 0 [a, b]
a
Notiamo che limpulso di Dirac campiona il valore della funzione (x) nel punto 0. E`
chiaro che non esiste nessuna funzione ordinaria che ha questa proprietà; tuttavia, una
buona approssimazione di (x) e` una funzione stretta ed alta di area unitaria, ad
esempio:

1
, |x| T /2 ;
T (x) = T
0, |x| > T /2 ;
con T 1 (Fig. C.1). Infatti, se lintervallo ] T /2, T /2[ e` contenuto in ]a, b[, e se la
funzione (x) e` lentamente variabile nellintervallo ] T /2, T /2[, per cui si puo` porre
(x) (0) per |x| T /2, si ha:

a
1
(x) T (x) dx =
T
T /2
T /2
(x) dx (0) .
In realtà, la precedente uguaglianza approssimata diventa esatta se si passa al limite per

T 0:
b

1 T /2
lim
(x) T (x) dx = lim
(x) dx = (0) .
T 0 a
T 0 T T /2
256
Limpulso di Dirac
y
1/T
T(x)
(area=1)
(x)
(0)
x
-T/2
T/2
Fig. C.1. La funzione T (x) rappresenta, al diminuire della durata T , unapprossimazione della
delta di Dirac (x). Osserviamo che per T sufficientemente piccolo la funzione (x) (0)
nellintervallo ] T /2, T /2[.
nellipotesi che (x) sia continua in x = 0. Questo consente di interpretare limpulso di

Dirac come il limite di una famiglia di funzioni T (x) con le seguenti proprietà:
per T 0, le funzioni diventano sempre piu` strette;
per T 0, le funzioni diventano sempre piu` alte;
larea di tali funzioni vale 1 indipendentemente da T .
Tale interpretazione dellimpulso di Dirac, tuttavia, per quanto intuitivamente chiara,
non e` matematicamente rigorosa. Infatti, con riferimento alla famiglia di funzioni T (x)
considerata precedentemente, basta osservare, che essa converge, in senso ordinario,
alla funzione (x) identicamente nulla per ogni x = 0, mentre per x = 0 non converge
affatto (diverge); e` chiaro poi che la funzione (x) quasi ovunque nulla non soddisfa la
definizione (C.1), poiche risulta

(x) (x) dx = 0 .
a
La conclusione e` che, a stretto rigore matematico, non possiamo considerare (x) come
il limite per T 0 della famiglia di funzioni T (x); tuttavia tale interpretazione, anche
se imprecisa, puo` rappresentare un valido aiuto allintuizione.
257
y
area = A
x0
Fig. C.2. La rappresentazione grafica di un impulso di Dirac A (x x0 ) e` una freccia centrata

in x0 , la cui altezza e` proporzionale allarea dellimpulso; si suole indicare il valore dellarea A a
lato dellimpulso.
Limpulso di Dirac gode delle seguenti proprietà, che si possono facilmente dimostrare sulla base della definizione (C.1):

(x) dx = 1;
1. Area unitaria:
2. Campionamento: f (x) (x) = f (0) (x);

3. Traslazione: f (x) (x x0 ) = f (x0 ) (x x0 );
4. Cambiamento di scala: (ax) =
1
(x);
|a|
d
u(x);
dx
x
(u) du.
6. Integrazione: u(x) =
5. Derivazione: (x) =
Sulla base delle proprietà 2 e 3, e` possibile considerare il caso piu` generale di un

impulso A (x x0 ), che rappresenta un impulso di Dirac centrato in x0 e di area pari ad
A (Fig. C.2).
Una importante conseguenza della proprietà 5 e` la proprietà di derivazione di una
funzione discontinua: se la funzione f (x) presenta una discontinuità di prima specie
del punto x0 , la sua derivata generalizzata presenterà un impulso di Dirac nel punto x0
di area pari al valore del salto di discontinuità f (x+

0 ) f (x0 ) nel punto in questione;
ovvero, detta h(x) la derivata convenzionale, si avrà:
d
f (x) = h(x) + [f (x+

0 ) f (x0 )] (x x0 ) .
dx
258
Limpulso di Dirac
Bibliografia
Testi elementari di probabilità
[1] W. Feller An Introduction to Probability Theory and Its Applications. Volume I. John
Wiley & Sons, 1950.
[2] B. V. Gnedenko, Teoria della probabilità. Editori Riuniti, 1979.
[3] A. Papoulis. Probability, Random Variables, and Stochastic Processes. Third edition.
McGraw Hill International Editions, 1991.
[4] D. Stirzaker. Elementary Probability. Cambridge University Press, Cambridge, UK,
1994.
Testi avanzati di probabilità

[5] G. Casella and R. L. Berger. Statistical Inference. Duxbury Press, Belmont, California,
USA, 1990.
[6] W. Feller, An Introduction to Probability Theory and Its Applications. Volume II. John
Wiley & Sons, 1966.
Generazione di numeri casuali

[7] D. E. Knuth. The Art of Computer Programming. Volume 2: Seminumerical Algorithms.
Addison-Wesley, Reading, Massachusetts, USA, 1971.
[8] S. K. Park e K. W. Miller, Random number generators: Good ones are hard to
find, Communications of the ACM, vol. 31, n. 10, pp. 1192-1201, 1988.
[9] B. D. Ripley. Stochastic Simulation. John Wiley & Sons, New York, 1987.
[10] R. Y. Rubinstein. Simulation and the Monte Carlo Method. John Wiley & Sons, New
York, 1981.
260
BIBLIOGRAFIA
Teoria dellinformazione
[11] T. M. Cover and J. A. Thomas Elements of Information Theory. John Wiley & Sons,
New York, 1991.

Dispense Di Teoria Dei Fenomeni Aleatori

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Dispense Di Teoria Dei Fenomeni Aleatori

Uploaded by

Copyright:

Available Formats

Giacinto Gelli

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

c 20022006 Giacinto Gelli gelli@unina.it

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Probabilit`a condizionale e indipendenza

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Trasformazioni di una variabile aleatoria

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Coppie di variabili aleatorie

Caratterizzazione sintetica di una coppia di variabili aleatorie

Vettori di variabili aleatorie

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Legge dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . . . 183

Distribuzioni e medie condizionali

10 Elementi di teoria dellinformazione

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

A Fattoriale e coefficiente binomiale

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

1.2 Richiami di teoria degli insiemi

Fig. 1.2. Il complemento A = A di un

Richiami di teoria degli insiemi

Un insieme A e` una collezione di oggetti, chiamati elementi dellinsieme. Un insieme puo`

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Fig. 1.3. Lunione A B di due insiemi (in

Fig. 1.4. Lintersezione AB di due insiemi

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

1.3 Definizioni preliminari di probabilit`a

che la cardinalit`a gode delle seguenti propriet`a:

Definizioni preliminari di probabilit`a

Iniziamo introducendo i concetti basilari di esperimento, spazio campione, ed evento.

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

1.4 Probabilit`a assiomatica

1.4.1 Campi e -campi (campi di Borel)

(chiusura rispetto al complemento);

(chiusura rispetto allunione).

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Applicando le leggi di de Morgan e` facile verificare che anche

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

1.4 Probabilit`a assiomatica

1.4.2 Assiomi di Kolmogorov

1.4.3 Propriet`a elementari della probabilit`a

da cui risulta necessariamente P () = 0.

2. A, B B, A B = P (A B) = P (A) + P (B) (finita additivit`a).

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Notiamo che P (A B) P (A) + P (B) perch`e P (A B) 0. Si ha uguaglianza se

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

1.5 Altri approcci alla teoria della probabilit`a

Fig. 1.5. Diagramma di Venn delle relazioni A B = A AB e B = A B

Fig. 1.6. Diagramma di Venn della relazione A = B A B (valida se B

tuttavia se assegniamo le probabilit`a come:

Altri approcci alla teoria della probabilit`a

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

1.5.1 Approccio frequentista

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

1.5 Altri approcci alla teoria della probabilit`a

1.5.2 Approccio classico

dove N e` il numero dei possibili risultati dellesperimento ed NA e` il numero dei risultati

1.5.3 Vantaggi dellapproccio assiomatico

autore prof. Giacinto Gelli - prelevato da www.riccardogalletti.com/appunti_gratis

Esempi di spazi di probabilit`a

1.6.2 Spazi di probabilit`a continui