Paolo Baldi - Calcolo Delle Probabilità

Universit di Roma - Tor Vergata
Corso di Laurea in Matematica

Appunti del corso di
Calcolo delle Probabilit
II modulo, Anno 2001-2002
Paolo Baldi
Dipartimento di Matematica
baldi@mat.uniroma2.it
maggio 2002
Indice
1. Cenni di teoria della misura 1
1.1 Spazi misurabili, funzioni misurabili . . . . . . . . . 1
1.2 Misure . . . . . . . . . . . . . . . . . 4
1.3 Integrazione . . . . . . . . . . . . . . . . 6
1.4 Esempi . . . . . . . . . . . . . . . . . 11
1.5 Misure prodotto . . . . . . . . . . . . . . . 13
Esercizi . . . . . . . . . . . . . . . . . 15
2. Variabili aleatorie 17
2.1 Probabilit e misura . . . . . . . . . . . . . . 17
2.2 Indipendenza . . . . . . . . . . . . . . . . 18
2.3 Disuguaglianze di convessit, momenti, covarianza . . . . . . 22
2.4 Funzioni caratteristiche, trasformata di Laplace . . . . . . . 28
2.5 Leggi normali multivariate . . . . . . . . . . . . 40
2.6 Statistica dei modelli gaussiani . . . . . . . . . . . 45
2.7 Leggi condizionali . . . . . . . . . . . . . . 48
Esercizi . . . . . . . . . . . . . . . . . 52
3. Convergenza e approssimazione 61
3.1 Il Lemma di Borel-Cantelli . . . . . . . . . . . . 61
3.2 La convergenza quasi certa . . . . . . . . . . . . 63
3.3 Le leggi forti dei grandi numeri . . . . . . . . . . . 66
3.4 Convergenza in legge . . . . . . . . . . . . . 68
3.5 Il teorema limite centrale, il test del
2
. . . . . . . . . 77
3.6 Il lemma di Slutski . . . . . . . . . . . . . . 83
Esercizi . . . . . . . . . . . . . . . . . 85
4. Problemi 95
4.1 Problemi al capitolo 1 . . . . . . . . . . . . . 95
4.4 Soluzioni . . . . . . . . . . . . . . . . . 98
Indice analitico 109
1
Cenni di teoria della misura
1.1 Spazi misurabili, funzioni misurabili
Siano E un insieme e (E) ((E)=la famiglia di tutti i sottoinsiemi di E). Si
dice che unalgebra (risp. una -algebra) se E , se stabile per passaggio al
complementare e per unioni e intersezioni nite (risp. numerabili). La coppia (E, ),
-algebra suE, si chiama unospaziomisurabile. Osserviamoche (E) una -algebra e
che lintersezione di una famiglia qualunque di -algebre una -algebra. Dunque, data
una classe di insiemi (E), si pu considerare la pi piccola -algebra contenente
: lintersezione di tutte le -algebre contenenti . Questa -algebra si indica ()
e si chiama la -algebra generata da .
Supponiamo E = R
d
e sia la classe degli aperti di E. La -algebra () si chiama
la -algebra di Borel di R
d
e si indica (R
d
). facile vedere che essa anche generata
dai chiusi, dalle palle, dai plurirettangoli e anche dai plurirettangoli a coordinate razionali
(questultima famiglia ha il vantaggio di essere numerabile).
Tutti queste affermazioni si dimostrano ripetendo un tipico ragionamento di teoria
della misura. Ad esempio, indichiamo con la famiglia delle palle aperte di centro x
e raggio r, al variare di x R
d
e di r > 0. Mostriamo che () = (R
d
). Intanto
() (R
d
), perch (R
d
) una -algebra contenente , mentre () la pi
piccola -algebra contenente . Daltra parte () contiene gli aperti di R
d
, poich
ogni aperto di R
d
si pu scrivere come riunione numerabile di palle aperte. Dunque
() contiene (R
d
), che la pi piccola -algebra contenente gli aperti.
Pi in generale, se E uno spazio topologico, la -algebra di Borel (E) la pi
piccola -algebra contenente gli aperti (ovvero la pi piccola -algebra contenente i
chiusi). Se d = 1, si possono quindi considerare le -algebre (R
) = {A (R), A
R
], (R) = ((R), {], {]) e (R
) = ((R
), {]).
Si chiama classe monotona una famiglia di parti di E tale che
E ,
Paolo Baldi
Calcolo delle Probabilit II modulo, 2001-2002
2 Capitolo 1. Cenni di teoria della misura
se A, B e A B, allora B A .
sia stabile per limite crescente: se (A
n
)
n
una successione crescente
dinsiemi, allora A =
A
n
.
Il risultato seguente, chiamato il teorema delle classi monotone , sar di uso costante
nel seguito.
Teorema 1.1 Sia (E) una famiglia dinsiemi stabile per intersezioni nite e sia
una classe monotona contenente . Allora contiene () .
Ad esempio, gli intervalli di R (o anche gli intervalli di R della forma ]a, b], cio aperti
a sinistra e chiusi a destra) cosituiscono una famiglia stabile per lintersezione nita.
Dunque la pi piccola classe monotona contenente gli intervalli contiene anche la -
algebra boreliana.
Siano (E
1
,
1
) e (E
2
,
2
) due spazi misurabili. Unapplicazione di E
1
in E
2
si dice
misurabile se, per ogni A
2
, f
1
(A)
1
. immediato vericare che lapplicazione
composta di due applicazioni misurabili misurabile.
facile vedere che perchef sia misurabile basta che sia f
1
(A)
1
per ogni A ,
dove una classe dinsiemi tale che () =
2
(in esercizio: basta vericare che la
classe degli insiemi A E
2
tali che f
1
(A)
1
una -algebra). Questo un criterio
di misurabilit molto utile, perch spesso si conoscono esplicitamente gli insiemi di una
classe che genera
2
, ma non quelli di
2
. Nel caso che
2
sia la -algebra di uno
spazio topologico E
2
, per vericare la misurabilit di f baster dunque vericare che
f
1
(A)
1
per ogni insieme A aperto (risp. chiuso).
In particolare, se f continua da R
d
in R
m
, o pi in generale da uno spazio topologico
E in uno spazio topologico F, f misurabile per le -algebre boreliane.
Quando lo spazio darrivo R, R, R
, R
d
, C, sottintenderemo sempre che esso
munito della sua -algebra boreliana.
Sia (E, ) un spazio misurabile. Perch unapplicazione numerica (cio a valori
R) sia misurabile basta che, per ogni a R, si abbia {f > a] = {x, f (x) > a] =
f
1
(]a, [) (in esercizio: basta mostrare che gli insiemi della forma ]a, [
generano la -algebra di Borel). Si possono anche considerare gli insiemi della forma
{f < a], {f a], {f a]. Da questi criteri si ricava facilmente che, se f , g, f
n
sono funzioni numeriche misurabili, lo stesso vale per f , sup(f, g), inf(f, g), f
=
sup(f, 0), f
= sup(f, 0), sup f

n
, inf f
n
. Ricordiamo che
(1.1) lim
n
f
n
(x) = lim
n
sup
kn
f
k
(x), lim
n
f
n
(x) = lim
n
inf
kn
f
k
(x),
dove queste quantit sono a valori Re f = lim
n
f
n
se e solo se limf
n
= lim
n
f
n
=
f . Ne segue che, se le funzioni f
n
sono misurabili, anche lim
n
f
n
, lim
n
f
n
,
lim
n
f
n
(se il limite esiste) sono funzioni misurabili.
Siano f
1
, f
2
applicazioni reali misurabili denite sullo spazio misurabile (E, ). Allora
lapplicazione f = (f
1
, f
2
) misurabile a valori in (R
2
, (R
2
)). Infatti, se A
1
, A
2
1.1 Spazi misurabili, funzioni misurabili 3
sono intervalli aperti, allora f
1
(A
1
A
2
) = f
1
1
(A
1
) f
1
2
(A
2
) . Poich, come
abbiamo visto prima, i rettangoli della forma A
1
A
2
generano (R
2
), f dunque
misurabile.
Poich lapplicazione (x, y) x y continua da R
2
in R, essa anche misurabile.
Ne segue che lapplicazione f
1
f
2
anchessa misurabile come composizione di
applicazioni misurabili. Allo stesso modo si dimostra che sono misurabili le applicazioni
f
1
f
2
e
f
1
f
2
(se denita). Risultati simili valgono se f
1
e f
2
sono applicazioni numeriche.
Questi esempi suggerisconoche, di solito, per dimostrare la misurabilit di unapplicazio-
ne f non si cercher mai (o quasi) di vericare la denizione. Si cercher piuttosto di
applicare il criterio studiando f
1
(A) per A in una classe dinsiemi che genera la -
algebra dello spazio darrivo, oppure cercando di dimostrare che f somma, prodotto,
limite, . . . di funzioni misurabili. Un po in questo spirito la prossima Proposizione
1.3. Ricordiamo che, scrivendo f
n
f (risp. f
n
f ), indichiamo che, f
n
(x) cresce
(risp. decresce) a f (x) per ogni x E. Se A B, si chiama funzione indicatrice di A
e si scrive 1
A
, la funzione che vale 1 su A e 0 su A
c
. Si ha
1
A
c = 1 1
A
, 1
A
n
= 1
A
n
= inf 1
A
n
, 1
A
n
= sup1
A
n
.
Unapplicazione f di (E, ) in R si dice elementare se la si pu scrivere nella forma
f =
n
k=1
a
k
1
A
k
, A
k
. Indicheremo
b linsieme delle funzioni reali misurabili limitate,
linsieme delle funzioni misurabili positive, cio a valori R
(possono quindi anche

prendere il valore ),
Il risultato seguente fondamentale, perch permette di approssimare le funzioni
misurabili positive con funzioni elementari. Ce ne serviremo spesso.
Proposizione 1.2 Ogni f
limite di une successione crescente di funzioni di e
.
Dimostrazione. Basta considerare
(1.2) f
n
(x) =
n2
n
1
k=0
k
2
n
1
{
k
2
n
f (x)<
k1
2
n
]
n1
{f (x)>n]
.
chiaro infatti che la successione (f
n
)
n
crescente e che f (x)
1
2
n
f
n
(x) f (x) se
f (x) n.
Sia f una applicazione di E in un spazio misurabile (A, ). Si nota (f ) e si chiama -
algebra generata da f la pi piccola -algebra su E che renda f misurabile, cio tale che
f : (E, (f )) (A, ) sia misurabile. facile vedere che (f ) = {f
1
(A), A ].
Proposizione 1.3 Sia h : E R (risp. E R
). Allora h (f )-misurabile se e
solo se esiste g f (risp. g
) tale che h = g f .
Dimostrazione. Evidentemente se h = g f , h (f )-misurabile come composizione
di applicazioni misurabili. Viceversa supponiamo dapprima che h sia (f )-misurabile
positiva ed elementare. Si ha allora h =
n
k=1
a
k
1
B
k
con B
k
(f ) e dunque B
k
=
f
1
(A
k
) per qualche A
k
. Dato che 1
B
k
= 1
A
k
f , h = g f con g =
n
k=1
a
k
1
A
k
.
Se lasciamo cadere lipotesi che h sia elementare e consideriamo h (f )
, si ha
h = lim
n
h
n
con h
n
e [(f )]
e dunque h
n
= g
n
f , g
n

. Se ne deduce
che h = g f con g = lim
n
g
n

. Se h f [(f )], h = h
e h
= g
1
f ,
h
= g
2
f con g
i

. Si ha allora h = gf con g = g
1
1
{g
1
<]
g
2
1
{g
2
<]
f .
Pi in generale se (f
i
, i I) una famiglia di applicazioni di E a valori rispettivamente
negli spazi misurabili (A
i
,
i
), si indica (f
i
, i I) e si chiama -algebra generata
dalle f
i
, la pi piccola -algebra su E che renda misurabili tutte le f
i
. Si ha dunque
(f
i
, i I) = (f
1
i
(A
i
), A
i

i
, i I).
1.2 Misure
Sia (E, ) uno spazio misurabile.
Denizione 1.4 Si chiama misura su (E, )unapplicazione da in R
tale che
i) () = 0,
ii) per ogni successione (A
n
)
n
dinsiemi a due a due disgiunti, (
n1
A
n
) =
n=1
(A
n
).
La tripla (E, , ) si chiama uno spazio di misura.
Le propriet seguenti sono immediate.
i) Se A, B , A B, allora (A) (B).
ii) Se (A
n
)
n
, (
n1
A
n
)
n=1
(A
n
).
iii) Se A
n
)
n
e se A
n
A (i.e. 1
A
n
1
A
), (A
n
) (A).
iv) Se A
n
)
n
, se A
n
A(i.e. 1
A
n
1
A
) e se, per qualche n
0
, allora (A
n
0
) < ,
(A
n
) (A).
Se (E) < , la misura si dice nita. Se E =
n
E
n
con E
n
e (E
n
) < ,
si dice -nita. Se (E) = 1, si chiama una (misura di) probabilit.
Osservazione 1.5 La propriet ii) della Denizione 1.4 si chiama -additivit. Se
nella Denizione 1.4 si suppone che sia solo unalgebra, la denizione conserva un
signicato aggiungendo in ii) la condizione
n
A
n
. Si ha allora la nozione di misura
su unalgebra.
Proposizione 1.6 Siano e due misure su (E, ) e una classe dinsiemi stabile
per intersezioni nite. Si suppone che, per ogni A , (A) = (A) < e che
E = lim
n
E
n
con E
n
. Allora (A) = (A) per ogni A ().
1.2 Misure 5
Dimostrazione. Supponiamo dapprima (E) = (E) < . Sia = {A , (A) =
(A)]. Si verica immediatamente che una classe monotona e le ipotesi del Teorema
1.1 sono vericate e dunque () . Il caso generale se tratta applicando questo
risultato alle misure
n
(A) = (A E
n
) e
n
(A) = (A E
n
).
Osservazione 1.7 Se (E) = (E) < , lenunciato della Proposizione 1.6 si sem-
plica: se e coincidono su una classe stabile per intersezioni nite e che genera
, esse sono uguali su .
Un problema interessante della teoria della misura quello di costruire delle misure che
soddisno a particolari propriet. Ad esempio che prendano dei valori assegnati su certe
classi dinsiemi. Lo strumento chiave il teorema seguente.
Teorema 1.8 (Carathodory) Sia una misura su una algebra . Allora si prolunga
ad una misura su (). Per di pi, se -nita, questo prolungamento unico.
Una misura di Borel su uno spazio topologico E una misura su (E, (E)) tale che
(K) < per ogni compatto K.
Ci interessiamo ora alle misure di Borel su (R). Osserviamo, per prima cosa, che
= { ]a, b], < a < b < ] una classe stabile per intersezioni nite e che
() = (R). Segue allora dalla Proposizione 1.6 che una misura su (R), nita sugli
intervalli limitati, determinata dai valori di (]a, b]) a, b R, a < b. Poi, data una
tale misura, se si pone
F(0) = 0; F(x) = (]0, x]), x > 0; F(x) = (]x, 0]), x < 0,
F(x) una funzione continua a destra e crescente e si ha
(1.3) (]a, b]) = F(b) F(a).
Viceversa si condotti al problema seguente. Sia F unapplicazione di R in R continua
a destra e crescente, esister una misura su (R) tale che (]a, b]) = F(b) F(a)?
Cerchiamo di applicare il Teorema 1.8 di Carathodory. Consideriamo la famiglia
dinsiemi formata dagli intervalli semiaperti ]a, b], a < b. facile descrivere lalgebra
generata da ,
= {A =
n
k=1
]a
k
, b
k
], a
1
< b
1
< a
2
< . . . < b
n1
< a
n
< b
n
]
con la convenzione che, se b
n
= , ]a
n
, b
n
] =]a
n
, [. Si vede subito che
unalgebra contenente . Si denisce su mediante (A) =
n
k=1
F(b
k
) F(a
k
),
dove F() = lim
x
F(x), F() = lim
x
F(x). facile dimostrare che
additiva su ; un po pi delicato dimostrare che -additiva su e tralasceremo la
dimostrazione di questopunto. Poich () = (R), per il Teorema 1.8di Carathodory
abbiamo dunque dimostrato:
Teorema 1.9 Sia F unapplicazione di R in R continua a destra e crescente. Esiste una
ed una sola misura su (R) tale che, per ogni a < b, (]a, b]) = F(b) F(a).
Se si sceglie F(x) = x, si ottiene lesistenza e lunicit di una misura sur (R) tale
che, per ogni intervallo I, si abbia (I) = [I[. Questa misura si chiama la misura di
Lebesgue su R.
Sia (E, , ) uno spazio di misura. Un sottoinsieme A di E si dice trascurabile(-
trascurabile se c pericolo di ambiguit) se A B con B e (B) = 0. In particolare
un insieme trascurabile pu non essere misurabile. Si dice che una propriet vera quasi
ovunque (q.o.) se vera al di fuori di un insieme trascurabile. Per esempio f = g
q.o. signica che {x E, f (x) ,= g(x)] trascurabile. Se una probabilit, si dice
quasi certamente (q.c.) invece di quasi ovunque. Si indica la classe degli insiemi
trascurabili. Osserviamo che se A
n
,

n
A
n
. Se , lo spazio di misura
(E, , ) si dice completo.
1.3 Integrazione
Sia (E, , ) uno spazio di misura.
Costruiamo per prima cosa lintegrale di f rispetto a quando f
. Se f
elementare positiva, ci molto facile; f della forma f =
n
k=1
a
k
1
A
k
, con A
k
e
k
0 e si pone
_
f d =
n
k=1
a
k
(A
k
).
Da considerazioni elementari si vede che questo numero (che pu essere = ) non
dipende dalla rappresentazione di f (i numeri a
k
e glinsiemi A
k
non sono unici). Inoltre,
se f, g sono elementari positive e a, b R
, si ha
_
(af bg) d = a
_
f db
_
g d,
se f g,
_
f d
_
g d. Si ha anche il risultato pi tecnico seguente che la
chiave di volta della costruzione.
Lemma 1.10 Se (f
n
)
n
, (g
n
)
n
sono successioni crescenti di funzioni elementari -misu-
rabili positive e se lim
n
f
n
= lim
n
g
n
, allora lim
n

_
f
n
d = lim
n

_
g
n
d.
Sia f una funzione -misurabile positiva. Esiste (Proposizione 1.2) una successione
(f
n
)
n
di funzioni -misurabili positive elementari tale che f
n
f ; allora
_
f
n
d
una successione crescente e si pone
_
f d = lim
n

_
f
n
d. Il punto importante
che, grazie al Lemma 1.10, questo limite non dipende dalla particolare successione f
n
prescelta. Passando al limite, si ottiene immediatamente che, per f, g
e a, b R
si ha
_
(af bg) d = a
_
f db
_
g d;
se f g,
_
f d
_
g d.
1.3 Integrazione 7
Per denire lintegrale di una funzione numerica -misurabile, basta scrivere f =
f
dove f
= f 0 e f
= f 0 (le parti positiva e negativa di f ). Si pu

allora porre
_
f d =
_
f
d
_
f
d
a condizione che una almeno della quantit
_
f
d e
_
f
d siano nite. f si dice

semi-integrabile inferiormente (s.i.i.) se
_
f
d < . In questo caso linte-

grale di f ben denito (ma pu prendere il valore ).
semi-integrabile superiormente (s.i.s.) se
_
f
d < . In questo caso linte-

grale di f ben denito (ma pu prendere il valore ).
integrabile se f
e f
hanno entrambe integrale nito.

chiaro che una funzione positiva sempre s.i.i. (dato che f
= 0) ed una negativa
sempre s.i.s. facile vedere che f integrabile se e solo se
_
[f [ d < . In ogni
caso, se f semi-integrabile, si ha
(1.4)
_
f d
_
[f [ d
Lintegrale si denisce immediatamente anche per le funzioni a valori complessi. Se
f : E C, e scriviamo f = f
1
if
2
, allora si vede subito che se
_
[f [ d < (ora
[ [ indica il modulo complesso), allora sia f
1
che f
2
sono integrabili. Si pone allora
_
f d =
_
f
1
di
_
f d
Si vede anche ( un po meno evidente) che la (1.4) continua a valere, intendendo con
[ [ il modulo complesso.
Indicheremo con
1
e
1
C
le funzioni integrabili a valori reali e complessi rispettiva-
mente. Scriveremo
1
() o
1
C
() quando sar necessario precisare la misura rispetto
alla quale si integra.
Propriet (in esercizio).
i) Se f -misurabile positiva e se
_
f d < , allora f < q.o.
ii) Se f -misurabile positiva e se
_
f d = 0, f = 0 q.o.
iii) Se f misurabile positiva (risp. integrabile) e A , allora f 1
A
anchessa
positiva (risp. integrabile). Si pu allora denire
_
A
f d :=
_
f 1
A
d
Mostrare che se f positiva (risp. integrabile) e se, per ogni A ,
_
A
f d 0, allora
f 0 q.o.
Restano da enunciare risultati di passaggio al limite. Il primo, da cui seguono facilmente
gli altri, si chiama teorema di convergenza monotona o teorema di Beppo-Levi .
Teorema 1.11 Sia (f
n
)
n

una successione crescente, allora

lim
n
_
f
n
d =
_
lim
n
f
n
d.
Corollario 1.12 Sia (g
n
)
n
una successione di funzioni -misurabili positive, allora
n
_
g
n
d =
_

n
g
n
d.
Proposizione 1.13 (Lemma di Fatou) (i) Sia (f
n
)
n
una successione di funzioni -
misurabili positive, allora
_
lim
n
f
n
d lim
n
_
f
n
d.
Il Lemma di Fatou implica il celebre teorema di Lebesgue .
Teorema 1.14 Siano f
n
funzioni integrabili tali che f
n
f q.o., con [f
n
[ g
1
,
allora
lim
n
_
f
n
d =
_
f d.
Questo teorema ha una versione continua molto utile.
Corollario 1.15 Siano (f
t
, t U) una famiglia di elementi di
1
C
e U un aperto di
R
d
. Si suppone che lim
t t
0
f
t
= f q.o. e che, per ogni t U, [f
t
[ g
1
, allora
lim
t t
0
_
f
t
d =
_
f d.
Dimostrazione. Basta osservare che lim
t t
0
_
f
t
d =
_
f d se e solo se, per ogni
successione (t
n
)
n
convergente a t
0
, lim
t
n
t
0
_
f
t
n
d =
_
f de poi applicare il Teorema
1.14.
Diamo un esempio di applicazione di questo corollario.
Proposizione 1.16 (Teorema di derivazione sotto il segno) Siano (E, , ) uno spazio
di misura, I un intervallo aperto e (f (t, x), t I) una famiglia di funzioni integrabili a
valori in C. Poniamo, per ogni t I, (t ) =
_
f (t, x) d(x). Si suppone che esista un
insieme A tale che (A
c
) = 0 e che, per ogni x A, si abbia che
t f (t, x) sia derivabile su I;
esista una funzione g
1
() tale che per t I, [
f
t
(t, x)[ g(x).
Allora derivabile su I e
/
(t ) =
_
f
t
(t, x) d(x).
1.3 Integrazione 9
Dimostrazione. Si ha
1
h
((t h) (t )) =
_
A
1
h
(f (t h, x) f (t, x)) d(x).
e, naturalmente, per ogni x A,
1
h
(f (t h, x) f (t, x))
h0
f
t
(t, x).
Grazie alla formula degli incrementi niti, si ha, per h abbastanza piccolo e per x A,
1
h
(f (t h, x) f (t, x))
f
t
(, x)
g(x)
dove t t h. Si pu dunque applicare il Teorema di Lebesgue nella versione del
Corollario 1.15 e si ottiene
_
A
1
h
(f (t h, x) f (t, x)) d(x)
h0
_
A
f
t
(t, x) d(x) =
_
f
t
(t, x) d(x).
Se f una funzione boreliana, si pone, per 1 p < ,
|f |
p
=
_
_
[f [
p
d
_
1
p
e, per p = ,
|f |
= inf(M, ([f [ > M) = 0).

Queste due quantit possono naturalmente essere = . Poniamo, per 1 p ,
p
= {f, |f |
p
< ].
Si hanno due disuguaglianze fondamentali. Per f, g boreliane si ha
(1.5) |f g|
p
|f |
p
|g|
p
, 1 p
che si chiama la disuguaglianza di Minkowski e
(1.6) |fg|
1
|f |
p
|g|
q
, 1 p ,
1
p

1
q
= 1
che si chiama la disuguaglianza di Hlder. Osserviamo che per p = q = 2, (1.6) implica
la disuguaglianza di Schwartz
_
_
[fg[ d
_
2
_
f
2
d
_
g
2
d.
Grazie alla disuguaglianza di Minkowski, gli insiemi
p
sono degli spazi vettoriali
e | |
p
una seminorma. Non una norma perch pu succedere che una funzione
f ,= 0 sia tale che |f |
p
= 0 (succede se e solo se f = 0 q.o.). Se per deniamo
una relazione di equivalenza su
p
ponendo f g se f = g q.o. e poi poniamo
L
p
=
p
/ , allora L
p
risulta essere uno spazio normato. Infatti, poich f = g q.o.
implica
_
[f [
p
d =
_
[g[
p
d, se f e g sono in
p
, si pu denire senza ambiguit,
per f L
p
, |f |
p
. utile ricordare che L
p
uno spazio che non formato da funzioni,
ma da classi di equivalenza di funzioni; questa distinzione per raramente importante
e con abuso di linguaggio nel seguito confonderemo una funzione f e la sua classe di
equivalenza.
Si dimostra anzi che L
p
uno spazio di Banach e che L
2
uno spazio di Hilbert per
il prodotto scalare
f, g) =
_
fg d.
Si pu anche considerare il caso delle funzioni a valori complessi. Si denisce allo stesso
modo L
p
C
= L
p
C
(E, , ). Occorre osservare che L
2
C
associato al prodotto scalare
f, g) =
_
f g d.
Proposizione 1.17 Per 1 p < ,
0
= {f ; f =
n
k=1
a
k
1
A
k
, A
k
, (A
k
) <
] denso in L
p
(E, , ).
Dimostrazione. Basta considerare il caso f 0. Allora esiste (Proposizione 1.2) una
successione (f
n
)
n

0
tale che f
n
f . Poich f < q.o., [f f
n
[
p
0 q.o. e,
dato che f
p
n
f
p

1
, si ha [f f
n
[
p
f
p

1
Si pu dunque applicare il teorema
di Lebesgue e si ha
_
[f f
n
[
p
d 0.
Sia una misura su (E, ). Ad essa si pu associare unapplicazione I :
ponendo I (f ) =
_
f d, f
. Lapplicazione I a le propriet seguenti:

i) se f, g
e a, b R
, I (af bg) = I (af ) I (bg);

ii) se f
n

e se f
n
f , I (f
n
) I (f ).
Proposizione 1.18 Siano (E, ) un spazio misurabile e I unapplicazione di
in R
tale che valgano le i) e ii) precedenti.

Allora (A) = I (1
A
), A , denisce una misura su e si ha, per ogni f
,
I (f ) =
_
f d.
Dimostrazione. Siano A
n
degli insiemi a due a due disgiunti la cui unione sia uguale
ad A; allora 1
A
=
n
1
A
n
= lim
n

n
k=1
1
A
k
e
(A) = I (1
A
) = I
_
lim
n
k=1
1
A
k
_
= lim
n
I
_
n
k=1
1
A
k
_
= lim
n
k=1
I (1
A
k
) =
1.4 Esempi 11
=
k=1
(A
k
).
Ci mostra che una misura. Si ha allora, per ogni funzione elementare positiva f ,
I (f ) =
_
f d. Si conclude facilmente usando la Proposizione 1.2.
Lemma 1.19 Siano
1
e
2
misure di Borel su (R
d
, (R
d
). Supponiamo che, per ogni
f C
K
(funzioni continue a supporto compatto),
_
f d
1
=
_
f d
2
. Allora
1
=
2
.
Dimostrazione. Indichiamo con la classe degli aperti limitati. Per ogni U , esiste
una successione (f
n
)
n
C
K
tale che 1
U
= lim
n
f
n
. Dunque, per il Teorema di
Beppo Levi
1
(U) =
2
(U) < . Poich stabile per intersezioni nite, genera
(R
d
) e R
d
= lim U
n
, U
n
, si conclude grazie alla Proposizione 1.6.
1.4 Esempi
Vediamo ora degli esempi di misure e alcune tecniche con le quali si possono costruire
nuove misure a partire da misure date.
(Masse di Dirac). Se x E ssato, consideriamo la misura su (E) denita da
(A) = 1
A
(x)
cio la misura di A vale 1 o 0 a seconda che x A oppure no. La verica che si
tratta di una misura immediata; questa misura si indica
x
e si chiama massa di Dirac
concentrata in x. Vale la formula
_
f d
x
= f (x)
che si dimostra facilmente allo stesso modo della prossima Proposizione 1.21
(Insiemi numerabili) Se E un insieme numerabile, si pu costruire una misura su
(E, (E)) in modo molto semplice. Se ad ogni x E associamo un numero
x
R
,
poniamo, per A E, (A) =
xA
x
. Le propriet di sommabilit delle serie a
termini positivi implicano che cos denita una misura.
(Misura immagine) Siano (E, ) e (F, ) spazi misurabili, f : E F unappli-
cazione misurabile e una misura su (E, ); si pu denire una misura su (F, )
ponendo
(1.7) (A) := (f
1
(A)) A
Anche qui la verica che una misura immediata. si chiama la misura immagine di
tramite f e si indica f () oppure f
1
. Nel resto di questo paragrafo supporremo
che sia nita (cio che (E) < ).
Proposizione 1.21 Una funzione misurabile g: F R -integrabile se e solo se g f
-integrabile. In questo caso si ha
(1.8)
_
g d =
_
g f d
Dimostrazione. Basta mostrare (1.8) quando g positiva. Se g = 1
A
la relazione (1.8)
coincide con la denizione (1.7) perch 1
A
f = 1
f
1
(A)
. (1.8) quindi vera se g
combinazione lineare dindicatrici di insiemi di . Basta ora osservare che ogni funzione
misurabile positiva inviluppo superiore di funzioni di questo tipo (Proposizione 1.2 ) e
applicare il teorema di Beppo Levi.
(Misure denite da una densit) Sia una misura -nita su (E, ). Diremo
che una funzione misurabile positiva f : E R una densit se esiste una successione
(A
n
)
n
tale che

n
A
n
= E, (A
n
) < e che f 1
A
n
sia integrabile per ogni n.
Dora in avanti useremo la notazione
_
A
f d
def
=
_
f 1
A
d
Proposizione e Denizione 1.22 Si chiama misura di densit f rispetto a (e si scrive
= f d) la misura -nita su (E, ) denita da
(1.9) (A) =
_
A
f d
Una funzione misurabile g: E R integrabile rispetto a se e solo se gf
integrabile rispetto a e in questo caso si ha
(1.10)
_
g d =
_
g f d
Dimostrazione. Che denita da (1.9) sia una misura segue facilmente dal fatto che
essa passa al limite sulle successioni crescenti per il teorema di Beppo Levi. -
nita perch se (A
n
)
n
una successione di insiemi di tale che
n
A
n
= E e f 1
A
n
sia
integrabile per ogni n, allora
(A
n
) =
_
f 1
A
n
d <
La (1.10) inne si dimostra allo stesso modo della Proposizione 1.21, vericandola cio
prima per le funzioni g della forma 1
A
, quindi per linearit per le funzioni semplici e poi
1.5 Misure prodotto 13
per tutte le funzioni positive, approssimandole con funzioni semplici (Proposizione 1.2)
e usando il teorema di Beppo Levi.
Consideriamo due misure e -nite sullo spazio misurabile (E, ). Diremo che
assolutamente continua rispetto a , e scriveremo _ , se e solo se ogni insieme
A -trascurabile (tale cio che (A) = 0) anche -trascurabile. Se ha densit
f rispetto a allora chiaro che _ : infatti se A -trascurabile allora la funzione
f 1
A
anchessa trascurabile, poich diversa da 0 solo su A. Un risultato notevole e
non ovvio che vale anche il viceversa.
Teorema 1.23 (Radon-Nikodym) Se e sono -nite e _ allora ha densit
rispetto a .
Osserviamo che, a voler essere precisi, non corretto parlare di la densit di rispetto
a : se f una densit, tale anche ogni funzione g -equivalente a f . Si pu
dimostrare anzi che se due funzioni f e g sono entrambe densit di una stessa misura
rispetto a se e solo se f e g sono -equivalenti.
1.5 Misure prodotto
Siano (E
1
,
1
) (E
2
,
2
) due spazi misurabili. Si denisce una -algebra su E
1
E
2
,
chiamata -algebra prodotto di
1
e
2
e indicata
1

2
, mediante
1

2
= (A
1
A
2
; A
1

1
, A
2

2
).
Siano
1
e
2
misure -nite su (E
1
,
1
) e (E
2
,
2
) rispettivamente. Per ogni insieme
della forma A = A
1
A
2
poniamo
(1.12) (A) =
1
(A
1
)
2
(A
2
)
Si pu prolungare ad una misura su tutta la -algebra =
1

2
?
In ogni caso, se questo prolungamento esiste, necessariamente unico, grazie alla
Proposizione 1.6, perch la classe dei rettangoli A
1
A
2
stabile per intersezioni nite.
Per mostrare lesistenza in questo caso il teorema di Carathodory non molto pratico
da utilizzare. Si pu procedere in maniera pi semplice nel modo seguente. Sia f :
E
1
E
2
R
una funzione
1

2
-misurabile.
1) Si dimostra che, per ogni x
1
E
1
, x
2
E
2
le funzioni f (x
1
, ) e f (, x
2
) sono
rispettivamente
2
- e
1
-misurabili.
2) Si dimostra che, per ogni x
1
E
1
, x
2
E
2
le funzioni
x
1

_
f (x
1
, x
2
) d
2
(x
2
), x
2

_
f (x
1
, x
2
) d
1
(x
1
)
sono rispettivamente
1
- e
2
-misurabili.
3) Se si pone
I (f ) =
_
d
2
(x
2
)
_
f (x
1
, x
2
) d
1
(x
1
)
allora il funzionale I soddisfa alle ipotesi i) e ii) che precedono la Proposizione 1.18 (si
usa due volte il Teorema di Beppo Levi).
Ne segue che, posto (A) = I (1
A
), una misura su
1

2
. Poich chiaro che
soddisfa alla (1.12) sui rettangoli, si tratta del prolungamento che cercavamo. La misura
si chiama la misura prodotto di
1
e
2
e si scrive =
1

2
.
La dimostrazione dei punti 1) e 2) precedenti senza sorprese: si tratta di propriet
che sono vere se f lindicatrice di un rettangolo. Si passa al caso in cui f la funzione
indicatrice di un insieme di
1

2
con il Teorema delle classi monotone 1.1 e poi a
tutte le funzioni
1

2
-misurabili positive con la Proposizione 1.2 ed il Teorema di
Beppo Levi.
In pratica per integrare rispetto alla misura prodotto si usa il teorema seguente, che
molto importante.
Teorema 1.25 (Fubini) Sia f una funzione reale, numerica o complessa
1

2
-
misurabile. Allora si ha
_
d
2
(x
2
)
_
[f (x
1
, x
2
)[ d
1
(x
1
) =
_
d
1
(x
1
)
_
[f (x
1
, x
2
)[ d
2
(x
2
).
Inoltre f integrabile rispetto alla misura prodotto =
1
2
se e solo se la quantit
precedente nita. In questo caso vale la formula
_
f d =
_
d
2
(x
2
)
_
f (x
1
, x
2
) d
1
(x
1
) =
_
d
1
(x
1
)
_
f (x
1
, x
2
) d
2
(x
2
).
Ci si pu estendere senza troppa fatica al caso di n spazi misurabili. Ci sono alcune
veriche un po noiose da fare del tipo
1
(
2
3
) = (
1
2
)
3
. Per di pi nelle
formule dintegrazione le variabili si possono integrare in tutti gli ordini possibili. Grosso
modo, il grande principio per applicare il teorema di Fubini quando si vuole integrare
una funzione rispetto alla misura prodotto : se f positiva, tutto permesso (si pu
cio integrare rispetto alle variabili in qualunque ordine); se f di segno qualunque o
complessa, tutto permesso solo se la funzione integrabile; occorre cio considerare
prima [f [ e mostrare che [f [ integrabile.
Consideriamo (R, (R), ), misura di Lebesgue. Intanto abbastanza facile ve-
ricare che (R) (R) . . . (R) = (R
d
) (in esercizio). Si denisce allora
d
= . . . . Si pu applicare la Proposizione 1.6 a
=
_
A, A =
d
i=1
] a
i
, b
i
[, < a
i
< b
i
<
_
.
Si ottiene che
d
lunica misura su (R
d
) tale che, per ogni < a
i
< b
i
< ,
d
_
d
i=1
]a
i
, b
i
[
_
=
d
i=1
(b
i
a
i
).
Esercizi 15
Indichiamo con
d
la misura di Lebesgue di R
d
.
Esercizi
E1.1 Sia g L
p
(), 1 p < e poniamo g
n
= g n (n). Mostrare che g
n
g
in L
p
per n .
2
Variabili aleatorie
2.1 Probabilit e misura
Uno spazio di probabilit una tripla (, , P) dove (, ) uno spazio misurabile e P
una probabilit su (, ). Vedremo che altri oggetti della teoria della misura interven-
gono nel Calcolo delle Probabilit e che, in questo caso, vengono ribattezzati ricevendo
un nuovo nome che tiene conto del ruolo che essi giocano in relazione ai fenomeni
aleatori. Ad esempio si chiamano eventi gli insiemi della -algebra .
Si chiama (v.a.) unapplicazione misurabile di (, , P) a valori in (R, (R))
oppure (R, (R)). Naturalmente si possono considerare anche v.a. a valori in uno
spazio misurabile qualunque (E, ), ma quando lo spazio di arrivo non sar precisato
sottintenderemo sempre che si tratta di v.a. a valori reali o numerici. Parleremo di v.a.
m-dimensionali per le v.a. a valori in (R
m
, (R
m
)). Le v.a. si denotano tradizionalmente
con lettere maiuscole (X, Y, Z, . . .).
Si chiama legge o distribuzione della v.a. X la misura immagine di P tramite X, cio
la probabilit su (R, (R)) denita da
(A) = P(X
1
(A)) = P(; X() A)
dove naturalmente A un boreliano di R. Spesso useremo la scrittura P(X A) al posto
di P(; X() A). Si chiama funzione di ripartizione di X la funzione di ripartizione
di , cio la funzione F, non decrescente e continua a destra, denita da
F(x) = (] , x]) = P(X x) .
Se X semi-integrabile (superiormente o inferiormente) rispetto a P, si chiama speranza
matematica (o attesa o media) di X, e si indica con E(X), lintegrale
_
XdP. Se
X = (X
1
, . . . , X
m
) una v.a. m-dimensionale porremo
E(X) = (E(X
1
), . . . , E(X
m
)) .
Paolo Baldi
18 Capitolo 2. Variabili aleatorie
Una v.a. X si dice centrata se E(X) = 0. La Proposizione 1.21, dintegrazione rispetto a
una legge immagine, permette di affermare che se f : R R una funzione boreliana,
allora la v.a. f (X) integrabile se e solo se
_
[f (x)[ d(x) <
ed in questo caso
(2.1) E[f (X)] =
_
f (x) d(x) .
Naturalmente la relazione precedente vale anche se la v.a. f (X) solo semi-integrabile
(il che accade sempre se f positiva, ad esempio). In particolare se X integrabile
oppure positiva
(2.2) E(X) =
_
R
x (dx) .
Questa relazione quella che si usa in pratica per il calcolo della speranza matematica di
una v.a.; inoltre, da un punto di vista concettuale, essa mostra che la speranza matematica
dipende solo dalla legge di X: v.a. diverse (eventualmente denite su spazi di probabilit
diversi) ma aventi la stessa legge hanno la stessa speranza matematica.
Anzi, se la (2.1) vale per ogni funzione f misurabile limitata (risp. positiva), allora
necessariamente la legge di X. Nel caso di v.a. reali sufciente che (2.1) sia vera
per ogni funzione f C
K
. Questa osservazione fornisce un metodo per determinare la
legge di una v.a. X, come si vedr negli esercizi.
Data una legge di probabilit su (R, (R)), o comunque su uno spazio misurabile
(E, ), sempre possibile costruire uno spazio di probabilit (, , P) su cui denita
una v.a. Xavente legge . Baster ad esempio porre = E, = , P = e X(x) = x.
Nel seguito commetteremo spesso un piccolo abuso: considereremo delle v.a. senza
preoccuparci troppo di precisare lo spazio di probabilit su cui sono denite. La giusti-
cazione di questo modo di procedere che per poter fare i calcoli spesso la sola cosa
necessaria conoscere la legge di una v.a. e comunque la costruzione esplicita di uno
spazio di probabilit su cui le variabili aleatorie sono denite sempre possibile e spesso
ovvia.
Sempre pi spesso come modello di un fenomeno aleatorio considereremo uno spazio
di probabilit (, , P), di cui ignoreremo la natura, sul quale sono denite delle variabili
aleatorie X
1
, . . . , X
n
con date leggi di probabilit.
2.2 Indipendenza
In questo paragrafo (, , P) uno spazio di probabilit e tutte le -algebre che si
considerano sono delle sotto--algebre di .
2.2 Indipendenza 19
Denizione 2.1 Le -algebre
i
, i = 1, . . . , n si dicono indipendenti se
P
_
n
_
i=1
A
i
_
=
n
i=1
P(A
i
)
per ogni A
i

i
. Le -algebre di una famiglia qualunque (
i
, i I) si dicono
indipendenti se ogni sotto-famiglia nita composta da -algebre indipendenti.
Questa denizione ha una conseguenza evidente ma importante.
Lemma 2.2 Se le -algebre (
i
, i I) sono indipendenti e se, per ogni i I,
/
i

una sotto--algebra di
i
, le -algebre (
/
i
, i I) sono indipendenti.
Proposizione 2.3 Siano
k
(), k = 1, . . . , n delle classi stabili par intersezioni
nite, contenenti e tali che
k
= (
k
), k = 1, . . . , n. Supponiamo che, per ogni
A
k

k
,
(2.3) P
_
n
_
k=1
A
k
_
=
n
k=1
P(A
k
) .
Allora le -algebre
k
, k = 1, . . . , n, sono indipendenti.
Dimostrazione. Consideriamo, per k = 1, . . . , n, la propriet
P(
_
n
i=1
A
i
) =
n
i=1
P(A
i
), dove A
i
(
i
), i = 1, . . . , k 1, e A
i

i
, i = k, . . . , n .
Par ipotesi essa vera per k = 1; osserviamo che la tesi non altro che affermare che
questa propriet vera per k = n 1. Supponiamola vera per k = r. Fissiamo degli
eventi A
i

i
, i = 1, . . . , r 1 e A
i

i
, i = r 1, . . . , n e consideriamo sulla
-algebra
r
le due misure
1
(B) = P(A
1
. . . A
r1
B A
r1
. . . A
n
)
2
(B) = P(A
1
) . . . P(A
r1
)P(B)P(A
r1
) . . . P(A
n
) .
Queste due misure coincidono su
i
, grazie allipotesi di ricorrenza. Per la Proposizione
1.6 esse coincidono su
r
, e dunque la propriet precedente vera per k = r 1. Per
ricorrenza essa vera anche per k = n 1, cio la tesi.
Vale anche una propriet dindipendenza per pacchetti"
Proposizione 2.4 Siano (
i
, i I) delle -algebre indipendenti e (I
j
, j J) une
partizione di I. Allora le -algebre ((
i
, i I
j
), j J) sono indipendenti.
Dimostrazione. Basta considerare il caso J nito. Sia
j
= {B, B = A
1
A
2
. . . A
n
, A
k

iI
j
i
] .
Per lindipendenza delle
i
, si ha, per ogni scelta di B
j

j
, P(
_
j
B
j
) =
j
P(B
j
).
Ma le
j
sono stabili per intersezioni nite,
j
e (
j
) = (
i
, i I
j
). Basta
quindi applicare la Proposizione 2.3.
Denizione 2.5 Le v.a. (X
i
)
i
a valori negli spazi misurabili (E
i
,
i
) si dicono indi-
pendenti se le -algebre ((X
i
))
i
sono indipendenti.
Gli eventi (A
i
)
i
si dicono indipendenti se le -algebre ((A
i
))
i
sono indipen-
denti.
Si ha immediatamente,
Lemma 2.6 Se le -algebre (
i
)
i
sono indipendenti e se, per ogni i , X
i
una
v.a.
i
-misurabile, le v.a. (X
i
)
i
sono indipendenti.
Dimostrazione. Basta osservare che (X
i
)
i
e applicare il Lemma 2.2.
Teorema 2.7 Siano X
i
delle v.a. a valori (E
i
,
i
) i = 1, . . . , n. Indichiamo con
la legge di (X
1
, . . . , X
n
), a valori nello spazio prodotto degli (E
i
,
i
), e con
X
i
, i =
1, . . . , n le leggi delle X
i
, i = 1, . . . , n rispettivamente. Le affermazioni seguenti sono
equivalenti.
i) Le v.a. X
1
, . . . , X
n
sono indipendenti.
ii) Per ogni
i

i
, P(X
1

1
, . . . , X
n

n
) = P(X
1

1
) . . . P(X
n

n
).
iii) Per ogni
i

i
, P(X
1

1
, . . . , X
n

n
) = P(X
1

1
) . . . P(X
n

n
)
dove, per ogni i,
i
une classe stabile per intersezioni nite, contenenti E
i
e tale che
(
i
) =
i
.
iv) Per ogni f
i

i
(risp. ogni f
i
b
i
),
E(f
1
(X
1
) . . . f
n
(X
n
)) = E(f
1
(X
1
)) . . . E(f
n
(X
n
)) .
v) =
X
1
. . .
X
n
.
Dimostrazione. (i)(ii). la denizione. (ii)(v). Si ha, per ogni
i

i
,
(
1
. . .
n
) = P(X
1

1
, . . . , X
n

n
) = P(X
1

1
) . . . P(X
n

n
) =
=
X
1
(
1
) . . .
X
n
(
n
)
Dunque coincide con la misura prodotto
X
1
. . .
X
n
sui rettangoli. Quindi
=
X
1
. . .
X
n
. (v)(iv). il Teorema 1.25, di Fubini. Infatti
E(f
1
(X
1
) . . . f
n
(X
n
)) =
_
f (X
1
) . . . f (X
n
) dP =
=
_
f (x
1
) . . . f (x
n
) d(x
1
, . . . , x
n
) =
_
f (x
1
) d
X
1
(x
1
) . . .
_
f (x
n
) d
X
n
(x
n
) =
= E(f
1
(X
1
)) . . . E(f
n
(X
n
))
2.2 Indipendenza 21
(iv)(ii). Basta prendere f
i
= 1
i
:
E(1
1
(X
1
) . . . 1
n
(X
n
)) = E(1
X
1
1
. . . 1
X
n
n
) = E(1
{X
1
1
]...{X
n
n
]
) =
= P(X
1

1
, . . . , X
n

n
)
e allo stesso modo E(1
1
(X
1
)) . . . E(1
n
(X
n
)) = P(X
1

1
) . . . P(X
n

n
).
(iii)(ii). Si applica la Proposizione 2.3 ponendo
i
= (X
i
) e
i
= {X
1
i
(),
i
].
Corollario 2.8 Siano X
1
, . . . , X
n
delle v.a. reali, le affermazioni seguenti sono equiva-
lenti
i) Le v.a. X
1
, . . . , X
n
sono indipendenti.
ii) Per ogni a
i
, b
i
R,
P(a
1
< X
1
< b
1
, . . . , a
n
< X
n
< b
n
) = P(a
1
< X
1
< b
1
) . . . P(a
n
< X
n
< b
n
) .
iii) Per ogni f
i
continua a supporto compatto
E(f
1
(X
1
) . . . f
n
(X
n
)) = E(f
1
(X
1
)) . . . E(f
n
(X
n
)) .
Dimostrazione. Basta osservare che (iii)(ii) poich 1
]a,b[
= lim f
m
con f
m
C
K
e
applicare il Teorema 2.7.
Corollario 2.9 Siano X
1
, . . . , X
n
delle v.a. reali integrabili indipendenti. Si ha
E(X
1
. . . X
n
) = E(X
1
) . . . E(X
n
) .
Dimostrazione. Si ha, grazie al Teorema 2.7 (iv), E([X
1
. . . X
n
[) = E([X
1
[) . . . E([X
n
[) <
. Dunque X
1
. . . X
n
integrabile e si applica il Teorema 2.7(v) edil teorema di Fubini.
Osservazione 2.10 Se le v.a. X
1
, . . . , X
n
sono a valori di spazi misurabili E
i
numerabili
e muniti della -algebra di tutte le parti, esse sono indipendenti (basta sommare) se e
solo se, per ogni x
i
E
i
,
P(X
1
= x
1
, . . . , X
n
= x
n
) = P(X
1
= x
1
) . . . P(X
n
= x
n
) .
Osservazione 2.11 Attenzione: pu succedere che sia X indipendente da Y, X indi-
pendente da Z senza che X sia indipendente da (Y, Z). Per esempio siano X e Y due
v.a. indipendenti tali che P(X = 1) = P(Y = 1) = P(X = 1) = P(Y = 1) =
1
2
e
poniamo Z = XY. Si ha ancora P(Z = 1) = P(Z = 1) =
1
2
. Si verica facilmente che
X e Z sono indipendenti: infatti P(X = 1, Z = 1) = P(X = 1, Y = 1) =
1
4
= P(X =
1)P(Z = 1), . . . X non per indipendente da Z/Y = X poich ci implicherebbe che
X q.c. costante. La classe = {A, A = {Y
1
dove A = {Z
2
]] non stabile
per intersezione.
Teorema 2.12 (La legge 0-1 di Kolmogorov) Sia (X
n
)
n
una successione di v.a. indi-
pendenti. Poniamo
n
= (X
k
, k n) e
=
_
n=1
n
. (la -algebra terminale).
Allora, per ogni A
, si ha P(A) = 0 oppure P(A) = 1. Per di pi, se X una v.a.
-misurabile, X costante q.c.

Dimostrazione. Poniamo
n
= (X
k
, k n),
= (X
k
, k 0). Per la Proposi-
zione 2.4,
n
indipendente da
n1
e da

n1
. Dunque
indipendente da
( la Proposizione 2.3 applicata a

n
) ma
, per cui
indipendente
da se stessa. Se A
, si ha dunque P(A) = P(A A) = P(A)P(A) i.e. P(A) = 0

oppure P(A) = 1. Se X une v.a.
-misurabile, P(X a) = 0 oppure P(X a) = 1.

Dunque se c = sup(a, P(X a) = 0),
P(X = c) = lim P(X c ) lim P(X c ) = 1 .
Vediamo delle applicazioni della legge 0-1, che verranno sviluppate pi tardi. Sia (X
n
)
n
una successione di v.a. indipendenti e poniamo

X
n
=
1
n
(X
1
. . . X
n
). Allora la v.a.
lim
n

X
n
terminale. Infatti il valore del lim non dipende da X
1
, . . . , X
n
, qualunque
sia n. Ne segue intanto che la v.a. lim
n

X
n
q.c. costante. Daltra parte lo stesso
argomento vale per la v.a. lim
n
X
n
. Si ha dunque che
{la successione (

X
n
)
n
converge] = { lim
n
X
n
= lim
n
X
n
]
ha probabilit 1. Quindi o la successione (

X
n
)
n
converge con probabilit 1 (e in questo
caso il limite una v.a. q.c. costante) oppure non converge con probabilit 1.
Un discorso simile si pu fare quando si vuole studiare la convergenza della serie
n=1
X
n
. Anche qui facile vedere che levento {la serie converge] terminale, poich
la convergenza di una serie non dipende dai suoi primi termini. Dunque o la serie non
converge con probabilit 1 oppure convergente con probabilit 1. In questo caso per
il valore della serie dipende anche dai suoi primi termini. Dunque la v.a.

n=1
X
n
non
terminale e pu non essere costante.
2.3 Disuguaglianze di convessit, momenti, covarianza
Vedremo ora alcune propriet dellintegrale di una funzione misurabile rispetto ad una
misura di probabilit (cio della speranza matematica).
Si tratta di propriet in generale non vere per integrali rispetto ad altre misure e legate
al fatto che per le misure di probabilit lintegrale assume il signicato di media o, per
v.a. a valori in R
n
, di baricentro.
Ricordiamo che una funzione : R
m
R {] si dice convessa se e solo se per
ogni 0 1 e x, y R
m
si ha
(2.4) (x (1 )y) (x) (1 )(y) .
2.3 Disuguaglianze di convessit, momenti, covarianza 23
Si dice concava se convessa. Se concava naturalmente si ha
(2.5) (x (1 )y) (x) (1 )(y) .
Una funzione f : R
m
R si dice afne se della forma
f (x) = , x) b
dove b R, R
m
e , ) indica il prodotto scalare in R
m
. immediato vericare che
se f afne e X una v.a. m-dimensionale integrabile, allora f (X) anchessa una v.a.
(reale) integrabile e
(2.6) E(f (X)) = f (E(X)) .
Inoltre una funzione afne f continua e convessa. Anzi la (2.4) vericata con = al
posto di per cui f anche concava.
Useremo nel seguito il fatto che se convessa e semi-continua inferiormente (s.c.i.)
allora
(x) = sup
f
f (x)
dove lestremo superiore preso al variare di f tra tutte le funzioni afni tali che f .
Un risultato analogo vale naturalmente per le funzioni concave e s.c.s. (con inf).
Ricordiamo che se una misura, una funzione f si dice semi-integrabile infe-
riormente (s.c.i.) rispetto a se e solo se essa minorata da una funzione integrabile
rispetto a . In questo caso lintegrale
_
f d denito (eventualmente = ). Ana-
logamente f si dice semi- integrabile superiormente (s.c.s.) se maggiorata da una
funzione integrabile (e in questo caso lintegrale pu prendere il valore ).
Teorema 2.13 (Disuguaglianza di Jensen) Sia X una v.a integrabile m-dimensionale e
: R
m
R {] una funzione convessa s.c.i. (risp. concava e s.c.s.). Allora la v.a.
reale (X) semi-integrabile inferiormente (risp. semi-integrabile superiormente) e
E((X)) (E(X)) (risp. E((X)) (E(X))) .
Dimostrazione. Se f una funzione afne minorante , allora f (X) integrabile e
(X) f (X); quindi (X) semi-integrabile inferiormente. Inoltre
E((X)) E(f (X)) = f (E(X)) .
Prendendo il sup su tutte le funzioni afni f minoranti , per la (2.6) si ha
E((X)) (E(X))
cio la tesi.
Scegliendo delle particolari funzione dalla disuguaglianza di Jensen si possono ricavare
facilmente le disuguaglianze classiche che abbiamo gi visto nel capitolo 1.
Disuguaglianza di Hlder. Se X e Y sono v.a. reali positive e , numeri > 0
tali che = 1, allora
(2.7) E(X
) E(X)
E(Y)
.
Basta applicare la disuguaglianza di Jensen alla funzione concava s.c.s.
(x, y) =
_
x
x, y 0
altrimenti
.
Disuguaglianza di Schwartz. Se p, q sono reali positivi tali che
1
p

1
q
= 1 allora
(2.8) E([XY[) E([X[
p
)
1/p
E([Y[
q
)
1/q
.
Basta ora applicare la disuguaglianza di Hlder alle v.a. [X[
p
, [Y[
q
, con =
1
p
, =
1
q
.
Disuguaglianza di Minkowski. Per ogni p 1 si ha
(2.9) E([X Y[
p
)
1/p
E([X[
p
)
1/p
E([Y[
p
)
1/p
.
Si applica la disuguaglianza di Jensen alla funzione concava s.c.s.
(x, y) =
_
(x
1/p
y
1/p
)
p
x, y 0
altrimenti
ed alle v.a. [X[
p
, [Y[
p
. Infatti con queste notazioni ([X[
p
, [Y[
p
) = ([X[[Y[)
p
e dunque
E([X Y[
p
) E([X[ [Y[)
p
) = E(([X[
p
, [Y[
p
))
(E([X[
p
), E([Y[
p
)) =
_
E([X[
p
)
1/p
E([Y[
p
)
1/p
_
p
e basta ora elevare alla potenza
1
p
ambo i membri.
La disuguaglianza di Jensen vale solo per misure di probabilit, poich essa implica
la (2.6) che propria delle misure di massa totale = 1. Le disuguaglianze di Hlder,
Schwartz e Minkowski sono invece vere per ogni misura -nita. Nel caso di una misura
di probabilit esse sono per un caso particolare della disuguaglianza di Jensen.
Unaltra applicazione notevole della disuguaglianza di Jensen la seguente. Se p > q
la funzione (x) = [x[
p/q
convessa. Dunque
|X|
p
p
= E([X[
p
) = E[([X[
q
)] (E[[X[
q
]) = E([X[
q
)
p/q
e, prendendo la radice p-esima,
(2.10) |X|
p
|X|
q
.
Veramente il calcolo precedente non proprio corretto, perch la disuguaglianza di
Jensen si applica a delle v.a. integrabili e lintegrabilit di [X[
q
appunto invece quello
che volevamo mostrare. Per non difcile rimediare. Se poniamo X
n
= Xn(n),
allora [X
n
[ n e, ripetendo il calcolo di poco fa si ha
E([X[
p
) E([X
n
[
p
) E([X
n
[
q
)
p/q
.
Basta ora fare tendere n allinnito e usare il teorema di Beppo Levi, dato che [X
n
[ [X[.
Inparticolare, se p q, L
p
L
q
. Questa propriet dinclusione nonvale, ingenerale,
per gli spazi L
p
di misure che non siano di probabilit. Data una v.a. X e > 0, si
chiama momento assoluto di ordine la quantit E([X[
) = |X|
. Si chiama momento
centrato assoluto di ordine la quantit E([X E(X)[
) (eventualmente = ).
Si chiama varianza di una v.a. X il momento centrato del secondordine, cio
(2.11) Var(X) = E[(X E(X))
2
] .
Osserviamo che X ha varianza nita se e solo se X L
2
: se X ha varianza nita, poich
X = (X E(X)) E(X), X in L
2
come somma di v.a. di L
2
. E se X L
2
, anche
X E(X) L
2
per lo stesso motivo.
Ricordando che E(X) una v.a. costante si ha
E(X E(X))
2
) = E(X
2
2XE(X) E(X)
2
) =
= E(X
2
) 2E(XE(X)) E(X)
2
= E(X
2
) E(X)
2
da cui si ricava una espressione alternativa per la varianza
(2.12) Var(X) = E(X
2
) E(X)
2
che talvolta pi comoda per il calcolo. Questa relazione mostra anche che si ha sempre
E(X
2
) E(X)
2
, cosa peraltro ovvia per la disuguaglianza di Jensen.
Come per la speranza matematica anche i momenti di una v.a. X sono quantit che
dipendono solo dalla legge. Infatti per il Teorema 1.21, dintegrazione rispetto a una
legge immagine,
E([X[
) =
_
[x[
(dx)
E([X E(X)[
) =
_
[x E(X)[
(dx)
Var(X) =
_
[x E(X)[
2
(dx) =
_
x
2
(dx)
_
_
x (dx)
_
2
.
Ai momenti sono legate due disuguaglianze importanti.
La disuguaglianza di Markov:
(2.13) P([X[ > t )
E([X[
)
t
che immediata perch

E([X[
) E([X[
1
{[X[>t ]
) t
P([X[ > t )
dove usiamo il fatto che [X[
1
{[X[>t ]
t
1
{[X[>t ]
.
Applicata alla v.a. X E(X) e = 2 la (2.13) d luogo alla disuguaglianza di
Chebyshev
P([X E(X)[ t )
Var(X)
t
2
.
Per la varianza valgono le seguenti propriet, la cui verica immediata
Var(X a) = Var(X) a R
Var(X) =
2
Var(X) R .
Cerchiamo ora una formula per la varianza della somma di due v.a.:
Var(X Y) = E
_
(X Y E(X) E(Y))
2
_
=
= E
_
(X E(X))
2
_
E
_
(Y E(Y))
2
_
2E
_
(X E(X))(Y E(Y))
_
ovvero se poniamo
Cov(X, Y) = E
_
(X E(X))(Y E(Y))
_
allora
Var(X Y) = Var(X) Var(Y) 2 Cov(X, Y) .
La quantit Cov(X, Y) si chiama la covarianza di X e Y. Se X e Y sono indipendenti
allora per il Corollario 2.9
Cov(X, Y) = E
_
(X E(X))(Y E(Y))
_
= E
_
(X E(X))
_
E
_
Y E(Y))
_
= 0
cio se X e Y sono indipendenti
Var(X Y) = Var(X) Var(Y) .
Non invece vero il viceversa: si conoscono esempi di v.a. che hanno covarianza nulla,
senza essere indipendenti. Si chiama coefciente di correlazione di X e Y la quantit
X,Y
=
Cov(X, Y)
_
Var(X) Var(Y)

Notiamo che per la disuguaglianza di Schwartz
[ Cov(X, Y)[ Var(X)
1/2
Var(Y)
1/2
per cui 1
X,Y
1.
Anche se si conoscono esempi di v.a. non indipendenti per cui la covarianza (e dunque
il coefciente di correlazione) nulla, la quantit
X,Y
viene comunque usata (spesso
impropriamente) per dare una valutazione di quanto sono indipendenti X e Y; nel
senso che valori di
X,Y
vicini a 0 indicano v.a. quasi indipendenti mentre valori
vicini a 1 o 1 indicano una forte dipendenza" (vedi lEsercizio 4.2).
Se
X,Y
= 0 le v.a. X e Y si dicono non correlate. Osserviamo che dire che X e Y
sono non correlate signica semplicemente che X E(X) e Y E(Y) sono ortogonali
in L
2
.
Esempio 2.14 (Retta di regressione) Consideriamo due v.a. reali X e Y denite sullo
stesso spazio di probabilit (, , P). Cerchiamo due numeri a, b R che rendano
minima la quantit E((aX b Y)
2
). In un certo senso si tratta di trovare la funzione
lineare-afne di X che approssima meglio Y. Supporremo nel seguito che entrambe le
variabili siano di quadrato integrabile. Converr piuttosto scrivere
E((aX b Y)
2
) = E((a(X E(X))

b (Y E(Y)))
2
)
dove

b = b aE(X) E(Y). Si tratta di trovare il punto di minimo della funzione
S(a,

b) = E((a(X E(X))

b (Y E(Y)))
2
) =
= a
2
Var(X)

b
2
Var(Y) a Cov(X, Y) .
chiaro che il minimo si raggiunge per

b = 0. Poich S un trinomio di secondo grado
in a ed il coefciente di a
2
positivo, il punto critico anche di minimo. Poich
S
a
= 2a Var(X) 2 Cov(X, Y) = 0
deve essere
a =
Cov(X, Y)
Var(X)
e dunque
b = E(Y) aE(X) = E(Y)
Cov(X, Y)
Var(X)
E(X)
La funzione x ax b per i valori calcolati si chiama la retta di regressione di Y su
X. Osserviamo che il coefciente angolare ha lo stesso segno della covarianza. La retta
di regressione dunque una funzione crescente o decrescente a seconda che Cov(X, Y)
sia positiva o negativa, in accordo con il signicato intuitivo della covarianza che stato
illustrato precedentemente.
Qual il numero b per cui la quantit b E([Y b[
2
) minima? Come caso particolare
del calcolo dellEsempio 2.14 (scegliendo X = 0) otteniamo b = E(Y).
Se X = (X
1
, . . . , X
n
) una v.a. m-dimensionale, si chiama matrice di covarianza di X
la matrice mm C
X
i cui elementi sono
c
ij
= E
_
(X
i
E(X
i
))(X
j
E(X
j
))
_
.
Si tratta di una matrice simmetrica che ha sulla diagonale le varianze delle componenti
di X e fuori della diagonale le loro covarianze. Quindi se X
1
, . . . , X
n
sono indipendenti
la loro matrice di correlazione diagonale. Il viceversa naturalmente non vero.
La matrice di covarianza sempre semi-denita positiva, cio per ogni vettore R
n
C
X
, ) =
c
ij
j
0 .
Infatti
c
ij
j
=
E
_
i
(X
i
E(X
i
))
j
(X
j
E(X
j
))
_
= E
_
, X E(X))
2
_
0 .
2.4 Funzioni caratteristiche, trasformata di Laplace
Sia X una v.a. m-dimensionale. Si chiama funzione caratteristica di X la funzione
: R
m
C denita da
(2.14) () = E(e
i,X)
) = E(cos, X)) iE(sin, X)) .
La funzione caratteristica sempre denita perch, qualunque sia R
m
, [e
i,X)
[ = 1,
e anzi per (2.14)
[()[ 1 per ogni R
m
.
Per di pi ovvio che (0) = 1. Il Teorema 1.21 dintegrazione rispetto ad una legge
immagine d inoltre
(2.15) () =
_
R
m
e
i,x)
(dx)
dove denota la legge di X. La funzione caratteristica quindi dipende in realt solo
dalla legge di X e potremo parlare indifferentemente di funzione caratteristica di una
v.a. oppure di una legge di probabilit.
2.4 Funzioni caratteristiche, trasformata di Laplace 29
Le funzioni caratteristiche godono di molte propriet che le rendono uno strumento di
calcolo particolarmente utile. Quando ci sia pericolo di ambiguit scriveremo
X
oppure
per indicare la funzione caratteristica della v.a. X oppure della sua legge . Talvolta
scriveremo () invece di
().
Se e sono leggi di probabilit si ha
(2.16)
() =
()
() .
Infatti se X e Y sono v.a. indipendenti di legge e rispettivamente
() =
XY
() = E(e
i,XY)
) = E(e
i,X)
e
i,Y)
) =
= E(e
i,X)
)E(e
i,Y)
) =
()
() .
Inoltre
(2.17)
X
() = E(e
i,X)
) = E(e
i,X)
) =
X
() .
Quindi se X una v.a. simmetrica (cio tale che X e X hanno la stessa legge) allora
X
una funzione a valori reali.
Se Y = AXb, dove A una matrice p m e b R
p
, Y una v.a. a valori in R
p
e per
R
p
(2.18)
Y
() = E(e
i,AXb)
) = e
i,b)
E(e
iA
,X)
) =
X
(A
)e
i,b)
.
Esempi 2.16 Negli esempi seguenti m = 1 e quindi R. Per il calcolo useremo
sempre la (2.15).
a) Binomiale B(n, p): per la regola del binomio
() =
n
k=0
_
n
k
_
p
k
(1 p)
nk
e
ik
=
n
k=0
_
n
k
_
(pe
i
)
k
(1 p)
nk
= (1 p pe
i
)
n
.
b) Geometrica
() =
k=0
p(1 p)
k
e
ik
=
k=0
p((1 p)e
i
)
k
=
p
1 (1 p)e
i
.
c) Poisson
() = e
k=0
k
k!
e
ik
= e
k=0
(e
i
)
k
k!
= e
e
e
i
= e
(e
i
1)
.
d) Esponenziale
() =
_

0
e
x
e
ix
dx =
_

0
e
x(i)
dx =

i
e
x(i)
0
=
=

i
_
lim
x
e
x(i)
1
_
.
Ma il numero complesso e
x(i)
ha modulo [e
x(i)
[ = e
x
che tende a 0 per x ,
dunque lim
x
e
x(i)
= 0 e
() =

i

(Nel calcoloprecedente siamostati unpo sbrigativi dandoper scontatoche lintegrazione
dellesponenziale complesso si faccia come per lesponenziale reale. per facile con-
trollare che lintegrazione corretta scomponendo in parte reale e parte immaginaria).
Vediamo ora quali sono le propriet di regolarit delle funzioni caratteristiche. Da (2.15)
si pu vedere come una funzione denita da un integrale dipendente da un parametro.
Cominciamo con le propriet di continuit. Si ha
[ () (
0
)[ = [E(e
i,X)
) E(e
i
0
,X)
)[ E([e
i,X)
e
i
0
,X)
[) .
Se facciamo tendere
0
, allora [e
i,X)
e
i
0
,X)
[ 0. Poich [e
i,X)
e
i
0
,X)
[ 2,
si pu applicare il Teorema di Lebesgue, e quindi
lim
0
[ () (
0
)[ = 0
che prova che continua. Si pu anzi dimostrare che uniformemente continua
(vedi Esercizio 2.24).
Per studiare la derivabilit, supponiamo dapprima m = 1 (cio che sia una probabi-
lit su R). La Proposizione 1.16 (derivabilit degli integrali dipendenti da un parametro
afferma che perch E[f (X, )] sia derivabile basta che
f
esista e che valga la

maggiorazione.
sup
R
f (, x)
g(x)
dove g una funzione tale che g(X) sia integrabile. In questo caso
e
ix
= [ixe
ix
[ = [x[ .
Dunque se X integrabile, per la Proposizione 1.16 derivabile e si pu derivare sotto
il segno; cio
(2.19)
/
() = E(iXe
iX
) =
_
ixe
ix
(dx) .
Ripetendo lo stesso ragionamento per lintegrando f (, x) = ixe
ix
si trova
ixe
ix
= [ixe
ix
[ = [x[
2
.
Dunque, se X ha momento del secondordine nito, due volte derivabile e si ha
(2.20)
//
() =
_
x
2
e
ix
(dx) .
Ripetendo questo ragionamento si vede facilmente per ricorrenza che se ha momento
assoluto di ordine k nito, allora k volte derivabile e
(2.21)
(k)
() =
_
(ix)
k
e
ix
(dx) .
Pi precisamente vale il risultato seguente
Proposizione 2.17 Se ha momento di ordine k nito allora k volte derivabile e
vale (2.21). Viceversa se k volte derivabile e k pari allora ha momento di ordine
k nito e (quindi) vale la (2.21).
Dimostrazione. La prima affermazione gi stata provata. Poich due volte deriva-
bile sappiamo che
lim
0
() () 2(0)
2
=
//
(0)
(basta sostituire a il suo sviluppo di Taylor al secondordine). Ma
2(0) () ()
2
=
_
2 e
ix
e
ix
2
(dx) =
_
2
1 cos(x)
x
2
2
x
2
(dx)
Lintegrando dellultimo integrale positivo e converge a x
2
per 0. Dunque per il
Lemma di Fatou
//
(0)
_
x
2
(dx)
che dimostra che ha momento del secondordine nito. Inoltre, grazie alla prima parte
dellenunciato,
//
() =
_
(ix)
2
e
ix
(dx) .
La dimostrazione si completa facilmente per induzione: supponiamo di avere dimostrato
che se k volte derivabile (k pari) allora ha momento di ordine k nito e vale
(k)
() =
_
(ix)
k
e
ix
(dx) .
Allora, se k 2 volte derivabile,
lim
0
(k)
()
(k)
() 2
(k)
(0)
2
=
(k2)
(0)
e dunque
2
(k)
(0)
(k)
()
(k)
()
2
=
_
2 e
ix
e
ix
2
(ix)
k
(dx) =
=
_
2
1 cos(x)
x
2
2
i
k
x
k2
(dx)
da cui, per 0 e usando come prima il lemma di Fatou, si ha
i
k
(k2)
(0)
_
x
k2
(dx)
(poich k pari, i
k
= i
k
).
Osservazione 2.18 Uno sguardo alla dimostrazione precedente permette dindebolire
le ipotesi: se k pari basta che sia derivabile k volte nellorigine perch esista nito il
momento di ordine k di . In particolare se derivabile k volte in 0 e k pari, allora
essa derivabile k volte ovunque.
Per = 0 (2.21) diviene
(2.22)
(k)
(0) = i
k
_
x
k
(dx)
che permette di calcolare i momenti di semplicemente derivando in 0. Attenzione
per: si conoscono esempi in cui derivabile senza che X abbia speranza matematica
nita. Se invece due volte derivabile, per la Proposizione 2.17 (2 pari), X ha
momento di ordine 2 nito (e dunque anche speranza matematica nita).
Ragionamenti simili (solo pi complicati da esprimere) danno risultati analoghi nel
caso di probabilit su R
m
. Pi precisamente se = (
1
, . . . ,
m
) un multiindice e
indichiamo al solito
[[ =
1
. . .
m
x
= x
1
1
. . . x
m
m
1
. . .

m
allora se
_
[x[
[[
(dx) <
volte derivabile e
() =
_
(ix)
e
i,x)
(dx) .
In particolare
j
(0) = i
_
x
j
(dx)
h
(0) =
_
x
h
x
j
(dx) .
Cio il gradiente di allorigine i volte la media e, se centrata, lo Hessiano di
allorigine uguale alla matrice di covarianza cambiata di segno.
Esempio 2.19 (Funzione caratteristica di una legge normale) Se N(0, 1) calcoliamo
(2.23) () =
1
2
_

e
ix
e
x
2
/2
dx .
Questo integrale si calcola direttamente col metodo dei residui oppure nel modo seguente.
Poich ha media nita possiamo applicare (2.19) e, integrando per parti,

/
() =
1
2
_

ixe
ix
e
x
2
/2
dx =
=
1
2
ie
ix
e
x
2
/2
. ,, .
=0
2
_

i ie
ix
e
x
2
/2
dx = () .
Cio soluzione dellequazione differenziale lineare
u
/
() = u()
con la condizione iniziale u(0) = 1. Risolvendola si ha facilmente
() = e
2
/2
.
Se invece Y N(m,
2
), sappiamo che Y si pu scrivere Y = Xm, dove X N(0, 1)
e dunque per la (2.18)
Y
() = e
1
2
2
e
im
.
La propriet fondamentale delle funzioni caratteristiche la seguente
Teorema 2.20 Siano e leggi di probabilit su R
m
tali che
() = () per ogni R .
Allora = .
Osserviamo che la relazione () = () per ogni R implica che si ha
(2.24)
_
f d =
_
f d
per ogni funzione f della forma f (x) = e
i,x)
. Per dimostrare il Teorema 2.20 invece
basterebbe provare la (2.24) per ogni funzione f continua a supporto compatto (Lemma
1.19).
Nella dimostrazione del Teorema 2.20 useremo un risultato di analisi matematica che
una versione del Teorema di Stone-Weierstrass. Indichiamo con
0
=
0
(R
n
, C) lo
spazio delle funzioni R
n
C che sono continue e nulle allinnito, munito della norma
|f |
= sup
xR
n
[f (x)[ .
Si ha allora
Teorema 2.21 (Stone-Weierstrass) Sia
0
una famiglia di funzioni tale che
a) unalgebra, cio combinazioni lineari e prodotti di funzioni di appartengono
ancora ad .
b) stabile per coniugazione: se f , allora

f .
c) separa i punti, cio dati x, y R
n
, esiste f tale che f (x) ,= f (y).
Allora densa in
0
.
Dimostrazione del Teorema 2.20. Consideriamo la famiglia formata dalle combina-
zioni lineari di funzioni della forma
(2.25) f (x) = e
ix
e
1
2
2
[x[
2
.
al variare di R
n
e
2
> 0. chiaro che si tratta di funzioni nulle allinnito ed
inoltre che unalgebra di funzioni, stabile per coniugazione e che separa i punti.
Mostriamo che la (2.24) vale per le funzioni di . Supporremo per semplicit m = 1.
Ricordando la funzione caratteristica di una legge normale di media e varianza
2
, si
ha
e
ix
e
1
2
2
[x[
2
=
1
(2)
1/2
_
e
iyx
e
1
2
2
[y[
2
dy
e dunque
_
e
ix
e
1
2
2
[x[
2
(dx) =
1
(2)
1/2
_
(dx)
_
e
iyx
e
1
2
2
[y[
2
dy
e, per il teorema di Fubini,
. . . =
1
(2)
1/2
_
e
1
2
2
[y[
2
dy
_
e
iyx
(dx) =
1
(2)
1/2
_
(y) e
1
2
2
[y[
2
dy
Dunque (2.24) vera per ogni funzione f che sia combinazione lineare di funzioni
della forma (2.25). Ora se f
K
, per il Teorema 2.21 esiste una successione (g
n
)
n
di combinazioni lineari di funzioni della forma (2.25) che converge a f uniformemente.
Dunque, per n abbastanza grande si ha [g
n
(x)[ [f (x)[ e si pu dunque applicare il
teorema di Lebesgue:
_
f d = lim
n
_
g
n
d = lim
n
_
g
n
d =
_
f d .
e dunque la (2.24) provata.
Esempio 2.22 Siano e leggi N(a,
2
) e N(b,
2
) rispettivamente. Calcoliamo la
legge di .
Basta osservare che
() = () () = e
ia
e
1
2
2
e
ib
e
1
2
2
= e
i(ab)
e
1
2
(
2
2
)
2
e dunque N(a b,
2

2
). Lo stesso risultato si sarebbe potuto ottenere
anche calcolando lintegrale di convoluzione della Proposizione 2.17, ma il calcolo
dellintegrale relativo, peraltro elementare, non n corto n divertente.
Il Teorema 2.20 di grande importanza teorica, ma purtroppo non costruttivo: esso
cio non d indicazioni di come si possa, dalla funzione caratteristica , ricavare la
funzione di ripartizione di oppure la sua densit, se esiste. Il teorema seguente, che
non dimostriamo, d una risposta in questo senso.
Teorema 2.23 (Dinversione) Se una funzione integrabile allora assolutamente
continua rispetto alla misura di Lebesgue ed ha densit data da
(2.26) f (x) =
1
(2)
d
_

e
i,x)
() d .
Siano X
1
, . . . , X
m
v.a. a valori in R
n
1
, . . . , R
n
m
rispettivamente e consideriamo la v.a. a
valori in R
k
, k = n
1
. . . n
m
, denita da X = (X
1
, . . . , X
m
). Indichiamone con
X
la funzione caratteristica. allora facile calcolare la funzione caratteristica
X
h
della
h-esima marginale di X. In effetti, ricordando che
X
denita su R
m
mentre
X
h
una
funzione di variabile reale
X
h
() = E(e
iX
h
) = E(e
i
,X)
) =
X
(
)
dove

= (0, . . . , 0, , 0, . . . , 0) il vettore di R
k
le cui componenti sonotutte nulle tranne
quelle corrispondenti alle coordinate dalla n
1
. . . n
h1
1-esima alla n
1
. . . n
h
-
esima.
Supponiamo che le v.a. X
1
, . . . , X
m
siano indipendenti; se
1
R
n
1
, . . . ,
m
R
n
m
e
= (
1
, . . . ,
m
) R
k
allora
(2.27)

X
() = E(e
i,X)
) = E(e
i
1
,X
1
)
. . . e
i
m
,X
m
)
) =
X
1
(
1
) . . .
X
m
(
m
) .
La (2.27) si pu anche esprimere in termini di leggi: se
1
, . . . ,
m
sono leggi di proba-
bilit su R
n
1
, . . . , R
n
m
rispettivamente e =
1
. . .
m
allora
(2.28) () =
1
(
1
) . . .
m
(
m
) .
Vale anzi il risultato seguente, pi preciso
Proposizione 2.24 Siano X
1
, . . . , X
m
v.a. a valori in R
n
1
, . . . , R
n
m
rispettivamente e
poniamo X = (X
1
, . . . , X
m
). Allora le v.a. X
1
, . . . , X
m
sono indipendenti se e solo se
per ogni
1
R
n
1
, . . . ,
m
R
n
m
e = (
1
, . . . ,
m
) R
k
, posto = (
1
, . . . ,
m
) si ha
(2.29)
X
() =
X
1
(
1
) . . .
X
m
(
m
) .
Dimostrazione. Se le X
i
sono indipendenti abbiamo gi visto che vale (2.29). Viceversa,
se vale la (2.29), allora X ha la stessa funzione caratteristica che la legge prodotto delle
leggi delle X
i
. Quindi per il Teorema 2.20 la legge di X la legge prodotto e le X
i
sono
indipendenti.
Sia z C. Se X una v.a. mdimensionale chiamiamo trasformata di Laplace complessa
(TLC) la funzione
H(z) = E[e
z,X)
] =
_
R
m
e
z,x)
d(x)
denita per quei valori z C per cui e
z,X)
integrabile. chiaro che H certamente
denita sullasse immaginario e anzi, se R
m
,
H(i) =
X
() .
Dunque la conoscenza della TLC H implica quella della funzione caratteristica
X
.
Si chiama dominio della TLC, linsieme dei numeri z C
m
tali che la v.a. e
z,X)
sia
integrabile, ovvero tali che
_
R
m
[e
z,x)
[ d(x)
_
R
m
e
Rez,x)
d(x) < .
Indicheremo con
il dominio della TLC di .

Esempio 2.25 a) Supponiamo che X sia una v.a. di Cauchy, cio di densit
f (x) =
1
1
1 x
2
allora, se t R, si ha
H(t ) =
1
e
t x
1 x
2
dx
e dunque H(t ) = per ogni t ,= 0. In questo caso dunque il dominio ridotto a
Re z = 0, cio allasse immaginario.
b) Supponiamo X N(0, 1). Allora, sempre per t R,
H(t ) =
1
2
_

e
t x
e
x
2
/2
dx =
e
t
2
/2
2
_

1
2
(xt )
2
dx =
=
e
t
2
/2
2
_

e
y
2
/2
dx = e
t
2
/2
.
Dunque in questo caso
= R.
c) Se invece X (1, ) (esponenziale di parametro ), allora, per t R,
H(t ) =
_

0
e
t x
e
x
dx =
_

0
e
(t )x
dx .
Questo integrale convergente se e solo se t < e dunque
= {Re z < ].
Per semplicit supporremo m = 1 dora in avanti. Vediamo come fatto il dominio in
generale. Si ha
_

e
Re z x
d(x) =
_

0
e
Re z x
d(x)
_
0
e
Re z x
d(x) = I
2
I
1
.
E chiaro che se Re z 0, allora I
1
< , perch lintegrando pi piccolo di 1.
Osserviamo inoltre che la funzione t
_
0
e
t x
d(x) crescente. Quindi se poniamo
x
2
= sup
_
t 0,
_
0
e
t x
d(x) <
_
(eventualmente x
2
= ), allora chiaro che x
2
0 e I
2
< se Re z < x
2
,
mentre I
2
= se Re z > x
2
. Dunque il dominio contiene la striscia 0 Re z < x
2
.
Analogamente se Re z 0 si vede che esiste un numero x
1
0 tale che {0 Re z >
x
1
]
e z ,
se Re z < x
1
.
In conclusione
contiene la striscia S = {z; x

1
< Re z < x
2
], mentre non contiene i
numeri complessi z che si trovano al di fuori della chiusura di S, cio tali che Re z > x
2
oppure Re z < x
1
.
Si ha anzi il risultato seguente.
Teorema 2.26 Esistono x
1
, x
2
Rcon x
1
0 x
2
(eventualmente coincidenti) tali che
H denita nella striscia S = {z; x
1
< Re z < x
2
], mentre non denita per Re z > x
2
oppure per Re z < x
1
. Inoltre H olomorfa in S. x
1
e x
2
si chiamano le ascisse di
convergenza.
Dimostrazione. La prima affermazione gi stata dimostrata. Per mostrare che la TLC
olomorfa basta mostrare che valgono le equazioni di Cauchy-Riemann cio, scrivendo
z = x iy e H = H
1
iH
2
,
H
1
x
=
H
2
y
H
1
y
=
H
2
x

Queste equazioni si ottengono applicando la Proposizione 1.16, di derivazione sotto il
segno. Poich supponiamo x iy S, esiste > 0 tale che x
1
< x < x
2
. Si ha
H
1
(x iy) =
_
e
xt
cos(yt ) d(t ) .
La derivata dellintegrando rispetto a x vale t e
xt
cos(yt ). Ora
[t [e
xt
c
1
e
(x
2
)t
se t 0
[t [e
xt
c
2
e
(x
1
)t
se t 0 .
Dunque la condizione del teorema di derivazione sotto il segno soddisfatta con g(x) =
c
1
e
(x
2
)t
c
2
e
(x
1
)t
. Derivando si ottiene
H
1
x
(x iy) =
_
t e
xt
cos(yt ) d(t ) .
Allo stesso modo si ragiona per H
2
:
H
2
(x iy) =
_
e
xt
sin(yt ) d(t ) ,
si verica che si pu derivare sotto il segno e quindi
H
2
y
(x iy) =
_
t e
xt
cos(yt ) d(t ) .
Dunque soddisfatta la prima delle equazioni di Cauchy-Riemann. Allo stesso modo si
ragiona per la seconda.
Osserviamo che nel Teorema 2.26 non abbiamo mai utilizzato il fatto che sia una
misura di probabilit. Lenunciato si applica quindi anche alla TLC di una misura nita
qualunque.
Abbiamo visto che per alcune v.a., di Cauchy ad esempio, le ascisse di convergenza
possono essere entrambe uguali a 0. Se invece esse non coincidono la propriet di
analiticit della TLC ha interessanti applicazioni.
Ricordiamo ad esempio che una funzione olomorfa individuata non appena la si
conosca su un insieme avente almeno un punto di accumulazione (unicit del prolun-
gamento analitico). Tipicamente, quindi, la conoscenza della trasformata di Laplace
sullasse reale (o su un intervallo) ne determinano il valore su tutta la striscia di conver-
genza. Ci fornisce un metodo di calcolo della funzione caratteristica.
Esempio 2.27 Sia X una v.a. (, ) e calcoliamone la TLC. H denita se
_

[e
zx
[ d(x) =
_

e
Re z x
d(x) <
ovvero se
()
_

e
Re z x
x
1
e
x
dx < .
Questo integrale convergente se e solo se Re z < . Dunque le ascisse di convergenza
sono x
1
= , x
2
= . Calcoliamo la TLC per t R, z < .
H(t ) =

()
_

0
x
1
e
(t )x
dx =

()
()
( t )
=
_

t
_
.
Ora la funzione H : C C denita da
(2.30) H(z) =
_

z
_
= e
log

z
olomorfa sullinsieme D C formato dai numeri complessi z tali che

z
non sia
un reale negativo. facile per vedere che

z
reale negativo solo se z reale > .
Dunque H denita in (2.30) olomorfa su {Re z < ] e coincide con la trasformata di
Laplace di X sulasse reale. Per lunicit del prolungamento analitico dunque H la
trasformata di Laplace di X per ogni numero complesso z tale che Re z < .
In particolare la funzione caratteristica di una legge (, )
(t ) = H(it ) =
_

it
_
.
Esempio 2.28 Un altro modo per calcolare la funzione caratteristica di una v.a. gaus-
siana. Se X N(0, 1), allora abbiamo visto nellEsempio 2.25 b) che la sua trasformata
di Laplace calcolata in z R vale
H(z) = e
z
2
/2
Dunque, per lunicit del prolungamento analitico, H(z) = e
z
2
/2
per ogni z C. Quindi
la funzione caratteristica
X
() = H(i) = e
2
/2
.
Se le ascisse di convergenza sono entrambe diverse da 0, allora la TLC analitica in 0,
grazie al Teorema 2.26. Ne segue che la funzione caratteristica
X
(t ) = H(it ) innite
volte derivabile e dunque la v.a. X ha niti i momenti di tutti gli ordini, per il Teorema
2.17. Inoltre poich
iH
/
(0) =
X
/
(0) = iE(X)
si ha che H
/
(0) = E(X). Anche gli altri momenti della v.a. X si possono ottenere
derivando la TLC: si vede facilmente che
H
(k)
(0) = E(X
k
) .
Osserviamo inne che se X una v.a. a valori interi 0 e
X
la relativa funzione
generatrice, allora
X
(t ) = E(t
X
) = E(e
Xlog t
) = H(log t ) .
2.5 Leggi normali multivariate
Siano X
1
, . . . , X
m
v.a. i.i.d di legge N(0, 1); allora il vettore X = (X
1
, . . . , X
m
) ha
densit
f (x) =
1
2
e
1
2
x
2
1
. . .
1
2
e
1
2
x
2
m
=
1
(2)
m/2
e
1
2
[x[
2
.
Inoltre per (2.29)
X
() = e
1
2
2
1
. . . e
1
2
2
m
= e
1
2
[[
2
.
Se ora A una matrice mm e z R
m
, e poniamo Y = AX z, per (2.18)
Y
() = e
i,z)
X
(A
) = e
i,z)
e
1
2
[A
[
2
= e
i,z)
e
1
2
A
,A
)
= e
i,z)
e
1
2
AA
,)
.
Osserviamo che la matrice AA
simmetrica e semi-denita positiva. Si tratta anzi della

matrice di covarianza C
Y
di Y: per lEsercizio 3.17 in effetti C
Y
= AC
X
A
, ed in questo
caso C
X
la matrice identica I.
Denizione e Proposizione 2.29 Dati un vettore z R ed una matrice C, m m
simmetrica e semi-denita positiva, esiste sempre una legge di probabilit su R
m
tale
che
() = e
i,z)
e
1
2
C,)
.
Si dir che N(z, C) (normale di media z e di matrice di covarianza C).
2.5 Leggi normali multivariate 41
Dimostrazione. Per quanto gi osservato basta mostrare che esiste una matrice Atale che
AA
= C. un classico risultato di algebra che una tale matrice esiste sempre (purch
C sia simmetrica e semidenita positiva) e che anzi essa pu essere scelta simmetrica (e
quindi tale che A
2
= C; in questo caso si dice che A la radice quadrata di C). Infatti
se C diagonale
C =
_
_
1
0
.
.
.
0
m
_
_
poich gli autovalori
i
sono tutti 0 (C semi-denita positiva) basta porre
A =
_
_
_
1
0
.
.
.
0
_
m
_
_
.
Altrimenti (cio se C non diagonale) esiste una matrice ortogonale O tale che OCO
1
sia diagonale. Si verica subito che OCO
1
ancora semi-denita positiva e quindi
esiste una matrice B tale che B
2
= OCO
1
. Poniamo allora A = O
1
BO; A
simmetrica (perch O
1
= O
) ed la matrice cercata poich

A
2
= O
1
BO O
1
BO = O
1
B
2
O = C .
Mostriamo che se Y N(z, C), allora z effettivamente la media di Y e C la matrice di
covarianza. Questo fatto ovvio se z = 0 e C = I, per come abbiamo denito le leggi
N(0, I). In generale invece possiamo scrivere Y = z AX dove A la radice quadrata
di C. Dunque E(Y) = E(z AX) = z AE(X) = z. La matrice di covarianza di Y
invece uguale a AIA
= AA
= C (vedi Esercizio 3.17). Media e matrice di covarianza

si sarebbero potute calcolare anche derivando la funzione caratteristica.
Se C invertibile allora la legge N(z, C) ha densit; infatti in questo caso anche la radice
quadrata A di C invertibile e se Y N(z, C), allora Y della forma AXz, dove X
N(0, I); quindi Y ha densit
g(y) =
1
[ det A[
f
_
A
1
(y z)
_
=
1
(2)
m/2
(det C)
1/2
e
1
2
C
1
(yz),yz)
.
Se X N(z, C) e A una matrice p m, b R
p
, allora la v.a. p-dimensionale
Y = AX b ha funzione caratteristica data da (vedi (2.18))
(2.31)

Y
() = e
i,b)
X
(A
) = e
i,b)
e
iA
,z)
e
1
2
CA
,A
)
=
= e
i,bAz)
e
1
2
ACA
,)
e dunque Y N(b Az, ACA
). Le trasformazioni afni quindi trasformano leggi

normali in leggi normali.
In particolare se X = (X
1
, . . . , X
m
) N(z, C), allora per 1 i m si pu scrivere
X
i
= A
i
X dove A la matrice 1mche ha tutte le componenti = 0 tranne la i-esima che
= 1 (e quindi A
i
la matrice corrispondente alla proiezione sulla i-esima coordinata).
Dunque X
i
, i = 1, . . . , m, ha legge normale. Ovvero le marginali di una legge normale
multivariata sono ancora normali. Tenendo conto inoltre che X
i
ha media z
i
e covarianza
c
ii
, X
i
N(z
i
, c
ii
).
Se X N(0, I) e O una matrice ortogonale allora OIO
= OO
= I e quindi la
v.a. OX ancora N(0, I). Ovvero le leggi N(0, I) sono invarianti per trasformazioni
ortogonali. In altre parole se X = (X
1
, . . . , X
m
N(0, I) e Y = (Y
1
, . . . , Y
m
) la stessa
v.a. in unaltra base ortonormale, allora Y anchessa N(0, I).
Sia X N(z, C) e supponiamo che C sia diagonale. Allora, indicando con
h
gli
elementi sulla diagonale di C, si ha
X
() = e
i,z)
e
1
2
C,)
= e
i,z)
exp
_
1
2
m
h=1
2
h
_
=
= e
i
1
z
1
e
1
2
2
1
. . . e
i
m
z
m
e
1
2
2
m
=
X
1
(
1
) . . .
X
m
(
m
) .
Per la Proposizione 2.24 quindi le v.a. X
1
, . . . , X
m
sono indipendenti. Ricordando che
C la matrice di covarianza di X, abbiamo dunque provato che variabili aleatorie non
correlate sono anche indipendenti se la loro distribuzione congiunta normale.
Attenzione comunque perch le v.a. X
1
, . . . , X
m
possonoavere ciascuna distribuzione
normale senza che la distribuzione congiunta lo sia (vedi Esercizio 2.36).
Il criterio dindipendenza della Proposizione 2.24 applicato alle v.a. gaussiane mul-
tivariate d anzi il seguente risultato pi preciso. Supponiamo che le v.a. X, Y a valori
in R
n
, R
m
rispettivamente siano tali che la v.a. (X, Y) (a valori in R
k
, k = n m) abbia
distribuzione normale. Allora se per ogni 1 i n e 1 j m si ha
(2.32) Cov(X
i
, Y
j
) = 0
le v.a. X e Y sono indipendenti.
Infatti la (2.32) equivalente a supporre che la matrice di covarianza C di (X, Y) sia
diagonale a blocchi
C =
_
_
_
_
_
_
_
_
0 . . . 0
C
X
.
.
.
.
.
.
.
.
.
0 . . . 0
0 . . . 0
.
.
.
.
.
.
.
.
. C
Y
0 . . . 0
_
_
_
_
_
_
_
_
2.5 Leggi normali multivariate 43
per cui se
1
R
n
,
2
R
m
, (
1
,
2
) R
k
allora
e
1
2
C,)
= e
1
2
C
X
1
,
1
)
e
1
2
C
Y
2
,
2
)
che implica
(X,Y)
() =
X
(
1
)
Y
(
2
) .
Dunque X e Y sono indipendenti per la proposizione 2.24. Richiamiamo ora alcune
nozione sui proiettori ortogonali, di cui ci serviremo.
Due sottospazi vettoriali E e F di R
n
si dicono ortogonali se ogni vettore di E
ortogonale ad ogni vettore di F. Se E un sottospazio vettoriale di R
m
si indica con
E
il suo ortogonale, cio linsieme di tutti i vettori x di R

m
tali che x, z) = 0 per ogni
z E. E
anchesso un sottospazio vettoriale di R

m
ed ha dimensione m k, se k
la dimensione di E. Inoltre ogni x R
m
si pu scrivere in maniera unica nella forma
x = x
1
x
2
, dove x
1
E, x
2
E
.
Indichiamo con P
E
il proiettore ortogonale su E, cio lapplicazione P
E
: x x
1
che ad ogni x R
m
associa la sua componente su E. immediato vericare che P
E

un operatore lineare.
Esempio 2.30 Sia E il sottospazio di R
m
dei vettori le cui ultime m k coordinate
sono nulle, cio dei vettori della forma (x
1
, . . . , x
k
, 0, . . . , 0). Si tratta chiaramente
di un sottospazio di dimensione k. Il suo ortogonale E
costituito dai vettori della

forma (0, . . . , 0, x
k1
, . . . , x
m
). Lortogonalit dei due sottospazi immediata perch
facendo il prodotto scalare tutti i termini nella somma sono nulli. In questo esempio se
x = (x
1
, . . . , x
m
)
P
E
x = (x
1
, . . . , x
k
, 0, . . . , 0)
P
E
x = (0, . . . , 0, x
k1
, . . . , x
m
)
Sono immediate le relazioni (I indica la matrice identit)
(2.33)
P
E
P
E
= P
E
I P
E
= P
E
La prima delle (2)08 segue dal fatto che P

E
x = x se x E. La seconda particolar-
mente utile perch permette di calcolare immediatamente P
E
a partire da P
E
.
Il lemma seguente d un utile metodo di calcolo dei proiettori ortogonali.
Lemma 2.31 P
E
x il vettore di E che si trova a distanza minima da x
Dimostrazione. Se y un generico vettore in E e x = x
1
x
2
con x
1
E, x
2
E
allora
[y x[
2
= [(y x
1
) x
2
[
2
= (y x
1
) x
2
, (y x
1
) x
2
) =
= [y x
1
[
2
2 y x
1
, x
2
)
. ,, .
=0
[x
2
[
2
= [y x
1
[
2
[x
2
[
2
(y x
1
, x
2
) = 0 perch y x
1
E mentre x
2
E
). La quantit [y x[
2
dunque
sempre [x
2
[
2
ed esattamente uguale a [x
2
[
2
se e solo se y = x
1
= P
E
x.
Teorema 2.32 (Cochran) Sia X una v.a. N(0, I) a valori in R
m
e siano E
1
, . . . , E
k
sottospazi vettoriali di R
m
a due a due ortogonali. Per i = 1, . . . , k indichiamo con n
i
la
dimensione di E
i
e con P
i
il proiettore ortogonale su E
i
. Allora le v.a. P
i
X, i = 1, . . . k
sono indipendenti e la v.a [P
i
X[
2
ha distribuzione
2
(n
i
).
Dimostrazione. Supponiamo per semplicit k = 2. A meno di una rotazione possiamo
supporre che E
1
sia il sottospazio relativo alle prime n
1
coordinate e E
2
quello relativo
alle successive n
2
(ricordiamo che le trasformazioni ortogonali lasciano invarianti le
leggi N(0, I)). Dunque
P
1
X = (X
1
, . . . , X
n
1
, 0, . . . , 0)
P
2
X (0, . . . , 0, X
n
1
1
, . . . , X
n
1
n
2
, 0, . . . , 0)
P
1
X e P
2
X sono congiuntamente normali (il vettore (P
1
X, P
2
X) una funzione lineare
di X) ed chiaro che (2.32) vericata; dunque P
1
X e P
2
X sono indipendenti. Inoltre
[P
1
X[
2
= (X
2
1
. . . X
2
n
1
)
2
(n
1
)
[P
2
X[
2
= (X
2
n
1
1
. . . X
2
n
1
n
2
)
2
(n
1
) .
Una prima applicazione importante del Teorema di Cochran la seguente.
Indichiamo con V il sottospazio di R
m
generato dal vettore e = (1, 1, . . . , 1) (cio
il sottospazio dei vettori aventi tutte le componenti uguali); il proiettore ortogonale
P
V
: R
m
V dato da P
V
x = ( x, x, . . . , x) dove
x =
1
m
(x
1
. . . x
m
) .
Ricordiamo infatti che P
V
x il vettore di V che ha distanza minima da x. Per determinare
P
V
x occorre quindi calcolare
0
R tale che la funzione [x e[ abbia minimo in
=
0
. Ovvero occorre calcolare il punto di minimo di

m
i=1
(x
i
)
2
.
Derivando vediamo che deve essere 2
i
(x
i
) = 0 e cio = x.
Se X N(0, I) e

X =
1
m
(X
1
. . . X
m
), allora

Xe la proiezione ortogonale di X su
V; quindi X

Xe la proiezione ortogonale di X sul sottospazio ortogonale a V. Per
2.6 Statistica dei modelli gaussiani 45
il Teorema 2.32

Xe e X

Xe sono indipendenti, che non una cosa proprio evidente
poich entrambe queste v.a. dipendono da

X. Inoltre
(2.34)
m
i=1
(X
i

X)
2
= [X

Xe[
2

2
(m1) .
2.6 Statistica dei modelli gaussiani
In questo paragrafo vediamo dei problemi di stima per campioni gaussiani, che costitui-
scono una prima applicazione del teorema di Cochran.
Deniamo una nuova legge di probabilit. Si chiama t di Student con n gradi di libert
la legge della v.a.
Z =
X
n
dove le v.a. X e Y sono indipendenti e di leggi N(0, 1) e
2
(n) rispettivamente. Questa
legge si indica con il simbolo t (n).
Una propriet importante delle leggi di Student il fatto che sono simmetriche, cio
Z e Z hanno la stessa legge. Questo segue dal fatto che nella denizione le v.a. X, Y
e X, Y hanno la stessa legge congiunta.
Non difcile calcolare la densit di una legge t (n), ma tralasceremo questo calcolo.
Come vedremo tra poco la sola cosa realmente importante da conoscere delle leggi di
Student la funzione di ripartizione. Per questi ci sono delle tavole.
Abbiamo visto alla ne del paragrafo precedente che le v.a.

X e

m
i=1
(X
i

X)
2
sono
indipendenti e che
m
i=1
(X
i

X)
2

2
(m1). Poich

X ha legge N(0,
1
m
),

m

X
N(0, 1) e dunque
(2.35) T =
m

X
_
1
m1
m
i=1
(X
i

X)
2
t (m1) .
Corollario 2.33 Siano Z
1
, . . . , Z
m
v.a. indipendenti e tutte di legge N(z,
2
). Poniamo
Z =
1
m
(Z
1
. . . Z
m
)
S
2
=
1
m1
m
i=1
(Z
i

Z)
2
.
Allora le v.a.

Z e S
2
sono indipendenti. Inoltre
(2.36)
m1
2
S
2

2
(m1)
m(

Z z)
S
t (m1) .
Dimostrazione. Si tratta semplicemente di ricondursi al caso di v.a. N(0, I) che abbiamo
gi visto. Posto X
i
=
Z
i
z
, allora X = (X
1
, . . . , X
m
) N(0, I) e sappiamo gi che

X
e
i
(X
i

X)
2
sono indipendenti. Tenendo conto che
(2.37)
Z =

X z
m
i=1
(X
i

X)
2
=
1
2
m
i=1
(Z
i

Z)
2
=
m1
2
S
2
.
e dato che

X e
m
i=1
(X
i

X)
2
sono indipendenti, anche

Z e S
2
sono indipendenti come
funzioni di variabili indipendenti. Inne
m1
2
S
2

2
(m1) per (2.37) e (2.34), mentre
poich
m(

Z z)
S
=
m

X
_
1
m1
m
i=1
(X
i

X)
2
(2.36) segue da (2.35).
Richiamo 2.34 Si chiama quantile di ordine , 0 < < 1, di una v.a. X lestremo
inferiore q
dei numeri x tali che F

X
(x) = P(X x) , ovvero
q
= inf{t, F
X
(t ) ]
(in realt un minimo poich F
X
continua a destra). Se X una v.a. continua, allora
F
X
continua e per il teorema dei valori intermedi lequazione
F
X
(x) =
ha sicuramente soluzione per ogni 0 < < 1. Se per di pi F
X
strettamente crescente
(il che succede ad esempio se X ha densit strettamente positiva) allora la soluzione
unica. In questo caso q
dunque lunico numero reale x tale che

P(X x) =
Se per di pi la v.a. X simmetrica (cio X e X hanno la stessa legge), come accade
per le leggi N(0, 1) e per le t di Student, allora si hanno le relazioni
1 = P(X q
) = P(X q
) = P(X q
),
da cui si ricava che q
1
= q
e
(2.38)
P([X[ q
1/2
) = P(q
1/2
X q
1/2
) =
= P(X q
1/2
) P(X q
1/2
) = 1

2

2
= 1
2.6 Statistica dei modelli gaussiani 47
Esempio 2.35 (Un po di statistica . . . ) Siano X
1
, . . . , X
n
v.a. indipendenti di legge
N(b,
2
), dove per b e
2
sono sconosciute. possibile, conoscendo i valori assunti
da X
1
, . . . , X
n
stimare i due parametri incogniti ?
In effetti se poniamo
X =
1
m
(X
1
. . . X
m
)
S
2
=
1
m1
m
i=1
(X
i

X)
2
allora sappiamo che
m1
2
S
2

2
(m1)
T =
m(

X b)
S
t (m1) .
Se indichiamo con t
(n 1) il quantile di ordine della legge t (m1), abbiamo

P([T [ > t
1/2
(n 1)) = 1
(si usa il fatto che le leggi di Student sono simmetriche). Daltra parte {[T [ > ] = {[

X
b[ > t
1/2
(n1)
S
m
]. Quindi la probabilit che la media

Xdei valori osservati differisca
dalla media b per una quantit superiore a t
1/2
(n1)
S
m
. Ovvero, in altre parole
la media b si trova nellintervallo I = [

Xt
1/2
(n1)
S
m
,

Xt
1/2
(n1)
S
m
] con
probabilit 1 . Si dice che I un intervallo di ducia per b di livello .
La stessa idea permette di stimare la varianza
2
, anche se con qualche cambiamento
perch le leggi
2
non sono simmetriche come quelle di Student; se indichiamo con
(n 1) il quantile di ordine di una legge

2
(n 1),
P(Z <
2
/2
(n 1)) =

2
, P(Z >
2
1/2
(n 1)) =

2

Abbiamo dunque
1 = P
_
2
/2
(n 1)
m1
2
S
2

2
1/2
(n 1)
_
=
= P
_
m1
2
1/2
(n 1)
S
2

2
m1
2
/2
(n 1)
S
2
_
.
In altre parole [
m1
2
1/2
(n1)
S
2
,
m1
2
/2
(n1)
S
2
] un intervallo di ducia per
2
di livello .
2.7 Leggi condizionali
Siano Y, X v.a. a valori negli spazi misurabili (G, ), (E, ) rispettivamente e in-
dichiamo con
Y
la legge di Y. Una famiglia di probabilit (n(t, dx))
t G
su (E, ) si
chiama una legge condizionale di X dato Y se,
i) Per ogni A , lapplicazione t n(t, A) -misurabile
ii) Per ogni A e B ,
P(X A, Y B) =
_
B
n(y, A)
Y
(dy).
Se linsieme G numerabile e P(Y = y) > per ogni y G, allora si si sceglie B = y, si
trova
P(X A, Y = y) = n(y, A)P(Y = y)
ovvero
n(y, A) =
P(X A, Y = y)
P(Y = y)
= P(X A[ Y = y)
Intuitivamente, dunque, la legge condizionale la legge che conviene attribuire alla v.a.
X quando si disponga dellinformazione che Y = y.
La solita applicazione della Proposizione 1.2 implica che, se g : G R misurabile
limitata e f : E R tale che la v.a. f (X) sia integrabile (oppure se f e g sono
positive),
E[f (X)g(Y)] =
_
G
_
_
E
f (x) n(y, dx)
_
g(y)
Y
(dy) .
Poniamo
(2.39) h(y) =
_
E
f (x) n(y, dx)
allora la v.a. h(Y) gode di alcune importanti propriet. Intanto, per ogni funzione g
misurabile limitata si ha
(2.40) E[f (X)g(Y)] =
_
G
h(y)g(y)
Y
(dy) = E[h(Y)g(Y)] .
Scegliendo g = 1, si trova che
E[f (X)] = E[h(Y)]
cio le v.a. f (X) e g(Y) hanno la stessa speranza matematica.
Le applicazioni pi interessanti si hanno quando la v.a. f (X) di quadrato integrabile
allora si hanno delle propriet interessanti. Intanto, in questo caso, anche la v.a. h(Y)
in L
2
. infatti, per la disuguaglianza di Jensen,
E[h(Y)
2
] =
_
E
_
_
E
f (x) n(y, dx)
_
2
Y
(dy)
_
E
_
_
E
f (x)
2
n(y, dx)
_
Y
(dy) = E[f (X)
2
]
2.7 Leggi condizionali 49
Poi, usando il fatto che le v.a. limitate sono dense in L
2
(conseguenza della Proposizione
1.17), si vede facilmente che la relazione (2.40) vera per ogni funzione g tale che
g(Y) L
2
. Si ha allora
E[(f (X) g(Y))
2
] = E[({f (X) h(Y)] {h(Y) g(Y)])
2
] =
= E[(f (X) h(Y))
2
] 2 E[(f (X) h(Y))(h(Y) g(Y))]
. ,, .
=0
E[(h(Y) g(Y))
2
] =
= E[(f (X) h(Y))
2
] E[(h(Y) g(Y))
2
] E[(f (X) h(Y))
2
]
Ovvero, in altre parole, h la funzione di Y che meglio approssima f (X) in L
2
. La
quantit indicata nella formula precedente si annulla perch
E[(f (X)h(Y))(h(Y)g(Y))] = E[f (X)(h(Y)g(Y))] E[h(Y)(h(Y)g(Y))] = 0
grazie alla (2.40), scritta con h g al posto di g.
Per vedere meglio il signicato delle considerazioni precedenti, si pu pensare che la
v.a. f (X) rappresenti un segnale che non pu essere osservato direttamente. Losserva-
tore ha cio solo accesso ad una osservazione Y. Il problema di trovare la migliore stima
di f (X) che sia funzione dellosservazione Y. Il calcolo di poco fa indica che, misurando
la bont della stima mediante la norma L
2
della differenza, la migliore approssimazione
data appunto da h(Y), dove h data dalla (2.39).
Osservazione 2.36 utile confrontare il risultato ottenuto con lEsempio 2.14 (la retta
di regressione). In quellesempio abbiamo calcolato la migliore approssimazione di
una v.a. X mediante una applicazione lineare-afne di Y. Ora invece (scegliendo
f (x) = x) abbiamodeterminatola migliore approssimazione di Xmediante una funzione
(qualunque, purch boreliana) di Y.
Non detto che una legge condizionale esista. I prossimi due esempi per mostrano
delle situazioni in cui il calcolo della legge condizionale facile (il che dimostra anche
lesistenza).
Esempio 2.37 Siano X, Y v.a. a valori in R
d
e R
m
rispettivamente, di densit congiunta
h(x, y) rispetto alla misura di Lebesgue di R
d
R
m
. Sia
h
Y
(y) =
_
R
d
h(x, y) dx
la densit di Y e poniamo Q = {y; h
Y
(y) = 0]. Evidentemente P(Y Q) = 0. Se
poniamo
(2.41)

h(x; y) =
_
h(x, y)
h
Y
(y)
se y , Q
una densit arbitraria se y Q,
si vede subito che n(y, dx) =

h(x; y) dx una legge condizionale di X dato Y = y.
Infatti, se f e g sono funzioni misurabili limitate su R
d
e R
m
rispettivamente,
E[f (X)g(Y)] =
_
R
m
_
R
d
f (x)g(y)h(x, y) dy dx =
=
_
R
m
g(y)h
Y
(y) dy
_
R
d
f (x)
h(x; y) dx.
Calcoliamo ora le leggi condizionali di una v.a. gaussiana multivariata. Ci natu-
ralmente possibile usando lEsempio 2.37, che per porta a dei calcoli non immediati,
anche se elementari.
Useremo invece un argomento tipico delle leggi normali e che risulta utile anche
in altre situazioni; esso si basa sul fatto che v.a. normali non correlate sono anche
indipendenti. Cominciamo dal caso di due v.a. X e Y di legge congiunta normale e
cerchiamo un numero a in modo che X aY e Y siano non correlate. deve cio essere
0 = Cov(X aY, Y) = Cov(X, Y) a Var(Y)
ovvero
(2.42) a =
Cov(Y, X)
Var(Y)

Dunque Z = X aY e Y sono indipendenti; vediamo ora che la legge condizionale
di X dato Y = y appunto la legge della v.a. Z ay, che indicheremo
y
(il che
abbastanza intuitivo, dato il signicato della legge condizionale. Intanto osserviamo
che, se g : R
2
R misurabile limitata,
_
g(z ay, y) d
Z
(z) = E[g(Z ay, y)] =
_
g(x, y) d
y
(x)
e dunque
E[g(X, Y)] = E[g(Z aY, Y)] =
_

Y
(dy)
_
g(z ay, y) d
Z
(z) =
=
_

Y
(dy)
_
g(x, y) d
y
(z)
che implica appunto che
y
la legge condizionale cercata. importante osservare che
questa legge condizionale ancora gaussiana. Z ay = XaY ay infatti normale
(come funzione lineare-afne di X e Y) di varianza
Var(X aY) = Var(X) a
2
Var(Y) 2a Cov(X, Y) = Var(X)
Cov(X, Y)
2
Var(Y)
2.7 Leggi condizionali 51
e media
E[Z ay] = E[X]
Cov(X, Y)
Var(Y)
(y E[Y])
Riprendendo lOsservazione 2.36, vediamo quindi che, se le v.a. X e Y hanno legge con-
giunta normale, la migliore approssimazione di X mediante una funzione di Y coincide
con la migliore approssimazione di X mediante una funzione lineare-afne di Y.
Queste argomentazioni si possono ripetere per delle v.a. X e Y di legge congiunta
normale, ma rispettivamente a valori in R
n
1
e R
n
2
. Lidea di trovare una matrice A,
n
1
n
2
e tale che ognuna delle componenti di Y sia non correlata rispetto a quelle di
X AY. Se A = (a
ij
)
ij
allora deve essere
0 = Cov
_
X
k

n
1
i=1
a
ki
Y
i
, Y
h
_
= Cov(X
k
, Y
h
)
n
1
i=1
a
ki
Cov(Y
i
, Y
h
) .
Se indichiamo con C
X
la matrice di covarianza di X e C
X,Y
la matrice n
1
n
2
che ha
come elementi Cov(X
k
, Y
h
), allora la relazione precedente diviene
C
X,Y
AC
Y
= 0 .
Dunque, se supponiamo C
X
invertibile,
A = C
X,Y
C
1
Y
.
Ripetendo i ragionamenti sviluppati per il caso unidimensionale si ricava facilmente che
la legge condizionale di X dato Y = y la legge di XAY Ay, cio normale di media
E(X) C
X,Y
C
1
Y
(y E(Y)) .
e matrice di covarianza
C
X
C
X,Y
C
1
Y
C
X,Y
.
Pu essere utile segnalare che la matrice C
X,Y
non altro che la matrice dei termini
incrociati nella matrice di covarianza C di (X, Y), come chiarisce la formula seguente
C =
_
_
_
_
_
_
_
_
_
_
_
_
_
C
X
C
X,Y
C
Y
_
_
_
_
_
_
_
_
_
_
_
_
_
.
Esercizi
E2.1 Una v.a. reale X si dice simmetrica se X e X hanno la stessa legge. Dimostrare
che una v.a. X di densit f simmetrica se e solo se f una funzione pari. (o, per essere
precisi, se e solo se le funzioni x f (x) e x f (x) sono equivalenti). Mostrare che
se X simmetrica per ogni x R F(x) = 1 F(x)
E2.2 a) Siano X una v.a. a valori positivi e f : R
R una funzione derivabile con

derivata continua e tale che f (X) sia integrabile. Allora
E[f (X)] = f (0)
_

0
f
/
(t )P(X t ) dt.
b) Sia X una v.a. a valori interi 0, allora
E(X) =
k=1
P(X k)
[a) Se la legge di X, allora
_
0
f
/
(t ) dt
_
t
(dx) =
_
0
(dx)
_
x
0
f
/
(t ) dt per il Teorema
di Fubini.]
E2.3 Siano X e Y le coordinate di un punto scelto a caso con distribuzione uniforme sul
quadrato di vertici (1, 0), (0, 1), (1, 0), (0, 1).
a) Calcolare le leggi di X e Y. Ammettono una densit? Si tratta di v.a. indipen-
denti ? Qual la legge condizionale di Y dato X?
b) Calcolare
P
_
1
3
<
X
Y
<
3
_
.
E2.4 Siano X e Y v.a. indipendenti uniformemente distribuite su [0, 1] e poniamo
Z = X Y.
a) Qual la legge di (X, Z)? una legge uniforme?
b) Calcolare P(Z 1[X
1
2
). Qual la legge condizionale di Z dato X?
c) Calcolare la legge di Z. una legge uniforme?
E2.5 Una v.a. X ha densit data da
f (x) =
_
1
x
2
se x > 1
0 altrimenti .
a) Qual la densit di W = log X? Quale la sua media?
b) Sia Y unaltra v.a. di densit f e indipendente da X. Calcolare la densit di
Z =
XY.
Esercizi 53
E2.6 Nellintervallo [0, R] vengono scelti, in maniera indipendente luno dallaltro, due
punti X e Y con distribuzione uniforme. Indichiamo con U il punto pi vicino a 0 e con
V quello pi vicino a R.
a) Calcolare le leggi di U, V e V U.
b) Qual la probabilit che con i tre segmenti OU, UV e VR si possa costruire un
triangolo?
E2.7 a) Sia X una v.a. N(0, 1).
a1) Quanto vale E(e
t X
2
)?
a2) Qual la legge di X
2
?
b) Sia W una v.a. N(0, I) su R
m
(normale multivariata di media 0 e di matrice
di covarianza uguale alla matrice identit). Sia A una matrice m m simmetrica e
consideriamo la v.a. Z =
1
2
AW, W) ( , ) il prodotto scalare di R
m
). Indichiamo
1
, . . . ,
m
gli autovalori di A (eventualmente con ripetizione).
b1) Quali ipotesi occorre fare su
1
, . . . ,
m
perch la v.a. e
t Z
sia integrabile? Quanto
vale E(e
t Z
)?
b2) Come si deve modicare il risultato precedente se W (sempre centrata) avesse
invece matrice di covarianza , non necessariamente uguale alla matrice identit? E se
la matrice A non fosse simmetrica?
E2.8 Siano X
1
, . . . , X
n
della v.a. i.i.d. avente una legge che ammette densit rispetto
alla misura di Lebesgue. Indichiamo con Y
1
, . . . , Y
n
i rispettivi ranghi. Cio Y
i
= 1 se il
valore di X
i
il pi piccolo tra X
1
, . . . , X
n
, Y
i
= n se il pi grande, Y
i
= k se ci sono
esattamente k 1 indici j per i quali X
j
< X
i
(e n k 1 per i quali X
j
> X
i
).
a) Mostrare che levento A = {X
i
= X
j
per qualche coppia di indicii ,= j] ha pro-
babilit 0 e dunque i ranghi sono ben deniti.
b) Mostrare che il vettore (Y
1
, . . . , Y
n
), a valori nel gruppo delle permutazioni su n
elementi, ha legge uniforme.
E2.9 Date due misure e su Rindichiamo con F
, F
le rispettive funzioni di riparti-

zione. Si dice che _ ( stocasticamente pi piccola di ) se e solo se F
(x) F
(x)
per ogni x R.
a) Mostrare che _ se e solo se, per ogni a R,
(]a, [) (]a, [) .
b) Siano , leggi di Poisson di parametri e rispettivamente con . Mo-
strare che _ .
c) Supponiamo che esista una probabilit su R
2
tale che
i) ha e come prima e seconda marginale rispettivamente
ii) () = 1, dove = {(x, y), x y].
Mostrare che allora _ .
d) Supponiamo _ e supponiamo che F
e F
siano funzioni strettamente cre-

scenti. Sia U una v.a. di legge uniforme su [0, 1] e sia Z la v.a. a valori R
2
denita
da
Z = (F
1
(U), F
1
(U)) .
Mostrare allora che la legge di Z soddisfa alle condizioni i) e ii) di c). Cosa si pu
dire se si toglie lipotesi che F
e F
siano strettamente crescenti ?

e) Mostrare che _ se e solo se esistono uno spazio di probabilit (, , P) sul
quale sono denite due v.a. reali X e Y aventi come legge e rispettivamente e tali
che P(X Y) = 1.
E2.11 Le v.a. X
1
, . . . , X
n
si dicono scambiabili se e solo se la legge di (X
1
, . . . , X
n
)
uguale alla legge di (X
1
, . . . , X
n
) dove (
1
, . . . ,
n
) una qualunque permutazione di
(1, . . . , n).
a) Mostrare che se X
1
, . . . , X
n
sono scambiabili allora esse hanno la stessa legge;
anzi che la legge di (X
i
, X
j
) non dipende da i, j, i ,= j.
b) Mostrare che se X
1
, . . . , X
n
sono indipendenti equidistribuite allora esse sono
scambiabili.
Consideriamo ora unurna contenente n palline di cui r rosse e b bianche e indichiamo
con X
1
, . . . , X
n
il risultato di n estrazioni senza rimpiazzo (X
i
= 1 se la pallina i-esima
rossa, X
i
= 0 se bianca).
c) Mostrare che X
1
, . . . , X
n
sono scambiabili.
d) Quanto vale Cov(X
1
, X
2
)? Quanto vale Cov(X
i
, X
j
)?
e) Sia X il numero di palline estratte in k estrazioni. Quanto vale Var(X)?
f) Siano X, Y come nellEsercizio 3.2 c). Mostrare che X e Y sono scambiabili.
E2.12 Siano X e Y v.a indipendenti di legge data rispettivamente dalle densit
f
X
(x) = xe
x
2
/2
1
[0,[
(x) f
Y
(y) =
1
_
1 y
2
1
]1,1[
(y) .
a) Calcolare E(X), E(Y) e Var(X).
b) Posto U = XY, V = X
_
1 Y
2
, calcolare le leggi di U e di V. Qual la legge
di (U, V)? Le v.a. U e V sono indipendenti ?
E2.13 Siano una probabilit su (R, (R)), f una densit di probabilit su R e =
f dx. Mostrare che ha densit rispetto alla misura di Lebesgue e calcolarla.
E2.14 Consideriamo tre v.a. X, Y e Z dove: X ha legge uniforme su [0, 1]; Y ha densit
condizionale se X = x data da
g
x
(y) = (y x)e
(yx)
1
{0x1,xy]
mentre Z ha legge condizionale per X = x, Y = y di densit
h
x,y
(z) = (y x)e
z(yx)
1
{0x1,xy,0<z]
.
Esercizi 55
Qual la legge di (X, Y, Z)? Determinare le leggi di Y e di Z. Se U = Y X, V =
Z(Y X) qual la legge di (X, U, V)?
E2.15 Mostrare che se
X,Y
= 1 oppure
X,Y
= 1 allora esiste a R tale che X = aY
oppure aX = Y. Inoltre a 0 oppure 0 a seconda che sia
X,Y
= 1 oppure
X,Y
= 1.
[Si usa il fatto che nella disuguaglianza di Schwartz si ha uguaglianza se e solo se i vettori sono
collineari.]
E2.16 Siano Xe Y v.a. indipendenti e supponiamo che XY abbia speranza matematica
nita. Allora lo stesso vero anche per X e Y (ovvero, se e hanno media nita, lo
stesso vero per ).
E2.17 Siano Ae B due matrici simmetriche mmsemidenite positive. Consideriamo
la matrice C i cui elementi si ottengono moltiplicando termine a termine quelli di A e
di B; cio c
ij
= a
ij
b
ij
. Mostrare che C anchessa semidenita positiva. (Chiss come
centra la probabilit . . . )
[Siano X, Y v.a. n-dimensionali indipendenti di matrici di covarianza A e B rispettivamente (esi-
stono certamente: basta prenderle gaussiane, ad esempio), e deniamo una v.a. Z n-dimensionale
con Z
i
= X
i
Y
i
, i = 1, . . . , n; allora C la matrice di covarianza di Z ed semi-denita positiva
come tutte le matrici di covarianza.]
E2.18 Sia X una v.a. reale di densit
h
(x) =
_
2x
e
x
2
/
se x > 0
0 altrimenti
dove un parametro reale > 0 (legge di Rayleigh).
a) Calcolare media e varianza di X.
b) Se Z = X
2
, mostrare che Z segue una legge . Calcolarne i parametri.
c) Posto W = e
X
2
/
, calcolare media e varianza di W. Qual la densit di W ?
c) Sia (U, V) una coppia di v.a. di densit f (u, v) = h
(u)v1
{0<v<u]
dove una
opportuna costante. Determinare il valore di c al variare di . Le v.a. U e U/V sono
indipendenti ?
E2.19 a) Siano X e Y v.a. aleatorie indipendenti entrambe di legge esponenziale di
parametro > 0. Calcolare le leggi delle v.a. U = X Y, V = min(X, Y) e W =
max(X, Y). Mostrare che U e V sono indipendenti.
b) Siano X e Y due v.a. positive indipendenti ed aventi entrambe una legge data da
una densit f , dove f una funzione strettamente positiva su R
. Calcolare la legge
della coppia (U, V), dove U = X Y e V = min(X, Y). Mostrare che se U e V sono
indipendenti allora X e Y sono esponenziali di parametro per qualche > 0.
[b): se h una funzione boreliana positiva su R
2
, allora (integrazione rispetto a una legge imma-
gine)
E(h(U, V)) =
_ _
h(x y, x)f (x)f (y)1
{0<x<y]
dx dy
_ _
h(x y, x)f (x)f (y)1
{0<y<x]
dx dy .
Nel primo integrale si fa il cambio di variabile u = x y, v = x, nel secondo u = x y, v = y.
Mettendo insieme i pezzi si ottiene
E(h(U, V)) =
_ _
h(u, v)f (v)f (v [u[)1
{v>0]
du dv .
Dunque (U, V) ha densit f (v)f (v [u[)1
{v>0]
. Le marginali di U e di V sono date da
f
U
(u) =
_

0
f (v)f (v [u[) dv
f
V
(v) = 1
{v>0]
f (v)
_
f (v [u[) du = 2f (v)(1 F(v))
dove F la funzione di ripartizione della legge di densit f . Se U e V sono indipendenti deve
essere
f (v)f (v [u[) = 2f (v)(1 F(v))f
U
(u)
per ogni u R, v > 0.Ponendo u = 0 si vede che F soddisfa allequazione differenziale
F
/
(v)
1 F(v)
= 2f
U
(0)
ovvero 1 F(v) = C e
2f
U
(0)v
per v > 0. Per v 0 si ha C = 1 . . . ]
E2.20 Siano X, Y, Z v.a. indipendenti tutte di legge N(0, 1).
a) Calcolare le leggi delle v.a.
X
2
X
2
Y
2
[X[
_
X
2
Y
2
b) Calcolare la legge condizionale di X sapendo X

2
Y
2
.
c) Calcolare le leggi delle v.a.
X
2
Z
2
Y
2
[X[
_
Z
2
Y
2
c) Mostrare che
X
_
X
2
Y
2
e X
2
Y
2
sono indipendenti.
[ utile ricordare che il quadrato di una v.a. N(0, 1) segue una legge (
1
2
,
1
2
).]
Esercizi 57
E2.21 Siano X
1
, . . . , X
12
v.a. indipendenti di legge N(0, 1).
a) Qual la legge della v.a. W = max(X
1
, . . . , X
12
)? Quanto vale P(W > 2)?
b) Sia Z = min(X
1
, . . . , X
12
). Quanto vale il quantile di ordine .05 di Z?
c) Un generatore aleatorio N(0, 1) ha prodotto la seguente sequenza di valori:
0.78 0.45 0.93 0.27 0.57 0.45
0.19 2.03 0.31 3.74 4.23 0.76
Cosa ne pensate?
E2.22 a) Sia la legge su R di densit h(t ) =
1
2
e
[t [
rispetto alla misura di Lebesgue.
Mostrare che
() =
1
1
2

b) Sia la probabilit di densit
f (t ) =
1
(1 t
2
)
(legge di Cauchy). Mostrare che () = e
[[
. Quanto vale la media di ?
derivabile?
c) Siano X, Y v.a. di Cauchy indipendenti. Mostrare che 2X e X Y hanno la
stessa legge.
d) Mostrare che la legge di Cauchy la legge di Student t (1).
[b): usare il punto a) e il Teorema dinversione 2.23.]
E2.24 Sia una misura di probabilit ssata su R
d
.
a) Mostrare che per ogni > 0 esiste R = R
> 0 tale che (B

C
R
) , dove B
R
indica la palla di centro 0 e raggio R.
b) Mostrare che per ogni
1
,
2
R
d
si ha
[e
i
1
,x)
e
i
2
,x)
[ [x[[
1

2
[ .
In particolare le funzioni e
i,x)
sono uniformemente continue al variare di x B
R
.
c) Mostrare che () uniformemente continua.
E2.25 Siano X, Y delle v.a. congiuntamente gaussiane, centrate. Supponiamo che
E(X
2
) = 4, E(Y
2
) = 1 e che le v.a. 2X Y e X 3Y sono indipendenti.
a) Calcolare la matrice di covarianza di (X, Y).
b) Calcolare la legge del vettore (X Y, 2X Y).
E2.26 Sia X = (X
1
, X
2
, X
3
) un vettore gaussiano centrato di matrice di covarianza
C =
_
3 1 0
1 3 0
0 0 2
_
1) X ha densit rispetto alla misura di Lebesgue di R
3
? Se si calcolarla.
2) X
3
indipendente da X
1
X
2
?
3) Determinare la legge di X
1
2X
2
X
3
.
4) Determinare un operatore lineare A : R
3
R
3
tale che le componenti del vettore
AX siano v.a. indipendenti.
E2.27 a) Sia W = (W
1
, . . . , W
m
) una v.a. m-dimensionale di legge N(b, C). Mostrare
che la v.a.
1
W
1
. . .
m
W
m
gaussiana di media , b) e varianza C, ).
b) Sia (X, Y, Z) un vettore gaussiano 3-dimensionale centrato di matrice di cova-
rianza
C =
_
_
_
_
_
1 0
_
2
3
0 1
_
1
3
_
2
3
_
1
3
1
_
_
_
_
_
b1) Per ogni (, , ) R
3
, calcolare la legge della v.a. X Y Z.
b2) Risolvere lequazione C = 0, R
3
. La legge di (X, Y, Z) ha densit rispetto
alla misura di Lebesgue di R
3
?
b3) Esiste un vettore (, , ) R
3
(0, 0, 0) tale che Var(X Y Z) = 0?
E2.28 Una v.a. X = (X
1
, X
2
) segue una legge normale bivariata N(0, C) dove
C =
_
2 1
1 1
_
.
a) Qual la legge di X
1
X
2
?
b) Qual la legge condizionale di X
2
dato X
1
?
c) Mostrare che la v.a. X ha densit e calcolarla.
E2.29 Siano X, Y v.a. indipendenti N(0, 1).
a) Qual la legge della v.a. (X, X Y)?
b) Calcolare la legge condizionale di X dato X y = t .
E2.30 Sia X un segnale di legge normale N(0, 1). Un osservatore non ha accesso al
valore di X, di cui conosce solo unosservazione Y = X W, dove W un rumore,
indipendente da X e di legge N(0,
2
).
a1) Qual la vostra stima del valore X del segnale sapendo che Y = y ?
a2) Supponiamo
2
= 0.1 e che il valore dellosservazione sia Y = 0.55. Qual la
probabilit che il segnale X si trovi nellintervallo [
1
4
,
3
4
] ?
b) Lo stesso osservatore, per migliorare la stima, decide di effettuare due osserva-
zioni Y
1
= X W
1
e Y
2
= X W
2
, dove W
1
e W
2
sono v.a. N(0,
2
) e le tre v.a.
X, W
1
, W
2
sono indipendenti. Qual ora la stima di X dato Y
1
= y
1
e Y
2
= y
2
? Di
quanto diminuita la varianza della legge condizionale di X dato (Y
1
, Y
2
) = (y
1
, y
2
)?
E2.31 a) Sia X una v.a. gaussiana m-dimensionale N(0, I). Qual la legge della v.a.
[X[
2
?
Esercizi 59
b) Sia X una v.a. gaussiana m-dimensionale N(0, C).
b1) Mostrare che la v.a. [X[
2
ha la stessa legge che una v.a. della forma
m
k=1
k
Z
k
dove Z
1
, . . . , Z
m
sono v.a. indipendenti di legge
2
(1) e
1
, . . . ,
m
sono gli autovalori
di C.
b2) Mostrare che E([X[
2
) = tr A.
E2.32 Sia X = (X
1
, . . . , X
n
) un vettore aleatorio gaussiano di legge N(0, I). Per ogni
k {1, . . . , n] poniamo Y
k
= X
1
. . . X
k
kX
k1
(con la convenzione X
n1
= 0).
Le v.a. Y
1
, . . . , Y
n
sono indipendenti ?
E2.33 (Filtraggio di un segnale) Consideriamo delle v.a. X (il segnale) e W (il rumore)
indipendenti e con W centrata. Supponiamo X e W entrambe di quadrato integrabile.
Poniamo Y = X W (losservazione).
a) Qual la migliore predizione lineare-afne (X) di Y come funzione di X nel
senso della distanza in L
2
?
b) Confrontare la distanza in L
2
da Y delle seguenti quantit
(X) ((X) la migliore predizione lineare-afne di cui al punto a))
X
E(Y)
E2.34 Un rivelatore viene usato per determinare listante di emissione di un fotone. Si
sa, a priori, che il tempo T in cui il fotone viene emesso segue una legge esponenziale
di parametro . Il rivelatore per ha un tempo di reazione che a sua volta aleatorio,
anchesso esponenziale di media
1
(che supporremo molto pi piccola della media

1
di
T ). Pi precisamente listante S in cui il rivelatore viene attivato uguale a T W dove
W esponenziale di media
1
e indipendente da T .
a) Qual la legge di S? Qual la legge congiunta di S e T ?
b1) Quanto vale la speranza condizionale di T dato S = s ? Supponiamo = 1, =
10; se il rivelatore segnala lemissione del fotone allistante s = 1.5, qual la vostra
stima dellistante T in cui il fotone stato emesso? E se fosse s = 0.1?
b2) Qual la migliore stima lineare-afne di T conoscendo S? Confrontarla con
quella ottenuta in b1), per i valori numerici assegnati.
E2.35 Un generatore aleatorio ha prodotto 256 numeri a caso. La media x di questi
numeri vale 0.25, mentre
s
2
=
1
255
256
i=1
(x
i
x)
2
= 3.01
Calcolare un intervallo di ducia di livello 0.05 per la media e per la varianza della legge
di questi numeri, supponendo che si tratti di una legge normale. ragionevole pensare
che si tratti di una N(0, 1)?
E2.36 Siano X e Y due v.a. indipendenti, dove X N(0, 1) mentre Y tale che
P(Y = 1) = P(Y = 1) =
1
2
. Poniamo Z = XY.
a) Qual la legge di Z? Z e X sono indipendenti ?
b) Calcolare la funzione di ripartizione F di XZ. Mostrare che X e Z non hanno
legge congiunta normale.
[a): si calcola la funzione di ripartizione
F
Z
(z) = P(Z z) = P(Z z, Y = 1) P(Z z, Y = 1) =
=
1
2
P(X z)
1
2
P(X z) = P(X z) .
La stessa idea si usa per b).]
3
Convergenza e approssimazione
3.1 Il Lemma di Borel-Cantelli
Se (A
n
)
n
una successione di eventi di , consideriamo levento
A = lim
n
A
n
:=
_
n=1
_
kn
A
k
che chiameremo il limite superiore degli eventi (A
n
)
n
. Da uno sguardo pi attento a
questa denizione si vede che A se e solo se per ogni n

_
kn
A
k
ovvero se e solo se A
k
per inniti indici k; quindi si ha
lim
n
A
n
= {; A
k
per inniti indici k]
La terminologia A = lim
n
A
n
deriva dal fatto che
1
A
= lim
n
1
A
n
In maniera analoga si denisce
B = lim
n
A
n
=
_
n=1
_
kn
A
k
Paolo Baldi
62 Capitolo 3. Convergenza e approssimazione
Si vede che B se e solo se esiste n
0
tale che A
k
per ogni k n
0
. chiaro che
lim
n
A
n
lim
n
A
n
e, per la formula di De Morgan,
_
lim
n
A
n
_
C
= lim
n
A
C
n
Evidentemente i limiti superiore edinferiore sonoeventi che appartengonoalla algebra
terminale
_
i=1
(1
A
i
, 1
A
i1
, . . .)
Dunque per il Teorema di Kolmogorov 2.12, se gli eventi A
1
, A
2
, . . . sono indipendenti
allora lim
n
A
n
e lim
n
A
n
possono avere solo probabilit 0 oppure 1. Il teorema
seguente fornisce un modo pratico di stabilire quale di queste due eventualit sia vera.
Teorema 3.1 (Lemma di Borel-Cantelli)
a) Se
n=1
P(A
n
) < allora P(lim
n
A
n
) = 0.
b) Se gli eventi (A
n
)
n
sono indipendenti e la serie
n=1
P(A
n
) divergente allora
P(lim
n
A
n
) = 1.
Dimostrazione. a) Per il teorema di Beppo Levi
n=1
P(A
n
) = E
_

n=1
1
A
n
_
ma lim
n
A
n
esattamente levento su cui

n=1
1
A
n
= (se lim
n
A
n
allora A
n
per inniti indici e dunque nella serie gurano inniti termini uguali
a 1). Quindi se

n=1
P(A
n
) < , la v.a.

n=1
1
A
n
integrabile e lim
n
A
n

trascurabile (linsieme degli sui quali una funzione integrabile prende il valore
sempre trascurabile.
b) Per denizione la successione di eventi
_
_
kn
A
k
_
n
decresce a lim
n
A
n
. Dunque
P
_
lim
n
A
n
_
= lim
n
P
_
_
kn
A
k
_
3.2 La convergenza quasi certa 63
Basta ora dimostrare che, per ogni n, P
_
kn
A
k
_
= 1 oppure, che lo stesso, che
P
_
_
kn
A
C
k
_
= 0
Ma, usando la disuguaglianza e
x
1 x,
P
_
_
kn
A
C
k
_
= lim
N
P
_
N
_
k=n
A
C
k
_
= lim
N
N
k=n
P(A
C
k
) =
= lim
N
N
k=n
_
1 P(A
k
)
_
lim
N
N
k=n
e
P(A
k
)
= lim
N
exp
_
k=1
P(A
k
)
_
= 0
Esempio 3.2 Sia (X
n
)
n
una successione di v.a. indipendenti, tutte di legge esponenziale
di parametro . Sia c un numero positivo. Vogliamo calcolare quanto vale la probabilit
dellevento
(3.1) lim
n
{X
n
c log n]
Il lemma di Borel-Cantelli permette di rispondere immediatamente a questa domanda:
basta determinare la natura della serie
n=1
P(X
n
c log n)
Poiche conosciamo la f.r. delle leggi esponenziali, sappiamo che
P(X
n
c log n) = e
c log n
=
1
n
c
che il termine generale di una serie convergente se e solo se c >
1
. Dunque il
limite superiore (3.1) ha probabilit 0 se c >
1
e probabilit 1 se c
1
. Da notare il
fatto apparentemente paradossale: in questultimo caso gli eventi {X
n
c log n] hanno
probabilit che tende a zero, ma ciononostante con probabilit 1 ogni appartiene
a questi eventi per inniti indici n
3.2 La convergenza quasi certa
Siano X, X
1
, . . . , X
n
, . . . v.a. denite su uno stesso spazio di probabilit (, , P).
Denizione 3.3 Siano X, X
1
, . . . , X
n
, . . . v.a. denite su uno stesso spazio di probabilit
(, , P).
a) Se le v.a. X, X
n
, n 1 sono a valori in uno spazio metrico (E, d), si dice che la
successione (X
n
)
n
converge a X in probabilit (e si scrive lim
n
X
n
P
=X) se per ogni
> 0
lim
n
P(d(X
n
, X) > ) = 0
b) Se le v.a. X, X
n
, n 1 sono a valori in uno spazio topologico E si dice che (X
n
)
n
converge a X quasi certamente (q.c.) se esiste un evento N trascurabile (cio tale che
P(N) = 0) tale che per ogni N
C
lim
n
X
n
() = X()
c) Se le v.a. X, X
n
, n 1 sono a valori in R
m
si dice che (X
n
)
n
converge a X in L
p
se X, X
n
L
p
per ogni n e
lim
n
E([X
n
X[
p
) = lim
n
|X
n
X|
p
= 0
Il resto di questo paragrafo dedicato al confronto tra i diversi modi di convergenza
introdotti nella denizione precedente. Per semplicit supporremo che tutte le v.a. siano
a valori in R
m
, ma i risultati che seguono si possono immediatamente estendere al caso
di uno spazio metrico (E, d), sostituendo d alla distanza euclidea nei ragionamenti che
seguono.
Intanto immediato che la convergenza in L
p
, p > 0, implica quella in probabilit:
per la disuguaglianza di Markov,
P([X
n
X[ > )
1
p
E([X
n
X[
p
)
Vedremo presto con degli esempi che le convergenze in L
p
e q.c. non sono confrontabili
(anche se i risultati di convergenze q.c. vengono in genere considerati pi forti).
Vediamo invece ora di confrontare la convergenza q.c. e quella in probabilit. Per
0 poniamo A
= lim
n
{[X
n
X[ > ]. Se X
n
q.c.
X, deve essere P(A
) = 0 per
ogni > 0. Infatti se A
allora [X
n
() X()[ > per inniti indici n, e quindi
non pu essere lim
n
X
n
() = X().
Viceversa linsieme degli per cui X
n
() non converge a X() dato da
_
; lim
n
[X
n
() X()[ > 0
_
=
_
k=1
{; lim
n
[X
n
() X()[ >
1
k
] =
=
_
k=1
lim
n
{[X
n
X[ >
1
k
] =
_
k=1
A
1/k
3.2 La convergenza quasi certa 65
Ne segue che se gli eventi A
1/k
sonotrascurabili per ogni k, anche levento{lim
n
[X
n
X[ > 0] lo e quindi X
n
q.c.
X.
Abbiamo quindi dimostrato
Lemma 3.4 X
n
X q.c. se e solo se
P
_
lim
n
{[X
n
X[ > ]
_
= 0
per ogni > 0.
Quindi il lemma di Borel-Cantelli fornisce un criterio di convergenza q.c: se per ogni
> 0 la serie di termine generale P([X
n
X[ > ) sommabile, allora X
n
q.c.
X. Questo
criterio sar molto utile nel seguito.
Inoltre, per il lemma di Fatou,
P
_
lim
n
{[X
n
X[ > ]
_
= E
_
lim
n
1
{[X
n
X[>]
_
lim
n
E
_
1
{[X
n
X[>]
_
= lim
n
P([X
n
X[ > )
e dunque se X
n
q.c.
X allora lim
n
P([X
n
X[ > ) = 0 per ogni . Ovvero
Proposizione 3.5 La convergenza q.c. implica quella in probabilit.
LEsempio 3.2 mostra che il viceversa non vero: le successione (X
n
/ log n)
n
tende a
zero in probabilit, e anzi in L
p
per ogni p > 0,:
E
__
X
n
log n
_
p
_
1
(log n)
p
E(X
p
1
) =
1
(log n)
p
_

0
x
p
e
x
dx
. ,, .
<
La convergenza non ha per luogo q.c.: per lEsempio 3.2 si ha con probabilit 1
X
n
log n

innite volte non appena
1
.
Esempio 3.6 Consideriamo lo spazio di probabilit ([0, 1], [0, 1], dx) e su di esso la
successione di v.a. (X
n
)
n
denita da
X
2
m
k
= 1
[k/2
m
,(k1)/2
m
]
se k = 0, . . . , 2
m
1
chiaro che P([X
2
m
k
[ > 0) = 2
m
, e quindi X
n
P
0. Daltra parte, se [0, 1],
chiaro che per ogni m 0 esiste k tale che [k/2
m
, (k 1)/2
m
]. Dunque X
n
() = 1
per inniti indici n e lim
n
X
n
() = 1.
Proposizione 3.7 Se (X
n
)
n
converge a X in probabilit, allora esiste una sottosucces-
sione (X
n
k
)
k
tale che X
n
k
q.c.
X.
Dimostrazione. Per ogni k intero positivo si ha
lim
n
P([X
n
X[ > 2
k
) = 0
Esiste quindi una successione dinteri (n
k
)
k
, che possiamo supporre strettamente cre-
scente, tale che
P([X
n
k
X[ > 2
k
) 2
k
Poich per ogni > 0 ssato esiste k
0
tale che per k > k
0
si abbia 2
k
, allora per
k > k
0
P([X
n
k
X[ > ) P([X
n
k
X[ > 2
k
) 2
k
Quindi la serie di termine generale P([X
n
k
X[ > ) sommabile. Per il lemma di
Borel-Cantelli P(lim
n
{[X
n
k
X[ > ]) = 0 che, per il criterio del Lemma 3.18,
implica X
n
k
q.c
X.
La Proposizione 3.19 implica, in particolare, che il limite in probabilit unico, a meno
di una Pequivalenza, cosa che non era ovvia dalla denizione (cio se X e Y sono due
limiti in probabilit di una stessa successione di v.a., allora P(X ,= Y) = 0). Inoltre
per la Proposizione 3.19 la convergenza in L
p
implica la convergenza q.c. per una
sottosuccessione. LEsempio 3.6 mostra una successione di v.a. che converge in L
p
e
non q.c.
chiaro inne che se X
n
q.c
X e le v.a. (X
n
)
n
sono tutte maggiorate in modulo da una
medesima v.a. Y L
p
, allora X
n
X in L
p
(in esercizio: si usa due volte il teorema di
Lebesgue, prima per provare che X L
p
e poi la convergenza); facile per costruire
esempi di successioni che convergono q.c. ma non in L
p
.
3.3 Le leggi forti dei grandi numeri
In questo paragrafo vedremo che, sotto ipotesi molto deboli, se (X
n
)
n
una successione
di v.a. indipendenti (o almeno non correlate) e aventi speranza matematica m nita,
allora la loro media empirica
X
n
=
1
n
(X
1
. . . X
n
)
converge quasi certamente a m. Questo tipo di risultati si chiama una legge forte dei
grandi numeri, in contrapposizione alle leggi deboli nelle quali la tesi riguarda una
convergenza in L
p
o in probabilit.
Porremo nel seguito S
n
= X
1
. . . X
n
. Inoltre osserviamo che si pu supporre
m0. Altrimenti si potrebbe porre Y
n
= X
n
m; le v.a Y
n
avrebbero media 0 e si avrebbe
Y
n
=

X
n
m; inne dimostrare che

X
n
q.c
m lo stesso che dimostrare che

Y
n
q.c.
0.
3.3 Le leggi forti dei grandi numeri 67
Teorema 3.8 (Legge forte di Rajchmann) Se le (X
n
)
n
una successione di v.a. tutte di
media m, aventi varianza nita e a due a due non correlate, allora se
(3.2) sup
n
Var(X
n
) = <
si ha

X
n
q.c.
m.
Dimostrazione. Supponiamo,come abbiamo detto, m = 0. Per ogni > 0 si ha, per la
disuguaglianza di Chebyshev
P([

X
n
2 [ > )
1
2
Var(

X
n
2 ) =
1
2
n
4
n
2
k=1
Var(X
k
)

2

1
n
2
Quindi la serie
k=1
P([

X
n
2 [ > )
convergente ed il Lemma di Borel-Cantelli d P(lim
n
{[

X
n
2 [ > ]) = 0; ci implica
per il Lemma 3.18 che la sottosuccessione (

X
n
2 )
n
converge a 0 q.c. Resta ora da con-
trollare il comportamento di

X
n
tra due istanti consecutivi della forma n
2
. Per questo
poniamo
D
n
= sup
n
2
k<(n1)
2
[S
k
S
n
2 [
(ricordiamo che S
k
= X
1
. . . X
k
) per cui se n
2
k < (n 1)
2
[S
k
[
k

[S
n
2 [ D
n
k

1
n
2
([S
n
2 [ D
n
) =

X
n
2
1
n
2
D
n
e quindi basta dimostrare che
D
n
n
2
0 q.c. Ma
D
2
n
= sup
n
2
k<(n1)
2
(S
k
S
n
2 )
2
n
2
k<(n1)
2
(S
k
S
n
2 )
2
E(D
2
n
)
n
2
k<(n1)
2
E((S
k
S
n
2 )
2
)
Poich le X
n
sono non correlate
E((S
k
S
n
2 )
2
) = E((X
n
2
1
. . . X
k
)
2
) =
=
k
i=n
2
1
Var(X
i
) [(n 1)
2
n
2
1] = 2n
Quindi
E(D
2
n
) [(n 1)
2
n
2
1] 2n = 4n
2
e dunque, per ogni > 0, per la disuguaglianza di Markov 2.13

P
_
1
n
2
D
n
>
_
2
n
4
E(D
2
n
)
4
2
1
n
2
Come nella prima parte della dimostrazione, il Lemma di Borel-Cantelli ed il Lemma
3.18 permettono di concludere che
1
n
2
D
n
0 q.c.
Enunciamo inne, senza dimostrazione, la pi celebre delle leggi dei grandi numeri. In
esse lipotesi di esistenza di momenti sono pi deboli, ma si suppone in compenso che
le v.a. siano indipendenti ed equidistribuite.
Teorema 3.9 (Legge forte di Kolmogorov) Sia (X
n
)
n
una successione di v.a. indipen-
denti e tutte di legge . Allora
a) Se
_
[x[ d < allora

X
n
m =
_
x d q.c.
b) Se
_
[x[ d = , allora una almeno delle due v.a. terminali
lim
n
X
n
e lim
n
X
n
sono q.c. innite (cio almeno una di esse prende il valore q.c. oppure il valore
q.c.).
3.4 Convergenza in legge
Vedremo ora un altro tipo di convergenza di v.a. Siano (E, ) uno spazio misurabile e
,
n
, n 1 misure su (E, ). Un modo tipico (non lunico) di denire una nozione di
convergenza
n
il seguente: si ssa una classe di funzioni misurabili f : E R
e si denisce
n
se e solo se
lim
n
_
f d
n
=
_
f d
per ogni f . Naturalmente a seconda della classe prescelta si ottengono tipi di
convergenza diversi (eventualmente non confrontabili tra loro).
Nel seguito, per semplicare le notazioni useremo talvolta la scrittura (f ) al posto
di
_
f d.
Denizione 3.10 Siano E uno spazio topologico e ,
n
, n 1 misure nite su
(E, (E)). Diremo che (
n
)
n
converge a strettamentese e solo se per ogni funzione
f
b
(E) (funzioni continue e limitate su E) si ha
(3.3) lim
n
_
f d
n
=
_
f d
3.4 Convergenza in legge 69
Supporremo sempre che lo spazio topologico E sia metrico e separabile.
Osserviamo intanto che il limite stretto unico. Infatti se simultaneamente
n

e
n
allora necessariamente
(3.4)
_
f d =
_
f d
per ogni funzione f
b
e dunque e coincidono.
Proposizione 3.11 Siano uno spazio vettoriale di funzioni misurabili limitate su
(E, ), ,
n
, n 1 misure di probabilit su (E, ). Allora perch la relazione
(3.5)
n
(f )
n
(f )
sia vera per ogni f basta che essa sia vera per ogni funzione f appartenente ad un
sottoinsieme totale H di .
Dimostrazione. Per denizione H totale in se e solo se lo spazio vettoriale delle
combinazioni lineari di funzioni di H denso in nella norma uniforme.
Se (3.5) vera per ogni f H, per linearit, essa lo evidentemente per ogni
f . Siano ora f e (g
k
)
k
una successione di funzioni di convergente a f
uniformemente. Per > 0, sia k abbastanza grande perch sia |f g
k
|
; dunque
per ogni n
_
[f g
k
[ d
n
,
_
[f g
k
[ d .
Sia ora n
0
tale che [
n
(g
k
) (g
k
)[ per n n
0
; allora per n n
0
[
n
(f ) (f )[ [
n
(f )
n
(g
k
)[ [
n
(g
k
) (g
k
)[ [(g
k
) (f )[ 3
che per larbitrariet di implica la tesi.
Se per di pi E anche localmente compatto allora si pu dimostrare che esiste una
successione crescente (h
p
)
p
di funzioni continue a supporto compatto tali che sup
p
h
p
=
1. Se una probabilit su (E, (E)), allora (h
p
) (1) = (E) = 1 ed chiaro
che per ogni > 0 esiste p tale che (h
p
) 1 .
Questa propriet permette di stabilire il criterio seguente, quando le misure che si
considerano sono di probabilit.
Proposizione 3.12 Date le misure di probabilit ,
n
, n 1 sullo spazio metrico
localmente compatto separabile E, allora
n
strettamente se e solo se
n
(f )
(f ) per ogni funzione continua a supporto compatto.
Dimostrazione. Fissiamo f
b
e supponiamo f 0. Allora f h
p
f e le funzioni
f h
p
sono a supporto compatto. Ricordando che (1) =
n
(1) = 1 si ha
[
n
(f ) (f )[ [
n
(f h
p
) (f h
p
)[ [
n
((1 h
p
)f )[ [((1 h
p
)f )[
[
n
(f h
p
) (f h
p
)[ [f [
n
(1 h
p
) [f [
(1 h
p
) =
= [
n
(f h
p
) (f h
p
)[ [f [
((h
p
)
n
(h
p
)) 2[f [
(1 h
p
)
Basta ora scegliere prima pabbastanza grande perch (1h
p
) sia e poi nabbastanza
grande perch gli altri due termini nellultima disuguaglianza siano anchessi per
ottenere
[
n
(f ) (f )[ 2(1 [f [
)
e per larbitrariet di si ha (3.3).
Dora in avanti supporremo che E uno spazio metrico localmente compatto separabile
e
n
, indicheranno delle probabilit su (E, (E)).
Osservazione 3.13 Combinando le Proposizioni 3.11 e 3.18 se E uno spazio metrico
localmente compatto e separabile per provare la convergenza stretta basta vericare (3.3)
per ogni f
K
(E); ovvero per ogni f
0
(E) (funzioni nulle allinnito) o comunque
per ogni sottoinsieme totale in
0
(E).
Se E = R
d
, un sottoinsieme totale di cui ci serviremo quello formato dalle funzioni
f della forma f (x) = e
a[x[
2
ib,x)
al variare di a > 0 e b R. Che si tratti di un
sottoinsieme totale in
0
una conseguenza del teorema di Stone-Weierstrass, come
abbiamo osservato nella dimostrazione del Teorema 3.21.
Osservazione 3.14 La Proposizione 3.18 ha unimportanza notevole perch gli spazi
K
e
0
, per uno spazio metrico separabile localmente compatto E, sono separabili
nella topologia uniforme (mentre invece
b
non lo in generale). Questo implica che
per vericare la convergenza stretta di misure basta provare (3.3) per f che varia in
un sottoinsieme numerabile denso in
0
. Questo fatto cruciale e ne vedremo varie
applicazioni, a cominciare dal prossimo risultato.
Osservazione 3.15 Se ,
n
, n 1, sono leggi di probabilit sullo spazio topologico
E, una applicazione continua da E allo spazio topologico F e se indichiamo con
n
,
rispettivamente le immagini di
n
, tramite , allora
n
.
Infatti se f : F R continua limitata, allora f continua e limitata da E in
R. Dunque
n
(f ) =
n
(f ) (f ) = (f )
Siano ,
n
, n 1, probabilit su (R
d
, (R
d
)) e supponiamo che
n
. Allora
chiaro che
n
() (). Infatti per ogni R
d
() =
_
e
ix,)
d(x)
cio () lintegrale rispetto a della funzione x e
ix,)
che continua e limitata.
Ci si pu domandare viceversa se la convergenza delle funzioni caratteristiche implichi
la convergenza stretta.
Proposizione 3.16 Siano ,
n
, n 1, leggi di probabilit su (R
d
, (R
d
)). Allora
(
n
)
n
converge strettamente a se e solo se
n
() () per ogni R
d
.
Dimostrazione. Supponiamo che le funzioni caratteristiche di
n
convergano alla fun-
zione caratteristica di ; per lOsservazione 3.13, per provare che
n
basta vericare
che
n
(f ) (f ) quando f della forma x e
a[x[
2
ib,x)
. Abbiamo gi visto, nella
dimostrazione del Teorema 2.20, che per ogni probabilit su R si ha
1
(2)
d/2
d
_
(y) exp
_
[y [
2
2
2
_
dy =
_
e
i,x)
e
1
2
2
[x[
2
(dx)
Dunque per il Teorema di Lebesgue, poich [
n
()[ 1,
_
e
i,x)
e
1
2
2
[x[
2
n
(dx) =
1
(2)
d/2
d
_

n
(y) exp
_
[y [
2
2
2
_
dy
1
(2)
d/2
d
_
(y) exp
_
[y [
2
2
2
_
dy =
_
e
i,x)
e
1
2
2
[x[
2
(dx)
che conclude la dimostrazione.
n
, n 1, leggi di probabilit su (E, (E)). Allora (
n
)
n
converge strettamente a se e solo se vericata una delle propriet seguenti.
a) Per ogni funzione f : E R semicontinua inferiormente e inferiormente limi-
tata
(3.6) lim
n
_
f d
n

_
f d
b) Per ogni funzione f : E R semicontinua superiormente e superiormente
limitata
(3.7) lim
n
_
f d
n

_
f d
c) Per ogni funzione f boreliana limitata e tale che linsieme dei suoi punti di
discontinuit sia trascurabile
(3.8) lim
n
_
f d
n
=
_
f d
Dimostrazione. chiaro che a) e b) sono equivalenti tra loro (basta considerare che
se f come in a), allora f come in b)) e che insieme implicano la convergenza
stretta, perch se f
b
, allora a f si possono applicare simultaneamente (3.6) e (3.7),
ottenendo (3.3) .
Viceversa, supponiamo che
n
strettamente e che f sia s.c.i. e inferiormente
limitata. Allora (propriet delle funzioni s.c.i.) esiste una successione crescente di
funzioni continue limitate (f
k
)
k
tale che sup
k
f
k
= f . Poich f
k
f , per ogni k ssato
abbiamo
_
f
k
d = lim
n
_
f
k
d
n
lim
n
_
f d
n
e prendendo il sup in k di questa relazione, per il Teorema di B.Levi segue la (3.6).
Mostriamo ora che se
n
strettamente, allora vale c) (il viceversa ovvio).
Consideriamo le due funzioni f
e f
denite da
f
(x) = lim
yx
f (y) f
(x) = lim
yx
f (y)
Chiaramente f
f f
e si pu dimostrare che f
s.c.i. mentre f
s.c.s. Inoltre
chiaro che le tre funzioni sono limitate e coincidono nei punti di continuit di f ; poich
supponiamo che questi ultimi costituiscono un insieme di misura 0 per
_
f
d =
_
f d =
_
f
d
(3.6) e (3.7) danno quindi
_
f d =
_
f
d lim
n
_
f
d
n
lim
n
_
f d
n
_
f d =
_
f
d lim
n
_
f
d
n
lim
n
_
f d
n
che insieme permettono di concludere.
Se
n
e A (E), si pu dire che
n
(A) (A)? La proposizione precedente
permette di rispondere a questa questione. Se G E un aperto, allora la sua funzione
indicatrice 1
G
s.c.i. e (3.6) implica che se
n
strettamente allora
(3.9) lim
n
n
(G) = lim
n
_
1
G
d
n
(G)
e analogamente se F chiuso
(3.10) lim
n
n
(F) = lim
n
_
1
F
d
n
(F)
Naturalmente in (3.9) vale il segno di uguaglianza e si ha un vero limite, che Gsia aperto
o no, se linsieme G -trascurabile. Infatti G linsieme dei punti di discontinuit
di 1
G
.
Se E = R vale anche il seguente criterio.
1
, n 1, misure di probabilit su R e indichiamo con F,
F
1
, F
2
, . . . le rispettive funzioni di ripartizione. Allora
n
strettamente se e solo
se per ogni punto x R di continuit per F si ha
(3.11) lim
n
F
n
(x) = F(x)
Dimostrazione. Supponiamo
n
converga a strettamente. Se x un punto di continuit
per F allora sappiamo che ({x]) = 0. Poich {x] la frontiera di ] , x]
F
n
(x) =
n
(] , x]) (] , x]) = F(x)
Viceversa supponiamo che valga la (3.11) per ogni punto di continuit x di F. Se a e b
sono punti di continuit per F allora
(3.12)
n
(]a, b]) = F
n
(b) F
n
(a) F(b) F(a) = (]a, b])
Poich i punti di discontinuit della funzione crescente F sono al pi una innit nume-
rabile, ne segue che (3.12) vera per almeno un insieme di a, b in un insieme S denso
in R. Per linearit dunque
n
(g) (g) per ogni funzione g che sia combinazione
lineare di funzioni indicatrici di intervalli ]a, b] con a, b S. facile ora vedere che
ogni funzione f
K
(R) si pu approssimare uniformemente con funzioni di questo
tipo.
Esempi 3.19
a)
n
=
1/n
(massa di Dirac nel punto
1
n
). Allora
n

0
strettamente. Infatti se
f
b
_
f d
n
= f (
1
n
) f (0) =
_
f d
0
Da notare che se G =]0, 1[, allora
n
(G) = 1 per ogni n e quindi
lim
n
n
(G) = 1
mentre
0
(G) = 0. Nella (3.9) vale dunque, in questo caso, una disuguaglianza stretta,
cosa possibile perch G = {0, 1] e
0
(G) > 0.
b)
n
=
1
n
n1
k=0
k/n
. Cio
n
una somma di masse di Dirac, ciascuna di peso
1
n
poste nei punti 0,
1
n
, . . . ,
n1
n
. Se f
b
allora
_
f d
n
=
n1
k=0
1
n
f (
k
n
)
Nel termine a destra riconosciamola somma di Riemanndi f sullintervallo[0, 1] rispetto
alla partizione 0,
1
n
, . . . ,
n1
n
. Poich f continua le somme di Riemann convergono
allintegrale e quindi
lim
n
_
f d
n
=
_
1
0
f (x) dx
che prova che (
n
)
n
converge strettamente verso la distribuzione uniforme su [0, 1]. Si
pu giungere allo stesso risultato anche calcolando il limite delle funzioni caratteristiche
o delle funzioni di ripartizione.
c)
n
B(n,

n
). Mostriamo che (
n
)
n
converge ad una legge di Poisson di pa-
rametro ; cio lapprossimazione di una legge binomiale con parametro n grande che
abbiamo visto nellEsempio 2.24 era in realt una convergenza stretta.
Ci si pu vedere in modi diversi. Conosciamo infatti ormai tre metodi per veri-
care la convergenza stretta: la denizione, la convergenza delle funzioni di ripartizione
(Proposizione 3.18) e la convergenza delle funzioni caratteristiche.
Ad esempio in questo caso la funzione di ripartizione F del limite continua ovunque
tranne che per gli x interi positivi. Dunque se x , N e x > 0
F
n
(x) =
x
k=0
_
n
k
_
_
n
_
k
_
1

n
_
nk
k=0
e
k
k!
= F(x)
poich nella somma compaiono solo un numero nito di termini ( indica al solito la
funzione parte intera). Se invece x < 0 non c niente da dimostrare poich F
n
(x) =
0 = F(x). Da notare che in questo caso F
n
(x) F(x) per ogni x, e non solo per gli x
che sono punti di continuit.
Avremmo anche potuto calcolare le funzioni caratteristiche ed il loro limite:

n
() =
_
1

n

n
e
i
_
n
=
_
1

n
(e
i
1)
_
n
e
(e
i
1)
che la funzione caratteristica di una legge di Poisson di parametro . Quindi per il
Teorema di P.Lvy
n
Poiss().
d)
n
N(b,
1
n
). Sappiamo che le leggi
n
hanno densit date da curve a campana
centrate tutte nel punto b e che tendono ad essere sempre pi alte e pi strette al crescere
di n. Ci suggerisce che le
n
tendono a concentrarsi sempre pi vicino a b.
Anche in questo caso per studiare la convergenza si pu sia calcolare il limite delle
funzioni di ripartizione, sia usare le funzioni caratteristiche. Questultimo metodo in
questo caso pi semplice:

n
() = e
ib
e
2
/2n
e
ib
che la funzione caratteristica di una legge
b
.
e)
n
N(0, n). La densit delle
n
data
g
n
(x) =
1
2n
e
x
2
/2n
Poich g
n
maggiorata, per ogni x, da
1
2n
, se fosse
n
si avrebbe per ogni
intervallo ]a, b[
(]a, b[) lim
n
n
(]a, b[) = lim
n
_
b
a
g
n
dx lim
n
b a
2n
= 0
Dunque darebbe probabilit 0 ad ogni intervallo aperto limitato. Poich R si pu
ottenere come riunione numerabile di tali intervalli si avrebbe (R) = 0 e dunque non
potrebbe essere una misura di probabilit. La stessa cosa si sarebbe potuta vedere con
le funzioni caratteristiche: infatti

n
() = e
1
2
n
2
() =
_
1 se = 0
0 se ,= 0
La funzione non pu essere una funzione caratteristica (non continua in 0). Consi-
deriamo delle v.a. X, X
1
, X
2
, . . . e indichiamo con
X
,
X
1
,
X
2
, . . . le leggi rispettive.
La convergenza di leggi di probabilit permette di denire una forma di convergenza di
v.a.
Denizione 3.20 Si dice che la successione (X
n
)
n
converge a X in legge (X
n
X) se
e solo se
X
n

X
strettamente.
Osservazione 3.21 Per provare che X
n
X basta vericare che

lim
n
E[f (X
n
)] = E[f (X)]
per ogni funzione f
K
. Basta infatti osservare che
E[f (X
n
)] =
_
f (x) d
X
n
(x) E[f (X)] =
_
f (x) d
X
(x)
Proposizione 3.22 Se X
n
P
X allora X
n
X.
Dimostrazione. Continuiamo a supporre E = R
m
; il caso di uno spazio metrico generale
si tratta in maniera assolutamente simile. Per lOsservazione 3.13 basta dimostrare che
X
n
(f ) = E(f (X
n
)) E(f (X)) =
X
(f )
per ogni funzione f
K
. Poich si tratta di funzioni uniformemente continue e limitate,
per > 0 ssato esistono > 0 tale che [f (x) f (y)[ se [x y[ ; inoltre esiste
n
0
tale che P([X
n
X[ > ) per n > n
0
. Dunque
[
X
n
(f )
X
(f )[ = [E(f (X
n
)) E(f (X))[ E
_
[f (X
n
) f (X)[
_
=
= E
_
[f (X
n
) f (X)[ 1
{[X
n
X[]
_
E
_
[f (X
n
) f (X)[1
{[X
n
X[>]
_
P([X
n
X[ ) 2|f |
P([X
n
X[ > ) (1 2|f |
)
da cui per larbitrariet di si ha la tesi.
La convergenza in legge dunque pi debole di tutte quelle gi viste: q.c, in probabilit e
in L
p
. Anzi, perch essa abbia luogo non nemmeno necessario che le variabili aleatorie
siano denite sullo stesso spazio di probabilit.
Esempio 3.23 Sia (X
n
)
n
una successione di v.a. tale che X
n
t (n). Allora X
n
X
dove X N(0, 1).
Siano Z, Y
n
, n = 1, 2, . . . delle v.a. indipendenti con Z N(0, 1) e Y
n

2
(1) per
ogni n. Allora S
n
= Y
1
. . . Y
n

2
(n) e S
n
indipendente da Z. Dunque la v.a. T
n
denita da
T
n
=
Z
_
S
n
n =
Z
_
S
n
n
segue una legge t (n). Daltra parte per la legge dei grandi numeri S
n
/n E[Y
1
] = 1
e dunque T
n
q.c.
Z. Poich la convergenza q.c. implica quella in legge ci conclude la
dimostrazione.
C per un caso in cui la convergenza in legge implica in probabilit.
Proposizione 3.24 Se (U
n
)
n
una successione di v.a. denite su uno stesso spazio di
probabilit e U
n
U dove U una v.a. costante, allora U

n
P
U.
Dimostrazione. Sia u
0
E tale che U = u
0
q.c. Indichiamo con B
la palla aperta di
centro u
0
e raggio ; allora si pu scrivere
P(d(U
n
, u
0
) ) = P(X
n
B
c
)
Ma B
c
un chiuso che ha probabilit 0 per la legge di U che la massa di Dirac

u
0
.
Dunque lim
n
P(d(U
n
, u
0
) ) = 0 per la Proposizione 3.17.
2
77
2
In questo capitolo vediamo il risultato di convergenza in legge pi classico e importante.
Teorema 3.25 (Teorema limite centrale) Sia (X
n
)
n
una successione di v.a. k-dimensio-
nali i.i.d., di media m R
k
e di matrice di covarianza C. Allora posto
S
n
=
X
1
. . . X
n
nm
n
,
S
n
converge in legge a una v.a. normale multivariata N(0, C).
Dimostrazione. Se Y
i
= X
i
m, allora le Y
i
sono centrate, hanno la stessa matrice di
covarianza C e S
n
=
1
n
(Y
1
. . . Y
n
). Se indichiamo con la funzione caratteristica
delle Y
i
, allora
n
() =
_

n
_
n
=
_
1
_
n
_
1
__
n
Calcolando lo sviluppo di Taylor intorno a = 0 e, ricordando che
/
(0) = iE(Y
1
) = 0,
//
(0) = C
Y
= C,
si ha
() = 1
1
2
C, ) o([[
2
)
Quindi per n
n
_
1 =
1
2n
C, ) o(
1
n
)
e, poich log(1 z) z per z 0
lim
n
n
() = lim
n
_
1
1
2n
C, ) o(
1
n
)
_
n
=
= lim
n
exp
_
nlog
_
1
_
n
_
1
___
= lim
n
exp
_
n
_
n
_
1
__
=
= lim
n
exp
_
n
_
1
2n
C, ) o(
1
n
)
__
= e
1
2
C,)
che la funzione caratteristica di una v.a. N(0, C). Basta ora applicare La Proposizione
3.16.
Corollario 3.26 Sia (X
n
)
n
una successione di v.a. reali i.i.d., di media me varianza
2
.
Allora posto
S
n
=
X
1
. . . X
n
nm
n
S
N(0, 1).
Dimostrazione. Basta osservare che S
n
=
1
n
(Y
1
. . . Y
n
), dove Y
i
=
1
(X
i
m), e
applicare il Teorema 3.25.
Vediamo ora una classica applicazione del teorema limite centrale alla statistica.
Sia (X
n
)
n
una successione di v.a. indipendenti equidistribuite a valori in un insieme
nito composto da m elementi, che supporremo essere {1, . . . , m] e poniamo p
i
=
P(X
1
= i), i = 1, . . . , n. Supponiamo che i numeri p
i
siano tutti > 0 e poniamo, per
ogni n > 0, i = 1, . . . , m,
N
(n)
i
= #{k; k n, X
k
= i], p
(n)
i
=
N
(n)
i
n

Naturalmente
m
i=1
N
(n)
i
= n,
m
i=1
p
(n)
i
= 1. Nel seguito ometteremo il sopraindice
(n)
e scriveremo N
i
, p
i
per semplicit. Consideriamo, per ogni n, la v.a.
T
n
=
m
i=1
1
np
i
(N
i
np
i
)
2
= n
m
i=1
( p
i
p
i
)
2
p
i
Allora
Teorema 3.27 (Pearson)
T
n
2
(m1)
Dimostrazione. Consideriamo i vettori aleatori m-dimensionali Y
n
deniti da
Y
n
() = e
i
se X
n
() = i
dove e
i
= (0, . . . , 0, 1, 0, . . . , 0)
il vettore colonna di R
m
avente tutte le coordinate
nulle meno la i-esima, che uguale a 1. Indichiamo con N, p e

p i vettori di R
m
di
componenti N
i
, p
i
e

p
i
i = 1, . . . , m rispettivamente; quindi il vettore

p ha modulo
= 1. chiaro che i vettori aleatori Y
n
sono indipendenti e che E(Y
n
) = p; inoltre,
facendo direttamente il calcolo, si vede che la matrice di covarianza di Y
n
C = (c
ij
)
ij
con c
ij
= p
i
ij
p
i
p
j
. Inne

n
k=1
Y
k
= N. Quindi per il Teorema limite centrale le
v.a.
Z
n
=
1
n
(N np) =
1
n
n
k=1
(Y
k
E(Y
k
))
convergono in legge, per n , verso una v.a. N(0, C). Ora si pu scrivere T
n
= f (Z
n
)
dove f : R
m
R
la funzione
f (z) =
m
i=1
z
2
i
p
i

2
79
Dunque (T
n
)
n
converge in legge alla v.a. f (Z), dove Z N(0, C). Ora f (Z) = [W[
2
,
dove W il vettore gaussiano di componenti W
i
= Z
i
/
p
i
. Indichiamo con K la
matrice di covarianza di W. K ha per elementi i numeri k
ij
= c
ij
/
p
i
p
j
. Dunque
k
ij
=
ij

p
i
p
j
. Si verica subito che, per ogni x R
m
,
Kx = x
p, x)
p
Dunque K
p = 0, mentre Kx = x per ogni x ortogonale a

p. Dunque K non altro
che il proiettore sul sottospazio ortogonale a
p, che ha dimensione m1. K ha quindi

come autovalori 1 con molteplicit m 1 e 0 con molteplicit 1. Sia O una matrice
ortogonale formata da autovettori di K. Se

W = OW, allora la matrice di covarianza di
W OKO
, che una matrice diagonale che ha sulla diagonale m 1 volte 1 ed una

volta 0. Quindi le v.a.

W
i
sono indipendenti e di esse m 1 sono N(0, 1, mentre una
uguale a 0 q.c. Quindi [

W[
2
=

W
2
1
. . .

W
2
m
2
(m 1). Basta ora osservare che
[W[
2
= [

W[
2
.
Supponiamo di essere in presenza di v.a. X
1
, X
2
, . . . i.i.d. a valori in {1, . . . , m] che si
suppone seguano una legge data da P(X
n
= i) = p
i
dove p = (p
1
, . . . , p
m
) assegnato.
Il Teorema di Pearson fornisce un modo per vericare questa ipotesi.
In effetti se lipotesi vera T
n

2
(n 1), mentre se la loro legge fosse individuata
da un altro vettore q = (q
1
, . . . , q
m
) diverso da p, avremmo per n p
i
q
i
per la
legge dei grandi numeri, e dunque
T
n
. n
m
i=1
(q
i
p
i
)
2
p
i
per cui T
n
tenderebbe ad assumere valori grandi.
Esempio 3.28 Un dado viene lanciato 2000 volte ottenendo i seguenti risultati
1 2 3 4 5 6
388 322 314 316 344 316
Che ne pensate?
Effettivamente il risultato 1 apparso un numero di volte superiore agli altri: le
frequenze sono
p
1
p
2
p
3
p
4
p
5
p
6
0.196 0.161 0.157 0.158 0.172 0.158
Prima di concludere che il dado non equilibrato bisogna per stabilire se i risultati
osservati si possono attribuire a normali uttuazioni oppure sono signicativamente
lontani da quelli teorici. Sappiamo per che, sotto lipotesi che il dado sia equilibrato,
la quantit
T
n
= 2000
6
i=1
( p
i

1
6
)
2
6 = 12.6
segue una legge che approssimativamente
2
(5), altrimenti tenderebbe ad assumere
valori grandi. La questione dunque: il valore osservato di T
n
pu essere considerato
un valore tipico per una v.a.
2
(5)? Oppure troppo grande? Si pu affrontare la
questione nel modo seguente: si ssa una soglia (ad esempio = 0.05). Se
2
(5)
indica il quantile di ordine della legge
2
(5), allora P(X >
2
1
(5)) = . Si decide
quindi di respingere lipotesi se il valore di T
n
osservato supera
2
1
(5). Uno sguardo
alle tavole del
2
con 5 gradi di libert mostra che
2
0.95
(5) = 11.07. Se ne conclude
che il dado molto probabilmente truccato. Nel linguaggio della statistica matematica
il Teorema di Pearson ha permesso di respingere lipotesi che il dado fosse equilibrato al
livello 5%. Il valore 12.6 corrisponde al quantile di ordine 97.26% di una legge
2
(5).
Dunque se il dado fosse equilibrato, un valore di T
n
superiore a 12.6 si sarebbe potuto
vericare con la probabilit del 2.7%
(I dati di questo esempio sono stati simulati con delle distribuzioni teoriche q
1
= 0.2,
q
2
= . . . = q
6
= 0.16).
Il Teorema di Pearson ha dunque unimportanza applicativa notevole in problemi di Sta-
tistica quando si voglia vericare se i dati seguono effettivamente una data distribuzione
teorica. Per questo occorre sapere quanto debba essere grande n perch si possa supporre
che T
n
segua una legge vicina ad una
2
(k 1). Una regoletta pratica, della cui validit
teorica non discuteremo, richiede che debba essere np
i
5 per ogni i = 1, . . . , k.
Esempio 3.29 I dati del Riquadro 3.1 riguardano 6115 famiglie di 12 gli. Per ognuna
di esse stato riportato il numero N
k
dei gli maschi. Unipotesi abbastanza naturale
consiste nel supporre che ogni nascita dia luogo ad un maschio oppure ad una femmina
con probabilit
1
2
, ed inoltre che gli esiti di parti diversi siano tra di loro indipendenti.
Si pu dire che questa ipotesi sia confermata dalle osservazioni ?
Sotto lipotesi, la v.a. X =numero di gli maschi segue una legge binomiale
B(12,
1
2
), ovvero la probabilit di osservare una famiglia con k gli maschi dovrebbe
essere pari a
p
k
=
_
12
k
_
_
1
2
_
k
_
1
1
2
_
12k
=
_
12
k
_
_
1
2
_
12
Siamo in una situazione classica di applicazione del teorema di Pearson, cio di
confronto tra una distribuzione empirica (i p
k
) e una teorica (la binomiale B(12,
1
2
)).
La condizione di applicabilit del Teorema di Pearson non per soddisfatta poich per
i = 1 oppure i = 12 abbiamo p
i
= 2
12
e dunque
np
i
= 6115 2
12
= 1.49
2
81
k N
k
p
k
p
k
p
k
/ p
k
0 3 0.000244 0.000491 0.49764
1 24 0.002930 0.003925 0.74646
2 104 0.016113 0.017007 0.94743
3 286 0.053711 0.046770 1.14840
4 670 0.120850 0.109567 1.10298
5 1033 0.193359 0.168929 1.14462
6 1343 0.225586 0.219624 1.02715
7 1112 0.193359 0.181848 1.06330
8 829 0.120850 0.135568 0.89143
9 478 0.053711 0.078168 0.68712
10 181 0.016113 0.029599 0.54438
11 45 0.002930 0.007359 0.39811
12 7 0.000244 0.001145 0.21327
Riquadro3.1 Valori numerici delle osservazioni (N
k
=numerodi famiglie conk gli maschi)
delle probabilit teoriche (p
k
), di quelle empiriche ( p
k
= N
k
/6115) e del loro rapporto
p
k
/ p
k
.
che una quantit pi piccola di 5 e dunque insufciente allapplicazione del teorema
di Pearson. Questa difcolt si supera nel modo seguente. Consideriamo una nuova v.a.
Y denita da
Y =
_
1 se X = 0
i se X = i per i = 1, . . . , 11
11 se X = 12
In altre parole Y coincide con X se X prende i valori 1, . . . , 11 mentre vale 1 anche su
{X = 0] e 11 su {X = 12]. Chiaramente la legge di Y data da
P(Y = i) = q
i
=
_
p
0
p
1
se i = 1
p
i
se i = 2, . . . , 10
p
11
p
12
se i = 11
chiaro ora che se nelle osservazioni raggruppiamo le osservazioni delle classi 0 e 1
e delle classi 11 e 12, nelle ipotesi fatte le nuove distribuzioni empiriche cos ottenute
dovranno seguire la distribuzione di Y. Ovvero dovremo confrontare usando il teorema
di Pearson le distribuzioni
k q
k
q
k
1 0.003174 0.004415
2 0.016113 0.017007
3 0.053711 0.046770
4 0.120850 0.109567
5 0.193359 0.168929
6 0.225586 0.219624
7 0.193359 0.181848
8 0.120850 0.135568
9 0.053711 0.078168
10 0.016113 0.029599
11 0.003174 0.008504
Ora il prodotto nq
1
vale 6115 .003174 = 19.41, e lapprossimazione di Pearson
applicabile. Il calcolo numerico d
T = 6115
11
i=1
( q
i
q
i
)
2
q
i
= 242.05
che molto pi grande dei quantili usuali della distribuzione
2
(10). Lipotesi che i
dati seguissero una distribuzione B(12,
1
2
) dunque respinta. Del resto qualche sospetto
in questo senso sarebbe stato suscitato anche da un istogramma per confrontare valori
teorici ed empirici, come nella Figura 3.2.
0 1 2 3 4 5 6 7 8 9 10 11 12
Figura 3.2 Le sbarre scure indicano i valori teorici p
k
, quelle chiare i valori empirici p
k
.
In effetti, pi che grosse discrepanze tra i valori teorici e quelli empirici, ci che
insospettisce il fatto che i valori teorici superano quelli empirici per valori estremi e
viceversa ne sono pi piccoli per valori centrali. Ci messo ancor pi in evidenza da
un istogramma del quoziente p
k
/ p
k
, come nella Figura 3.3. In effetti se la differenza
3.6 Il lemma di Slutski 83
0 1 2 3 4 5 6 7 8 9 10 11 12
1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Figura 3.3 Istogramma dei valori del rapporto p
k
/ p
k
.
fosse attribuibile a uttuazioni aleatorie piuttosto che ad una inadeguatezza del modello
ci dovremmo aspettare una maggiore irregolarit nelle differenze tra i due tipi di valori.
Il modello proposto allinizio per spiegare i dati, che prevedeva indipendenza tra gli
esiti di parti diversi ed uguale probabilit di ottenere un maschio o una femmina deve
quindi essere respinto.
3.6 Il lemma di Slutski
Vediamo in questo paragrafo delle trasformazioni che preservano la convergenza in legge.
Un primo risultato di questo tipo stato gi visto nellOsservazione 3.21.
Lemma 3.30 (Slutsky) Siano Z
n
, U
n
, n 1 v.a. denite su (, , P) ed a valori in R
p
e R
q
rispettivamente e supponiamo che Z
n
Z, U
n
U dove U una v.a. costante che

prende il solo valore u
0
R
q
. Allora
i) (Z
n
, U
n
)

(Z, u
0
).
ii) Se p = q, allora (Z
n
U
n
)
n
converge a Z u
0
.
iii) Se q = 1 (cio la successione (U
n
)
n
a valori reali) allora Z
n
U
n
u
0
Z.
Dimostrazione. i) Se R
p
, R
q
, la funzione caratteristica di (Z
n
, U
n
) calcolata in
(, ) R
pq
E[e
i,Z
n
)
e
i,U
n
)
] = E[e
i,Z
n
)
e
,u
0
)
] E[e
i,Z
n
)
(e
i,U
n
)
e
i,u
0
)
)]
Il primo termine a secondo membro converge a E[e
i,Z)
e
i,u
0
)
], baster dunque provare
che laltro termine tende a 0. In effetti
[E[e
i,Z
n
)
(e
i,U
n
)
e
i,u
0
)
)][ E[[e
i,Z
n
)
(e
i,U
n
)
e
i,u
0
)
)[] =
= E[[e
i,U
n
)
e
i,u
0
)
[] = E[f (U
n
)]
dove f (x) = [e
i,x)
e
i,u
0
)
[; f una funzione continua limitata e quindi E[f (U
n
)]
E[f (U)] = f (u
0
) = 0.
I punti ii) e iii) sono conseguenza di i) e dellOsservazione 3.15: le applicazioni
(z, u) z u e (z, u) zu sono continue e (Z
n
, U
n
)

(Z, u
0
).
Teorema 3.31 (Il metodo delta) Sia (Z
n
)
n
una successione di v.a. a valori in R
p
, tale
che
n(Z
n
z)

n
Z N(0, C)
Sia : R
p
R
q
una funzione derivabile con derivata continua in z. Allora
n((Z
n
) (z))

n
N(0,
/
(z)C
/
(z)
)
Dimostrazione. Grazie al Lemma di Slutski 3.30 ii), si ha
Z
n
z =
1
n(Z
n
z)

n
0 Z = 0
Dunque, per la Proposizione 3.24, Z
n
P
z. Per il teorema della media, si pu scrivere
(3.13)
n((Z
n
) (z)) =
n
/
(Z
n
)(Z
n
z)
dove Z
n
un punto che si trova nel segmento che congiunge z a Z
n
e, dunque, tale che
[Z
n
z[ [Z
n
z[. Ne segue che [Z
n
z[ 0 inprobabilit e inlegge. Per lOsservazione
3.15, (Z
n
)

(z). Dalla (3.13), applicando ancora il Lemma di Slutski e ricordando
come si trasformano le leggi gaussiane rispetto ad una trasformazione lineare, si ha la
tesi.
Esempio 3.32 Sia (X
n
)
n
una successione di v.a. reali i.i.d. di media x e varianza
2
e
indichiamo con

X
n
le medie empiriche. La successione delle v.a.
n(e

X
n
e
x
)
converge in legge?
Osserviamo che, per il Teorema Limite Centrale,
n(

X
n
x) =
X
1
. . . X
N
nx
n
N(0,
2
)
Si pu dunque applicare il metodo delta, da cui si ricava
n(e

X
n
e
x
)

n
N(0,
2
e
2x
)
Esercizi 85
Esercizi
E3.1 Sia (X
n
)
n
una successione di v.a. i. i.d. su uno stesso spazio di probabilit
(, , P), tali che 0 < E(X
1
) < . Per ogni consideriamo la serie di potenze
n=1
X
n
()x
n
e indichiamo con R() il suo raggio di convergenza.
Ricordiamo che R() =
_
lim
n
[X
n
()[
1/n
_
1
.
a) Mostrare che R una v.a. costante q.c.
b) Mostrare che esiste un numero a > 0 tale che P([X
n
[ a per inniti indici n) = 1
e dedurre che R 1 q.c.
c) Sia b > 1. Mostrare che
n=1
P([X
n
[ b
n
) < e dedurre il valore di R q.c.
E3.2 Sia (X
n
)
n
una successione di v.a. positive i.i.d. Poniamo
= sup{ 0; E(e
X
1
) < ] R
{].
a) Mostrare che E(e
X
1
) < se <

e E(e
X
1
) = se >

. Mostrare la
formula
E(e
X
1
) =
_

0
P(X
1
log t ) dt.
b) Quanto vale
lim
n
X
n
log n
?
c) Sia (X
n
)
n
una successione di v.a. i.i.d. di legge N(0, 1). Quanto vale
lim
n
[X
n
[
_
log n
?
E3.3 a) La successione di v.a. (X
n
)
n
converge in probabilit alla v.a. X se e solo se da
ogni sottosuccessione (X
n
k
)
k
si pu estrarre una ulteriore sottosuccessione (X
n
k
h
)
h
tale
che X
n
k
h
P
X per h .
b) Perch largomento precedente non si applica alla convergenza q.c. ?
[a): si ricorda il seguente fatto elementare ma utilissimo: una successione reale (a
n
)
n
converge
verso un limite se e solo se da ogni sua sottosuccessione si pu estrarre una ulteriore sottosuc-
cessione convergente a .
b): attenzione agli eventi trascurabili ! Non sempre li si pu trascurare.]
E3.4 (Teorema di Lebesgue per la convergenza in probabilit) Sia (X
n
)
n
una successione
di v.a. tutte maggiorate in modulo da una medesima v.a. integrabile Z e tale che X
n
P
X.
Allora
lim
n
E(X
n
) = E(X) .
[Vedi il suggerimento al punto a) dellEsercizio 3.3.]
E3.5 Sia (X
n
)
n
una successione di v.a. i.i.d. e aventi varianza nita
2
. Poniamo, per
ogni n,

X
n
=
1
n
n
i=1
X
i
e
S
2
n
=
1
n 1
n
i=1
(X
i

X
n
)
2
Mostrare che la successione (S
2
n
)
n
converge q.c. e determinarne il limite.
E3.6 Sia (X
n
)
n
una successione di v.a. i.i.d. di varianza nita.
a) Consideriamo la v.a. X
1
X
2
. Quanto vale la sua media? Ha varianza nita?
b1) Poniamo
V
n
=
1
n
(X
1
X
2
X
3
X
4
. . . X
2n1
X
2n
)
La succesione (V
n
)
n
converge in probabilit? q.c. ? Quanto vale il limite?
b2) E se fosse
V
n
=
1
n
(X
1
X
2
X
2
X
3
. . . X
2n1
X
2n
)?
c) Supponiamo per di pi che sia E(X
4
i
) < . Le successioni
W
n
=
1
n
(X
4
1
. . . X
4
n
)
U
n
=
X
2
1
. . . X
2
n
X
4
1
. . . X
4
n
sono convergenti in probabilit? q.c. ? A che limite?
E3.7 Sia (X
n
)
n
una successione di v.a. indipendenti di Poisson di parametro e poniamo
X
n
=
1
n
(X
1
. . . X
n
).
a) Stimare con la disuguaglianza di Chebyshev la probabilit
(3.14) P([

X
n
[ )
b) Stimare la stessa quantit usando lapprossimazione normale.
c) Confrontare le due stime per = 1, = 10
2
, n = 10000.
E3.8 Sia (X
n
)
n
una successione di v.a. e supponiamo X
n
(n, ).
a) Quanto vale P(X
1
>
1
)? E P(X
3
>
3
)?
b) Calcolare quanto vale approssimativamente
P(
1
n
X
n
>
1
)
Esercizi 87
per n grande.
E3.9 Sia (X
n
)
n
una successione di v.a. indipendenti, tutte di legge uniforme sullinter-
vallo [0, 2a].
a) Calcolare media e varianza delle X
i
.
b) Calcolare, per n e per x R ssato, il limite della probabilit
P(X
1
. . . X
n
> na x
n)
Quanto vale questo limite per a = 2, x = 2?
E3.10 Un calcolatore addiziona un milione di numeri e in ognuna di queste operazioni
viene effettuato un errore di arrotondamento; supponiamo che i singoli errori siano tra
loro indipendenti e abbiano distribuzione uniforme su [0.5 10
10
, 0.5 10
10
] (cio
supponiamo che la decima cifra decimale sia signicativa). Qual la probabilit che
lerrore nale sia pi piccolo in valore assoluto di 0.5 10
7
? (cio qual la probabilit
che la settima cifra decimale sia signicativa?) Qual la probabilit che lerrore sia pi
piccolo in valore assoluto di 0.5 10
8
?
E3.11 Un dado equilibrato viene lanciato 900 volte e indichiamo con X il numero di
volte in cui compare il 6.
a) Quanto vale E(X)? Quanto vale P(X 180)?
b) Supponiamo di sapere dellesistenza di una partita di dadi truccati che producono
il 6 con probabilit
2
9
. Per decidere se un dado di questi ultimi usiamo la procedura
seguente: esso viene lanciato 900 volte e decidiamo che esso truccato se si ottiene il
6 pi () di 180 volte. Qual la probabilit che un dado truccato venga effettivamente
individuato?
E3.12 n carte numerate da 1 a n vengono girate successivamente. Diciamo che al
tempo i si ha una coincidenza (matching, in inglese) se la i-esima carta girata proprio
la numero i. Indichiamo con X il numero totale di matching. Indichiamo con X
i
la v.a.
indicatrice dellevento A
i
= {si ha un matching al tempo i].
a1) Qual la legge della v.a. X
i
?
a2) Quanto vale E(X)?
a3) Quanto vale P(A
1
A
2
. . . A
k
), k n?
a4) Quanto vale E(X
i
X
j
)? Quanto vale Var(X)?
b) Indichiamo con Gla funzione generatrice delle probabilit di X(che naturalmente
dipende da n).
b1) Quanto vale G
/
(1)? E G
//
(1)?
b2) Mostrare che, per ogni k n, si ha
X(X 1) . . . (X k 1) =
1
A
i
1
...A
i
k
dove la somma viene fatta su tutte le k-uple di indici distinti (i
1
, . . . , i
k
) {1, . . . , n]
k
.
b3) Mostrare che G
(k)
= 1 per ogni k n.
b3) Mostrare che, per n , la legge di X converge a una legge notevole e deter-
minarla.
E3.13 a) Consideriamo una v.a. reale Z di densit
(3.15) f (t ) =
1
2t
1
[e
1
,e]
(t ).
Calcolare la legge di X = log Z.
b) Sia X una v.a. N(0, 1); mostrare che E(e
X
) = e
2
/2
. Sia Y una v.a. reale di
legge N(,
2
); calcolare la media e la varianza di e
Y
. Calcolare la legge di e
Y
(legge
lognormale di parametri e
2
).
c) Sia (Z
n
)
n
una successione di v.a. indipendenti, tutte di legge data dalla densit
(3.15). Mostrare che (Z
1
. . . Z
n
)
1/
n
converge in legge ha una legge lognormale di
parametri e
2
e calcolarli. Quanto vale il limite lim
n
E[(Z
1
. . . Z
n
)
1/
n
] ?
E3.14 Un segnale consiste in una parola di n bit, ciascuno dei quali pu assumere i
valori 0 oppure 1. Nel corso della trasmissione ogni bit con probabilit p = 0.01 pu
essere distorto (cio pu essere mutato da 0 a 1 oppure da 1 a 0).
a) Qual il numero medio di bit distorti ? Qual la probabilit che un segnale di
1000 bit contenga bit distorti ? Qual la probabilit che contenga almeno 10 bit distorti ?
b) Per ridurre la distorsione si usa il seguente protocollo: ogni bit viene trasmesso
tre volte ed il vero valore viene deciso a maggioranza: il bit viene posto uguale ad A
(A = 0 oppure 1) se vi sono almeno due valori A tra quelli ricevuti. Qual ora la
probabilit che un singolo bit sia distorto? Qual la probabilit che un segnale di 1000
bit contenga bit distorti ?
E3.15 Nella trasmissione di unimmagine il colore di ogni pixel descritto da 8 bit,
cio da un vettore (a
1
, . . . , a
8
) dove a
1
, . . . , a
8
possono essere 0 oppure 1. Durante
la trasmissione di ogni singolo bit si pu avere una distorsione con probabilit p =
0.0002 = 2 10
4
; cio ogni bit trasmesso pu venire alterato (da 0 a 1 o da 1 a 0) con
probabilit p = 2 10
4
e per di pi indipendentemente da un bit allaltro.
a) Qual la probabilit che un singolo pixel venga trasmesso correttamente?
b) Unimmagine composta da 512256 = 131072 pixel. Qual il numero medio
di pixel distorti in unimmagine? Qual la probabilit che vi siano pi ( ) di 200 pixel
distorti ?
E3.16 Sia (X
n
)
n
una successione di v.a., dove per ogni n X
n

2
(n). Qual il
comportamento della successione (
1
n
X
n
)
n
? Si pu dire che converge in legge? In
probabilit?
E3.17 Sia (X
n
)
n
una successione di v.a. rispettivamente di legge geometrica di para-
metro p
n
=

n
. La successione (
1
n
X
n
)
n
converge in legge? In caso affermativo, qual
la legge limite?
Esercizi 89
E3.18 Sia (X
n
)
n
una successione di v.a. indipendenti tutte di legge di Poisson di para-
metro . Quanto vale il limite
lim
n
P(X
1
. . . X
n
n)?
al variare di > 0?
E3.19 Sia (X
n
)
n
una successione di v.a. indipendenti tali che
P(X
i
> x) =
_
x
se x > 1
1 se x 1
dove un numero > 1.
a) Calcolare media e varianza delle v.a. X
i
.
b) Poniamo Y
i
= log X
i
. Qual la legge di Y
i
?
c) Mostrare che la successione di v.a. ((X
1
X
2
. . . X
n
)
1/n
)
n
converge q.c. e deter-
minarne il limite.
E3.20 a) Sia (X
n
)
n
una successione di v.a. tutte di legge normale e supponiamo che
E(X
n
) = b
n
n
b Var(X
n
) =
2
n
n

2
Mostrare che X
n
N(b,
2
) per n .
b) Sia (Z
n
)
n
una successione di v.a. indipendenti e N(0,
2
). Consideriamo la
successione denita per ricorrenza da
X
0
= x R X
n1
= X
n
Z
n
dove < 1 (cio X
1
, . . . , X
n
, . . . sono le posizioni successive di un mobile che ad ogni
istante si sposta dalla posizione attuale X
n
in X
n
ma subisce anche una perturbazione
Z
n
). Qual la legge di X
1
? E quella di X
2
? Mostrare che, per n , X
n
converge in
legge ad una v.a. di cui si preciser la distribuzione. Se
2
= 1, = 0.5, quanto vale la
probabilit che X
n
disti dallorigine meno di 1 per n grande?
E3.21 Sia X
1
, X
2
, . . . una successione di v.a. indipendenti, tutte di legge uniforme su
[0, 1] e poniamo
Z
n
= min(X
1
, . . . , X
n
)
a) La successione (Z
n
)
n
converge in legge per n ? Converge in probabilit?
b) Mostrare che la successione (nZ
n
)
n
converge in legge per n e determinare
la legge limite. Dare unapprossimazione della probabilit
P(min(X
1
, . . . , X
n
)
2
n
)
per n grande.
E3.22 Sia (X
n
)
n
una successione di v.a. indipendenti aventi la stessa legge, tutte di
media 0 e varianza
2
. Mostrare che la successione di v.a.
Z
n
=
(X
1
. . . X
n
)
2
n
converge in legge e determinarne il limite.
E3.23 Descrivere una procedura per simulare
a) Le leggi
2
(n), (n, ), (
n
2
, ), t (n), F(n
1
, n
2
).
b) Una legge di Poisson di parametro .
E3.24 (Leggi Beta) Sappiamo che per ogni , > 0 la funzione denita da
f (t ) =
( )
()()
t
1
(1 t )
1
0 t 1
e da f (t ) = 0 se t , [0, 1] una densit di probabilit; essa si chiama legge Beta di
parametri e e si indica con Beta(, ).
a) Mostrare che se X Beta(, ) allora
E[X] =

E[X
2
] =
( 1)
( )( 1)
Var(X) =

( )
2
( 1)
b) Mostrare che se n e X
n
Beta(n, n) allora X
n
converge in probabilit
e determinare il limite.
c) Si sa a priori che una moneta d testa con probabilit p ignota. Si saper che
p segue una legge (, ). La moneta viene lanciata n volte. Qual la probabilit di
ottenere testa k volte? Qual la legge condizionale di p sapendo che stato ottenuto
testa k volte? Calcolare media e varianza di questa legge condizionale e confrontarle
con quelle di una (, ). Qual secondo voi una buona stima di p (sempre sapendo
che in n lanci stato ottenuto testa k volte) ?
d) Come pensate che si possa simulare una legge Beta(, )?
E3.25 a) Sia (
n
)
n
la successione di probabilit su R data da
n
= (1
n
)
0

n
n
dove (
n
)
n
una successione di numeri reali compresi tra 0 e 1. Mostrare che (
n
)
n
converge strettamente se e solo se lim
n
n
= 0 e, in questo caso, calcolarne il limite.
b) Costruire un esempio di successione (
n
)
n
convergente strettamente ma tale che
le medie e le varianza di
n
non convergano alla media e alla varianza del limite.
Esercizi 91
0 1
0
1
2
3
........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................... .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.................................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.............
.............
.............
.............
.............
.............
.............
.............
.............
.............
............. ............. ............. ............. ............. ............. ............. ............. ............. .............
.............
.............
.............
.............
.............
.............
.............
.............
.............
.....
Figura 3.4 Graco di densit beta per tre valori del parametro: (2, 2) (puntini), (6, 3)
(tratto continuo) e (
1
2
,
1
2
) (trattini).
c) Sia (
n
)
n
una successione di probabilit su R. Mostrare che se stretta-
mente allora
lim
n
_
x
2
d
n

_
x
2
d
E3.26 In questo esercizio vediamo che la convergenza in legge, con una ipotesi addi-
zionale, implica la convergenza delle medie.
Siano X, X
n
, n 1 v.a. a valori R
m
.
a) Mostrare che, per ogni p > 0, |X|
p
lim
n
|X
n
|
p
.
b) Supponiamo che esista una costante M R tale che |X
n
|
p
M.
b1) Mostrare che, per ogni R > 0, P([X
n
[ > R) MR
p
.
b2) Sia : R
m
R una funzione tale che
0 (x) 1 per ogni x R
m
.
(x) = 1 per [x[ R.
(x) = 0 per [x[ R 1.
Mostrare che
[E(X
n
) E((X
n
))[
[E(X) E((X))[
b3) Mostrare che lim
n
E(X
n
) = E(X).
E3.27 a) Mostrare che se X
n

2
(n) allora
X
n
n
2n
N(0, 1)
b) (Approssimazione di Fisher) Mostrare che
_
2X
n

_
2n 1

N(0, 1)
c) Derivare a partire sia da a) che da b) delle approssimazioni della funzione di
ripartizione delle leggi
2
(n). Utilizzarle per ricavare valori approssimati del quantile
di ordine 0.95 di una v.a.
2
(100) e confrontarli con il valore esatto 124.34. Quale delle
due approssimazioni migliore?
[a) Basta scrivere X
n
come somma di n v.a.
2
(1). b) Si usa il Lemma di Slutsky (Proposizione
3.30). c) a) d
F
n
(x)
_
x n
n
_
mentre b)
F
n
(x) (
2x
2n 1)
Tenendo conto che il quantile di ordine 0.95 di una N(0, 1) 1.65, la prima approssimazione d
x = 1.65
200 100 = 123.334

mentre la seconda
x =
1
2
(1.65
199)
2
= 124.137
Lapprossimazione di Fisher, trovata in b), resta migliore anche per valori di n pi grandi. Ecco i
valori dei quantili per alcuni valori di n e le loro approssimazioni.
200 300 400 500
2
(n) 233.99 341.40 447.63 553.13
1
2
(
2n 1)
2
233.71 341.11 447.35 552.84
2n
n 232.90 340.29 446.52 552.01

E3.28 (Teorema di Scheff)Siano ,
n
, n 1 misure di probabilit su uno spazio
misurabile (E, ) e supponiamo che esista una misura su (E, ) tale che e le
n
abbiano densit f e f
n
rispettivamente rispetto a . Supponiamo che sia
lim
n
f
n
(x) = f (x)
tranne al pi per un insieme di valori x di -misura nulla.
a) Mostrare che
sup
A
[
n
(A) (A)[ =
1
2
_
E
[f
n
f [ d 0
b) Mostrare che, se per di piE unospaziotopologico, allora
n
strettamente.
c) Mostrare, con un esempio, che si pu avere
n
strettamente senza che si
abbia convergenza delle densit.
[a): se
n
= f f
n
, allora
_

n
d = 0 e se A
_
A
n
d =
_
A
C
n
d ]
Esercizi 93
E3.29 a) Siano (
n
)
n
e (
n
)
n
successioni di probabilit su R
d
, convergenti strettamente
alle probabilit e rispettivamente. Allora
n

n

n

n

b) Se
indica una probabilit N(0,

2
), mostrare che
0

E3.30 a) Sia (X
n
)
n
una successione di v.a. reali tutte di legge normale e supponiamo
che X
n
L
2
X. Mostrare che anche X ha legge normale.
b) Sia (, , P) uno spazio di probabilit. Mostrare che linsieme delle v.a. reali di
legge normale denite su (, , P) costituisce un chiuso di L
2
(, , P). Costituiscono
anche uno spazio vettoriale?
c) (Pi difcile) Mostrare che laffermazione del punto a) resta vera anche se la
convergenza ha luogo solo in legge.
[a): se X
n
N(m
n
,
2
n
) allora
X
n
() = e
i,m
n
)
e
2
n
,)
e la convergenza in L
2
implica la convergenza della media e della varianza.
b) implica a) ma pi difcile. Si suppone prima che le X
n
siano centrate e si mostra che
le varianze devono restare limitate. Se (Z
n
)
n
sono v.a. indipendenti dalle (X
n
)
n
ma tali che
Z
n
X
n
allora (X
n
Z
n
)
n
converge in legge, centrata e dunque le varianze di X
n
Z
n
devono
restare limitate. Poich la varianza di X
n
Z
n
due volte la varianza di X
n
, si ha che se
X
n

necessariamente le varianze
2
n
devono restare limitate. Si pu dimostrare ora che anche le medie
b
n
sono limitate. Riprendendo largomento di a) si vede che per ogni valore di aderenza
2
e b
di (
2
n
)
n
e (b
n
)
n
rispettivamente vi una sottosuccessione di (
X
n
)
n
che converge a una legge
N(b,
2
). Poich (
X
n
)
n
converge chiaro che b
n
b,
2
n

2
e
X
n
N(b,
2
).]
E3.31 (Dimostrazione del Teorema 2.23, dinversione) Indichiamo con
una legge
N(0,
2
) e con
la sua densit. Allora

a) Mostrare che
(x) =
1
2
_

()e
ix
d
b) Sia una probabilit su R. Mostrare che
ha densit rispetto alla misura

di Lebesgue data da
f
(x) =
1
2
_
e
1
2
2
()e
ix
d
c) Supponiamo L
1
. Mostrare che f
converge puntualmente verso

(3.16) f (x) =
1
2
_
()e
ix
d
d) Mostrare che, se integrabile, allora ha densit rispetto alla misura di Lebe-
sgue data dalla funzione f in (3.16).
E3.32 (Convergenza delle leggi empiriche) Sia (X
n
)
n
una successione di v.a. indipen-
denti, tutte di legge a valori nello spazio metrico E, localmente compatto e separabile.
Per ogni e per ogni n consideriamo la misura su E Z
n
=
1
n
n
i=1
X
i
.
a) Mostrare che per ogni n Z
n
una v.a. a valori in
1
(E), munito della -algebra
di Borel della topologia della convergenza stretta (vedi lesercizio precedente).
b) Mostrare che Z
n
.
[Si tratta di provare che
n
(f ) (f ) per ogni tranne al pi per un insieme di trascurabile
(le probabilit
n
dipendono da ). Ma per ogni f
b
si ha
(3.17)
n
(f ) =
1
n
n
i=1
f (X
i
) (f )
q.c. per la legge forte di Rajchman. Attenzione per, nella () linsieme di misura nulla dipende
dalla funzione f : per terminare occorre mostrare lesistenza di un insieme di misura nulla tale che
(3.17) valga qualunque sia f ; usare lOsservazione 3.14.]
4
Problemi
In questo capitolo sviluppiamo alcuni esercizi che sono pi articolati di quelli proposti
nei capitoli precedenti, anche se comunque non fanno che applicare la teoria sviluppata
nora. Si consiglia al lettore di cimentarsi comunque, magari in gruppo, prima di
ricorrere alla soluzione, che viene fornita nellultimo paragrafo.
4.1 Problemi al capitolo 1
Problema 4.1 Sia una misura nita sullo spazio misurabile (E, ).
a1) Mostrare che, se 0 p q, allora [x[
p
1 [x[
q
per ogni x R.
a2) Mostrare che, se f L
q
,
(4.1) lim
pq
|f |
p
= |f |
q
a3) Mostrare che lim
pq
|f |
p
|f |
q
.
a4) Mostrare che si ha sempre (cio anche se f , L
q
) lim
pq
_
[f [
p
1
{[f [1]
d =
_
[f [
q
1
{[f [1]
d. Mostrare che la (4.1) vale anche senza lipotesi f L
q
.
a5) Costruire un esempio di funzione che appartiene a L
q
per un dato valore di q,
ma che non appartiene a L
p
per ogni p > q. Mostrare che in generale non si ha
lim
pq
|f |
p
|f |
q
.
b1) Sia f : E R una funzione misurabile. Mostrare che
lim
p
|f |
p
|f |
b2) Sia M 0. Mostrare che, per ogni p 0,

_
[f [
p
d M
p
([f [ M)
Paolo Baldi
96 Capitolo 4. Problemi
b3) Quanto vale lim
p
|f |
p
?
Problema 4.1 Siano X
1
, . . . , X
n
v.a. indipendenti di legge esponenziale di parametro
e poniamo
Z
n
= max(X
1
, . . . , X
n
) .
a) Mostrare che la v.a. Z
n
ha una legge data da una densit rispetto alla misura di
Lebesgue e calcolarla. Quanto vale la media di Z
2
? E di Z
3
?
b) Mostrare che la trasformata di Laplace di Z
n
vale
n(n)
(1

)
(n 1

)
c) Dimostrare che per la funzione

/
()
()
( la derivata del logaritmo della funzione ) vale la relazione
(4.2)

/
( 1)
( 1)
=
1

/
()
()

Quanto vale E(Z
n
)?
Problema 4.2 a1) Mostrare che
_
i
i
e
iz
cosh z
dz = e
e
ix
cosh x
dx .
a2) Usando il metodo dei residui e il contorno della Figura 4.1 calcolare lintegrale
_

e
ix
cosh x
dx .
Determinare la costante c tale che la funzione
(4.3) x
c
cosh x
sia una densit di probabilit.
R 0 R
............ . . . . . . . . . . . . . . . . . . . . . . . . .
..........................
............. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
.....................................
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . ...........................
..........................
i
i
2
Figura 4.1
97
b1) Mostrare che
1
cosh
2
z
=
1
(z i
2
)
2
_
1
1
3
(z i
2
)
2
o((z i
2
)
2
)
_
.
b2) Calcolare
_

e
ix
cosh
2
x
dx .
Determinare una costante c
2
in modo che la funzione
(4.4) x
c
2
cosh
2
x
sia una densit di probabilit.
c) Siano X, Y v.a. indipendenti, entrambe di legge data da (4.3). Qual la funzione
caratteristica di X Y ? E la densit?
d) Mostrare che
2
2
x
sinh x
una densit di probabilit.
Problema 4.1 Sia (X
n
)
n
una successione di v.a. i. i.d. su uno stesso spazio di probabilit
(, , P), tali che 0 < E(X
1
) < . Per ogni consideriamo la serie di potenze
n=1
X
n
()x
n
e indichiamo con R() il suo raggio di convergenza.
Ricordiamo che R() =
_
lim
n
[X
n
()[
1/n
_
1
.
a) Mostrare che R una v.a. costante q.c.
b) Mostrare che esiste un numero a > 0 tale che P([X
n
[ a per inniti indici n) = 1
e dedurre che R 1 q.c.
c) Sia b > 1. Mostrare che
n=1
P([X
n
[ b
n
) < e dedurre il valore di R q.c.
Problema 4.2 Sia (X
n
)
n
una successione di v.a. positive i.i.d. Poniamo
= sup{ 0; E(e
X
1
) < ] R
{].
a) Mostrare che E(e
X
1
) < se <

e E(e
X
1
) = se >

. Mostrare la
formula
E(e
X
1
) =
_

0
P(X
1
log t ) dt.
b) Quanto vale
lim
n
X
n
log n
?
c) Sia (X
n
)
n
una successione di v.a. i.i.d. di legge N(0, 1). Quanto vale
lim
n
[X
n
[
_
log n
?
Problema 4.3 n carte numerate da 1 a n vengono girate successivamente. Diciamo che
al tempo i si ha una coincidenza (matching, in inglese) se la i-esima carta girata proprio
la numero i. Indichiamo con X il numero totale di matching. Indichiamo con X
i
la v.a.
indicatrice dellevento A
i
= {si ha un matching al tempo i].
a1) Qual la legge della v.a. X
i
?
a2) Quanto vale E(X)?
a3) Quanto vale P(A
1
A
2
. . . A
k
), k n?
a4) Quanto vale E(X
i
X
j
)? Quanto vale Var(X)?
b) Indichiamo con Gla funzione generatrice delle probabilit di X(che naturalmente
dipende da n).
b1) Quanto vale G
/
(1)? E G
//
(1)?
b2) Mostrare che, per ogni k n, si ha
(4.5) X(X 1) . . . (X k 1) =
1
A
i
1
...A
i
k
dove la somma viene fatta su tutte le k-uple ordinate di indici distinti (i
1
, . . . , i
k
)
{1, . . . , n]
k
.
b3) Mostrare che G
(k)
= 1 per ogni k n. Quanto vale G
(k)
(1) per k > n?
b3) Mostrare che, per n , la legge di Xconverge a una legge nota e determinarla.
4.4 Soluzioni
S4.1 a1) Se [x[ 1, allora [x[
p
1, se invece [x[ 1, allora [x[
p
[x[
q
. Dunque, in
ogni caso, [x[
p
1 [x[
q
.
a2) Se p q, allora [f [
p
[f [
q
. Inoltre, per a1), [f [
p
1 [f [
q
. Poich [f [
q
integrabile, cos come pure la funzione 1, poich la misura supposta nita, si pu
applicare il teorema di Lebsgue, per cui
lim
pq
_
[f [
p
d =
_
[f [
q
d
a3) Se p q, allora [f [
p
[f [
q
e basta applicare il lemma di Fatou.
Esercizio 4.1 99
a4) Si ha f
p
1
{[f [1]
f
q
1
{[f [1]
se p q. Basta quindi applicare il teorema di
Beppo Levi. Si ha quindi
lim
pq
_
[f [
p
d = lim
pq
_
[f [
p
1
{[f [1]
d lim
pq
_
[f [
p
1
{[f [<1]
d =
=
_
[f [
q
1
{[f [1]
d
_
[f [
q
1
{[f [<1]
d =
_
[f [
q
d,
dove, per passare al limite per entrambi gli integrali si usato il teorema di Beppo Levi
(per il second0 si pu anche usare il teorema di Lebesgue).
a5) La funzione
f (x) =
1
x log
2
x
1
[0,
1
2
]
(x)
integrabile (la primitiva di (x log
2
x)
1
(log x)
1
). Ma [f [
p
non integrabile, per
ogni p > 1. Per questa funzione, dunque, |f |
1
< , mentre lim
p1
|f |
p
= .
b1) Si ha, q.o., [f [
p
|f |
p
. Dunque
_
[f [
p
d |f |
p
(E).
Dunque
lim
p
|f |
p
|f |
lim
p
(E)
1/p
= |f |
b2) Si ha [f [
p
[f [
p
1
{[f [M]
M
p
1
{[f [M]
. Dunque
_
[f [
p
d
_
M
p
1
{[f [M]
d = M
p
([f [ M).
b3) Per denizione, se M < |f |
, ([f [ M) > 0. Dunque, per ogni M < |f |
e grazie a c2),
|f |
p
M([f [ M)
1/p
da cui lim
p
|f |
p
M e, per larbitrariet di M,
lim
p
|f |
p
|f |
.
Si conclude combinando con b1).
S4.1 a) Il metodo della funzione di ripartizione d immediatamente, per x 0,
F
n
(x) = P(Z
n
x) = P(X
1
x, . . . , X
n
x) = P(X
1
x)
n
= (1 e
x
)
n
Derivando si trova la densit
f
n
(x) = ne
x
(1 e
x
)
n1
per x 0 e f
n
(x) = 0 per x < 0. Ricordando, dallespressione della media delle leggi
esponenziali, che
_
xe
x
dx =
2
,
E(Z
2
) = 2
_

xe
x
(1 e
x
) dx = 2
_

xe
x
1 xe
2x
) dx =
= 2
_
1
2

1
4
2
_
=
1
3
2
Inoltre
E(Z
3
) = 3
_

xe
x
(1 e
x
)
2
dx = 3
_

xe
x
2xe
2x
xe
3x
dx =
= 3
_
1
2

2
4
2

1
9
2
_
=
1
11
6

b) Si ha, per z R,
E(e
zZ
n
) = n
_

e
zx
e
x
(1 e
x
)
n1
dx
Questo integrale chiaramente diverge se z . Altrimenti poniamo e
x
= t , quindi
e
x
= dt , e
zx
= t
z/
e, ricordando la relazione
_
1
0
t
1
(1 t )
1
dt =
()()
( )
(vedi lespressione delle leggi Beta),
n
(z) = E(e
zZ
n
) = n
_
1
0
t
z/
(1 t )
n1
dt = n(n)
(1
z
)
(n 1
z
c) Dalla relazione fondamentale della funzione ,

(4.6) ( 1) = (),
derivando si trova
/
( 1) = ()
/
() e dividendo per ( 1) ambo i membri
e usando la (4.6), si trova la (4.2).
Per calcolare la media di Z
n
calcoliamo la derivata della trasformata di Laplace
allorigine. Si ha
/
n
(z) = n(n)
(n 1
z
)
/
(1
z
)
1
/
(n 1
z
)(1
z
)
(n 1
z
)
2
=
=
n(n)
(n 1
z
)
_
/
(n 1
z
)(1
z
)
(n 1
z
)

/
(1
z
)
_
.
Esercizio 4.2 101
Per z = 0,
(4.7)
/
n
(0) =
n(n)
(n 1)
_
/
(n 1)
(n 1)

/
(1)
_
.
Ricordiamo che n(n) = (n 1), mentre, per (4.2),
/
(n 1)
(n 1)
=
1
n

/
(n)
(n)
= . . . =
1
n

1
n 1
. . . 1
/
(1)
e quindi sosituendo nella (4.7),
E(Z
n
) =
1
_
1
1
2
. . .
1
n
_
.
S4.2 a1) Si ha e
i
= e
i
= 1 e quindi
cosh(x i) =
e
xi
e
xi
2
=
e
x
e
x
2
= cosh x .
Dunque
e
i(xi)
cosh(x i)
= e
e
ix
cosh x
a2) Nel semipiano superiore la funzione cosh si annulla per z = i
2
. Calcoliamo
il residuo, per z = i
2
della funzione z e
iz
(cosh z)
1
. Poich cosh
/
= sinh e
sinh i
2
= i, cosh z = i(z i
2
) o(z i
2
). Dunque
lim
z
2
e
iz
cosh z
(z i
2
) = e

2
1
i

Se integriamo sul contorno della Figura 4.1, i contributi dellintegrale sui lati corti ten-
dono a 0 per R perch
[ cosh z[ =
1
2
([e
z
e
z
[)
1
2
([e
z
[ [e
z
[)
1
2
(e
R
1)
e dunque lintegrale sul lato corto
R
2
(e
R
1). Dunque, al limite per R ,
usando a1) e la formula dei residui,
2i
1
i
e
1
2
=
_

e
ix
cosh x
dx
_
i
i
e
iz
cosh z
dz = (1 e
)
_

e
ix
cosh x
dx
Dunque
_

e
ix
cosh x
dx =
2
e
1
2
(1 e
)
=

cosh(

2
)

Poich questa funzione vale per = 0, ne segue che
1
cosh x
una densit di probabilit e che la sua funzione caratteristica
1
() =
1
cosh(

2
)
b) Con un po di pazienza si trova successivamente

cosh z = i(z i
2
)
i
6
(z i
2
)
3
o((z i
2
)
3
)
cosh
2
z = (z i
2
)
2
1
3
(z i
2
)
4
o((z i
2
)
4
)
1
cosh
2
z
=
1
(z i
2
)
2
1
1
1
3
(z i
2
)
2
o((z i
2
)
2
)
=
=
1
(z i
2
)
2
_
1
1
3
(z i
2
)
2
o((z i
2
)
2
)
_
.
Poich, sviluppando in z = i
2
,
e
iz
= e

2
ie

2
(z i
2
) o(z i
2
)
moltiplicando i due sviluppi si trova che il residuo in z = i
2
vale
ie

2
.
Dunque
2i(ie

2
) =
_

e
ix
cosh
2
x
dx
_
i
i
e
iz
cosh
2
z
dz =
= (1 e
)
_

e
ix
cosh
2
x
dx
ovvero, se ,= 0,
(4.8)
_

e
ix
cosh
2
x
dx =
2e

2
1 e
=

sinh(

2
)
Poich sinh z z per z 0, si ha, mandando 0 nella relazione precedente,

_

1
cosh
2
x
dx = 2
Esercizio 4.1 103
e dunque
f (x) =
1
2 cosh
2
x
una densit di probabilit.
c) La funzione caratteristica di X Y (cosh(

2
))
2
. Poich si tratta di una
funzione integrabile, per il Teorema 2.23 dinversione, essa ha densit data da
g(x) =
1
2
_

e
x
cosh
2
(

2
)
d =
1
2
_

2x
y
cosh
2
y
dy .
Grazie a (4.8),
(4.9) g(x) =
2
2
x
sinh x
d) Conseguenza di (4.9).
S4.1 a) R
-misurabile poich
{R b] =
_
qQ,[q[<b
_
n
[X
n
[[q[
n
<
_
e quindi per il Lemma 0-1 q.c. costante.
b) Sia a > 0 tale che P([X
n
[ a) > 0, allora

n
P([X
n
[ a) =
n
P([X
1
[
a) = . Quindi per il lemma di Borel-Cantelli
P( lim
n
{[X[
n
a]) = 1,
e quindi
P( lim
n
[X
n
[
1/n
1) = 1,
cio P(R 1) = 1.
c) per ogni b > 1, per la disuguaglianza di Markov
n=1
P([X
n
[ b
n
) maggiorata
da una serie geometrica convergente, quindi per il lemma di Borel-Cantelli
P
_
lim
n
{[X
n
[ b
n
]
_
= 0
cio
P([X
n
[
1/n
< b denitivamente) = 1
e quindi
P
_
lim
n
[X
n
[
1/n
1
_
= 1
cio P(R 1) = 1.
S4.2 Per denizione di estremo superiore, <

implica che esiste tale che E(e
X
1
)
E(e
X
1
) < , mentre >

implica E(e
X
1
) = . Inoltre
E(e
X
1
) =
_

0
P(e
X
1
> t ) dt =
_

0
P(X
1

1
log t ) dt
b) Sia >
1
. Studiamo il comportamento della serie

(4.10)
n=1
P(X
n
> log n)
Se
1
< <

, per la disuguaglianza di Markov,
P(X
n
> log n) = P(X
n
> log n) = P(e
X
n
> n
)
E(e
X
n
)
n

che, poich > 1, il termine generale di una serie convergente.
Se invece <
1
la serie diverge. Infatti
n=1
P(X
n
> log n)
n=1
_
n1
n
P(X
1
> log n) dt =
n=1
_
n1
n
P(X
1
> log t ) dt =
_

1
P(X
1
> log t ) dt.
Poich
P(X
1
> log t ) = E(e
1
X
1
) 1.
La serie (4.10) diverge se <
1
. Dunque se <
1
, per il lemma di Borel-Cantelli,

P
_
lim
n
{
X
n
log n
]
_
= 1
e quindi P(lim
n
X
n
log n

1
) = 1. Se invece >
1
, il lemma di Borel-Cantelli d
P(lim
n
{
X
n
log n
]) = 0, cio
P
_
lim
n
_
X
n
log n

_
_
= 1,
Esercizio 4.3 105
e quindi P(lim
n
X
n
log n

1
) = 1. Poich q.c. valgono sia lim

n
X
n
log n

1
che
lim
n
X
n
log n

1
, si conclude che
P
_
lim
n
X
n
log n
=
1
_
= 1.
b) Se

= , per il lemma di Borel-Cantelli P(lim
n
{
X
n
log n
]) = 0 per ogni
> 0 e quindi lim
n
X
n
log n
= 0 q.c.
c) Si ha
(4.11) lim
n
[X
n
[
_
log n
= lim
n
_
[X
n
[
2
log n
e poich [X
n
[
2
ha legge
2
(1), basta calcolare il valore di
1
per le leggi
2
(1). Queste
hanno densit f (x) =
1
2
1
2
x
, per x > 0 e f (x) = 0 per x < 0. Dunque
E(e
X
1
) =
1
2
_

0
e
(
1
2
)x
dx.
Questo integrale converge per <
1
2
e diverge per
1
2
. Dunque

=
1
2
ed il lim nella
(4.11) vale

2.
S4.3 1. a1) X
i
di Bernoulli B(1,
1
n
).
a2) Poich X = X
1
. . . X
n
, dal punto precedente segue che E(X) = 1.
a3)
P(A
1
. . . A
n
) =
(n k)!
n!
=
1
n(n 1) . . . (n k 1)
a4) Si ha
Var(X) =
n
i=1
Var(X
i
)
i,=j
Cov(X
i
, X
j
)
Si ha chiaramente Var(X
i
) =
1
n
(1
1
n
). Inoltre la v.a. X
i
X
j
vale 1 se si hanno matching
ai posti i e j e 0 se no. Si tratta dunque ancora di una v.a. di Bernoulli. Con una semplie
applicazione della legge ipergeometrica, si vede che la probabilit di avere matching ai
posti i e j vale p =
1
n(n1)
. Dunque E(X
i
X
j
) =
1
n(n1)
e
Cov(X
i
, X
j
) = E(X
i
X
j
) E(X
i
)E(X
j
) =
1
n(n 1)

1
n
2
=
1
n
2
(n 1)
Riprendendo il calcolo si trova
Var(X) = n
1
n
_
1
1
n
_
n(n 1)
1
n
2
(n 1)
= 1
Da notare che, per a2) e a3), media e varianza di X non dipendono da n. Nel punto b)
si calcola la distribuzione limite di X per n . Qual una legge nota che ha media e
varianza uguali a 1?
b1) Si calcola immediatamente, G
/
(1) = E(X) = 1 e
G
//
(1) = E(X(X 1)) = Var(X) E(X)
2
E(X) = 1.
b2) Per far vedere che vale la (4.5) si pu procedere per induzione. Laffermazione
ovvia per k = 1. Se la ammettiamo al livello k e ricordando che X =
n
j=1
1
A
j
, si ha
(4.12)
X(X 1) . . . (X k 1)(X k) =
1
A
i
1
...A
i
k
_
n
j=1
1
A
j
k
_
=
=
_
n
j=1
1
A
i
1
...A
i
k
1
A
j
k1
A
i
1
...A
i
k
_
Ora nella somma
n
j=1
1
A
i
1
...A
i
k
1
A
j
per i
1
, . . . , i
k
ssati, vi sono k termini uguali a 1
A
i
1
...A
i
k
, corrispondenti ai valori
j = i
1
, . . . , i
k
. Gli altri termini invece sono della forma 1
A
i
1
...A
i
k1
, con i
1
, . . . , i
k1
distinti tra loro. Quindi riprendendo il calcolo
X(X 1) . . . (X k 1)(X k) =
i
1
...i
k
j,=i
1
,...,j,=i
k
1
A
i
1
...A
i
k
A
j
=
=
i
1
...i
k1
1
A
i
1
...A
i
k1
.
Un altro modo, pi intuitivo, per provare la (4.5) il seguente. Il termine di sinistra si
annulla se X k 1. Quello di destra pure perch, se vi sono meno di k 1 matching,
gli eventi A
i
1
. . . A
i
k
sono tutti vuoti. Viceversa, se X = j k, allora nella somma di
destra vi sono
j!
(jk)!
= j (j 1) . . . (j k 1) termini uguali a 1, e ancora i due membri
sono uguali. b3) Poich, per k n, le k-uple ordinate di indici distinti dallinsieme
{1 . . . n] hanno cardinalit n(n1) . . . (nk1) e G
(k)
(1) = E[X(X1) . . . (Xk1)],
da a3) si ottiene subito che G
(k)
(1) = 1, per ogni k n. Per k > n, si ha subito G
(k)
= 0.
Infatti la v.a. X pu prendere al pi il valore n e, dunque la sua funzione generatrice
un polinomio di grado n.
b4) Dal punto precedente si ricava che la funzione generatrice di X vale
(4.13) G(z) =
n
k=1
(z 1)
k
k!
Esercizio 4.3 107
e quindi per n si ha
G(z)
k=1
(z 1)
k
k!
= e
z1
che la funzione generatrice di una v.a. di Poisson di parametro 1. Ci fa pensare che
X converga in legge verso questa distribuzione. Anzi questo fatto sarebbe provato se si
sapesse che la convergenza delle funzioni generatrici implica la convergenza delle leggi.
Questo fatto, certamente vero, non per facile da trovare in letteratura. Per concludere
rigorosamente si pu sviluppare la (4.13) per ottenere una espressione esplicita della
probabilit P(X = i) e poi farne il limite per n . Si ha (z1)
k
=
k
i=1
_
k
i
_
z
i
(1)
ki
.
Dunque
G(z) =
n
k=1
1
k!
k
i=1
_
k
i
_
z
i
(1)
ki
=
n
i=1
z
i
n
k=i
1
k!
_
k
i
_
(1)
ki
=
=
n
i=1
z
i
i!
n
k=i
1
(k i)!
(1)
ki
=
n
i=1
z
i
i!
ni
j=1
1
j!
(1)
j
da cui si ricava
P(X = i) =
1
i!
ni
j=1
1
j!
(1)
j
n
e
1
1
i!
che conclude rigorosamente il calcolo della legge limite.
Indice analitico
-additivit, 4
-algebra di Borel, 1
-algebre, 1
indipendenti, 17
algebre, 1
Borel-Cantelli, lemma, 60
Carathodory, teorema, 5
Cauchy, legge, 55
Chebyshev, disuguaglianza, 24
classi monotone, 1
teorema, 2
Cochran, teorema, 42
convergenza
in L
p
, 62
in legge, 73
in probabilit, 62
quasi certa, 62
stretta, 66
covarianza, 24
matrice, 26
densit, 12
distribuzioni condizionali, 46
per le gaussiane multivariate, 48
disuguaglianza
di Chebyshev, 24
di Hlder, 9, 22
di Jensen, 21
di Markov, 24
di Minkowski, 9, 22
di Schwartz, 9, 22
eventi, 15
Fisher, approssimazione, 89
Fubini, teorema, 14
funzione di ripartizione, 15
funzioni
integrabili, 7
semi-integrabili, 7
funzioni caratteristiche, 26
Hlder, disuguaglianza, 9, 22
indipendenza
di -algebre, 17
di v.a., 18
Jensen, disuguaglianza, 21
Paolo Baldi
Kolmogorov
legge 0-1, 20
legge forte, 66
Lebesgue
misura, 6, 14
teorema, 8
legge forte
di Kolmogorov, 66
di Rajchmann, 65
leggi
beta, 87
condizionali, 46
dei grandi numeri, 65
di Cauchy, 55
di Rayleigh, 53
di Student, 43
lognormali, 85
normali multivariate, 38
lemma
di Borel-Cantelli, 60
di Slutsky, 81
lemma di Fatou, 8
Markov, disuguaglianza, 24
masse di Dirac, 11
matching, 85, 96
matrice di covarianza, 26
metodo delta, 81
Minkowski, disuguaglianza, 9, 22
misura di Lebesgue, 6, 14
misure, 4
-nite, 4
denite da una densit, 12
di Borel, 5
di Dirac, 11
di probabilit, 4
nite, 4
immagine, 11
su unalgebra, 4
momenti di una v.a., 23
ordinamenti stocastici, 52
Pearson, teorema, 76
Radon-Nikodym, teorema, 13
Rajchmann, legge forte, 65
Rayleigh, legge, 53
retta di regressione, 25
Scheff, teorema, 90
Schwartz, disuguaglianza, 9, 22
Slutsky, lemma, 81
spazi L
p
, 9
spazi di misura, 4
completi, 6
speranza matematica, 15
teorema
dinversione, 33, 91
di Beppo-Levi, 7
di Carathodory, 5
di Cochran, 42
di derivazione sotto il segno, 8
di Fubini, 14
di Lebesgue, 8
di Pearson, 76
di Radon-Nikodym, 13
di Scheff, 90
limite centrale, 75
trascurabile
insieme, 6
trasformata di Laplace complessa, 34
variabili aleatorie, 15
centrate, 16
indipendenti, 18
non correlate, 25
varianza di una v.a., 23

Paolo Baldi - Calcolo Delle Probabilità

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Paolo Baldi - Calcolo Delle Probabilità

Uploaded by

Copyright:

Available Formats

Universit di Roma - Tor Vergata

Corso di Laurea in Matematica

], (R) = ((R), {], {]) e (R

= sup(f, 0), sup f

linsieme delle funzioni misurabili positive, cio a valori R

(possono quindi anche

limite di une successione crescente di funzioni di e

= f 0 (le parti positiva e negativa di f ). Si pu

d siano nite. f si dice

d < . In questo caso linte-

d < . In questo caso linte-

hanno entrambe integrale nito.

una successione crescente, allora

= inf(M, ([f [ > M) = 0).

. Lapplicazione I a le propriet seguenti:

, I (af bg) = I (af ) I (bg);

tale che valgano le i) e ii) precedenti.

, si ha P(A) = 0 oppure P(A) = 1. Per di pi, se X una v.a.

-misurabile, X costante q.c.

( la Proposizione 2.3 applicata a

, si ha dunque P(A) = P(A A) = P(A)P(A) i.e. P(A) = 0

-misurabile, P(X a) = 0 oppure P(X a) = 1.

che immediata perch

2.3 Disuguaglianze di convessit, momenti, covarianza 27

esista e che valga la

il dominio della TLC di .

contiene la striscia S = {z; x

simmetrica e semi-denita positiva. Si tratta anzi della

) ed la matrice cercata poich

= C (vedi Esercizio 3.17). Media e matrice di covarianza

). Le trasformazioni afni quindi trasformano leggi

il suo ortogonale, cio linsieme di tutti i vettori x di R

anchesso un sottospazio vettoriale di R

costituito dai vettori della

La prima delle (2)08 segue dal fatto che P

dei numeri x tali che F

dunque lunico numero reale x tale che

(n 1) il quantile di ordine della legge t (m1), abbiamo

(n 1) il quantile di ordine di una legge

R una funzione derivabile con

le rispettive funzioni di riparti-

siano funzioni strettamente cre-

siano strettamente crescenti ?

b) Calcolare la legge condizionale di X sapendo X

> 0 tale che (B

(che supporremo molto pi piccola della media

e dunque, per ogni > 0, per la disuguaglianza di Markov 2.13

X basta vericare che

U dove U una v.a. costante, allora U

un chiuso che ha probabilit 0 per la legge di U che la massa di Dirac

3.5 Il teorema limite centrale, il test del

p = 0, mentre Kx = x per ogni x ortogonale a

p, che ha dimensione m1. K ha quindi

, che una matrice diagonale che ha sulla diagonale m 1 volte 1 ed una

U dove U una v.a. costante che

200 100 = 123.334

n 232.90 340.29 446.52 552.01

indica una probabilit N(0,

la sua densit. Allora

ha densit rispetto alla misura

converge puntualmente verso

b2) Sia M 0. Mostrare che, per ogni p 0,

, ([f [ M) > 0. Dunque, per ogni M < |f |