Professional Documents
Culture Documents
bei PD Dr. J. Dippon Jan-Cornelius Molnar, Version: 21. Februar 2010 15:09
Inhaltsverzeichnis
0 Gegenstand der Vorlesung 1 Wahrscheinlichkeitsrume 1-A Algebren, Inhalte und Mae . . . . . . . . . . . . . . . . . . . . . . . . 1-B Wahrscheinlichkeitrume und -mae . . . . . . . . . . . . . . . . . . Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . Weitere Eigenschaften von Wahrscheinlichkeitsmaen . . . Fortsetzung von Wahrscheinlichkeitsmaen . . . . . . . . . . 1-C Verteilungsfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . 1-D Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . 2 Kombinatorische Wahrscheinlichkeitsrechnung 3 Zufallsvariablen und Verteilungen 3-A Mebare Abbildungen und Zufallsvariablen . . . . . . . . . . . . . . 3-B Bildmae und Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . Produktmessrume . . . . . . . . . . . . . . . . . . . . . . . . . 4 Erwartungswerte und Dichten 4-A Erwartungswert, Varianz und Lebesgue Integral . . . . . . . . . . . Erwartungswert mittels Riemann-Stieltjes-Integral . . . . . . Erwartungswert mittels Ma-Integral . . . . . . . . . . . . . . Eigenschaften des Erwartungswerts . . . . . . . . . . . . . . . 4-B Dichtefunktion und Zhldichte . . . . . . . . . . . . . . . . . . . . . . Der Transformationssatz . . . . . . . . . . . . . . . . . . . . . 4-C Momente von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . 6 8 8 15 17 19 21 24 27 33 38 42 42 50 53 58 58 59 60 64 68 73 77
Inhaltsverzeichnis
-1-
5 Unabhngigkeit 5-A Unabhngige Ereignisse und Zufallsvariablen . . . . . . . . . . . . . Unabhngige Zufallsvariablen . . . . . . . . . . . . . . . . . . . Faltungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5-B Null-Eins-Gesetz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Erzeugende und charakteristische Funktionen, Faltungen 6-A Erzeugende Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . .
82 83 85 89 91 98 98
Konvergenzstze der Matheorie . . . . . . . . . . . . . . . . 104 6-B Charakteristische Funktionen . . . . . . . . . . . . . . . . . . . . . . . 106 Eindeutigkeitssatz und Umkehrformeln . . . . . . . . . . . . 112 6-C Faltungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 7 Spezielle Verteilungen 122
7-A Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 7-B Totalstetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . 126 8 Gesetze der groen Zahlen 132
8-A Konvergenzbegrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 8-B Schwache und starke Gesetze der groen Zahlen . . . . . . . . . . . 135 9 Zentrale Grenzwertstze 144
9-A Schwache Konvergenz von Wahrscheinlichkeitsmaen in R . . . . 144 9-B Zentrale Grenzwertstze . . . . . . . . . . . . . . . . . . . . . . . . . . 159 Multivariate zentrale Grenzwertstze . . . . . . . . . . . . . . 170 10 Bedingte Erwartungen 174
10-AGrundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 11 Martingale A Begrie und Stze der Ma- und Integrationstheorie Literaturverzeichnis 188 204 206
Mathematisches Model
Axiomatische Theorie
Anwendung
Mathematische Eigenschaften
Theoreme
Gegenstand der Vorlesung ist es nicht, Aussagen darber zu treen, was Zufall oder Wahrscheinlichkeit konkret bedeutet. Wir haben die Absicht zu klren, welche Axiome fr eine Wahrscheinlichkeit gelten und welche Eigenschaften sie erfllen muss - sofern sie existiert.
Wahrscheinlichkeitsrume
1 Wahrscheinlichkeitsrume
1-A Algebren, Inhalte und Mae
Ziel dieses Abschnittes ist es, Abbildungen zu denieren, die einer Teilmenge eines Raumes ein Ma zuordnen, : P() R. Gehen wir von = R aus und betrachten zunchst nur Intervalle als Teilmengen, so ist es nur natrlich diesen auch ihre Lnge als Ma zuzuordnen, ((a, b]) = b a. G. Vitali1 hat jedoch bereits 1905 gezeigt, dass es nicht mglich ist, ein solches Ma dann fr alle Teilmengen von R, d.h. auf der Potenzmenge P(R) zurckzuziehen, d.h. man kann auch nur bestimmen Teilmengen von R mit einem solchen Ma vermessen. zu denieren, es ist also notwendig sich lediglich auf eine Teilmenge von P(R)
1-A
In der Wahrscheinlichkeitstheorie werden blicherweise als Denitionsbereich von Maen sogenannte -Algebren betrachtet.
1.1 Denition Sei eine nichtleere Menge. Ein System A von Teilmengen von
Ai A.
An A.
Diese Denition einer Algebra ist nicht mit der aus der Vorlesung Algebra zu verwechseln. Dennoch existieren Parallelen. Vereinigung und Schnittbildung knnte man als Addition und Multiplikation betrachten, das Komplement als Inverses und die leere Menge als Identitt.
1.1 Bemerkung. Ist A -Algebra, so ist A auch auch eine Algebra.
Wie wir noch sehen werden, besitzen Algebren zahlreiche angenehme Eigenschaften. Durch die Forderung dass Komplemente und Vereinigungen enthalten sind, ergibt sich beispielsweise automatisch, dass auch Schnitte und Dierenzen enthalten sind.
1.1 Lemma
A1 , . . . , Am A
n=1
An A.
An A.
Wahrscheinlichkeitsrume
Eine Algebra (bzw. -Algebra) enthlt somit stets und und ist abgeschlossen gegenber endlich (bzw. abzhlbar) vielen blichen Mengenoperationen. a) Denition 1.1 besagt, A1 , . . . , Am A Ac , . . . , Ac A. Mit den Regeln m 1 von De-Morgan folgt, d.h.
m n=1
m n=1
An =
m n=1
Ac A, n
An A.
b) Seien A, B A. Man sieht leicht, dass A \ B = A B c und daher ist auch A \ B A als Schnitt von A und B c .
1.2 Denition Sei eine nichtleere Menge und A eine -Algebra in . Das Paar
Mengen.
Entsprechendes gilt fr -Algebra. Man startet bei der Denition von Abbildungen auf Messrumen oft nur auf Teilmengen - wie z.B. den Intervallen in R - und dehnt anschlieend den Denitionsbereich aus. Fr diese Vorgehensweise sind folgende Ergebnisse zentral.
1.2 Lemma
ist
A eine Algebra in .
b) Sei C P() ein Mengensystem in , so es existiert eine kleinste C enthaltende Algebra. a) Wir fhren den Beweis fr -Algebren; der fr Algebren wird analog gefhrt. A sei fr jedes I eine -Algebra in . Also ist auch A fr alle I. Weiterhin gilt A
I I
A , da
I : A A I : Ac A Ac
I
A ,
10
1-A
sowie A1 , A2 , . . . A I : A1 , A2 , . . . A I :
n=1
An A
n=1
An
A .
b) Betrachte alle Obermengen von C, die Algebren sind, und bilde den Schnitt, A
A Algebra CA
Aus a) folgt, dass der Schnitt eine Algebra ist. Der Schnitt ist dann auch per denitionem die kleinste -Algebra, die C enthlt.
1.3 Denition Sei C ein Mengensystem in . Die kleinste der C enthaltenden Alge-
bren heit die von C erzeugte Algebra; C heit ein Erzeugersystem dieser Algebra. Entsprechendes gilt fr -Algebren. Wir bezeichnen die von C erzeugte Algebra mit F (C). Das Konzept des Erzeugersystem ermglicht es uns, Eigenschaften nur auf dem Erzeugersystem nachzuweisen, was oft einfacher ist, und diese Eigenschaften auf die erzeugte Algebra zu bertragen. Im Rn bilden die oenen Teilmengen ein wichtiges Mengensystem, die sie die Topologie erzeugen und somit Metrik, Norm, Konvergenz, Dierenziation, etc. charakterisieren. Folgende Denition ist daher fr alles Weitere zentral.
1.4 Denition Sei On das System der oenen Mengen des Euklidischen Raumes Rn .
Setze Bn := F (On ). Bn wird als -Algebra der Borelschen Mengen in Rn bezeichnet. B := B1 . Bn enthlt alle abgeschlossenen, alle kompakten und alle hchstens abzhlP(Rn ), der Beweis ben-
Die Borelschen Mengen bilden die grundlegenden Mengen, mit denen wir uns beschftigen. Wenn wir auf dem Rn arbeiten, enthlt also Bn alle fr uns interessanten Mengen.
11
Wahrscheinlichkeitsrume
Um das Konzept des Erzeugersystem ausnutzen knnen, verwenden wir das System Jn der halboenen Intervalle (bzw. Rechtecke) (a, b] := {(x1 , . . . , xn ) Rn : ai < xi bi , i = 1, . . . , n} in Rn , wobei a = (a1 , . . . , an ), b = (b1 , . . . , bn ) Rn mit ai < bi , oder auch
das System der oenen Intervalle, der abgeschlossenen Intervalle, der Intervalle (, a] oder der Intervalle (, a).
1.1 Satz Das System Jn ist ein Erzeugersystem von Bn .
Nun lsst sich jedes oene Intervall als abzhlbare Vereinigung halboener Intervalle darstellen, (a, b) = = a, b 1 k 1 k Bn .
kN
kN
(x1 , . . . , xn ) Rn : ai < xi bi
Ferner lsst sich jede oene Menge in Rn als abzhlbare Vereinigung von oenen Intervallen mit rationalen Randpunkten darstellen.
: C R := R {+, } heit (mit den Konventionen a + = (a R), + = usw.) 1.) ein Inhalt (content) auf C, wenn (a) ist nulltreu, d.h. () = 0, (b) ist positiv, d.h. A C : (A) 0,
12
1-A
An C gilt2
m
n=1
An =
(An ).
n=1
2.) ein Ma (measure) auf C, wenn (a) ist nulltreu, d.h. () = 0, (b) ist positiv, d.h. A C : (A) 0, (c) ist -additiv, d.h. fr paarweise disjunkte An C mit n N und
n=1
An C gilt
n=1
An =
n=1
(An ).
Ist A eine -Algebra in , ein Ma auf A, so heit (, A, ) ein Maraum (measure space).
Oensichtlich ist jedes Ma ein Inhalt. Natrliche Denitionsbereiche fr Inhalt und Ma sind Algebren bzw. Algebren. In diesem Fall knnen wir auch auf die Voraussetzung bzw.
n=1 m n=1
verwenden.
An C
In der Wahrscheinlichkeitstheorie arbeiten wir hug auf abzhlbaren Messrumen wie z.B. N dann lassen sich alle Teilmengen messen, indem wir ihnen als Ma die Anzahl ihrer Elemente zuordnen.
1.6 Denition Sei (, A) ein Messraum und Z = {z1 , z2 , . . .} eine hchstens abzhl-
A A,
A + B bzw.
m n=1
An steht fr die disjunkte Vereinigung von A und B bzw. der An . Wir fordern implizit, dass A und B bzw. die An disjunkt sind.
13
Wahrscheinlichkeitsrume
A B, so gilt
(B \ A) = (B) (A). Diese Eigenschaft nennt sich Subtraktivitt. Da B = A + B \ A, gilt (B) = (A) + (B \ A).
14
1-B
Wahrscheinlichkeitsma (W-Ma) auf A, wenn (a) P nulltreu, d.h. P () = 0, (b) P positiv, d.h. P (A) 0,
An =
n=1
P (An ),
(d) P normiert, d.h. P () = 1. (, A, P ) heit dann ein Wahrscheinlichkeitsraum (W-Raum) (probability space). Merkmalraum, Stichprobenraum (sample space), die Mengen A A als Ereignisse, P (A) als Wahrscheinlichkeit von A und die Elemente bzw. die 1Realisierungen). Punkt-Mengen {} (nicht notwendig A) als Elementarereignisse (auch Ein W-Raum ist ein normierter Maraum. Ein Wahrscheinlichkeitsma, ist also ein normiertes Ma auf (, A) mit WerIst (, A, P ) ein W-Raum, so bezeichnet man die Grundmenge auch als
tebereich R anstatt R.
Bei der Denition eines Wahrscheinlichkeitsmaes, ergeben sich Nulltreue, Positivitt und Normiertheit ganz intuitiv. In der Vergangenheit wurde lange darber diskutiert, ob es notwendig ist, die -Additivitt fr Ereignisse zu fordern. Es hat sich jedoch herausgestellt, dass dies durchaus sinnvoll und notwendig ist. Damit haben wir die Axiome der Wahrscheinlichkeitstheorie formuliert und alles Folgende wird auf diesen Axiomen aufbauen. Nun stellt sich natrlich die Frage, ob diese Denition einer Wahrscheinlichkeit mit unserer Alltagserfahrung bereinstimmt. Im Laufe der Vorlesung werden wir feststellen, dass dieses Modell in vielen Fllen eine sehr gute Approximation der Wirklichkeit darstellt.
15
Wahrscheinlichkeitsrume
Zur Motivation des Wahrscheinlichkeitsraumes. Wir suchen nach einem alternativen Weg, eine Wahrscheinlichkeit einzufhren. Sei dazu hn (A) die absolute Hugkeit des Eintretens eines Ereignisses A (z.B. Wrfeln einer 6 bei n Wrfen) und Hn (A) = Oensichtlich gilt fr jedes A und jedes n: 0 Hn (A) 1, Hn () = 1, Hn () = 0.
hn (A) n
Fr zwei disjunkte Ereignisse A1 , A2 gilt weiterhin Hn (A1 + A2 ) = Hn (A1 ) + Hn (A2 ). Hn verfgt also ber alle Eigenschafen eines Wahrscheinlichkeistmaes. Fhrt man das (Wrfel)-Experiment hinreichend oft durch, kann man das Empirische Gesetz der groen Zahlen vermuten:
n
Im Fall der Existenz kann man dem Ereignis A den obigen Grenzwert als Wahrscheinlichkeit zuordnen (R.v. Mises 19193 ), P (A) = lim Hn (A).
n
Dieser Grenzwert muss aber nicht fr alle mglichen Folgen von Versuchsergebnissen existieren - es lsst sich nicht ausschlieen, dass man in einer Versuchsfolge ausschlielich 6er wrfelt. Die endgltige, axiomatische Formulierung der Wahrschienlichkeitstheorie, wie wir sie eben eingefhrt haben, hat 1933 mit dem Werk Grundbegrie der Wahrscheinlichkeitsrechnung von Kolmogorov4 seinen Abschluss gefunden. Der axiomatische Ansatz hat sich bisher als der erfolgreichste erwiesen. Wir zahlen aber einen Preis, denn dieser Ansatz erklrt nicht, was Wahrscheinlichkeit eigentlich bedeutet.
3
Richard Edler von Mises (* 19. April 1883 in Lemberg, sterreich-Ungarn, heute Lwiw, Ukraine; Andrei Nikolajewitsch Kolmogorow (* 25. April 1903 in Tambow;
14. Juli 1953 in Boston, Massachusetts) war ein sterreichischer Mathematiker. 20. Oktober 1987 in Moskau) war einer der bedeutendsten Mathematiker des 20. Jahrhunderts. Kolmogorow leistete
wesentliche Beitrge auf den Gebieten der Wahrscheinlichkeitstheorie und der Topologie, er gilt als der Grnder der Algorithmischen Komplexittstheorie. Seine bekannteste mathematische Leistung war die Axiomatisierung der Wahrscheinlichkeitstheorie.
16
1-B
Binomialverteilung Oft sind nur endlich viele Elementarereignisse mglich und alle diese treten mit der gleichen Wahrscheinlichkeit ein. Wir sprechen in diesem Fall von einem Laplace-Experiment. Denition Ein W-Raum (, A, P ) mit endlich, A = P() und P ({}) = 1 , || , || = Anzahl der Elemente in ,
heit Laplacescher W-Raum: Fr A A gilt P (A) = |A| Anzahl der gnstigen Flle = . || Anzahl der mglichen Flle
gegenseitige Beeinussung mit den mglichen Ausgngen 0 (Misserfolg, Kopf) und 1 (Erfolg, Zahl)
mit jeweiliger Erfolgswahrscheinlichkeit p. Dies bezeichnet man auch als nTupel von Bernoulli-Versuchen.5 Wie gro ist die Wahrscheinlichkeit in n Bernoulli-Versuchen genau k, wobei k {0, 1, . . . , n}. Erfolge zu erhalten? Dieses Experiment entspricht der Platzierung von k Kugeln auf n Pltzen
Die Reihenfolge der Erfolge und Miserfolge ist unerheblich fr die Wahrscheinlichkeit. Das Experiment besitzt genau n k
5
n! k!(n k)!
17
Wahrscheinlichkeitsrume
Denition Durch P ({k}) := b(n, p; k) fr k N0 ist ein W-Ma auf B deniert, wobei fr A N0 , P (A) = b(n, p; k) :=
kN0 A kN0 A
n k p (1 p)nk . k
Bsp 2 500g Teig und 36 Rosinen seien rein zufllig verteilt. Daraus werden 10
Brtchen mit je 50g Teil geformt. Greife ein Brtchen heraus. Wie gro ist die Wahrscheinlichkeit, dass dieses Brtchen 2 oder mehr Rosinen enthlt?
1 10
Rosine Nr. 1-36 ist unabhngig von den anderen mit Wahrscheinlichkeit p =
1 10 .
jeweiliger Erfolgswahrscheinlichkeit p =
36 36
P (A) =
k=2
b(n, p; k) =
k=2
36 1 k 10k
1 10
36k
1 1 = 1 b 36, ; 0 b 36, ; 1 0.89. 10 10 Wir wollen das Beispiel der Binomialverteilung nun dahingehend verallgemeinern, dass wir die Menge auf die ganze reelle Achse erweitern. Denition Sei = R, A = B und (pk )kN0 eine reelle Zahlenfolge mit 0 pk 1 fr k N0 ,
kN0
pk = 1.
A B.
wird ein W-Ma auf B deniert. P ist auf N0 konzentriert, d.h. P (N0 ) = 1 und besitzt die Zhldichte (pk )kN0 .
18
1-B
Nulltreue, Positivitt und Normiertheit sind klar. Wir weisen nun die -Additivitt davon ausgehen, dass An N, es gilt also, P
n=1
An =
pk .
k
n
An
Da die Reihe absolut konvergent ist, drfen wir den groen Umordnungssatz aus der Analysis anwenden, und die Reihenglieder umgruppieren, ... =
n=1 kAn
pk =
n=1
P (An ).
:=P (An )
Fr Beispiel 1 gilt (b(n, p; k))kN0 = (pk )kN0 . Poissonverteilung Seien nun pn (0, 1) mit n pn (0, 1) fr n , so ist b(n, pn ; k) = = n k pn (1 pn )nk k
npn
Fr den Grenzbergang n gilt, n(n 1) (n k + 1) k k pn , k! k! (1 pn )k 1, (1 pn )1/pn e1 . Wir erhalten also insgesamt, b(n, pn ; k)
n
k e =: (; k). k!
19
Wahrscheinlichkeitsrume
kN0
k = 1. k!
:=e
()({k}) := (; k) und heit Poisson-Verteilung6 mit Parameter . Die Poission-Verteilung hat sehr viele angenehme Eigenschaften, insbesondere ist sie numerisch gut handhabbar. Daher approximiert man oft eine Binomialverteilung durch eine Poissonverteilung. Die Approximation ist gut fr p klein und n gro.
Bsp 3 Eine Anwendung zu Beispiel 2. Gegeben seien m gleichgroe mehrfach
besetzbare Zellen.
vorgegebene Zelle Z
1.1
n Teilchen seien rein zufllig auf die Zellen verteilt. Die Wahrscheinlichkeit, dass Teilchen Nr. 1 in Zelle Z landet, ist k
1 m . Also ist die Wahrscheinlichkeit, dass 1 n Teilchen in Z landen b(n, m ; k). Die Belegungsintensitt ist m . n Fr n und m gelte m (0, ). In der Grenze ist die Wahr-
scheinlichkeit, dass genau k N0 Teilchen in der Zelle Z landen gegeben durch (; k). Damit knnen wir das Beispiel 2 wieder aufgreifen. den Teig in m gleichgroe Brtchen auf, mit :=
6
Betrachte eine groe Anzahl von Rosinen in einer groen Teigmenge. Teile
n m.
Simon-Denis Poisson (* 21. Juni 1781 in Pithiviers (Dpartement Loiret); Paris) war ein franzsischer Physiker und Mathematiker.
20
1-B
k 1 e e 0.874, k!
statt 0.89.
Weitere Eigenschaften von Wahrscheinlichkeitsmaen Die reellen Zahlen R sind geordnet und fr monoton fallende bzw. monoton steigende Folgen wissen wir, dass ein eigentlicher oder uneigentlicher Grenzwert existiert. Ein Mengensystem lsst sich durch oder halbordnen, somit lsst sich der Monotoniebegri in gewisser Weise bertragen. Denition Die Konvergenz von unten bzw. von oben ist fr die Mengen A und An (n = 1, 2, . . .) folgendermaen deniert: An A : A1 A2 A3 . . . , An A : A1 A2 A3 . . . ,
n=1 n=1
An = A, An = A.
Da wir nun ber eine Art Konvergenzbegri fr Mengen verfgen, lsst sich nach der Stetigkeit von Abbildungen von Mengensystemen in die reellen Zahlen fragen. Natrlich handelt es sich hierbei nicht um Konvergenz und Stetigkeit im Sinne der Analysis, denn wir haben auf A keine Norm zur Verfgung.
1.2 Satz Sei A eine Algebra in , ein endlicher (d.h. () < ) Inhalt auf A.
Dann sind die folgenden Aussagen quivalent: a) ist -additiv b) ist stetig von unten,
d.h. [An A, An A A (An ) (A)] c) ist stetig von oben, d.h. [An A, An A A (An ) (A)]
21
Wahrscheinlichkeitsrume
d) ist -stetig,
Auch ohne die Voraussetzung der Endlichkeit von gilt a) b). a)b): Sei An = A1 + A2 \ A1 + . . . + An \ An1 und A = A1 + verwenden die Additivitt von und erhalten somit, (An ) = (A1 ) + (A2 \ A1 ) + . . . + (An \ An1 )
n
Ak \ Ak1 . Wir
= (A1 ) +
k=2
k=2
Da Wahrscheinlichkeitsrume per denitionem endlich sind, ist Satz 1.2 dort stets anwendbar. Insbesondere ist jedes W-Ma stetig.
1.3 Lemma Sei A eine Algebra in , ein Inhalt auf A.
a) ist monoton, d.h. [A, B A, A B (A) (B)] . b) ist subadditiv, d.h. [A1 , . . . , Am A (
m n=1
An )
m n=1
(An )] .
An A (
n=1
An )
n=1
(An )] .
a): Seien A, B A und A B. Nun gilt B = A + B \ A, also (B) = (A) + (B \ A), (A) (B).
0
b): Wir untersuchen den Spezialfall n = 2. Seien A1 , A2 A, so ist (A1 A2 ) = (A1 + A2 \ A1 ) = (A1 ) + (A2 \ A1 )
(A2 )
(A1 ) + (A2 ).
22
1-B
(A1 . . . AN )
n=1
(An )
n=1
(An ).
Beim Grenzbergang fr N erhalten wir so, (A1 . . . AN ) und die Behauptung folgt.
n=1
An ,
W-Mae sind also -additiv, -subadditiv, monoton und stetig. Diese Eigenschaften sind zwar unscheinbar, es lassen sich damit aber sehr starke Aussagen beweisen, wie wir gleich sehen werden. Erinnern wir uns aber zunchst an den limes superior einer reellen Zahlenfolge (an ), lim sup an := inf sup ak .
n nN kn
Wir knnen nun diese Denitionen auf Mengen bertragen. Denition Sei (, A, P ) ein W-Raum, An A fr n N lim sup An =
n
n=1 k=n
1.3 1. Lemma von Borel und Cantelli Sei (, A, P ) ein W-Raum und An A fr
n N, dann gilt
n=1
P (An ) <
P (lim sup An ) = 0,
23
Wahrscheinlichkeitsrume
Bsp 4 Lernen durch Erfahrung, d.h. je fter man eine Ttigkeit durchfhrt, je
kleiner ist die Wahrscheinlichkeit, dass ein Fehler auftritt. Betrachte eine Folge von Aufgaben. Ein Misserfolg in der n-ten Aufgabe tritt mit der Wahrscheinlichkeit P (An ) = 1 n2
P (An ) =
n=1
1 < . n2
Beweis des 1. Lemma von Borel und Cantelli. Sei B := lim supn An , d.h. B=
n=1 kn kn
kn
Ak
P (Ak ) 0,
da die Reihe nach Voraussetzung konvergent ist. Also ist P (B) = 0. Fortsetzung von Wahrscheinlichkeitsmaen
Bisher haben wir ausschlielich mit Maen gearbeitet, die auf N0 konzentiert sind, d.h. P (N0 ) = 1. Unser Ziel ist es jedoch ein Ma auf Bn zu denieren, das jedem Intervall (Rechteck) seinen elementargeometrischen Inhalt zuordnet. Betrachten wir wieder das Erzeugersystem Jn der halboenen Intervalle, so bildet dieses einen Halbring. Denition h P() heit Halbring ber , falls 1.) h,
24
1-B
2.) A, B h A B h, 3.) A, B h, A B k N : C1 , . . . , Ck h : B \ A =
k i=1
Ci .
: Jn R,
(ai , bi ]
((ai , bi ]) =
i=1
(bi ai ).
Mit Hilfe des folgenden Satzes knnen wir eindeutig auf Bn fortsetzen.
1.4 Fortsetzungs- und Eindeutigkeitssatz Sei ein Ma auf einem Halbring h ber
Insbesondere lassen sich auf Halbringen bzw. Algebren ber W-Rumen denierte Mae immer eindeutig fortsetzen, da hier bereits () < .
1.3 Bemerkung. in Satz 1.4 ist fr A F (A) gegeben durch
(A) = inf
n=1
(Bn ) : Bn A (n = 1, 2, . . .) mit A
1.4 Bemerkung. Es ist im Allgemeinen nicht mglich, von A auf P() fortzu-
Bn .
setzen. H. Lebesque7 hat sogar bewiesen, dass es unter Annahme des Auswahlzhlbar, so kann P stets auf die Potenzmenge fortgesetzt werden.
axioms nicht mglich ist, ein Ma auf P([0, 1]) fortzusetzen. Ist jedoch ab-
1.5 Korollar Es gibt genau ein Ma auf Bn , das jedem beschrnkten (nach rechts
Henri Lon Lebesgue (* 28. Juni 1875 in Beauvais; 26. Juli 1941 in Paris) war ein franzsischer Mathematiker.
25
Wahrscheinlichkeitsrume
Bsp 5 Rein zuflliges Herausgreifen eines Punktes aus dem Intervall [0, 1].
soll jedem Intervall in [0, 1] seine elementare Lnge zuordnen. Also ist P =
[0,1]B
eine Restriktion von auf [0, 1] B. Das -Ma hat die Eigenschaft, dass nicht nur die leere Menge sondern auch jede hchstens abzhlbare Menge das Ma Null hat. Eine Menge N mit (N) = 0 nennt man Nullmenge. Oft kann man Eigenschaften nicht auf ganz nachweisen aber auf bis auf
eine Nullmenge. Solche Eigenschaften treten vor allem in der Matheorie auf und sind daher auch in der Wahrscheinlichkeitstheorie von groer Bedeutung. Denition Sei Maraum (, A, ), W-Raum (, A, P ). Eine Aussage gilt 1.) -fast berall (-f..) in bzw. P -fast sicher (P -f.s.) in , falls sie berall ge hiervon] gilt. bis auf einer Menge A vom -Ma bzw. P -Ma Null [oder eine Teilmen-
2.) L-fast berall (L-f..) in Rn . . . , wenn sie berall bis auf einer Menge Bn vom L-B-Ma Null [oder eine Teilmenge hiervon] gilt.
26
Verteilungsfunktionen
1-C
1-C Verteilungsfunktionen
W-Mae sind Abbildungen der Art P : P() R. Ihr Denitionsbereich ist somit ein Mengensystem. Wir konnten einige elementare Eigenschaften wie Stetigkeit und Monotonie aus der reellen Analysis auf diese Abbildungen bertragen, dennoch lassen sie sich nicht immer so leicht handhaben wie Funktionen. Funktion gegeben F : R R, Betrachten wir nun ein W-Ma auf B, so ist durch folgende Vorschrift eine F (x) := P ((, x]), x R.
F wird als die zu P gehrende Verteilungsfunktion (Verteilungsfunktion) bezeichnet. Verteilungsfunktionen auf R lassen sich in der Regel viel leichter handhaben als Mae auf B. In diesem Abschnitt werden wir zeigen, dass eine Bijektion zwischen Maen
und Verteilungsfunktionen auf einem W-Raum existiert, wir also jedem Ma eine Verteilungsfunktion zuordnen knnen und umgekehrt. Durch die Verteilungsfunktionen werden die Mae greifbar.
27
Wahrscheinlichkeitsrume
1, . . . , 6 wobei p1 + . . . + p6 = 1.
Als zugehrigen Wahrscheinlichkeitsraum whlen wir = R mit A = B. Das W-Ma auf B erfllt P ({1}) = p1 , . . . , P ({6}) = p6 . Zur Verteilungsfunktion betrachte die Skizze. b.) Betrachte erneut Beispiel 5: Sei (, A, P ) = ([0, 1], [0, 1] B,
[0,1]B )
ab-
gewandelt zu (, A, P ) = (R, B, P ). Das Lebesgue-Ma ist nur dann ein Intervall der Lnge Eins einschrnkt. Wir setzten daher P (B) := ([0, 1]B). Die zugehrige Verteilungsfunktion ist dann gegeben durch, 0, F (x) = x, 1, 1
p1 + ... + p5 p1 + p2 p1
x (0, 1), x 1.
x 0,
F (x) 1
1 2 3 4 5 6
1.2
1.10 Denition Eine Funktion F : R R, die monoton wachsend (im Sinne von nicht
x+
lim F (x) = 1,
28
Verteilungsfunktionen
1-C
Der folgende Satz stellt nun eine eindeutige Beziehung zwischen einem Ma auf B und einer eindimensionalen Verteilungsfunktion her.
1.6 Satz Zu jedem W-Ma P auf B gibt es genau eine Verteilungsfunktion F : R R,
so dass gilt
F (b) F (a) = P ((a, b]), a b, a, b R gilt, und umgekehrt. Es existiert also eine Bijektion P F . Wir whlen fr die Verteilungsfunktion den Ansatz, F (x) := P ((, x]), x R.
(*)
1.) Die (*)-Bedingung ist erfllt, denn es gilt fr a, b R mit a < b, P ((a, b]) = P ((, b] \ (, a]) = P ((, b]) P ((, a]). 2.) F ist monoton steigend, denn P ist monoton. 3.) F ist rechtsstetig, denn fr xn x folgt (, xn ] (, x]. Somit gilt nach Satz 1.2, F (xn ) = P ((, xn ]) P ((, x]) = F (x). 4.) F (x) 0 fr x , denn xn (, xn ] . Mit Satz 1.2 folgt daraus, F (xn ) = P ((, xn ]) P () = 0. 5.) F (x) 1 fr x , denn xn (, xn ) R. Ebenfalls mit Satz 1.2 folgt F (xn ) = P ((, xn ]) P (R) = 1.
29
Wahrscheinlichkeitsrume
6.) Eindeutigkeit. Seien F , F zwei Verteilungsfunktion gem der (*)-Bedingung in Satz 1.6. Dann unterscheiden sich F und F lediglich um eine Konstante, d.h. F = F + c. Nun gilt aber F (x), F (x) 1 fr x +, also c = 0, d.h. F = F .
Bsp 7 Die Funktion : R [0, 1] mit
1 (x) := 2
t2 2
(t)
dt, x R,
ist eine Verteilungsfunktion, denn ist streng monoton, da > 0, die Rechtsstetigkeit folgt aus der Stetigkeit des Integrals. F (x) 0 fr x ist oentionentheorie). sichtlich, einzig F (x) 1 fr x muss man explizit nachrechnen (FunkDer Integrand (t) heit brigens Gausche Glockenkurve und das zu gehrige W-Ma auf B, standardisierte Normverteilung N(0, 1). (t) (t)
1.3
Eine Verallgemeinerung davon ist die Normalverteilung (Gau-Verteilung) N(a, 2 ), mit a R und > 0. N(a, 2 ) ist ein W-Ma auf B mit Verteilungsfunktion 1 F (x) := 2
x (ta) 2
2 2
dt ,
x R.
30
Verteilungsfunktionen
1-C
Diese Funktion ergibt sich mittels Substitution aus der Verteilungsfunktion von N(0, 1), alle Eigenschaften bertragen sich daher entsprechen.
Bsp 8 Whle > 0 fest, so ist eine Verteilungsfunktion gegeben durch,
F : R R,
1.4
nitionsbereiche von P bzw. F anstatt B bzw. R verallgemeinern. Dabei ist die F (x1 , . . . , xn ) = P ({(u1 , . . . , un ) Rn | u1 x1 , . . . , un xn }) fr (x1 , . . . , xn ) Rn .
31
Wahrscheinlichkeitsrume
R2 x2 x = (x1 , x2 ) x1
(u1, u2) R2 : u1 x1 , u2 x2
1.5
32
Bedingte Wahrscheinlichkeiten
1-D
w 18 20
12 16
Wir nummerieren die Personen so, dass Nr. 1-12 die Sport-treibenden Frauen, 13-30 die Sport-treibenden Mnner, 31-46 die nicht Sport-treibenden Frauen und 47-66 die nicht Sport-treibenden Mnner sind. Nun modelieren wir einen W-Raum fr die rein zufllige Auswahl einer Person, = {1, . . . , 66} , A = P(), P ({}) = 1 . 66
Ereignis A := {1, . . . , 12, 31, . . . , 46}, die ausgewhlte Persion ist weiblich, Ereignis B := {1, . . . , 30}, die ausgewhlte Person treibt Sport. Es sei bekannt, dass die ausgewhlte Person Sport treibt. Wie gro ist die
Wahrscheinlichkeit, dass die ausgewhlte Person eine Frau ist? Abzhlen der Elemente in ergibt, 2 12 = . 30 5
33
Wahrscheinlichkeitsrume
2 5
dasselbe Ergebnis. Wir verwenden dies nun zur Denition der bedingten Wahrscheinlichkeit.
1.11 Denition Es sei (, A, P ) ein W-Raum, A A, B A mit P (B) > 0. Dann
heit
P (A | B) :=
P (A B) P (B)
die bedingte Wahrscheinlichkeit (conditional probability) von A unter der Bedingung B. Es folgen einige elemenatre Eigenschaften der bedingten Wahrscheinlichkeit.
a) Bei festem B A mit P (B) > 0 ist P ( | B) ein W-Ma auf A, das auf B konzentriert ist [d.h. P (B | B) = 1]. b) Fr A, B A mit P (A) > 0, P (B) > 0 gilt P (A | B) = P (B | A) P (A) . P (B)
m1 n=1
c) Fr An A (n = 1, . . . , m) mit P ( P
m n=1
An ) > 0 gilt
An .
34
Bedingte Wahrscheinlichkeiten
1-D
b) Betrachte die rechte Seite, P (B | A) P (A B) P (A) P (A B) P (A) = = =: P (A|B). P (B) P (A) P (B) P (B)
c) Vollstndige Induktion. Fr n = 2 P (A1 A2 ) = P (A1 )P (A2 |A1 ). Der Induktionsschulss ist eine leichte bung.
1.8 Satz Sei (, A, P ) ein W-Raum, {Bn : n I} eine hchstens abzhlbare Familie
Dann gilt fr A A
nI
Bn = .
nI
b) falls P (A) > 0 die Formel von Bayes P (Bk | A) = P (Bk ) P (A | Bk ) , P (Bn )P (A | Bn ) k I.
nI
Mit der Formel von der totalen Wahrscheinlichkeit kann man somit mit bedingten Wahrscheinlichkeiten auf die Wahrscheinlichkeit fr ein bestimmtes Ereignis rckschlieen. Die Formel von Bayes hingegen erlaubt es die Bedingung der Bedingten Wahrscheinlichkeit umzukehren. a) A = A = P (A) = (A Bn ). Weiterhin gilt aufgrund der -Additivitt, P (Bn )P (A | Bn ).
nI
nI
P (A Bn ) =
nI
k b) Satz 1.7 besagt, P (Bk ) = P (A|Bk ) P (A) . Die Behauptung folgt nun unter Ver-
P (B )
35
Wahrscheinlichkeitsrume
P (B1 ) 0 P (B2 )
b1
b2
P (B3 )
b3
1.7
Wegediagramm.
Bsp 10 Zur Veranschaulichung des Satzes 1.8. Betrachte einen Weg von 0 ber
b1 oder b2 oder b3 oder . . . nach a oder a. [a knnte z.B. fr das Auftreten von Krebs, a fr das Nichtauftreten von Krebs, b1 fr Rauchen, b2 fr das Ausgesetzsein von giftigen Dmpfen, b3 . . . stehen]. An jeder Verzweigung b1 , b2 , b3 , . . . wird ein Zufallsexperiment durchgefhrt. Das Ereignis Bk sei deniert durch, dass der Weg ber bk fhrt. Die Formel von der totale Wahrscheinlichkeit ergibt, P (A) = P (A|Bn )P (Bn ).
Deutung. Betrachte B1 , B2 , . . . als Ursachen und A als Wirkung. P (Bk ) bezeichnet man als sog. a priori Wahrsch. von Bk . Nun stehe A durch Erfahrung zur Verfgung. P (Bk |A) bezeichnet man als sog. a posteriori Wahrsch. von Bk . P (Bk |A) ist die Wahrscheinlichkeit, dass der Weg ber bk verlaufen ist, wobei bereits bekannt sei, dass die Ankunft in a (= Ereignis A) stattgefunden hat. Die Formel von Bayes erlaubt also den Rckschluss von einer Wirkung auf ihre Ursache - zumindest in einem Wahrscheinlichkeitstheoretischen Sinne. Anwendung. Ein Arzt beobachtet das Symptom a, welches ausschlielich die fr die jeweilige Ursache unter Bercksichtigung des Eintretens von a. Ursachen b1 , b2 , . . . haben kann. Gesucht ist P (Bk |A), die Wahrscheinlichkeit
36
Bedingte Wahrscheinlichkeiten
1-D
- Bei Einbruch erfolgt Alarm mit Wahrscheinlichkeit 0.99, - bei Nichteinbruch mit Wahrscheinlichkeit 0.005. - Die Einbruchswahrscheinlichkeit ist 0.001. Gesucht ist nun die Wahrscheinlichkeit, dass bei einem Alarm auch tatschlich ein Einbruch stattndet. bertragen wir dies auf unser Modell, so erhalten wir folgendes Schema: Ereignis E Ec A A
c
Die Wahrscheinlichkeiten der einzelnen Ereignisse sind, P (A|E) = 0.99, P (A|E c ) = 0.005, P (E) = 0.001.
Gesucht ist P (E|A). Mit dem Satz von Bayes erhalten wir, P (E|A) = P (A|E)P (E) 0.99 0.001 = P (A|E)P (E) + P (A|E c )P (E c ) 0.99 0.001 + 0.005 0.999 22 0.165. = 133
D.h. die Wahrscheinlichkeit, dass bei Auslsung eines Alarms, auch tatschlich ein Einbruch stattndet, betrgt lediglich 16.5%. Die Wahrscheinlichkeit fr einen Alarm ist nach der Formel von der totalen Wahrscheinlichkeit P (A) = P (A|E)P (E) + P (A|E c )P (E c ) = 0.006.
37
Kombinatorische Wahrscheinlichkeitsrechnung
2 Kombinatorische Wahrscheinlichkeitsrechnung
In der kombinatorischen Wahrscheinlichkeitsrechnung legen wir Laplacesche W-Rume zugrunde. Die Abzhlung der gnstigen und der mglichen Flle erfolgt systematisch mit Hilfe der Kombinatorik.
2.1 Denition Gegeben seien n nicht notwendiger Weise verschiedene Elemen-
te a1 , . . . , an . Das n-Tupel (ai1 , . . . , ain ) mit ij {1, . . . , n}, ij ik fr j k (j, k = 1, . . . , n) heit eine Permutation der gegebenen Elemente. In der Kombinatorik spielt die mgliche Anzahl an Permutationen eine sehr groe Rolle.
2.1 Satz Die Anzahl der Permutationen von n verschiedenen Elementen ist n!.
Eine Verallgemeinerung fr nicht notwendiger weise verschiedene Elemente liefert der folgende
2.2 Satz Gegeben seien n Elemente; die verschiedenen Elemente darunter seien mit
1.) [2.)] Jedes k-Tupel (a1 , . . . , ak ) mit nicht notwendig verschiedenen [lauter verschiedenen] ai A heit eine Kombination k-ter Ordnung aus A mit [ohne] Wiederholung und mit Bercksichtigung der Anordnung.
38
2-
3.) [4.)] Werden in a) [2.)] Kombinationen, welche dieselben Elemente in verschiedener Anordnung enthalten, als quivalent aufgefasst, so heien die einzelnen quivalenzklassen Kombinationen k-ter Ordnung aus A mit [ohne] Wiederholung und ohne Bercksichtigung der Anordnung. Interpretation (mit A = {1, . . . , n}): Aufteilung von k Kugeln auf n Zellen,
wobei in 1.) [2.)] die Zellen mehrfach [nicht mehrfach] besetzt werden drfen und die Kugeln unterscheidbar sind (ai . . . Nummer der Zelle, in der die i-te Kugel liegt), in 3.) [4.)] die Zellen mehrfach [nicht mehrfach] besetzt werden drfen und die Kugeln nicht unterscheidbar sind (ein Reprsentant der quivaZellennummern so oft auftreten, wie die zugehrige Zelle besetzt ist). lenzklasse ist gegeben durch ein k-tupel von Zahlen aus {1, . . . , n}, in dem die
2.3 Satz Die Anzahl der Kombinationen k-ter Ordnung aus der n-elementigen Men-
ge A mit [ohne] Wiederholung und mit [ohne] Bercksichtigung der Anordnung ist gegeben durch m. Wiederholung m. Ber. der Anordnung o. Ber. der Anordnung n
k n+k1 k
o. Wiederholung (1 k n) n(n 1) . . . (n k + 1)
n k
Bestimmung von Fakultten durch Tabellen fr log n! und bei groem n durch die Stirlingsche Formel n! n e
n
2 n
(n )
Wir beweisen exemplarisch die Formel fr die Anzahl der Kombinationen ohne Bercksichtigung der Anordnung und mit Wiederholungen. Betrachte dazu k Kugeln, die auf n Zellen verteilt werden sollen.
2.1
39
Kombinatorische Wahrscheinlichkeitsrechnung
d.h. es gibt insgesamt (n 1 + k)! Permutationen. Bercksichtigen wir nun noch die Ununterscheidbarkeit der Kugeln, so erhalten wir n+k1 . k
von k Teilchen in der Weise, dass man den (der Darstellung des Momentanzustandes dienenden) Phasenraum in n kongruente wrfelfrmige Zellen zerlegt und die Wahrscheinlichkeit p(k1 , . . . , kn ) bestimmt, dass sich genau ki der Teilchen in der i-ten Zelle benden (i {1, . . . , n}). Sei die Menge aller n-Tupel rakterisiert durch p): (k1 , . . . , kn ) Nn von Besetzungszahlen mit 0
n i=1
b.) Bose-Einstein-Statistik zur Beschreibung des Verhaltens von Photonen (keine Unterscheidbarkeit der Teilchen, jedoch Mehrfachbesetzbarkeit von Zellen) p(k1 , . . . , kn ) = n+k1 k
1
c.) Fermi-Dirac-Statistik zur Beschreibung des Verhaltens von Elektronen, Protonen und Neutronen (keine Unterscheidbarkeit der Teilchen, keine Mehrfachbesetzbarkeit von Zellen )
n 1 , k
p(k1 , . . . , kn ) =
0,
ki {0, 1} sonst.
40
durch diese wird fr n unabhngige Versuche mit jeweiliger Erfolgswahrscheinlichkeit p die Wahrscheinlichkeit von k Erfolgen angegeben.
41
und P =
Die Wahrscheinlichkeit, dass Y x mit x [0, 1/2] fest, ist gegeben durch
42
3-A
Damit P [Y B] berhaupt deniert ist, muss [Y B] eine messbare Menge sein, d.h. im Denitionsbereich von P liegen. Im Folgenden erarbeiten wir die notwendigen Vorraussetzungen, dass dem so ist.
3.1 Denition Seien , zwei nichtleere Mengen, A und X : eine
: X() A
=: X 1 (A ) =: [X A ]
(in ) heit das Urbild von A bezglich der Abbildung X; die somit denierte Abbildung X 1 : P( ) P() heit Urbildfunktion (zu unterscheiden von einer inversen Funktion!).
In vielen Fllen untersuchen wir nicht nur einzelne Mengen sondern ganze Mengensysteme und verwenden daher folgende Bezeichnung als Abkrzung. Bezeichnung. Sei X : und C Mengensystem in . So ist X 1 (C ) := X 1 (A ) : A C ,
wobei X 1 (C ) ist ein Mengensystem in ist. Um zu klren, unter welchen Voraussetzungen [X B] messbar ist, wenn
B messbar ist, mssen wir untersuchen, wie sich die Urbildfunktion X 1 auf -Algebren im Bildraum auswirkt.
3.1 Satz Sei X : .
X 1 (A )
A B
X 1 ( ) = .
X 1 (A ) X 1 (B ).
43
Urbilder messbarer Mengen auch tatschlich messbar sind, mssen wir also fordern, dass X 1 (A ) A.
d.h. Urbilder von messbaren Mengen in sind messbare Mengen in . In diesem Falle verwenden wir die Schreibweise X: (, A) ( , A ). Wie wir noch sehen werden, ist die Messbarkeit einer Abbildung eine wesentlich schwchere Voraussetzung als beispielsweise Stetigkeit oder gar Differenzierbarkeit. Es erfordert sogar einiges an Aufwand, eine nicht messbare Abbildung zu konstruieren.
3.1 Bemerkung. In Satz 3.1 c) ist X 1 (A ) die kleinste der -Algebren A in mit
Wir fassen nun alle ntigen Vorraussetzungen in der folgenden Denition zusammen.
3.3 Denition Sei (, A, P ) ein W-Raum, ( , A ) ein Messraum. Die Abbildung
X : (, A) ( , A ) heit Zufallsvariable (ZV ) auf (, A, P ) [mit Zustandsraum ] (ausfhrlich: ( , A )-Zufallsvariable auf (, A, P ); random variable). 1.) X : (, A) (R, B) heit reelle Zufallsvariable (oft auch nur ZV). 2.) X : (, A) (R, B) heit erweitert-reelle Zufallsvariable. 3.) X : (, A) (Rn , Bn ) heit n-dimensionaler Zufallsvektor. 4.) X() fr ein heit eine Realisierung der Zufallsvariable X.
44
3-A
Bezeichnung. B := {B, B {+}, B {}, B {, +} : B B}. Zufallsvariablen ermglichen es uns fr ein Experiment lediglich einmal einen W-Raum (, A, P ) zu modellieren und dann fr jeden Aspekt, der uns interessiert, eine Zufallsvariable zu konstruieren. X() kann man als Messung interpretieren, X() ist der von abhngige Messwert. Auerdem lassen sich Zufallsvariablen verknpfen, wir knnen sie addieren, multiplizieren, hintereinanderausfhren, . . . Messbarkeit fr alle Elemente der Bild- -Algebra nachzuweisen, kann sich als uert delikat herausstellen. Der folgende Satz besagt jedoch, dass es gengt sich auf ein Erzeugersystem der Bild- -Algebra zurckzuziehen.
3.2 Satz Seien (, A), ( , A ) Messrume, X : und E Erzeugersystem von
A . Dann ist X genau dann messbar, wenn M E : X 1 (M) A, : Gilt per denitionem.
d.h. X 1 (E ) A.
: Sei X 1 (E ) A, zu zeigen ist nun, dass X 1 (A ) A. Es gilt X 1 (A ) = X 1 (F (E )) = F (X 1 (E )) A, denn X 1 (E ) A und F (X 1 (E )) ist die kleinste -Algebra, die X 1 (E ) enthlt und A ist -Algebra.
Ein einfaches aber uerst ntzliches Korollar ergibt sich, wenn wir uns auf reellwertige messbare Abbildungen beschrnken.
3.3 Korollar Sei (, A) ein Messraum und X : R Abbildung. Dann sind folgen-
45
Wird gefhrt mit Satz 3.2 und der Tatsache, dass {(, ] : R} ein Er Insbesondere sind somit die Mengen [X ], [X < ], . . . fr jede reelle
Zufallsvariable X messbar.
[X < Y ],
[X Y ],
[X = Y ],
[X Y ] A,
wobei [X < Y ] := { : X() < Y ()}. Nach dem Prinzip von Archimedes gilt [X < Y ] = dem ist [X < < Y ] = [X < < Y ] =
R [X
[X < ] [Y ]c .
Fr jedes Q ist [X < ][Y ]c messbar und die abzhlbare Vereinigung messbarer Mengen ist messbar. Die brigen Flle folgen sofort, denn [X Y ] = [X > Y ]c A, [X Y ] = [X = Y ]c A.
[X = Y ] = [X Y ] [X Y ] A
On , das System der oenen Mengen auf Rn , ist ein Erzeugersystem von Bn .
g ist stetig, daher sind die Urbilder oener Mengen oene Mengen A. Fr Abbildungen Rm
46
3-A
f (x) =
1, 0,
x R \ Q,
x Q,
gesetzte Abbildung Y X : 1 3 ist dann A1 -A3 -messbar. Oensichtlich gilt (Y X)1 (A3 ) = X 1 Y 1 (A3 ) A1 . ist g X : Rn A-Bn -messbar.
Insbesondere ist die Komposition von Zufallsvariablen bzw. von Zufallsvariablen mit stetigen Funktionen wieder eine Zufallsvariable. Fr eine reelle Zufallsvariable X sind somit auch |X|, X 2 ,
3.6 Satz Sei (, A) Messraum.
|X|, . . . Zufallsvariablen.
A-Bm -messbar. Fr g : (Rm , Bm ) (R, B) ist gY : R A-B-messbar. b) Seien X1,2 : (, A) (R, B). Dann sind auch die Abbildungen (a) X1 + X2 (b) X1 X2 , (c) X1 (falls existent) X2 (, R) ,
A-B-messbar.
47
R2 2 (1 , 2 ) 1
3.1
Erzeuger der Bn .
a) Ein Erzeugersystem C von Bm ist gegeben durch (, 1 ] . . . (, m ], wobei (1 , . . . , m ) Rm . Es gengt zu zeigen, dass Y 1 (C) A. Nun gilt Y 1 ((, 1 ] . . . (, m ])
= [X1 1 ] . . . [Xm m ] A.
= { : x1 () 1 , . . . , Xm () m }
b) Die Messbarkeit folgt mit Korollar 3.2 und der Stetigkeit von Summen- und Produktabbildung (x, y) x + y, (x, y) x y.
Eine Abbildung X : Rn ist also genau dann messbar, wenn jede Kompo-
(a) inf Xn ,
n
(b) sup Xn ,
n
48
3-A
messbar.
(2) sup = inf(Xn ) ist A-B-messbar. (3) lim sup Xn = infn supkn Xk ist A-B-messbar. (4) lim inf Xn = supn infkn Xk ist A-B-messbar. (5) lim Xn = lim sup Xn , falls limn Xn existiert.
Da Messbarkeit eine so schwache Voraussetzung ist, ist sie auch ein sehr stabiler Begri, da sie auch unter Grenzwertbildung und Komposition erhalten bleibt. Probleme treten erst bei berabzhlbar vielen Operationen auf.
49
das sogenannte Bildma zuordnen. Die Verteilungsfunktion des Bildmaes F (t) = PX ((, t]) nennen wir auch Verteilungsfunktion von X. F lsst sich oft leichter handhaben als X, und aus den Eigenschaften von F lassen sich Rckschlsse auf X machen. Analog lsst sich zu jedem Ma :A R ber eine Zufallsvariable Y : (, A, Q) ( , A ) nden, so dass PY = .
50
3-B
: X() A
=: [X A ];
A A
wird ein Ma (das sogenannte Bildma) X auf A deniert. (i) X 0 ist klar.
Ist ein W-Ma auf A, dann ist X ebenfalls ein W-Ma auf A .
i1
i1
X 1 (Ai ) .
A i =
X
i1
(Ai )
Es gengt also, dass X messbar ist, damit PX tatschlich ein Ma ist. Insbesondere ist fr jede Zufallsvariable PX ein Ma.
3.4 Denition Sei X eine ( , A )-Zufallsvariable auf dem W-Raum (, A, P ). Das
W-Ma PX im Bild-W-Raum ( , A , PX ) heit Verteilung der Zufallsvariable X. Sprechweise: - Die Zufallsvariable X liegt in A A .
- X nimmt Werte in A A an mit Wahrscheinlichkeit PX (A ) = P [X A ]. - Wenn P [X A ] = 1, sagt man X liegt P -fast sicher (P -f.s.) in A .
51
Betrachten wir die Verteilung PX einer reellen Zufallsvariablen X, so besitzt diese eine Verteilungsfunktion F (t) = PX ((, t]) = P (X 1 (, t]). Da es sich bei der Verteilungsfunktion um eine reelle Funktion handelt, kann man oft viel leichter mit ihr Rechnen, als mit der Zufallsvariablen selbst. Die Eigenschaften der Verteilungsfunktion charakterisieren die Zufallsvariable, man klassiziert Zufallsvariablen daher nach Verteilung (binomial-, poisson, exponentialverteilt, . . . ). Denition Besitzen zwei Zufallsvariaben dieselbe Verteilung (also dieselbe Verteilungsfunktion) heien sie gleichverteilt.
Bsp 3 Wir betrachten n Bernoulli-Versuche mit jeweiliger Erfolgswahrschein-
lichkeit p. besteht aus der Menge der Elementarereignisse (= n-Tupel aus Nullen und Einsen), A = P(). P ({}) = p k (1 p)nk , falls aus k Einsen und n k Nullen besteht. X : R, Wir denieren uns eine Zufallsvariable X durch: X() = Anzahl der Einsen in . Das Wahrscheinlichkeitsma P auf A ist gegeben durch
Um das Bildma auf allgemeine Mengen in B fortzusetzen, setzen wir zu B B PX (B) = b(n, p; k).
kN0 B
52
3-B
Seien X : (, A) ( , A ) und Y : ( , A ) ( , A ), dann gilt PY X = (PX )Y . Y X ist wieder messbar. Fr A A gilt somit, PY X (A ) = P ((Y X)1 (A )) = P (X 1 (Y 1 (A ))) = PX (Y 1 (A ) = (PX )Y (A ).
Produktmessrume Betrachten wir die Vektorrume Rn und Rm , so knnen wir diese durch das karthesische Produkt verknpfen zu V = Rn Rm . V ist dann wieder ein Vektorraum und jedes Element v V lsst sich darstellen als v = (x, y), wobei x Rn und y Rm . Eine solche Verknpfung lsst sich auch fr Messrume denieren.
erzeugte -Algebra.
n i=1 (i , Ai )
:=
i=1
i ,
n i=1
Ai
heit Produkt-Messraum.
Man bildet also das karthesische Produkt der i und die Produkt- -Algebra der Ai und erhlt so wieder einen Messraum
Bsp 4 (Rn Rm , Bn
n n i=1 (i , Ai ).
Bm ) = (Rn+m , Bn+m ).
X: mit
i
i=1
Ai -messbar.
53
Der Beweis wird dann wie im eindimensionalen Fall gefhrt. Insbesondere ist eine Abbildung X : Rn , (x1 , . . . , xn )
n i=1
Ai
Ai Ai .
heit die gemeinsame Verteilung der Zufallsvariablen Xi . 2.) Die Verteilungen PXi - erklrt durch PXi (Ai ) := P [Xi Ai ]
n i=1
Ai (Ai Ai , i = 1, . . . , n) -
= P [X 1 . . . i1 Ai i+1 . . . n ] (i = 1, . . . , n).
54
3-B
Wichtiger Spezialfall. (i , Ai ) = (R, B) fr i = 1, . . . , n. Dann sind die Xi reelle Zufallsvariablen und X ein Zufallsvektor.
3.5 Bemerkungen. Seien die Bezeichnungen wie in Denition 3.6.
a. Die Verteilung PX ist ohne Zusatzvoraussetzung durch ihre Randverteilungen nicht eindeutig festgelegt. b. Die Projektionsabbildung
n
i :
k=1
k i ,
(1 , . . . , n ) i
Aufgrund der Messbarkeit der Projektionen sind die Randverteilungen einer gemeinsamen Verteilung eindeutig bestimmt. Die Umkehrung, dass die Randverteilungen auch die gemeinsame Verteilung eindeutig bestimmen ist im Allgemeinen falsch. Wir werden uns in Kapitel 5 ausfhrlicher damit beschftigen.
3.6 Bemerkungen.
Auf dem W-Raum (, A, P ) := (Rn , Bn , Q), wird Xi : R deniert als die (x1 , . . . , xn ) xi dung. b. Wir knnen die Aussage aus a) unmittelbar auf einen beliebigen ProduktMeraum
n i=1
(i = 1, . . . , n);
i ,
n i=1
Ai
c. Sonderfall zu b): Ist (, A, Q) ein W-Raum, X : die identische Abbildung, so gilt PX = Q. Jedes W-Ma lsst sich somit als eine Verteilung auassen (und - denitionsgem - umgekehrt).
55
Dieser Zusammenhang zwischen W-Ma und Verteilung hat eine groe Bedeutung, wie wir mit der Einfhrung des Maintegrals im folgenden Kapitel sehen werden.
56
Der Erwartungswert EX der Zufallsvariable X gibt einen mittleren Wert von X bezglich P an.
Bsp 1 Wir betrachten einen fairen Wrfel. X gebe die zufllige Augenzahl an.
Den Erwartungswert von X erhalten wir, indem wir die mglichen Werte von X mit ihrer Wahrscheinlichkeit multiplizieren und aufsummieren, EX = 1 1 1 1 + 2 + . . . + 6 = 3.5. 6 6 6
Fr diskrete Zufallsvariablen, das sind Zufallsvariablen deren Verteilung auf N0 konzentriert ist, erhalten wir somit,
k=1
EX =
kpk ,
mit pk = P [X = k].
Diese Denition lsst sich allerdings nicht auf den Fall einer Zufallsvariablen mit einer auf einem Kontinuum konzentrierten Verteilung bertragen. Um diesen Fall einzuschlieen, gehen wir von der diskreten Summe zum kontinuierlichen Integral ber, wir whlen also Integralansatz, um den Erwartungswert einzufhren.
58
4-A
Erwartungswert mittels Riemann-Stieltjes-Integral Bezeichnungen. X(), falls X() > 0, + X () := 0, sonst X () := X(), 0, sonst.
Wir whlen zunchst den naiven Ansatz, den Erwartungswert von X als Integral ber den Wertebereich von X zu denieren. x < 0. Wir ersetzen nun die Summe aus dem Beispiel durch ein Integral, EX :=
R+
1. Schritt: Sei zunchst X positiv (X 0), d.h. PX (R+ ) = 1 und F (x) = 0 fr x PX ( dx) := x dF (x) := lim x dF (x),
[0,a]
R+
wobei es sich hier um ein Riemann-Stieltjes-Integral von x bezglich F handelt. Da der Integrand x auf R+ positiv, gilt 0 EX . Riemann-Integral, Fr F (x) = x entspricht das Riemann-Stieltjes-Integral dem gewhnlichen x dF (x) =
0
R+
x dx.
R+
x F (x) dx.
2. Schritt: Sei X beliebig und EX + , EX nicht beide , so ist der Erwartungsx PX ( dx) := EX + EX .
4.1 Erster Versuch des Erwartungswertes EX von X als ein Integral auf dem Wer-
tebereich von X: EX :=
R
x PX ( dx).
59
Fr den Erwartungswert ist diese Denition ausreichend und historisch ist man auch genau so vorgegangen. Wir integrieren hier jedoch lediglich die stetige Funktion x ausreichend. Erwartungswert mittels Ma-Integral Wir bentigen einen allgemeineren Integrationsbegri, der es uns erlaubt, lediglich messbare (also insbesondere auch unstetige) Funktionen zu integrieren. Dazu machen wir einen neuen Integralansatz, wobei wir diesmal ber den Denitionsbereich von X also integrieren. Sei also X : (, A) (R, B) messbar. eine Darstellung
N
0. Schritt: Sei X positiv und nehme nur endlich viele Werte an. Dann existiert
X=
i 1Ai ,
i=1
i R+ ,
N i=1
Ai A Ai = .
EX :=
i P (Ai ).
Diese Denition schliet z.B. den Fall des Wrfels ein, jedoch sind wir beispielsweise noch nicht in der Lage, den Erwartungswert eines zuflligen Temperaturwertes anzugeben. 1. Schritt: Sei nun X lediglich positiv. In der Matheorie wird gezeigt, dass dann eine Folge von Zufallsvariablen Xn 0 existiert, wobei Xn jeweils nur Xn () X() fr n und . endlich viele Werte annimmt und die Folge (Xn ) monoton gegen X konvergiert,
60
4-A
Somit knnen wir den Erwartungswert von X denieren als EX := X dP := lim EXn ,
n
wobei der (uneigentliche) Grenzwert existiert, da die EXn monoton wachsen. 2. Schritt: Seien EX + , EX nicht beide . EX :=
X dP := EX + EX .
bereich von X: EX :=
X()P ( d ) =:
X dP .
der 2. Denition ber das Ma-Interal - sind sinnvoll. Fr Interessierte werden die Details in der Matheorie, einem Teilgebiet der Analysis, behandelt. b. Die beiden Denitionen sind quivalent. c. Existiert das Integral x PX ( dx)
in 1. Denition, so ndert es seinen Wert nicht, wenn man es gem 2. Denition erklrt. Insbesondere gilt dann, X dP =
x PX ( dx) =
x dF (x).
auf den Fall eines Maraumes (, A, ) (anstatt eines W-Raumes) und lieX() ( d ) =: X d.
Wichtige Spezialflle:
61
X d
bzw.
wird als LebesgueIntegral bezeichnet. Im Falle n = 1 schreiben wir auch X(x) dx bzw. X(x) dx.
2.) Sei (, A) = (R, B) und H : R R eine madenierende Funktion mit zugehrigem Ma , d.h. H(b) H(a) = ((a, b]), so schreiben wir X(x) dH(x) := X(x) H( dx) := X d < a < b < ,
Die Verallgemeinerung auf = B B folgt analog. 3.) Sei (, A) = (N0 , P(N0 )) und das Zhlma, d.h. (A) = Anzahl der Elemente in A, so gilt fr eine Funktion f : N0 R,
N0
f d =
k=0
f (k).
Reihen sind also lediglich ein Spezialfall des Ma-Integrals. e. Sei X eine erweitert-reelle Zufallsvariable auf einem W-Raum (, A, P ) mit P [|X| = ] = 0 und X(), Y () := 0 falls |X()| < , ,
sonst,
62
4-A
Fr das Ma- bzw. spezieller das Lebesgue-Integral existieren zahlreiche sehr allgemeine Stze und elegante Beweisstrategien, die uns fr das Riemann-StieltjesIntegral nicht zur Verfgung stehen, weshalb wir im Folgenden fast ausschlielich von dieser Denition ausgehen werden. Wir haben bisher nicht geklrt, wie man ein Ma- bzw. ein Lebesgue-Integral konkret berechnet, wenn X nicht nur endlich viele Werte annimmt. Ist die Verteilungsfunktion stetig dierenzierbar, so gilt X dP = x F (x) dx,
wobei wir letzteres Integral durchaus als Lebesgue-Integral mit all seinen angenehmen Eigenschaften auassen knnen, wir knnen damit aber auch rechnen wie mit dem Riemann-Integral (Substitution, partielle Integration, . . . ). Fr allgemeineres F mssen wir uns darauf beschrnken, abstrakt mit dem Integral arbeiten zu knnen.
4.2 Bemerkung. Sei (, A, P ) ein W-Raum. Fr A A gilt P (A) = E 1A . 4.3 Denition Existiert fr die reelle Zufallsvariable X auf dem W-Raum (, A, P )
Ist X eine positive Zufallsvariable, so knnen wir den Erwartungswert direkt mit Hilfe der Verteilungsfunktion berechnen.
4.1 Lemma Fr eine reelle Zufallsvariable X 0 mit Verteilungsfunktion F gilt
EX =
(1 F (x)) dx.
R+
a a
[0,a]
x dF (x)
a 0
part.int.
lim x F (x)
x=0
1F (x) dx
0
()
= lim a
a
a 0
F (x) dx
= lim
(1 F (x)) dx =
(1 F (x)) dx.
63
R+
[a,]
(a,)
[a,]
da
[0,a]
x dF (x)
R+
a(1 F (a)) 0. Der Fall EX = wird gesonderd behandelt. Eigenschaften des Erwartungswerts Der Erwartungswert einer reellen Zufallsvariablen X, EX = X dP = x dPX ,
ist ein spezielles Ma-Integral. Daher bertragen sich alle Eigenschaften dieses Integrals auf den Erwartungswert.
4.1 Satz Sei X eine reelle Zufallsvariable auf einem W-Raum (, A, P ).
a) X integrierbar
X + und X integrierbar
|X| integrierbar.
b) Existiert eine reelle integrierbare Zufallsvariable Y 0 mit |X| Y P-f.s., so ist X integrierbar. c) Ist X integrierbar und existiert eine reelle Zufallsvariable Y mit Y = X P-f.s., dann existiert EY = EX.
64
4-A
Im Gegensatz zum klassischen uneigentlichen Riemann-Integral ist es beim Ma-Integral nicht mglich, dass sich positive und negative Anteile gegenseitig eliminieren und so eine Funktion deren Positiv- oder Negativanteil alleine nicht integrierbar sind, als ganzes integrierbar wird. Es gibt also durchaus Funktionen die (uneigentlich) Riemann- aber nicht Lebesgue-integrierbar sind. Fr viel mehr Funktionen gilt jedoch das Gegenteil. Beim Riemann-Integral ndert eine Abnderung einer Funktion an endlich vielen Punkten den Integralwert nicht, beim Lebesgue-Integral hingegen ndert eine Abnderung einer Zufallsvariabeln auf einer Menge vom Ma Null ihren Erwartungswert nicht.
Bsp 2 Die Dirichletfunktion f : R R mit
f (x) =
ist nicht Riemann- aber Lebesgue-integirerbar. Das Lebesgue-Integral lsst sich auch sehr leicht berechnen, denn f 0, also gilt nach Denition
R
1, x Q, 0, x R \ Q.
denn Q ist abzhlbare Teilmenge von R. Ferner ist der Erwartungswert linear, monoton und erfllt die Dreiecksungleichung.
4.2 Satz Seien X, Y reelle integrierbare Zufallsvariablen auf einem W-Raum (, A, P ).
65
e) X 0, EX = 0 X = 0 P-f.s. Beweisidee. Wir beweisen lediglich die erste Behauptung, der Rest folgt analog. Dazu bedienen wir uns dem Standardtrick fr Beweise in der Matheorie. Funktionen X= mit
n i=1
i 1Ai ,
i=1 m j=1
Y =
j 1Bj
j=1
Ai = = X=
ij 1Cij ,
i,j
X + Y =
i,j
(ij + ij )1Cij .
chen Funktionen mit Xn X, Yn Y und Xn + Yn = Zn Z = X + Y . E(Xn + Yn ) = EXn + EYn EX + EY sowie EXn + EYn = E(Xn + Yn ) = EZn EZ = E(X + Y ). Nach dem Grenzbergang fr n erhalten wir somit EX + EY = E(X + Y ). 3. Schritt. Fr X und Y integrierbar betrachten wir X = X+ X , gativteil verwenden. Y = Y+ Y .
2. Schritt. Nun seien X 0 und Y 0 beliebig und Xn , Yn Folgen von einfaFr jedes n N sind Xn und Yn einfach und damit E linear. Es gilt also
Nach dem eben gezeigten, knnen wir die Linearitt von E fr Positiv und Ne-
66
4-A
lichkeit p. Die Zufallsvariable Xi nehme Werte 0 bzw. 1 an, falls im i-ten Versuch ein Misserfolg bzw. Erfolg aufgetreten ist (i = 1, . . . , n). X = X1 + . . . + Xn gibt die Anzahl der Erfolge an. EX = EX1 + . . . EXn = nEX1 = np, da alle Xi dieselbe Verteilungsfunktion besitzen. Der Erwartungswert einer b(n, p)-verteilten Zufallsvariablen ist also np. Ein alternativer (evtl. ungeschickterer) Rechenweg ist
n n !
EX =
k=0
kP [X = k] =
k
k=0
n k p (1 p)nk = . . . = np. k
Fr das Riemann-Integral ist fr die Vertauschbarkeit von Integration und Grenzwertbildung lim fn (x) dx = lim fn (x) dx
[a,b]
[a,b] n
im Allgemeinen die gleichmige Konvergenz der fn erforderlich. Ein entscheidender Vorteil des Lebesgue-Integrals ist die Existenz von Konvergenzstzen, die wesentlich schwchere Voraussetzungen fr die Vertauschbarkeit haben.
4.3 Satz von der monotonen Konvergenz (B. Levi) Fr reelle Zufallsvariablen Xn
Die Messbarkeit von X folgt aus Satz 3.7. Die Xn sind monoton wachsend und positiv, also ist ( Setze c := lim Xn dP X dP .
67
Es gengt nun fr jede einfache Funktion Y mit Y X zu zeigen, dass c Sei dazu
m
Y dP .
Y =
i=1
i 1[Y =i ] ,
i 0.
Sei < 1 beliebig aber fest und An := [Xn Y ]. Wegen Xn X folgt An also auch An [Y = j ] [Y = j ] fr j = 1, . . . , m.
m m
Y dP =
j=1
j P [Y = j ] =
m
j=1
j lim P (An [Y = j ])
n
= lim lim
j=1
j P (An [Y = j ]) = lim
Y 1An dP
Xn
Xn dP = c.
Y dP c.
und Verteilungsfunktion F : Rn R.
1.) Nimmt X (eventuell nach Vernachlssigung einer P -Nullmenge in ) hchstens abzhlbar viele Werte an, so ist PX eine sogenannte diskrete W-Verteilung. Ist X eine reelle Zufallsvariable und PX auf N0 konzentriert, so heit die Folge (pk )k mit pk := PX ({k}) = P [X = k], (wobei
k=0
k N0 ,
68
4-B
n i=1 (,xi ]
i=1
(, xi ] = F (x1 , . . . , xn ),
(x1 , . . . , xn ) Rn
bereinstimmt, so heit f Dichte(funktion) von X bzw. PX bzw. F . PX und F heien totalstetig, falls sie eine Dichtefunktion besitzen.
4.3 Bemerkungen.
b. Besitzt die n-dimensionale Verteilungsfunktion F : Rn R eine Dichtefunktion f : Rn R+ , so existiert L-f.. nF , x1 . . . xn und L-f.., d.h. insbesondere an den Stetigkeitsstellen von f , gilt nF = f. x1 . . . xn c. Ein uneigentliches Riemann-Integral einer nichtnegativen Bn -B-messbaren Funktion lsst sich als Lebesgue-Integral deuten.
69
Sind Dichtefunktion bzw. Zhldichte bekannt, so knnen wir den abstrakten Ausdruck PX durch ein Integral ber eine konkrete Funktion bzw. durch eine Reihe ersetzen, PX (A) = f d bzw.
kN0 A
pk .
Zufallsvariablen mit Dichtefunktion bzw. Zhldichte, sind fr uns somit sehr zugnglich. Es lassen sich jedoch nicht fr alle Zufallsvariablen Dichten nden, denn dazu msste jede Verteilungsfunktion L-f.. dierenzierbar und Dierentiation mit der Integration ber Rn vertauschbar sein.
4.4 Satz Sei X eine reelle Zufallsvariable mit Verteilung PX .
k pk .
xf (x) dx =:
xf (x) ( dx)
X nimmt hchstens abzhlbar viele verschiedene Werte in N0 an, wir knnen das Integral also schreiben als,
n
X dP = lim
k=0
k P [X = k] =
k=0
k pk .
70
4-B
Spezialfall zu 4.4b). Sei X 0 und F stetig dierenzierbar auf (0, ). Wir verwenden die Denition des Erwartungswerts als Riemann-Stieltjes-Integral EX = lim
x
[0,x]
t dF (t) = lim
[0,x]
tF (t) dt =
xf (x) dx.
[0,]
(!) gilt, da F stetig dierenzierbar. Da f nur auf der positiven rellen Achse Werte 0 annimmt, gilt somit EX = xf (x) dx.
Mit Hilfe des Transformationssatzes werden wir spter einen vollstndigen Beweis geben knnen.
te haben wir mit Satz 4.4 eine konkrete Mglichkeit den Erwartungswert zu berechnen. Wir betrachten dazu nun einige Beispiele.
Bsp 4 Sei X b(n, p)-verteilt, d.h. X hat die Zhldichte
pk = P [X = k] =
n k p (1 p)nk , k
(k = 0, 1, . . . , n)
k , k!
k N0 ,
ke
k . k!
k k s = e es , k!
s [0, 1].
71
g bezeichnet man auch als erzeugende Funktion der Poisson-Verteilung. Wir werden in Kapitel 6 genauer darauf eingehen. Die Reihe konvergiert auf [0, 1] gleichmig, wir knnen also gliedweise dierenzieren und erhalten somit, g (s) = ke
k=1
k k1 s = e es . k!
k = g (1) = . k!
f (x) := Es gilt EX = a.
2 1 (xa) e 2 2 , 2
a R,
> 0.
xf (x) dx =
(x a)f (x) dx +
af (x) dx.
f (x) ist symmetrisch bezglich x = a, d.h. der linke Integrand ist asymmetrisch bezglich x = a und damit verschwindet das Integral. EX = a da f Dichte.
R
f (x) dx = a,
Bsp 7 Sei X exp() verteilt mit > 0, so besitzt X die Dichtefunktion f mit,
Es gilt EX =
0, f (x) = ex ,
1 .
x < 0, x 0.
xex dx
part.int.
xex
ex dx
1 = ex
1 .
72
4-B
0,
1 ba ,
a+b 2 .
f ist eine Rechteckfunktion, ihr Erwartungswert ist die Intervallmitte. Der Transformationssatz
g dF =:
g(x) dF (x).
g(k)pk ,
unter der Voraussetzung von Satz 4.4a, unter der Voraussetzung von Satz 4.4b.
f (x) dx
Wir fhren den Beweis nach der Standardprozedur. 0. Schritt: Beweis der Behauptung fr g = 1A und A B.
R
X 1 (A) dP =
1A (X) dP .
73
Wir knnen somit einen vollstndigen Beweis von 4.4 b) geben. Sei X reelle Zufallsvariable und g = id, d.h. g(x) = x, so gilt EX = E(g X) =
R
g dPX =
id dPX .
id dPX =
x dF (x).
x dF (x) =
xf (x) d(x).
verteilung und erhlt den Gewinn 1 , wenn er den Punkt x trit, wobei wir
1 0
:= gewichten.
|x|
Gesucht ist der mittlere Gewinn des Schtzen. Dazu konstruieren wir eine
Zufallsvariable X, die den zufllig getroenen Punkt angibt. X ist nach Voraussetzung gleichverteilt, d.h. die zugehrige Dichte gegeben durch, 1 , x [1, 1], 2 f (x) = 0, sonst. f (x) f
x
4.1
Dichtefunktion zu X.
1 dx = 2 x x
1 1 f (x) dx = 2 |x|
1 0
[1,1]
1 dx |x|
= 2.
74
4-B
Bsp 10 Ein Punkt wird rein zufllig aus der Einheitskreisscheibe K von 0 ausge-
whlt. Wie gro ist der zufllige Abstand dieses Punktes von 0? Um diese Fragestellung zu modellieren, konstruieren wir einen zweidimention f : R2 R+ ist dann gegeben durch, f (x1 , x2 ) = 1
,
0,
sonst.
(x1 , x2 ) K,
pol.koord.
=0 r =0
r r d(r , ) =
2 . 3
F (y) := P [Y y] =
1 2 y
=y ,
falls y 0,
yF (y) dy = 2
1 0
y 2 dy =
2 . 3
Welcher Weg (schneller) zum Ziel fhrt, hngt vom Problem ab. Zusatz Sei X ein n-dimensionaler Zufallsvektor auf (, A, P ) und g : (Rn , Bn ) (R, B),
75
f F
4.2
Dichtefunktion zu X.
Rn
g X dP =
Rn
g dPX .
1A (x)f (x) dx =:
f (x) dx.
[Falls das entsprechende Riemann-Integral existiert, so stimmen Riemann- und Lebesgue-Integral berein.] Der Beweis erfolgt wie im eindimensionalen Fall. Die letzte Behauptung folgt sofort fr g = 1A .
A
76
4-C
X.
heit EX k das k-te Moment von X und E(X EX)k das k-te zentrale Moment von
Ist X integrierbar, dann heit V(X) := E(X EX)2 die Varianz von X und (X) :=+ V(X) die Streuung von X. Das erste Moment einer Zufallsvariablen haben wir bereits als Erwartungswert kennengelernt. Die Varianz V(X), gibt die Schwankung der Zufallsvariablen X als mittleren Wert ihrer quadratischen Abweichung von EX an. Fr die Existenz der Varianz ist es nicht notwendig, die quadratische Integrierbarkeit von X explizit zu fordern, da durch die Integrierbarkeit von X gesichert ist, dass (X EX)2 eine nicht-negative reelle Zufallsvariable und damit E(X EX)2 deniert ist (wenn auch mglicherweise ).
4.2 Lemma Sei X eine reelle Zufallsvariable und 0 < < . Dann gilt
des k-ten Moments somit die Existenz aller niedrigeren Momente EX l mit l k.
4.6 Satz Sei X eine reelle integrierbare Zufallsvariable. Dann gilt
77
Im Gegensatz zum Erwartungswert ist die Varianz ist also insbesondere keine lineare Operation. Den Fall EX 2 = behandeln wir durch Stutzung von X in Hhe c und gehen Betrachten wir also den Fall EX 2 < . EX < und somit,
a) V(X) = E(X E(X))2 = E(X 2 2(EX)X + (EX)2 ). Nach Voraussetzung ist V(X) = EX 2 2(EX)(EX) + (EX)2 = EX 2 (EX)2 . b) Unter Verwendung der Linearitt von E erhalten wir sofort, V(aX + b) = E(aX + b E(aX + b))2 = E(aX + b aEX b)2 = a2 E(X EX)2 = a2 V(X).
Bsp 11 X sei b(n, p)-verteilt mit n N, p [0, 1]. V(x) = np(1 p). Wir
Bsp 12 X sei ()-verteilt mit > 0. Die Berechnung der Varianz erfolgt mittels
der Erzeugendenfunktion,
n
g(s) =
k=0 n k=2
k k s = e es , k! k k2 s = 2 e es , k! s [0, 1].
g (s) =
k(k 1)e
Auswerten ergibt
n
g (1) =
k=2
k(k 1)e
4.5=E(X(X1))
k = 2 . k!
VX = EX 2 (EX)2 = 2 + 2 = .
78
4-C
verteilt. Wir knnen uns also auf den Fall a = 0, = 1 zurckziehen, wobei man leicht zeigen kann, dass E |X|n < , n N. Weiterhin gilt EX 2k+1 = 0,
(X a) N(0, 1)
k N0 ,
da der Integrand eine ungerade Funktion ist und daher das Integral verschwindet. Insbesondere ist EX = 0.
4.5
dx
0
part. int.
x2 2 1 x 2k+1 e 2 2 2k + 1
2 2
x2 1 x 2k+1 (x)e 2 dx 2k + 1
2 1 2 2k + 1
=0
x 2k+2 e
x2 2
dx =
1 EX 2k+2 . 2k + 1
Somit gilt fr jedes k N0 , EX 2k+2 = (2k + 1)EX 2k . Insbesondere erhalten wir EX 0 = E1 = 1 EX 2 = 1 V(X) = 1.
Fr allgemeines N(a, 2 ) verteiltes X erhalten wir somit, 1 (X a) = 0 EX = a, 1 (X a) = 1 VX = 2 . V E Die folgenden Ungleichungen haben zahlreiche Anwendungen und gehren zu den wichtigsten Hilfsmitteln der Stochastik.
4.7 Satz Sei X eine reelle Zufallsvariable auf einem W-Raum (, A, P ). Dann gilt
P [|X| ] r E|X|r ,
Markosche Ungleichung.
79
Zum Beweis verwenden wir eine Zufallsvariable Y , die X stutzt, 1, Y := 0, falls |X| ,
sonst.
Oensichtlich ist Y
|X|r r
Als Anwendung beweisen wir das Bernoullische schwache Gesetz der groen Zahlen.
Bsp 14 Sei Yn eine Zufallsvariable, die die Anzahl der Erfolge in n Bernoulli-
Versuchen mit jeweiliger Erfolgswahrscheinlichkeit p [0, 1] (fest) angibt. Yn ist also b(n, p)-verteilt und es gilt EYn = np, VYn = np(1 p). Yn . n
Die relative Hugkeit der Anzahl der Erfolge ist gegeben durch Sei nun > 0 beliebig aber fest, so gilt P V Yn Yn n p n 2 =
1 p(1 p) V(Yn ) = 0, 2 n2 2 n
n .
Zusammenfassend erhalten wir das Bernoullische schwache Gesetz der groen Zahlen, >0:P Yn p 0, n n .
Eines der Ziele dieser Vorlesung ist die Verallgemeinerung dieses Gesetzes auf das starke Kolmogorovsche Gesetz der groen Zahlen in Kapitel 9.
80
Unabhngigkeit
5 Unabhngigkeit
Es ist eine zentrale Fragestellung der Wahrscheinlichkeitstheorie, inwiefern sich zufllige Experimente gegenseitig beeinussen. In 1-D haben wir bereits die Bedingte Wahrscheinlichkeit deniert und festgestellt, dass sich Zufallsexperimente tatschlich beeinussen knnen und damit die Wahrscheinlichkeit fr das Eintreten eines Ereignises vom Eintreten eines vorangegangen Ereignisses abhngen kann. In diesem Kapitel wollen wir die Eigenschaften von unabhngigen Ereignissen und insbesondere unabhngigen Zufallsvariablen studieren. Solche Zufallsvariablen haben viele angenehme Eigenschaften und lassen sich besonders leicht handhaben Die wirklich interessanten Experimente sind jedoch gerade nicht unabhngig.
82
5-A
und A = P().
Betrachte dazu einen laplaceschen W-Raum (, A, P ) mit = {1, . . . , 6}2 Sei A das Ereignis, dass im ersten Wurf eine 1 erzielt wird, B das Ereignis, 1 6 = , 36 6 18 1 P (B) = = . 36 2 P (A) =
dass im zweiten Wurf eine gerade Zahl erscheint. Einfaches Abzhlen ergibt,
Die Wahrscheinlichkeit, dass beide Ereignisse gleichzeitig eintreten ist, P (A B) = 3 1 1 1 = = = P (A) P (B). 36 12 6 2
Eine solche Situation (P (A B) = P (A) P (B)) ist typisch bei Ereignissen, bei Wir werden den Fall, dass die Wahrscheinlichkeit des gemeinsamen Eintre-
tens mit dem Produkt der einzelnen Wahrscheinlichkeiten bereinstimmt als Grundlage fr die Denition der stochastischen Unabhngigkeit verwenden. Es ist wichtig, zwischen stochastisch unabhngig und physikalisch unabhngig zu unterscheiden, denn im Allgemeinen lassen sich aus der stochastischen Unabhnigkeit keine Rckschlsse auf die physikalische machen. Sei (, A, P ) ein W-Raum, A und B A mit P (B) > 0, dann gilt P (A B) = P (A | B)P (B). Falls A von B unabhngig ist, muss gelten P (A | B) = P (A) und damit P (A B) = P (A)P (B).
5.1 Denition Sei (, A, P ) ein W-Raum. Eine Familie {Ai : i I} von Ereignissen
P (Ak ).
kK
83
Unabhngigkeit
In dieser Denition werden keine Anforderungen an die Indexmenge I gemacht, unendliche (z.B. berabzhlbare) Indexmengen sind also durchaus zugelassen. Im Folgenden sei mit unabhngig stets stochastisch unabhngig gemeint. Auf logische oder physikalische Unabhngigkeit lassen sich aus der stochastischen Unabhngigkeit im Allgemeinen keine Rckschlsse machen.
5.2 Denition Sei (, A, P ) ein W-Raum. Eine Familie {Xi : i I} von (i , Ai ) -
Zufallsvariablen auf (, A, P ) heit unabhngig, wenn gilt: Fr jede nichtleere endliche Indexmenge {i1 , . . . , in } I und jede Wahl von Mengen Ai Ai ( = 1, . . . , n) ist
n
=1
P Xi Ai .
Sprechweise: Unabhngigkeit der Zufallsvariablen statt Unabhngigkeit der Familie der Zufallsvariablen. Fr die Unabhngigkeit von Zufallsvariablen ist es somit nicht notwendig explizit zu fordern, dass alle Zufallsvariablen den selben Wertebereich teilen. Die Voraussetzung, dass alle auf dem selben W-Raum (, A, P ) deniert sind, lsst sich jedoch nicht abschwchen.
5.1 Lemma Eine Familie von Ereignissen ist genau dann unabhngig, wenn jede
endliche Teilfamilie unabhngig ist. Entsprechendes gilt fr Zufallsvariablen. Die Aussage folgt direkt aus den Denitionen 5.1 und 5.2.
5.1 Bemerkung zu Denition 5.1 bzw. Denition 5.2. Die paarweise Unabhngigkeit
impliziert im Allgemeinen nicht die Unabhngigkeit. Beweis durch Gegenbeispiel. Betrachte zwei Ausspielungen eines echten Wrfels ohne gegenseitige Beeinussung. Dieses Experiment knnen wir durch einen Laplaceschen W-Raum (, A, P ) mit || = 36 modellieren. Sei Ai das Ereignis, dass im i-ten Wurf eine ungerade Zahl auftritt P (Ai ) = P (A1 A2 ) = 9 1 = , 36 4 P (A1 B) = 9 1 = , 36 4 P (A2 B) = 9 1 = , 36 4
1 2
und B das Ereignis, dass die Summe der Augenzahlen ungerade ist P (B) =
1 2.
84
5-A
somit sind die Ereignisse paarweise unabhngig aber P (A1 A2 B) = P () = 0 1 111 = . 222 8
len) Zufallsvariablen und Indikatorfunktionen 1Ai auf (, A, P ). {Ai : i I} unabhngig Unabhngige Zufallsvariablen 1Ai : i I unabhngig .
unabhngig
Aufgrund von Lemma 5.1 gengt es den Beweis auf einer endlichen Index-
1 i {1, . . . , n} : Xi gi (Ai )
P gi Xi Ai ,
2 Xi ,
Bsp 2 Betrachte erneut zwei Ausspielungen eines echten Wrfels ohne gegen-
5.2 Satz Sei eine unabhngige Familie {Xi : i I} reeller Zufallsvariablen auf ei-
jJ Ij
85
Unabhngigkeit
b) Sind Abbildungen gj : (R|Ij | , B|Ij | ) (R, B), j J, gegeben, so ist die Familie gj Yj : j J unabhngig.
a) Beweisidee. Betrachte den Spezialfall Y1 = X1 , Y2 = (X2 , X3 ). Nach Anist nun fr B1 B, B2 B2 P [Y1 B1 , Y2 B2 ] = P [Y1 B1 ] P [Y2 B2 ]. Dabei gengt es nach Satz 1.4, die Aussage auf Intervallen I1 B1 bzw.
5.3 Bemerkung. Satz 5.2 lsst sich auf (i , Ai ) - Zufallsvariablen und Abbildungen
gj :
iIj (i , Ai )
(j , Aj ) verallgemeinern.
mit Verteilungsfunktionen Fi . Der Zufallsvektor X := (X1 , . . . , Xn ) habe die ndimensionale Verteilungsfunktion F. a) {X1 , . . . , Xn } ist genau dann unabhngig, wenn gilt (x1 , . . . , xn ) Rn : F (x1 , . . . , xn ) =
n
Fi (xi )
i=1
(*)
(*)
f (x1 , . . . , xn ) =
i=1
86
5-A
P [X1 x1 , . . . , Xn xn ]
Unabhnige Zufallsvariablen haben somit die angenehme Eigenschaft, dass die gemeinsame Dichte (die Dichte der gemeinsamen Verteilung) dem Produkt der Randverteilungsdichten (der Dichten der Randverteilungen) entspricht. Insbesondere ist fr unabhnige Zufallsvariablen die gemeinsame Verteilung eindeutig durch die Randverteilungen bestimmt.
Bsp 3 Seien X, Y unabhngig, wobei X exp() und Y exp() verteilt, so besitzen
Die gemeinsame Dichte ist nach Satz 5.3 gegeben durch f (x, y) = ex ey . Betrachten wir andererseits die gemeinsame Verteilung, so gilt F (s, t) = P [X s, Y t] = P [X s]P [Y t] da X und Y unabhngig. Weiterhin ist P [X s]P [Y t] = FX (s)FY (t) = =
s 0 t 0 s 0 !
ex dx
t 0
ey dy
ex ey dx dy .
f (x,y)
87
Unabhngigkeit
Entsprechendes gilt fr komplexe Zufallsvariablen, wobei wir C mit dem R2 identizieren und komplexe Zufallsvariablen als Xk : (, A) (R2 , B2 ) mit EXk := E Re Xk + iE Im Xk (k = 1, . . . , n).
Wir beschrnken uns zunchst auf reelle Zufallsvariablen. Mit Satz 5.2 ist eine Reduktion auf den Fall n = 2 mglich. Zu zeigen ist also, dass E(X1 X2 ) = (EX1 )(EX2 ). Ohne Einschrnkung sind X1 , X2 0, ansonsten betrachten wir eine Zerle-
gung in X1 = X1,+ X1, . Mit Hilfe des des Satzes von der monotonen Konver-
x
j=1
j 1Aj (x)
zurckziehen. Wir beweisen die Aussage nun fr Indikatorfunktionen X1 = 1A1 , X2 = 1A2 mit A1 , A2 A. E(X1 X2 ) = E(1A1 1A2 ) = E(1A1 A2 ) = P (A1 A2 ) = P (1A1 = 1, 1A2 = 1) = P (1A1 = 1)P (1A2 = 1) = P (A1 )P (A2 ) = (E1A1 )(E1A2 ) = (EX1 )(EX2 ).
Der Erwartungswert ist somit linear und vertauscht mit der Multiplikation.
5.5 Satz von Bienaym Seien X1 , . . . , Xn paarweise unabhngige reelle Zufallsva-
riablen mit endlichen Erwartungswerten. Dann gilt Addieren wir zum Erwartungswert eine Konstante, ndert sich die Varianz nicht, wir knnen also ohne Einschrnkung annehmen EXj = 0 (j = 1, . . . , n). V
n j=1
j=1
Xj =
V(Xj ) .
j=1
Xj = E
n
j=1
Xj =
i<j
n i=1
2 EXi + 2
E(Xi Xj )
i<j n 2 EXi = n
i=1
2 EXi + 2
E(Xi )E(Xj ) =
=0
VXi .
i=1
i=1
88
5-A
Fr unabhngige Zufallsvariablen vertauscht die Varianz mit endlichen Summen, wobei fr reelle Konstanten a, b R und eine Zufallsvariable X gilt V(aX + b) = a2 V(X). Dies ist kein Widerspruch, denn setzen wir Y b, so ist Y Zufallsvariable und EY = b. Somit ist VY = EY 2 (EY )2 = b2 b2 = 0, also V(aX + b) = V(aX + Y ) = V(aX) + V(Y ) = a2 V(X).
5.4 Bemerkung. In Satz 5.5 gengt statt der Unabhngigkeit von {X1 , . . . , Xn } die
Dies ist tatschlich eine schwchere Voraussetzung, denn sind X und Y unabhngig, so gilt E((X EX)(Y EY )) = E(X Y (EX)Y (EY )X + (EX)(EY )) = E(X)(EY ) (EX)(EY ) = 0.
Faltungen Sind X, Y zwei unabhngige reelle Zufallsvariablen auf einem W-Raum (, A, P ) mit Verteilungen PX , PY , so ist nach Satz 5.3 und Satz 2.1 die Verteilung P(X,Y ) des 2-dimensionalen Zufallsvektors durch PX und PY eindeutig festgelegt. Setzen wir g : (x, y) PX+Y = Pg(X,Y ) von X + Y eindeutig durch PX und PY festgelegt. Wie ermittelt man nun diese Verteilung? x +y, so ist g messbar und damit auch die Verteilung
Raum (, A, P ) mit Verteilungen PX , PY , so wird die Verteilung PX+Y =: PX PY der Zufallsvariable X + Y als Faltung von PX und PY bezeichnet.
5.5 Bemerkung. Die Faltungsoperation ist kommutativ und assoziativ. 5.6 Satz Seien X, Y zwei unabhngige reelle Zufallsvariablen.
89
Unabhngigkeit
a) Besitzen X und Y Dichten f bzw. g, so besitzt X + Y eine [als Faltung von f und g bezeichnete] Dichte h mit h(t) =
R
f (t y)g(y) dy =
t R.
b) Besitzen X und Y Zhldichten (pk )kN0 bzw. (qk )kN0 , so besitzt X + Y eine [als Faltung von (pk ) und (qk ) bezeichnete] Zhldichte (rk )kN0 mit
k k
rk =
j=0
pkj qj =
i=0
qki pi , k N0 .
Den Beweis verschieben wir auf das nchste Kapitel, denn mit Hilfe der charakteristischen Funktionen werden wir ber die fr einen einfachen Beweis ntigen Mittel verfgen.
Bsp 4 Sei X1 eine b(n1 , p)-verteilte und X2 eine b(n2 , p)-verteilte Zufallsvaria-
ble. Sind X1 und X2 unabhngig, dann ist X1 + X2 eine b(n1 + n2 , p)-verteilte Zufallsvariable. Einfacher Beweis. Betrachte n1 +n2 Bernoulli-Versuche mit jeweiliger Erfolgs-
wahrscheinlichkeit p. Sei nun Y1 die Zufallsvariable, die die Anzahl der Erfolge der ersten n1 Versuche angibt und Y2 die Zufallsvariable, die die Anzahl der Erfolge in den letzten n2 Versuchen angibt. Somit sind Y1 und Y2 unabhngig und Y1 + Y2 gibt die Anzahl der Erfolge in n1 + n2 Bernoulli-Versuchen an. Scharfes Hinsehen liefert PX1 = PY1 und PX2 = PY2 , dann gilt auch PX1 +X2 = PY1 +Y2 = b(n1 + n2 , p). Somit folgt fr unabhngige Zufallsvariablen X1 , . . . , Xn , die b(1, p)-verteilt sind, dass X1 + . . . + Xn eine b(n, p)-verteilte Zufallsvariable ist.
Bsp 5 Wir knnen jetzt einen einfachen Beweis dafr geben, dass eine b(n, p)-
lsst sich diese Zufallsvariable als Summe von n unabhngigen b(1, p)-verteilten Zufallsvariablen X1 , . . . , Xn darstellen, V(X1 + . . . + Xn ) = nV(X1 ) = np(1 p),
2 da V(X1 ) = EX1 (EX1 )2 = 02 (1 p) + 12 p p 2 = p(1 p). 5.5
90
Null-Eins-Gesetz
5-B
Die Unabhngigkeit der Zufallsvariablen ist fr die Aussage des Satzes 5.6 notwendig, denn er basiert darauf, dass fr unabhngige Zufallsvariablen die gemeinsame Dichte das Produkt der Randverteilungsdichten ist. Fr allgemeine (nicht unabhngige) Zufallsvariablen wird diese Aussage und damit der Satz falsch.
5.6 Bemerkung (Satz von Andersen und Jessen). Gegeben seien Messrume (i , Ai )
und W-Mae Qi auf Ai , i I. Dann existiert ein W-Raum (, A, P ) und (i , Ai )und PXi = Qi . Zufallsvariablen Xi auf (, A, P ), i I, mit Unabhngigkeit von {Xi : i I}
5-B Null-Eins-Gesetz
In Kapitel 1-B haben wir das 1. Lemma von Borel und Cantelli bewiesen, welches fr einen W-Raum (, A, P ) und An A die Aussage macht
n n=1
Das 2. Lemma von Borel und Cantelli ist fr unabhngige Ereignisse das Gegenstck zu dieser Aussage.
5.7 2. Lemma von Borel und Cantelli Sei (, A, P ) ein W-Raum. Die Familie
In diesem Fall tritt An P-f.s. unendlich oft auf. Sei B := lim supn An :=
c n=1 kn
n=1 kn
Aufgrund der -Additivitt gengt es nun zu zeigen, dass die Mengen das P -Ma Null haben.
Ac . k
kn
Ac k
91
Unabhngigkeit
Ac k
kn
Ac , k
N .
Somit gengt es wegen der Stetigkeit der W-Mae von oben zu zeigen, dass Aufgrund der Unabhngigkeit der A1 , A2 , . . . gilt P
N k=n
k=n
Ac 0. k
Ac = k
k=n
P Ac = k
k=n
(1 P (Ak )).
ex x 1x
5.1
k=n
Ac k
P (Ak )
0,
N .
92
Null-Eins-Gesetz
5-B
n1
n1
Die Voraussetzung der Unabhngigkeit der (An ) im 2. Lemma von BorelCantelli ist notwendig, damit die Aussage gilt, wie folgendes Beispiel zeigt.
Bsp 6 Sei A A mit P (A) =
1 2
und
n1
wahrscheinlichkeit
Da
n1
P (An ) = ,
folgt, dass die Wahrscheinlichkeit fr unendlich viele Misserfolge gleich 1 ist (obwohl P (An ) 0).
5.4 Denition Sei (, A) ein Messraum und An A -Algebren fr n N. Mit
Tn := F
k=n
Ak
n=1
Tn
heit die -Algebra der terminalen Ereignisse (tail events) der Folge (An ).
1 Bsp 8 Seien Xn : (, A) (R, B) und An := F (Xn ) := Xn (B) fr n N.
Tn ist somit die von den Ereignissen, die lediglich von Xn , Xn+1 , . . . abhngen, erzeugte -Algebra.
93
Unabhngigkeit
a.)
lim Xn = X R =
lim |Xn X| = 0
= [ > 0 N N n N : |Xn X| < ] Q liegt dicht in R, wir knnen uns also fr die Wahl von auf Q zurckziehen, [ Q > 0 N N n N : |Xn X| < ] da alle > 1 uninteressant sind, knnen wir auch schreiben k N N N n N : |Xn X| < =
kN
N N n N : |Xn X| <
1 k
1 k
und da es auf endlich viele N nicht ankommt, = = n N : |Xn X| < sup |Xn X| <
Tk
kN Nk
1 k
kN Nk
nN
1 . k
Xn konvergiert T , denn
n
Xn konvergiert =
nk
Xn konvergiert ,
n
kN
Xn konvergiert Tk fr
lim sup An :=
n
Ak = { : An fr unendliche viele n} T ,
lim inf An :=
n
n=1 k=n
94
Null-Eins-Gesetz
5-B
5.8 Null-Eins-Gesetz von Kolmogorov Sei (, A, P ) ein W-Raum und (An ) eine
unabhngige Folge von -Algebren An A. Dann gilt fr jedes terminale Ereignis A von (An ) entweder P (A) = 0 oder P (A) = 1.
Fr den Beweis bentigen wir das folgende Resultat. Lemma Seien E1 und E2 schnittstabile Mengensysteme von Ereignissen, d.h. A, B E1 , E2 A B E1 , E2 . Sind E1 und E2 unabhngig, so sind es auch F (E1 ) und F (E2 ). Den Beweis ndet man z.B. in [Wengenroth].
Beweis von Satz 5.8. Sei also A T . Es gengt zu zeigen, dass A von sich selbst unabhngig ist, d.h. P (A A) = P (A)P (A), denn dann ist P (A) = 0 oder 1. Betrachte dazu die Mengen Tn+1 = F Dn := F Ak ,
kn+1
kn
Ak ,
und wende das vorige Lemma an, so sind Tn+1 und Dn unabhngig. Daher ist auch G=F
nN
Dn
jeder Teilmenge von T1 insbesondere von sich selbst. Somit folgt die Behaup-
95
Unabhngigkeit
Diese Aussage erhalten wir auch mit dem 1. und 2. Lemma von Borel und Cantelli. Insofern kann man das 0-1-Gesetz als Verallgemeinerung dieser Lemmata betrachten. Die Aussagen von Borel und Cantelli liefern jedoch darber hinaus noch ein Kriterium, wann die Voraussetzungen des 0-1-Gesetzes erfllt sind.
Bsp 11 Sei {Xn : n N} eine Folge reeller unabhngiger Zufallsvariablen, dann
gilt
Xn konvergiert = 0 oder 1.
96
(bk )kN0 bzw. X eine reelle Zufallsvariable auf einem W-Raum (, A, P ), deren
Verteilung PX auf N0 konzentriert ist, mit Zhldichte (bk )kN0 . Dann heit die
auf [0, 1] (oder auch {s C | |s| 1}) denierte Funktion g mit ({k})s k , k g(s) := bk s = bzw. k=0 P [X = k]s k = PX ({k})s k = Es X . bk |s|k bk = 1 fr |s| 1, da
98
Erzeugende Funktionen
6-A
Bei der erzeugenden Funktion handelt es sich also um die formale Potenzreihe g(s) =
k=0
bk s k ,
die nach obiger Bemerkung auf dem Intervall [0, 1] bzw. der abgeschlossenen Kreisscheibe {s C : |s| 1} absolut und gleichmig bezglich s konvergiert. Von besonderem Interesse sind die erzeugenden Funktionen, die neben der
Darstellung als Potenzreihe auch ber eine explizite Darstellung verfgen, denn dann lassen sich g(s), g (s), . . . meit leicht berechnen und man erspart sich kombinatorische Tricks, um die Reihen auf eine Form mit bekanntem Wert zu bringen.
6.2 Bemerkungen.
a. Die Binomialverteilung b(n, p) mit n N und p [0, 1] n k n p (1 p)nk s k = (p s)k (1 p)nk k k k=0
= (p s + (1 p))n = (ps + q)n . Die Reihe lsst sich im Gegensatz zu dem Ausdruck (ps + q)n nur mit einigem an Aufwand direkt berechnen. b. Die Poissonverteilung () mit (0, ) hat die erzeugende Funktion g mit g(s) =
k=0
c. Als negative Binomialverteilung oder Pascal-Verteilung Nb(r , p) mit Parametern r N, p (0, 1) wird ein W-Ma auf B (oder auch B) bezeichnet, das auf N0 konzentriert ist und mit q := 1 p die Zhldichte k Nb(r , p; k) := r +k1 r k p q , k N0 k
99
als geometrische Verteilung mit Parameter p (0, 1) bezeichnet. Ist (Xn )nN eine unabhngige Folge von b(1, p)-verteilten Zufallsvariablen, so ist die erweitert-reelle Zufallsvariable n X := inf n N : Xk = r r ,
k=1
erfolge bis zum r-ten Erfolg bei der zu (Xn ) gehrigen Folge von BernoulliVersuchen an. EX = rq rq , V(X) = 2 . p p
tion, so stimmen sie berein. Dies folgt aus dem Identittssatz fr Potenzreihen, der besagt, dass zwei auf einer nichtleeren oenen Menge identische Potenzreihen dieselben Koezienten haben.
Es besteht also eine Bijektion zwischen diskreten Verteilungen und erzeugenden Funktionen. Insbesondere haben zwei diskrete Zufallsvariablen mit derselben erzeugenden Funktion auch dieselbe Verteilung.
6.2 Satz Sei X eine reelle Zufallsvariable, deren Verteilung auf N0 konzentriert ist,
mit erzeugender Funktion g. a) g ist auf der oenen Kreisscheibe {s C : |s| < 1} unendlich oft dierenzierbar, sogar analytisch und fr j N gilt
0s1
g (j) (1) := lim g (j) (s) = E[X(X 1) . . . (X j + 1)] insbesondere g (1) = EX. b) Falls EX < , so gilt V(X) = g (1) + g (1) (g (1))2 .
( ),
100
Erzeugende Funktionen
6-A
a) Die Dierenzierbarkeit bzw. die Analytizitt auf der oenen Kreisscheibe wird in der Funktionentheorie bewiesen. Auf dieser Kreisscheibe knnen wir gliedweise dierenzieren und erhalten somit, g (j) (s) =
k=j
bk k(k 1) (k j + n)s kj ,
0 s < 1.
Auf dem Rand gehen wir gegebenfalls zum Grenzwert ber und erhalten mit dem Satz von der monotonen Konvergenz fr s 1, g (j) (s)
k=j
bk k(k 1) (k j + n).
Diese Reihe knnen wir auch als Erwartungswert der Zufallsvariablen X(X 1) (X j + 1) betrachten (siehe Satz 4.5), d.h. lim g (j) (s) = E(X(X 1 (X j + 1))).
s1
Insbesondere erhalten wir g (1) = EX. b) Da X integrierbar, knnen wir die Varianz darstellen als VX = EX 2 (EX)2 = E(X(X 1)) + EX (EX)2 = g (1) + g (1) (g (1))2 .
Kennen wir eine explizite Darstellung der erzeugenden Funktion einer diskreten Zufallsvariablen, lassen sich mit Satz 6.2 ihre Momente oftmals leicht berechnen.
6.3 Satz Seien X1 , . . . , Xn unabhngige reelle Zufallsvariablen, deren Verteilungen
jeweils auf N0 konzentriert sind, mit erzeugenden Funktionen g1 , . . . , gn . Fr die erzeugende Funktion g der Summe X1 + . . . + Xn gilt dann g =
n j=1
gj .
101
P [X1 + . . . + Xn = k]s k .
Nun interpretieren wir die erzeugende Funktion als Erwartungswert wie in 6.1, d.h. g(s) = E s X1 +...+Xn = E
n i=1
s Xi .
g(s) =
i=1
Es Xi =
gi (s).
i=1
P [Xi = 1] = p,
P [Xi = 0] = 1 p ,
q
so knnen wir sie als Folge von Bernoulli-Versuchen interpretieren mit jeweiliger Erfolgswahrscheinlichkeit p, [Xi = 1], Erfolg im i-ten Versuch.
Die erweiterte reellwertige Zufallsvariable Z1 gebe die Anzahl der Misserfolge bis zum 1. Erfolg an. Z1 ist erweitert reellwertig, da die Mglichkeit besteht, dass Z1 unendlich wird. Nach dem 1. Erfolg wiederholt sich die stochastische Situation. Z2 gebe die Anzahl der Misserfolge nach dem 1. bis zum 2. Erfolg an. Betrachte nun eine Realisierung 0, 0, 0, 0, 1, 0, 0, 1 , 1, 0, . . .
Z1 Z2 Z3
102
Erzeugende Funktionen
6-A
Nachweis der Unabhnigkeit und der identischen Verteilung. Wir zeigen zuerst die identische Verteilung, P [Z1 = k] = qk p, P [Z1 = ] = 1 P [Z2 = k] =
j=1
k N0 qk p = 1 p 1 = 0, 1q
j=1
fr p > 0,
k=0
P [Z1 = j, Z2 = k] =
qj pqk p
1 = p 2 qk = qk p, 1q
j, k N0 : P [Z1 = j, Z2 = k] = qj pqk p = P [Z1 = j]P [Z2 = k] insbesondere sind Z1 und Z2 unabhngig. Z1 hat die erzeugende Funktion, h(s) =
k=0
qk ps k = p
|s| < 1,
h (s) = pq(1 qs)2 , h (s) = 2pq2 (1 qs)3 , Nach Satz 6.2 gilt somit EZ1 = q , p VZ1 =
q pq = , (1 q)2 p
h (1) =
2q2 q + p2 p
q p
q(q + p) q = 2. p2 p
X :=
i=1
Zi
nach Satz 6.3 die erzeugende Funktion g = hr , also g(s) = h(s)r = p r (1 qs)r .
103
Aus der Analysis kennen wir folgenden Spezialfall der binomischen Reihe, (1 + x) =
k=0
k x , k
|x| < 1,
( 1) ( k 1) . k!
Diese Denition ist auch fr R sinnvoll. Wir knnen somit g darstsellen als g(s) =
6.1 k=0
pr
P [X = k] =
Die Zufallsvariable X gibt die Anzahl der Misserfolge bis zum r -ten Erfolg an. Also ist eine quivalente Denition von X gegeben durch n Xk = r r X := inf n N :
k=1
wobei Xk angibt, ob im k-ten Versuch ein Erfolg aufgetreten ist. Eine Zufallsvariable, welche die Anzahl der Misserfolge bis zum r -ten Erfolg bei Bernoulli-Versuchen mit Erfolgswahrscheinlichkeit p (0, 1) angibt, hat somit die Zhldichte r +k1 r k p q , k wobei Nb (r , p; k) :=
r k
mit Parameter p (0, 1). Wir knnen nun die negative Binomial-Verteilung darstellen als Nb(r , p) = Nb(1, p) . . . Nb(1, p) .
r mal
Konvergenzstze der Matheorie Wir haben bereits den Satz von der monotonen Konvergenz kennengelernt, der eine Aussage ber Vertauschbarkeit von Grenzwertbildung und Integration fr
104
Erzeugende Funktionen
6-A
positive, monotone Funktionenfolgen macht. Im Allgemeinen sind die Funktionenfolgen, mit denen wir in der Wahrscheinlichkeitstheorie arbeiten weder monoton noch positiv, wir bentigen also allgemeinere Aussagen. Lemma von Fatou Sei (, A, P ) ein Maraum. Fr jede Folge von nichtnegativen erweitert reellen messbaren Funktionen fn gilt,
fn d lim sup
n
fn d.
fn d
lim sup fn d.
n
Wir beweisen lediglich die erste Ungleichung, die andere ist trivial. Setze gn := inf fm lim inf fn =: g.
mn n
Auf diese Funktionenfolge knnen wir den Satz von der monotonen Konvergenz anwenden und erhalten somit, lim inf fn d = lim
n n mn
n mn
fn d
= lim inf
Man kann das Lemma von Fatou als Verallgemeinerung des Satzes von der monotonen Konvergenz von monotonen nichtnegativen auf lediglich nichtnegative Funktionenfolgen betrachten. Dadurch wird jedoch auch die Aussage auf anstatt = abgeschwcht. Satz von der dominierten Konvergenz Sei (, A, ) ein Maraum und fn , f ,
g erweitert reellwertige messbare Funktionen mit fn f -f.., fn g -f.. sowie g d < . Dann existiert
lim
fn d
und es gilt
n
lim
fn d =
lim fn d =
f d.
105
Man ndet den Satz in der Literatur auch unter dem Namen Satz von der majorisierten Konvergenz bzw. Satz von Lebesgue. Setze N := [fn f]
nN [
fn
g := g 1N c .
Dann gilt fn + g 0, g fn 0 auf ganz und fr alle n N. Mit dem Lemma f d = lim inf(fn + g) d
n n
g d g d = lim inf
n
(fn + g) d
fn d
fn d = lim inf
n
fn d
g d lim inf g d
n
(g fn ) d
lim inf(g fn ) d =
f d.
fn d = lim supn
lungsfunktion F . Dann heit die auf R denierte (i.a. komplexwertige) Funktion mit (u) := bzw. (u) := EeiuX = eiux PX ( dx) = eiux dF (x) eiux ( dx)
106
Charakteristische Funktionen
6-B
a. (0) = 1, b. |(u)| 1, u R, c. gleichmig stetig in R, d. (u) = (u), u R. Nachweis von Bemerkung 6.3 c) |(u + h) (u)| =
R R
Nun verschwindet der Integrand fr h 0, d.h. fr jede Nullfolge hn gilt eihn x 1 0, Auerdem ist eihn x 1 n . eihn x + 1 = 2, und
R
2 d = 2(R) = 2, wir
Die charakteristische Funktion ist im Wesentlichen die Inverse Fouriertransformierte von PX , der Verteilung von X. Besitzt X eine Dichte f , so gilt nach dem Transformationssatz X (u) =
R
.
u2 2
Insbesondere besitzt die Standardnormalverteilung N(0, 1) die charakteristische Funktion mit (u) = e .
107
Beweisskizze. 1. Teil. Wir betrachten zunchst N(0, 1). Die Standardnormalverteilung besitzt die Dichte f (x) =
x2 1 e 2 , 2
eiux
1 2 1 e 2 u 2
1 2 1 1 e 2 x dx = 2 2
ei(xiu)
2 1 u2 2
dx
ner komplexen Variablen z ist komplex dierenzierbar (analytisch, holomorph). Wir verwenden nun den Residuensatz, ein Resultat aus der Funktionentheorie, der besagt, dass das Integral einer holomorphen Funktion ber jede geschlossene Kurve c verschwindet,
c
e 2 z dz = 0.
Um dies auszunutzen, whlen wir eine spezielle geschlossene Kurve c (siehe Skizze) bestehend aus den Geradenstcken c1 , c2 , c3 und c4 .
R c2
c1
R c4 c3
6.1
Fr diese Geradenstcke knnen wir die Integrale leicht berechnen bzw. abschtzen,
c1
e 2 z dz 2 , e 2 z dz =
1 2
c2 ,c4
c2
e 2 z dz +
c4
e 2 z dz = 0,
e 2 z dz
1 2
c2
c3
e 2 z dz
R R
e 2 (xiu) dx.
108
Charakteristische Funktionen
6-B
e 2 z dz =
4 i=1 ci
e 2 z dz =
c1
e 2 z dz +
c3
e 2 z dz
1 (xiu)2 2
dx = 2 .
e 2 (xiu) dx = e 2 u .
2. Teil. Fr N(a, 2 ) allgemein ist die charakteristische Funktion gegeben durch, (u) =
(xa)2 1 eiux e 2 2 dx 2 R
Die Substitution y =
xa
ein W-Ma auf B oder B bezeichnet, das eine Dichtefunktion f mit x e , x>0 f (x) = 0, x0 besitzt.
Die zufllige Lebensdauer eines radioaktiven Atoms wird durch eine exponentialverteilte Zufallsvariable angegeben. Ist X eine erweitert-reelle Zufallsvagilt riable, deren Verteilung auf R+ konzentriert ist, mit P [0 < X < ] > 0, so s, t (0, ) : P [X > t + s | X > s] = P [X > t]. Diese Eigenschaft nennt man Gedchtnislosigkeit. Eine auf R+ konzentrierte reell erweiterte Zufallsvariable ist genau dann gedchtnislos, wenn sie exponentialverteilt ist. : Sei X also exp() verteilt. Per denitionem der bedingten Wahrscheinlichkeit gilt, P [X > t + s | X > s] = P [X > t + s, X > s] 1 F (t + s) = . P [X > s] 1 F (s)
109
F (x) =
0,
et dt = 1 ex ,
x > 0, x 0.
1 F (t + s) e(t+s) = = et = 1 F (t) = P [X > t]. 1 F (s) es dung der Denition der bedingten Wahrscheinlichkeit erhalten wir P [X > t + s] = P [X > t] P [X > s] .
H(t+s) H(t) H(s)
Wir interpretieren diese Gleichung als Funktionalgleichung und suchen nach einer Lsung H : R+ R+ , die diese Gleichung erfllt. Da H(t) = P [X > t] = 1 F (t) erhalten wir aus den Eigenschaften der Verteilungsfunktion fr H auerdem die Randbedingungen H(0) = 1 und lim H(t) = 0. Oensichtlich ist H(t) = et fr (0, ) eine Lsung.
t
Man kann zeigen, dass dies in der Klasse auf R+ konzentrierten Verteilungen
Fr die Beschreibung von technischen Gerten oder Bauteilen ist es oft notwending ein Gedchtnis miteinzubauen. Dafr eignet sich die sog. WeibullVerteilung1 , welche eine Verallgemeinerung der Exponential-Verteillung darstellt. Fr eine Zufallsvariable X mit PX = exp() gilt EX = 1 , V(X) = 1 . 2
Ernst Hjalmar Waloddi Weibull (* 18. Juni 1887; discher Ingenieur und Mathematiker.
110
Charakteristische Funktionen
6-B
EX =
xf (x) dx =
xex dx = xex x 2 ex 1 1 = 2. 2
x=0
ex dx =
VX = EX 2 (EX)2 =
iu .
eiux ex dx =
e(iu)x dx =
iu .
x > 0, x 0,
besitzt. Hierbei ist ,1 = exp() Die Gamma-Verteilung stellt also ebenfalls eine
2 Verteilung n mit n Freiheitsgraden bezeichnet (n N).
0,
. iu
EX und VX folgen durch direktes Integrieren oder unter Verwendung der Die charakteristische Funktion ist gegeben durch folgendes Integral
0
(u) =
iux 1 x e x e dx. ()
Dieses wollen wir nicht direkt berechnen, sondern in eine Dierentialgleichung umformen und so elegant lsen. Unter Verwendung des Satzes ber dominierte
111
Konvergenz lsst sich nachweisen, dass Dierentiation und Integration hier vertauscht werden knnen. Somit erhalten wir (u) = = =
0 0
iux 1 x e x e dx = () ()
0 0
ixeiux x 1 ex dx
i ()
e(iu)x x dx i ()
0
i e(iu)x x () iu i iu
=0 0
x 1
e(iu)x dx iu
1 (iu)x i x (u). e dx = () iu
Dies liefert nach Zerlegung der DGL in Real- und Imaginranteil und anschlieendem Lsen der Anfangswertprobleme Re (0) = 1 und Im (0) = 0 die eindeutige Lsung (u) = iu
Eindeutigkeitssatz und Umkehrformeln Per se ist nicht klar, ob zwei unterschiedliche Verteilungsfunktionen auch unterschiedliche charakteristische Funktionen besitzten bzw. inwiefern eine charakteristische Funktion die Verteilung charakterisiert. Der folgende Satz beantwortet die Frage.
6.4 Eindeutigkeitssatz fr charakteristische Funktionen Besitzen zwei auf B de-
nierte W-Mae bzw. Verteilungen dieselbe charakteristische Funktion, so stimmen sie berein. Ist ein W-Ma auf B bzw. PX die Verteilung einer reellen Zufallsvariablen X
mit zugehriger Verteilungsfunktion F und zugehriger charakteristischer Funktion und sind a, b mit a < b Stetigkeitsstellen von F , so gilt die Umkehrformel F (b) F (a) = lim 1 2
U U
112
Charakteristische Funktionen
6-B
Wir erhalten mit Hilfe dieses Satzes zunchst nur die Eindeutigkeit auf den halboenen Intervallen. Der Fortsetzungssatz besagt jedoch, dass damit auch die Fortsetzung auf die Menge der Borelschen Mengen eindeutig ist. Es gengt, die Umkehrformel zu beweisen. Wir verwenden dazu die DirichletFormel 1
B
A B
lim
sin(v) dv = 1, v
die man leicht unter Verwendung der Funktionentheorie beweisen kann. Wir verwenden auerdem die Identitt,
b y=a b
= iu
eiuy dy ,
y=a
lim
u=U
u=U x= U
eiu(xy) dy F ( dx) du
b U
x= u=U y=a
eiu(xy) du dy F ( dx)
b
x= y=a u=U
= lim
x= y=a b
= lim
x= y=a
113
1 U
d,
x=
lim
U(xb)
y=U(xa)
sin(v) dv F ( dx) v
:=G(U,x)
Fr den Integranden erhalten wir unter Verwendung der Formel von Dirichlet, 1, falls a < x < b, lim G(U , x) = 0, falls x < a, U 0, falls x > b. wir fr das Integral
Falls wir den Satz von der dominierten Konvergenz anwenden knnen, erhalten
denn das Verhalten des Integranden an den Unstetigkeitsstellen ist fr den Integralwert nicht von Bedeutung. Wir mssen also noch nachweisen, dass wir den Satz ber die dominierte beschrnkt, d.h. Konvergenz auch anwenden knnen. Setze n = U und fn = G(U, ), G(U, ) ist |G(U , )| g < , g R.
Nun ist die konstante Funktion g integrierbar bezglich der durch die Verteilungsfunktion F induzierten Verteilung . ((a, b] = F (b) F (a)). darber hinaus integrierbar, gilt wesentlich mehr.
6.5 Satz Gegeben sei eine Verteilungsfunktion F mit charakteristischer Funktion ;
es sei
|(u)| du < . Dann besitzt F eine Dichte f , die stetig und beeiux (u) du , x R.
114
Charakteristische Funktionen
6-B
1 2
(u) du .
auf den Integranden den Mittelwertsatz bezglich x anwenden, eiu(x+h) eiux iueiu = = eiu , iuh iu
[x, x + h].
Somit knnen wir den Satz von der dominierten Konvergenz anwenden und die Grenzwertbildung fr h 0 mit der Grenzwertbildung fr U und der Integration vertauschen. 1 F (x + h) F (x) = lim lim lim h h0 U 2 h0 = 1 2
U
(u) du
f ist oensichtlich Dichte zu F und beschrnkt, denn f (x) 1 2 eiux |(u)| du = 1 2 |(u)| du < ,
und auerdem stetig, denn f (y) f (x) eiuy eiux |(u)| du eiuy eiux
R
sup
x,yU x,yU
|(u)| du
= c sup
eiuy eiux .
Der rechte Ausdruck wird klein fr x y klein, denn eiu ist stetig.
115
Ist X Zufallsvariable mit integrierbarer charakteristischer Funktion , so besitzt X eine Dichte und diese entspricht im Wesentlichen der Fouriertransformierten von . Wie wir bereits festgestellt haben, erhalten wir als inverse Fouriertransformierte dieser Dichte zurck.
6.6 Satz Sei X eine reelle Zufallsvariable mit Verteilung PX und charakteristischer
Funktion . Falls fr j N gilt: E |X|j < , so besitzt eine stetige j-te Ableitung (j) mit (j) (u) = ij x j eiux PX ( dx), u R.
Insbesondere (j) (0) = ij EX j . Wir beweisen die Behauptung fr j = 1, der Rest folgt induktiv. (u) =
h0
(u) = lim
= lim
h0
eihx 1 h
ixeiux
PX ( dx)
Wir mssen also nachweisen, dass wir den Satz von der dominierten Konvergenz anwenden knnen,
eiux
eihx 1 h
ixeiux
=1
x, h R
und
116
Charakteristische Funktionen
6-C
und konvergiert fr h 0 gegen Null, somit haben wir eine integrierbare Majorante und mit dem Satz von der dominierten Konvergenz folgt, (u + h) (u) 0, Verteilung so besagt Satz 6.2, g (j) (1) = E(X(X 1) (X j + 1)). Fr charakteristische Funktionen reeller Zufallsvariablen gilt nun, (j) (0) = ij EX j . Erzeugende und charakteristische Funktionen ermglichen es uns Integrationsaufgaben,
R
h 0.
x j PX ,
k0
kj bk
u=0 ,
j .
j=1 5.4
Fr die erzeugende und charakteristische Funktion einer Summe von unabhngigen Zufallsvariablen gelten also analoge Aussagen. Beide beruhen auf der Multiplikativitt des Erwartungswerts fr unabhnige Zufallsvariablen.
117
6-C Faltungen
In Abschnitt 5-A haben wir bereits fr zwei reelle unabhngige Zufallsvariablen wollen die Denition nun noch etwas Verallgemeinern und die Argumentationslcken aus 5-A schlieen.
6.3 Denition Zu zwei W-Maen P , Q auf B wird das W-Ma P Q auf B, die sog.
Faltung von P und Q, folgendermaen deniert: 1.) Sei T : R R R mit T (x, y) = x + y; P Q := (P Q)T
(P Q W-Ma auf B2 mit (P Q)(B1 B2 ) = P (B1 )Q(B2 ), B1,2 B, sog. Produkt-W-Ma von P und Q) oder quivalent 2.) Man whle ein unabhngiges Paar reeller Zufallsvariablen X, Y mit Verteilungen PX = P , PY = Q und setze P Q := PX+Y . Beweis der quivalenz in 6.3. Sei Z = (X, Y ) gem b), dann gilt PX+Y = PT Z = (PZ )T = (PX PY )T . Um (!) nachzuweisen, gengt es zu zeigen, dass B1 , B2 B : (PZ )(B1 B2 ) = (PX PY )(B1 B2 ) .
P [ZB1 B2 ] PX (B1 )PY (B2 ) !
(*)
und somit ist die Identitt (*) gezeigt. Mit Hilfe des Fortsetzungssatzes liegt die Identitt auf allen Borelschen Mengen aus B2 vor.
118
Faltungen
6-C
6.8 Satz
b) Sei (X, Y ) ein unabhngiges Paar reeller Zufallsvariablen. Fr X, Y und X + Y seien die Verteilungsfunktionen mit F , G, H, die Dichten falls existent mit f , g, h und die Zhldichten falls PX , PY auf N0 konzentriert sind mit (pk ), (qk ), (rk ) bezeichnet. Dann gilt H(t) =
R
F (t y) G( dy ) =
G(t x) F (dx), t R.
falls zustzlich g existiert, so gilt h(t) = f (t y)g(y) dy = g(t x)f (x) dx fr (L-f.a.) t R.
Falls (pk )kN0 , (qk )kN0 existieren, so existiert (rk )kN0 mit
k k
rk =
i=0
pki qi =
i=0
qki pi (k N0 ).
a) Assoiziativitt und Kommutativitt der Faltungsoperation folgen direkt aus der Assoziativitt und Kommutativitt der Addition reeller Zahlen.
b) Siehe auch Satz 5.6. Sei H(t) = P [X + Y t] = P [(X, Y ) B] mit B := (x, y) : x + y t , also H(t) = P(X,Y ) (B) = (PX PY )(B) = =
R R
PX ((, t y])PY ( dy )
R
F (t y)G( dy )
Komm. von X + Y
H(t) =
Fubini f () d G( dy ) =
f ( y)G( dy ) d .
119
wobei h(t) nur -f.. deniert ist. Falls X und Y Zhldichten (pk ) und (qk ) besitzen, dann ist rk := P [X + Y = k] = P [ i {0, 1, . . . , k} : X = k i, Y = i]
k k
= =
i=0 k i=0
P [X = k i, Y = i] =
k
i=0
P [X = k i]P [Y = i]
pki qi =
qki pi .
i=0
Sind X und Y reelle unabhngige Zufallsvariablen mit Dichten f und g, so ist mit dem eben bewiesenen die Dichte von X + Y gegeben durch
R
f (x y)g(y) dy =
Dieser Ausdruck wird als Faltung von f mit g bezeichnet, geschrieben f g =: fX+Y .
6.7 Bemerkungen.
b(n1 , p) b(n2 , p) = b(n1 + n2 , p). Die Summe von n unabhngigen b(1, p) verteilten Zufallsvariablen ist also b(n, p)-verteilt. b. Fr 1,2 > 0 gilt (1 ) (2 ) = (1 + 2 ). (1 ), (2 ) haben nach Bemerkung 6.2 die erzeugenden Funktionen g1 (s) = e1 (s1) , g2 (s) = e2 (s1) .
120
Faltungen
6-C
Im Satz 6.3 haben wir gezeigt, dass die Verteilungsfunktion einer Zufallsvariable X + Y , wobei X und Y unabhngig und X (1 ) und Y (2 ) verteilt ist, die Form hat (1 ) (2 ). Diese hat die erzeugende Funktion g1 (s)g2 (s) = e(1 +2 )(s1) , welche ebenfalls die erzeugende Funktion von (1 + 2 ) ist. Mit Satz 6.1 folgt nun, dass (1 + 2 ) = (1 ) (2 ). c. Fr r1,2 N, p (0, 1) gilt Nb(r1 , p) Nb(r2 , p) = Nb(r1 + r2 , p). Die Summe von r unabhngigen Nb(1, p)-verteilten Zufallsvariablen ist also Nb(r , p)-verteilt.
2 d. Fr a1,2 R, 1,2 (0, ) gilt 2 2 2 2 N(a1 , 1 ) N(a2 , 2 ) = N(a1 + a2 , 1 + 2 ).
e. Fr (0, ), 1,2 (0, ) gilt ,1 ,2 = ,1 +2 . Die Summe von n unabhngigen exp()-verteilten Zufallsvariablen ist ,n verteilt. Die Summe der Quadrate von n unabhngigen jeweils N(0, 1)-verteilten
2 Zufallsvariablen ist n -verteilt.
Es lsst sich auch fr nicht unabhngige reelle Zufallsvariablen X und Y nach der Verteilung von X + Y fragen. Um diese zu berechnen kann man stets folgenden Ansatz whlen, FX+Y (t) = P [X + Y t] = P [g (X, Y ) t] = P [(X, Y ) g 1 (, t]] = P(X,Y ) [g 1 (, t]] =
g 1 (,t]
1 dP(X,Y ) .
Besitzen X und Y eine gemeinsame Dichte, so kann man das eigentliche Integrationsgebiet g 1 (, t] f(X,Y ) 0 (meit geometrisch) bestimmen und so das Integral berechnen.
121
Spezielle Verteilungen
7 Spezielle Verteilungen
Wir wollen in diesem Kapitel die wesentlichen Eigenschaften der bisher vorgestellten Verteilungen zusammenfassen.
oder auch [0, 1] wird ein W-Ma auf B bezeichnet, das auf {0, 1, . . . , n} konzentriert ist und die Zhldichte k besitzt. b(n, p; k) := n k p (1 p)nk , k N0 k
a) Ist (X1 , . . . , Xn ) ein n-Tupel unabhngiger reeller Zufallsvariablen mit P [Xi = 1] = p, P [Xi = 0] = q, i = 1, . . . , n
n i=1
Xi b(n, p)-verteilt.
122
Diskrete Verteilungen
7-A
d) Fr n1,2 N gilt b(n1 , p) b(n2 , p) = b(n1 + n2 , p), d.h. fr zwei unabhngige Zufallsvariablen X1 , X2 mit PX1 = b(n1 , p) und PX2 = b(n2 , p) gilt PX1 +X2 = b(n1 + n2 , p).
7.1 Bemerkung. Das n-Tupel (X1 , . . . , Xn ) von Zufallsvariablen aus Satz 7.1 be-
schreibt ein n-Tupel von Bernoulli-Versuchen, d.h. Zufallsexperimenten ohne gegenseitige Beeinussung mit Ausgngen 1 (Erfolg) oder 0 (Misserfolg) und jeweiliger Erfolgswahrscheinlichkeit p; n Bernoulli-Versuchen an.
7.2 Denition Als Poisson-Verteilung () mit Parameter > 0 wird ein W-Ma
n k=1
auf B bezeichnet, das auf N0 konzentriert ist und die Zhldichte k besitzt.
7.2 Satz Sei > 0.
(; k) := e
k , k N0 k!
a) Ist (b(n, pn ))n eine Folge von Binomialverteilungen mit n pn fr n , dann konvergiert
b(n, pn ; k) (; k)
(n ) fr alle k N0 .
b) Fr eine Zufallsvariable X mit PX = () gilt EX = V(X) = . c) () hat die erzeugende Funktion g mit g(s) = e+s . d) Fr 1,2 > 0 gilt (1 ) (2 ) = (1 + 2 ) .
123
Spezielle Verteilungen
7.2 Bemerkung. Bei einer rein zuflligen Aufteilung von n unterscheidbaren Teil-
chen auf m gleichgroe mehrfach besetzbare Zellen in einem Euklidischen Raum wird die Anzahl der Teilchen in einer vorgegebenen Zelle durch eine b(n, Der Grenzbergang n , m mit Belegungsintensitt
1 m )-verteilte
Zufallsvariable angegeben.
n m
> 0 fhrt
das auf N0 konzentriert ist und mit q := 1 p die Zhldichte k Nb(r , p; k) := r +k1 r k p q , k kN
a) Sei (Xn )nN eine unabhngige Folge von b(1, p)-verteilten Zufallsvariablen. Die erweitert-reelle Zufallsvariable n X := inf n N : Xk = r r
k=1
mit inf
c) Nb(r , p) hat die erzeugende Funktion g mit g(s) = p r (1 qs)r . d) Fr r1,2 N gilt Nb(r1 , p) Nb(r2 , p) = Nb(r1 + r2 , p). Die Summe von r unabhngigen Nb(1, p)-verteilten Zufallsvariablen ist somit Nb(r , p)-verteilt.
124
Diskrete Verteilungen
7-A
7.3 Bemerkung. Fr die Folge (Xn ) in Satz 7.3a wird durch die erweitert-reelle Zu-
fallsvariable T := inf n N :
n k=1
Xk = r
mit inf
bis zum r -ten Erfolg bei der zu (Xn ) gehrigen Folge von Bernoulli-Versuchen angegeben.
7.4 Denition Als hypergeometrische Verteilung mit Parametern n, r , s N, wobei
:= die Wartezeit bis zum r -ten Auftreten der Eins in (Xn ) und
n r + s, wird ein W-Ma auf B bezeichnet, das auf {0, 1, . . . , n} sogar auf {max (0, n s), . . . , min (n, r )} konzentriert ist und die Zhldichte
r k s nk r +s n
besitzt.
0,
k = 0, 1, . . . , n k = n + 1, n + 2, . . .
7.4 Bemerkung. Werden aus einer Urne mit r roten und s schwarzen Kugeln rein
zufllig n Kugeln ohne Zurcklegen gezogen (n, r , s wie in Denition 7.4), so wird die Anzahl der gezogenen roten Kugeln durch eine Zufallsvariable angegeben, die eine hypergeometrische Verteilung mit Parametern n, r , s besitzt. Anwendung der hypergeometrischen Verteilung in der Qualittskontrolle.
125
Spezielle Verteilungen
f (x) dx,
aber nicht jede stetige Verteilung besitzt eine Dichtefunktion. Mit Hilfe der Dichtefunktion knnen wir Randverteilungen, Erwartungswert, Varianz, Momente . . . sehr leicht berechnen. Totalstetige Verteilungen sind also sehr angenehm.
7.5 Denition Als Gleichverteilung auf (a, b) mit < a < b < wird ein W-Ma
besitzt.
7.4 Satz Fr eine Zufallsvariable X mit Gleichverteilung auf (a, b) gilt
EX =
a+b , 2
V(X) =
(b a)2 . 12
mit Parametern a R, > 0 wird ein W-Ma auf B bezeichnet, das eine Dichte f mit f (x) =
2 1 (xa) e 2 2 , 2
xR
a. Sei f wie in Denition 7.6. Der Graph von f heit Gausche 1 Glockenkurve. Im Fall a = 0 ist f (0) = und hat f zwei Wendepunk2 1 te ( ; ). 2 e
126
Totalstetige Verteilungen
7-B
(t)
1 2
7.1
b. Dichte- und die Verteilungsfunktion von N(0, 1) sind tabelliert. c. Ist die Zufallsvariable X N(a, 2 )-verteilt, so ist gilt hierbei P [a X a + ] P [a 2 X a + 2 ] P [a 3 X a + 3 ] ler.
7.5 Satz Sei a R, > 0.
= = =
a) Fr eine Zufallsvariable X mit Verteilung N(a, 2 ) gilt: E(X a)2k1 = 0, E(X a)2k = 2k
k j=1
(2j 1),
k N;
insbesondere EX = a, V(X) = 2 . Die Zufallsvariable Y = cX + b mit 0 c R, b R hat die Verteilung N(ca + b, c 2 2 ). b) Die charakteristische Funktion von N(a, 2 ) ist mit (u) = eiau e
2 u2 2
127
Spezielle Verteilungen
7.7 Denition Als Exponentialverteilung exp() mit Parameter > 0 wird ein W-
besitzt.
a) Sei X eine erweitert-reelle Zufallsvariable, deren Verteilung auf R+ konzentriert sei, mit P [0 < X < ] > 0. X erfllt s, t (0, ) : P [X > t + s | X > s] = P [X > t]. genau dann, wenn PX eine Exponentialverteilung ist. Diese Eigenschaft heit Gedchtnislosigkeit. b) Fr eine Zufallsvariable X mit PX = exp() gilt EX = 1 , V(X) = 1 . 2
7.6 Bemerkung. Die zufllige Lebensdauer eines radioaktiven Atoms wird durch
auf B oder B bezeichnet, das eine Dichtefunktion f mit x 1 ex , x > 0 () f (x) = 0, x0 n( N) Freiheitsgraden bezeichnet.
2 2
128
Totalstetige Verteilungen
7-B
a) Fr eine Zufallsvariable X mit PX = , gilt EX = b) , hat die charakteristische Funktion mit (u) = c) Fr 1,2 > 0 gilt ,1 ,2 = ,1 +2 . iu
V(X) =
Insbesondere ist ,n die n-fache Faltung von exp(). d) Die Summe der Quadrate von n unabhngigen jeweils N(0, 1)-verteilten
2 reellen Zufallsvariablen ist n -verteilt.
X als t -Verteilung Y /n oder Student-Verteilung tn bzw. Stn mit n Freiheitsgraden bezeichnet (n N).
2 und PY = n , so wird die Verteilung der Zufallsvariablen
Stn in der Statistik. Sei {Tn : n N} eine unabhngige Folge nichtnegativ-reeller ZufallsvariaDeniere die Zufallsvariable Nt := sup {n N : T1 + . . . + Tn t} fr t R+ = 0.
blen (d.h. Ti und Tj haben jeweils dieselbe Verteilung) mit P [Tn = 0] < 1. und der Konvention sup
Bsp 1 In einem technischen System wird ein Bauelement mit endlicher zufl-
liger Lebensdauer bei Ausfall durch ein gleichartiges Element ersetzt. Die einzelnen Lebensdauern seien Realisierung der Zufallsvariablen Tn . Nt gibt die Anzahl der Erneuerungen im Zeitintervall [0, t] an.
7.8 Satz Ist mit den obigen Bezeichnungen Tn exp()-verteilt ( > 0), so ist Nt
(t)-verteilt, t R+ .
129
Spezielle Verteilungen
Setze Sk := T1 + . . . + Tk mit k N, wobei S0 = 0. Gesucht ist nun P [Nt = k] = P [Sk t, Sk+1 > t] = P [Sk t] P [Sk+1 t], denn [Sk+1 > t] = [Sk+1 t]c und somit ist [Sk t] [Sk+1 t]c = [Sk t] \ [Sk+1 t]. Nun ist Sk ,k verteilt und Sk+1 ,k+1 verteilt. Fr die Dichte erhalten wir somit, P [Nt = k] =
t 0
(t)k = et k!
k x k1 ex dx (k 1)!
t 0
k+1 k x x e dx k!
Der letzte Schritt folgt durch Dierenzieren der Integrale nach t, Zusammenfassen und anschlieendes Integrieren.
7.8 Bemerkung. Die Familie {Nt | t R+ } aus Satz 7.8 ist ein sogenannter Poisson-
Prozess.
130
nN
Schreibweise Xn X. 2.) konvergent P -fast sicher (P -f.s., f.s.), wenn P [Xn X] = 1. 3.) konvergent nach Wahrscheinlichkeit oder stochastisch konvergent, wenn fr jedes > 0 gilt P [|Xn X| ] 0. Schreibweise Xn X, 4.) konvergent im r -ten Mittel (r > 0), wenn E |Xn |r , E |X|r < fr n N und E |Xn X|r 0. Spezialfall: r = 2, . . . konvergenz im quadratischen Mittel. 5.) konvergent nach Verteilung, wenn fr jede beschrnkte stetige Funktion g : R R gilt Eg(Xn ) Eg(X), n ,
P
132
Konvergenzbegriffe
8-A
oder hier quivalent wenn fr die Verteilungsfunktion Fn und F von Xn bzw. X gilt Fn (x) F (x), n ,
D
b. Die Grenzverteilungsfunktion in Denition 8.1 e) ist eindeutig bestimmt. c. Die Konvergenz in e.) entspricht einer schwach*-Konvergenz der Fn im Dualraum von Cb (R).
8.1 Satz Seien Xn , X reelle Zufallsvariablen auf einem W-Raum (, A, P ).
a) Falls Xn X, so gilt Xn X f.s. b) Falls Xn X f.s., so gilt Xn X. c) Falls fr r > 0, Xn X im r -ten Mittel, so gilt Xn X. d) Falls Xn X, so gilt Xn X. Vorbetrachtung. Seien Xn , X reelle Zufallsvariablen, so gilt Xn X P -f.s. P [ lim Xn = X] = 1 n P
0<Q nN mn P D P P
Wobei sich die letzte quivalenz direkt aus dem -Kriterium fr konvergente Folgen ergibt, wenn man sich fr die Wahl von auf Q zurckzieht. Dies ist natrlich quivalent zu P
0<Q nN mn
[|Xm X| < ] = 1
>0:P [|Xm X| ] = 0 nN mn
:=An ()
[|Xm X| ] = 0
133
Nun ist An A, d.h. wir knnen dies auch schreiben als > 0 : lim P (An ()) = 0
n
> 0 : lim P
n
mn
sup |Xm X|
= 0.
Weiterhin gilt P [|Xn X| ] P [sup |Xn X| ] a) Falls Xn X, dann gilt Xn X f.s. b) Falls Xn X f.s., so gilt P [sup |Xn X| ] 0 und damit auch P [|Xn X| ] 0. c) Unter Verwendung der Markov-Ungleichung erhalten wir P [|Xn X| ]
P c mn
mn
P [|Xn X| ] .
1 E |Xn X|r r
also Xn X, wenn Xn X im r -ten Mittel. d) Sei g : R R beschrnkt und stetig und Xn X. Es existiert also zu jeder Teilfolge (Xn ) eine konvergente Teilfolge (Xn ), die gegen X konvergiert. Somit gilt g(Xn ) g(X) f.s. Mit dem Satz von der dominierten Konvergenz erhalten wir somit Eg(Xn ) Eg(X). Nun verwenden wir den Satz aus der Analysis, dass eine Folge genau dann konvergiert, wenn jede Teilfolge eine konvergente Teilfolge besitzt, und alle diese Teilfolgen denselben Grenzwert haben und erhalten somit, Eg(Xn ) Eg(X), d.h. Xn X.
D P
134
8-B
nem W-Raum (, A, P ) gengt dem schwachen bzw. starken Gesetz der groen Zahlen, wenn 1 n
n k=1
(Xk EXk ) 0,
8.2 Bemerkung. Gengt eine Folge von Zufallsvariablen dem starken Gesetzt der
groen Zahlen, dann gengt sie auch dem schwachen Gesetz der groen Zahlen. Die Umkehrung gilt im Allgemeinen nicht.
8.2 Kriterium von Kolmogorov fr das starke Gesetz der groen Zahlen Eine un-
n2 V(Xn ) <
gengt dem starken Gesetz der groen Zahlen. Wir wollen den Satz zunchst nur unter der strkeren Bedingung sup V(Xn ) =: C <
n
(jedoch unter der schwcheren Voraussetzung der paarweisen Unkorreliertheit der (Xn ) anstatt der Unabhngigkeit). Einen vollstndigen Beweis werden wir mit Hilfe der Martingaltheorie geben knnen. Wir zeigen nun 1 >0:P n und 1 n
n j=1
n j=1
Xj EXj
C n2
(1)
(Xj EXj ) 0
135
im quadratischen Mittel und P -f.s.. Setze Yj := Xj EXj , Zn := Hilfe der Markov-Ungleichung erhalten wir n 1 Bienayme 1 2 P [|Zn | ] V(Zn ) = 2 V Yj = n n2 j=1 1 n
n j=1 n j=1
1 n
Yj . Mit
V Yj
C . n
Xj EXj 0,
im quadratischen Mittel.
P [ Zn2 ]
C 2
n=1
1 . n2
also konvergiert Zn2 vollstndig und insbesondere auch P -f.s. gegen 0 (mit Satz 8.1). Sei nun n N, setze m(n) := max m N : m2 n dann folgt m(n)2 n < (m(n) + 1)2 . |Zn | 1 n
m(n)2 j=1
Yj +
1 n
Yj
j=m(n)2 +1 =:Rn
Nun ist
1 n
m(n)2 j=1
Yj
1 m(n)2
m(n)2 j=1
Yj
dass Rn 0 P -f.s.. Sei also > 0, dann folgt mit der Markov-Ungleichung und dem Satz von Bienayme 1 n2
n j=m(n)2 +1
2 P [|Rn | ] V(Rn )
V(Yj )
C (n m(n)2 ) n2
136
8-B
8.3 Kolmogorovsches starkes Gesetz der groen Zahlen Fr eine unabhngige Fol-
Xk EX1 ,
n , f .s.
Um die quadratische Integrierbarkeit der Zufallsvariablen zu gewhrleisten, fhren wir gestutzte Zufallsvariablen ein durch Xi := Xi 1[|Xi |i] Insbesondere folgt aus der Unabhngigkeit der Xn auch die Unabhngigkeit der Xn . Setze weiterhin
n n
Sn =
i=1
Xi ,
Sn :=
i=1
Xi ,
P 1 k2 n 1 k2 n
1 Skn ESkn kn
kn k=1 kn k=1
n=1
n=1
1 1 V(Skn ) = 2 kn k2 n=1 n
2 E(Xk 1[|Xk |k] )
kn k=1
V(Xk )
n=1 n=1
E((Xk )2 )
1 k2 n
kn k=1
denn da alle Zufallsvariablen dieselbe Verteilung besitzten, ist es fr den Erwartungswert unerheblich, welche Zufallsvariable speziell ausgewhlt wird. Aufgrund der Linearitt von E und dem Satz der monotonen Konvergenz folgt, 1 X 2 E 1[|X1 |kn ] . 1 kn n=1 Setzen wir n0 := min {n N : |X1 | kn }, so gilt 1 2 = E X1 1[|X1 |kn ] . n=n0 kn
137
n=0
2 1 2 = n n 0 1
2 , |X1 | 1
p 2.
wobei
1 n0
da E |Xn | < nach Voraussetzung. Mit Satz 8.1 folgt 1 Skn ESkn 0, kn wobei 1 1 ES = kn kn kn
kn k=1
2 E |X1 | < , 1
P -f.s. fr n
Mit dem Satz von der dominierten Konvergenz folgt E(X1 1[|X1 |k] ) EX1 und damit, 1 kn
kn k=1
nach dem Satz von CsaroStolz bzw. dem Cauchyschen Grenzwertsatz. Sk Auerdem konvergiert n EX1 P -f.s., denn kn
n=1
P [Xn = Xn ] =
n=1
P [|Xn | > n]
0
n=1 n1
P [|Xn | > t] dt
dom.konv
Mit Lemma von Borel-Cantelli folgt dass Xn und Xn fr alle bis auf endlich viele n bereinstimmen, damit Skn Skn kn 0, P -f.s. fr n .
138
8-B
EX1 f.s.
Sei zunchst Xi 0 fr alle i N. Dann gilt fr alle i mit kn i kn+1 , Sk Sk kn Si Si kn+1 kn Skn n+1 n+1 . kn+1 kn kn+1 kn i i kn+1 kn per denitionem ist kn n n 1 1 = kn+1 n+1 n+1 analog erhlt man
kn+1 kn
. Somit folgt
1 Sn Sn EX1 lim inf lim sup EX1 . n n n n Da > 1 beliebig und obige Gleichung fr alle gilt, folgt durch den bergang 1, EX1 = lim
n
Sn , n
P -f.s. n .
1 n
n i=1
Xi =
1 n
n i=1
+ Xi
1 n
n i=1
P -f.s. fr n .
8.3 Bemerkungen.
weggelassen werden. b. Die Voraussetzung der Unabhngigkeit in Satz 8.4 kann zur Voraussetzung der paarweisen Unabhngigkeit abgeschwcht werden (Etemadi). c. In Satz 8.2 kann bei n2 V(Xn )(log n)2 < die Unabhngigkeitsvor-
aussetzung zur Voraussetzung der paarweisen Unkorreliertheit (s.u.) abgeschwcht werden (Rademacher, Menchov).
139
8.4 Satz von Tschebyschev Eine Folge (Xn ) quadratisch integrierbarer paarweise
unkorrelierter, d.h. es gilt j k : E(Xj EXj )(Xk EXk ) = 0, reeller Zufallsvariablen mit n2
n k=1
V(Xk ) 0,
n ,
Xk p,
Borelsches Gesetz der groen Zahlen bzw. Bernoullisches schwaches Gesetzt der groen Zahlen. Bemerkung 8.4 stellt ein theoretisches Gegenstck zu der Erfahrungstatsache dar, dass im Allgemeinen die relative Hugkeit eines Ereignisses bei groer Zahl der unter gleichen Bedingungen unabhngig durchgefhrten Zufallsexperimente nherungsweise konstant ist. Wir betrachten nun zwei Beispiele zu Satz 8.3 und Bemerkung 8.4.
Bsp 1 Es seien X1 , X2 , . . . unabhngige identisch verteilte Zufallsvariablen Zn
mit existierenden (endlichen) EX1 =: a und V(X1 ) =: 2 . Aufgrund der beobachteten Realisierungen x1 , . . . , xn von X1 , . . . , Xn wird a geschtzt durch x n := 1 n
n
xi
i=1
1 n1
i=1
(xi x n )2
140
8-B
Xi ,
i=1
2 Sn :=
1 n1
n i=1
(Xi X n )2
fr n ,
X n a f.s.,
2 Sn 2 f.s.,
1 := n1
2 f.s.
n 1 = n 1 n
1
n 1 (Xi X n ) = n1 n i=1
n 2
n i=1
(Xi + X n )
2 (Xi )2 + n i=1
2 P -f.s.
1 (Xi ) ( X n ) + n i=1
0 P -f.s. 0 f.s.
(X n )2 0 f.s.
2 ( X n ) , i=1
n
verteilten Lebensdauern (mit Verteilungsfunktion F ) gebe - bei festem T > 0 die Zufallsvariable Zn die zufllige Anzahl der Atome an, die von jetzt (Zeitpunkt 0) an bis zum Zeitpunkt T zerfallen. Die Wahrscheinlichkeit, dass ein gewisses Atom im Zeitintervall [0, T ] zerfllt, ist p = F (T ) = 1 eT . Nach Whlt man T so, dass F (T ) = 1 Zn , n 2 Bemerkung 8.4 konvergiert mit Wahrscheinlichkeit Eins Zn /n p fr n .
1 2,
dann gilt
f.s.
n .
Dieses T wird als Halbwertszeit des radioaktiven Elements bezeichnet (nach T Zeiteinheiten ist i.A. bei groem n ungefhr die Hlfte der Atome zerfallen).
141
Bsp 3 Aus der Analysis ist der Satz von Weierstra bekannt, dass jede stetige
Funktion f : R R auf einem kompakten Intervall gleichmiger Limes von Polynomen ist. Wir wollen diesen Satz nun unter Verwendung des Kolmogorovschen starken Gesetz der groen Zahlen beweisen. Dazu verwenden wir Bernstein-Polynome, um stetige Funktionen ber einem kompakten Intervall zu approximieren. durch Sei f : [0, 1] R stetig. Die Bernsteinpolynome n-ten Grades sind deniert
n
fn (p) =
f
k=0
k n
n k p (1 p)nk , k
p [0, 1].
1 n,
Wir versehen also [0, 1] mit einem Gitter mit Gitterabstand aus und multiplizieren mit speziellen Gewichten.
werten f an
k n
Seien U1 , . . . , Un unabhngige auf [0, 1] identisch gleichverteilte Zufallsvariablen. Whle p [0, 1] fest und setze Xi := 1[0,p] (Ui ) = 1Ui [0,p] . Die Xi sind dann unabhngige und b(1, p)-verteilte Zufallsvariablen. 1 E f n
n
f
k=0
k n
n k p (1 p)k = fn (p) k
1 n
Xi
i=1
{0,1/n,2/n,...,1}
Sei > 0 beliebig. Da f auf dem kompakten Intervall [0, 1] gleichmig stetig, existiert ein > 0, so dass x y < f (x) f (y) < , Somit gilt 1 1[0,p] (Ui ) f (p) fn (p) f (p) = E f n i=1 n n 1 1 = E f 1[0,p] (Ui ) f (p) E f 1[0,p] (Ui ) f (p) n i=1 n i=1
n
fr x, y [0, 1].
142
8-B
Falls nun
1 n
n i=0
1[0,p] (Ui ) p
E +2 f
1 n
n i=0
1 =+2 f P n =+2 f
1[0,p] (Ui )p
n i=0
p(1 p) +2 f n2
1[0,p] (Ui ) p + 2 f
V 1[0,p] (U1 )
n2
1 n2
Somit fn
Bernstein-Polynome haben sehr angenehme Eigenschaften. Ist beispielsweise f monoton, so ist auch fn monoton. Ist f konvex, so ist auch fn konvex.
143
Zentrale Grenzwertstze
9 Zentrale Grenzwertstze
9-A Schwache Konvergenz von Wahrscheinlichkeitsmaen in R
Im Folgenden sei stets n N und bezeichne die Konvergenz fr n .
9.1 Denition
gen in R. Die Folge (Qn ) heit gegen Q schwach konvergent (weakly convergent) Schreibweise Qn Q schwach , wenn fr jede beschrnkte stetige Funktion g : R R gilt,
R
g dQ n
g dQ ,
n .
2.) Seien Xn , X reelle Zufallsvariablen (nicht notwendig auf demselben WRaum deniert). Die Folge (Xn ) heit gegen X nach Verteilung konverX (n ) , wenn PXn PX schwach, d.h. fr jede beschrnkte stetige Funktion g : R R gilt
R
g dPXn
g dPX ,
n .
b. In Denition 9.1b knnen Xn , X durch reelle Zufallsvariablen Xn , X mit PXn = PXn , PX = PX ersetzt werden.
144
9-A
Bevor wir die Eindeutigkeit des Grenz-W-Maes beweisen, betrachten wir zunchst den Poissonschen Grenzwertsatz k N0 : b(n, pn ; k) (; k), falls npn . Dies ist (hier) quivalent zu x R : Fn (x) F (x), wobei Fn Verteilungsfunktion einer b(n, p)-verteilten und F Verteilungsfunktion einer ()-verteilten Zufallsvariable ist. X f.s. fr n . Seien Xn , X reelle Zufallsvariablen mit Xn =
1 n
n ,
Fn
1 n
9.1
Fr die Verteilungsfunktionen folgt x R \ {0} : Fn (x) F (x), denn 0 ist Unstetigkeitsstelle von F . Wir sehen an diesem Beispiel, dass die Konvergenz der Verteilungsfunktion in Unstetigkeitsstellen im Allgemeinen nicht fordern knnen. Wir knnen jedoch die Konvergenz nach Verteilung durch die Konvergenz der Fn in Stetigkeitspunkten charakterisieren. Klassische Denition der Verteilungskonvergenz Seien Xn , X reelle Zufallsvariablen bzw. Qn , Q W-Mae mit Verteilungsfunktion Fn bzw. F . Dann ist Xn X,
D
145
Zentrale Grenzwertstze
bzw. Qn Q schwach, wenn Stetigkeitspunkte x von F : Fn (x) F (x), auf unendlichdimensionale Rume bertragen lsst. Beweis der Eindeutigkeit des Grenz-W-Maes. Falls Qn Q schwach und Qn Q schwach, so gilt nach Satz 9.2 (noch zu zeigen), Fn (x) F (x), Fn (x) F (x) n .
Diese Denition ist jedoch nicht so allgemein wie die in 9.1, da sie sich nicht
fr jede Stetigkeitsstelle x von F bzw. F . Aufgrund der rechtsseitigen Stetigkeit einer Verteilungsfunktion folgt, x R : F (x) = F (x) und damit auch Q = Q .
Xn X Xn X. Sei g : R R stetig und beschrnkt. Angenommen E(g(Xn ) g(X)) konvergiert nicht gegen Null, es gibt also eine Teilfolge (nk ), so dass E(g(Xnk ) g(X)) > ,
P
k N.
Aber da auch Xnk X, besitzt Xnk eine Teilfolge, die P -f.s. konvergiert. Da g g(Xnkl ) g(X) P -f.s.
Da auerdem g beschrnkt, knnen wir den Satz von der dominierten Konvergenz anwenden und erhalten somit Eg(Xnkl ) Eg(X), im Widerspruch zur Annahme, dass Eg(Xn ) nicht gegen Eg(X) konvergiert.
146
9-A
9.2 Satz Seien Qn , Q W-Mae auf B bzw. reelle Zufallsvariablen Xn , X mit Vertei-
lungsfunktion Fn , F .
Stetigkeitspunkte x von F .
D
: Es gelte Xn X. Sei D := {x R : F (x) = F (x)} die Menge der Stetigkeitspunkte von F . D ist dicht in R, denn F ist monoton und daher ist D c hchstens abzhlbar. Sei x D. Fr jedes p N setze 1, y x, 1 fp (y) := p(x y), x y x + p , 1 0, x + p y, 1 1, y x p, 1 gp (y) := p(x y), x p y x, 0, x y.
gp
1(,x]
fp
x
9.2
1 p
x+
1 p
wobei
fp , gp : R [0, 1] sind stetige, beschrnkte Approximationen von 1(,x] (y), fp (y) 1(,x] (y), gp (y) 1(,x] (y), p .
147
Zentrale Grenzwertstze
Nach Denition der Verteilungsfunktion ist Fn (x) = E1(,x] (X), also gilt auch Egp (Xn ) Fn (x) Efp (Xn ). Mit dem Lemma von Fatou folgt auerdem p N : Egp (X) lim inf Egp (Xn ) lim inf Fn (x) lim sup Fn (x)
n n n
(*)
da fp beschrnkt. Weiterhin folgt mit dem Satz von der monotonen Konvergenz, lim Efp (X) = E1(,x] (X) = P [X x] = F (x), lim Egp (X) = E1(,x) (X) = P [X < x] = F (x).
n n
Mit (*) folgt F (x 0) lim inf Fn (x) lim sup Fn (x) F (x). Fr x D gilt F (x) = F (x), also auch lim Fn (x) = F (x).
: Diese Richtung ist etwas mhsamer. Hier approximiert man umgekehrt zur Hinrichtung eine stetige, beschrnkte Funktion g durch Stufenfunktionen. Details ndet man in [Jacod J, Protter P. Probability Essentials].
gilt:
Xn X
Xn X.
: Klar nach Satz 9.1. keitsstelle von F . : Sei X = c P -f.s. mit Verteilungsfunktion F . c ist die einzige Unstetig-
148
9-A
c
Verteilungsfunktionen von X.
9.3
Da Xn X nach Voraussetzung folt mit Satz 9.1, R \ {c} : Fn (x) F (x). Sei > 0 beliebig aber fest, so gilt P [|Xn X| > ] = 1 P [|Xn X| ]
P [|Xn X| ] = P [c Xn c + ] P [c < Xn c + ] = Fn (c + ) Fn (c ) 1.
F (c+) F (c)
Xn X, so folgt Yn X.
D
|Xn Yn | 0,
Sei g : R R stetig und beschrnkt. Ohne Einschrnkung knnen wir annehmen, dass g gleichmig stetig ist (siehe Satz 9.9). Auerdem gilt ohne Einschrnkung |Xn Yn | 0 P -f.s.
149
Zentrale Grenzwertstze
ansonsten gehen wir zu einer Teilfolge (nk ) ber. Betrachte Eg(Yn ) = Eg(Xn ) + E[g(Yn ) g(Xn )]. da g gleichmig stetig und |Xn Yn | 0 P -f.s. gilt g(Yn ) g(Xn ) 0 P -f.s.. minierten Konvergenz anwenden und erhalten E[g(Yn ) g(Xn )] 0. Somit gilt Eg(Yn ) = Eg(Xn ) + E[g(Yn ) g(Xn )] Eg(X) P -f.s..
Eg(X) P -f.s. 0 P -f.s.
g(Yn ) g(Xn ) c, da g beschrnkt, also knnen wir den Satz von der do-
und F ,
Xn () := inf {t R : Fn (t) } ,
X () := inf {t R : F (t) } .
D
Nach Annahme konvergiert Xn X und daher Fn (x) F (x) in den Stetigkeitspunkten von F . Zu zeigen ist nun
Xn () X ()
in den Stetigkeitspunkten von X , also -f... Fn und F die Verteilungsfunktionen von Xn und X. Nun setzen wir
Xn () := inf {t R : Fn (t) } ,
A .
Seien
X () := inf {t R : F (t) } ,
150
9-A
d.h. Xn und X sind die verallgemeinerten Inversen von Fn bzw. F . Somit sind Xn und X monotone Funktionen und damit insbesondere messbar. Whle fr
Stetigkeitspunkt von X und > 0. Es existieren dann Stetigkeitspunkte x1 und x2 von F mit x1 < X () < x2 und x2 x1 < ,
(*)
Hierbei gilt auch F (x1 ) < < F (x2 ), da Stetigkeitspunkt von X , sowie Xn X. Also Fn (x1 ) F (x1 ) und Fn (x2 ) F (x2 ), da x1 , x2 Stetigkeitspunkte von F und
D
(**)
9.6 Satz von der stetigen Abbildung Seien Xn , X reelle Zufallsvariablen mit Xn
h : (R, B) (R, B) PX -f.. stetig. Dann gilt h(Xn ) h(X). Sei D := x R : h unstetig in x . Den Beweis D B berspringen wir. Nach Voraussetzung ist PX (D) = 0.
D
151
Zentrale Grenzwertstze
Da h stetig, gilt
h(Xn ()) h(X ())
fr D c , aber
P ( : X () D ) = P [X D] = PX (D) = PX (D) = 0, also gilt h(Xn ) h(X ) P f.s. Somit folgt nach Satz 9.1 h(Xn ) h(X ), also Ph(Xn ) Ph(X ) D
schwach.
Nun ist Ph(Xn ) = (PXn )h = (PXn )h = Ph(Xn ) , analog Ph(X ) = Ph(X ) . Somit
Ph(Xn ) Ph(X)
schwach.
Wie wir gesehen haben, vertauscht der Limes Operator der Verteilungskonvergenz im Allgemeinen nicht mit der Addition oder der Multiplikation. Fr spezielle Zufallsvariablen erhalten wir jedoch Vertauschbarkeit.
9.7 Satz von Slutsky Seien Xn , Yn und X reelle Zufallsvariablen auf (, A, P ) und
c R.
Xn X, Yn c,
P
Sei c R und Zn := Xn + (Yn c), so gilt |Xn Zn | = |Yn c| = 0 f.s., insbesondere |Xn Zn | 0. Somit ist 9.4 anwendbar und daher, Xn + (Yn c) = Zn X.
D P
D Xn + Yn X + c, D Y X cX.
n n
152
9-A
Nun wenden wir den Satz von der stetigen Abbildung an mit h : R R, so gilt Xn + Yn = h(Xn + (Yn c)) h(X) = X + c.
9.8 Satz Fr reellwertige Zufallsvariablen Xn , X mit Dichten fn bzw. f gilt:
D
x + c,
g dPX = c +
n
(c + g) dPX = c +
(c + g)f d.
Nun ist f = lim fn = lim inf fn -f.. nach Vorraussetzung. Da f , fn Dichten und daher positiv, knnen wir das Lemma von Fatou anwenden und erhalten, g dPX c + lim inf
n n
gfn d
lim sup
n
gfn d
R
= c lim inf
n
(c g) fn d c
0
= Es gilt also
gf d.
gfn d
g dPX .
g dPXn =
153
Zentrale Grenzwertstze
weisen
Der nchste Satz zeigt, dass es gengt, sich auf eine kleinere Menge von Funktionen zurckzuziehen. Denition Eine Funktion g : R R heit Lipschitz-stetig, falls eine Konstante g(x) g(y) L x y , x, y R.
L R existiert, so dass
Jede lipschitzstetige Funktion ist gleichmig stetig und jede gleichmig stetige Funktion ist stetig. Die Umkehrungen gelten im Allgemeinen nicht. Die gleichmig stetigen Funktionen auf R bilden eine echte Teilmenge der stetigen Funktionen.
9.9 Satz Fr reellwertige Zufallsvariablen Xn , X gilt:
Xn X
Ef (Xn ) Ef (X)
fr alle beschrnkten gleichmig stetigen Funktionen f : R R. : Klar, denn die Aussage gilt nach Voraussetzung fr stetige beschrnkte und somit insbesondere fr gleichmig stetige beschrnkte Funktionen. beschrnkt. Setzen wir : Sei f Cb (R). Zu zeigen ist Ef (Xn ) Ef (X), da f lediglich stetig und := sup f (x) = f
xR
Wir zeigen nun, dass fr jedes i N eine Lipschitz-stetige Funktion gi : R R existiert mit gi gi+1 , x R : gi (x) f (x), i . (*)
Haben wir die Existenz der gi gezeigt, so gilt fr i N lim inf Ef (Xn ) lim inf Egi (Xn ) = lim Egi (Xn ) = Egi (X),
n n n
(**)
154
9-A
denn die gi sind gleichmig stetig und daher konvergiert der Erwartungswert nach Voraussetzung. Da die gi durch beschrnkt sind, ist gi (X) + 0 und es gilt
i
mon.konv
E(f (X) + ).
Somit gilt auch lim E(gi (X)) = Ef (X). Zusammen mit (**) erhalten wir also lim inf Ef (Xn ) Ef (X).
n
Analog erhalten wir mit f ersetzt durch f , lim sup Ef (Xn ) Ef (X).
n
Insgesamt gilt also Ef (Xn ) Ef (X) und die Behauptung ist gezeigt. (hk )kN Lipschitz-stetiger Funktionen zu nden mit hk und x R : sup hk (x) = f (x).
kN
Wir mssen also noch die Behauptung (*) nachweisen. Es gengt, eine Folge
Denn dann leistet gi mit gi (x) = max {h1 (x), . . . , hi (x)} das Gewnschte, denn stetig. Wir knnen ohne Einschrnkung davon ausgehen, dass f 0, ansonsten ersetzen wir f durch f = f + 0. Whle A B und setze dA (x) = inf xy : y A .
das Maximum ber endlich viele Lipschitz-stetige Funktionen ist wieder Lipschitz-
m N und
dA ist der Hausdorabstand des Punktes x von der Menge A. Sei r 0 rational,
hm,r (x) = min r , (m d{t:f (t)r } (x)) , so sind die hm,r lipschitz, denn hm,r (x) hm,r (y) m d{t:f (t)r } (x) d{t:f (t)r } (y) m x y ,
155
Zentrale Grenzwertstze
h2,r h1,r x
9.4
auerdem sind die hm,r beschrnkt, denn hm,r x mit f (x) r . Insbesondere 0 hm,r (x) f (x), x R.
Whle x R, > 0 beliebig aber fest. Whle auerdem 0 r Q so, dass f (x) < r < f (x). Es gilt f (y) > r fr alle y aus einer hinreichend kleinen Umgebung von x, da f stetig. Somit folgt d{t:f (t)r } (x) > 0, also ist auch < f (x), hm,r (x) = r > f (x) ,
fr m hinreichend gro.
156
9-A
eine Abzhlung dieser Menge. Nach Konstruktion gilt nun f (x), sup hk (x) f (x) , kN also sup hk (x) = f (x), da > 0 beliebig.
kN
9.10 Satz von Lvy-Cramr; Stetigkeitssatz Seien Qn , Q W-Mae auf B mit charak-
u R : n (u) (u).
: Sei n die charakteristische Funktion von Qn , also n (u) = eiux dQ n (x) = cos(ux) dQ n (x) + i sin(ux) dQ n (x).
sin und cos sind beschrnkte Funktionen also, n (u) cos(ux) dQ (x) + i sin(ux) dQ (x) = eiux dQ (x)
= (u). Y0 Q, X N(0, 1). Dann gilt fr alle > 0, PYn +X = PYn PX . Nach bungsaufgabe 40 besitzt PYn +X die Dichte gn, (x) = 1 2 eux n (u)e
(u)2 2
du .
eux e
(u)2 2
also knnen wir den Satz von der dominierten Konvergenz anwenden und erhalten, x R : gn, (x) 1 2 eux (u)e
(x)2 2
du .
157
Zentrale Grenzwertstze
(*)
Zum Nachweis von Yn Y0 gengt es nach Satz 9.9 zu zeigen, dass fr beliebige beschrnkte gleichmig stetige Funktionen gilt f : R R f (Yn ) dP f (Y0 ) dP .
Seien also f wie vorausgesetzt, > 0 und > 0, so dass f (y + x) f (y) < Whle auerdem > 0 mit P [|X| ] 12 f .
, 6
. 3
Dann gilt fr n n0 ,
f (Yn ) f (Y0 ) dP
f (Yn ) f (Yn + X) dP
(1)
f (Yn + X) f (Y0 + X) dP
(2)
f (Y0 + X) f (Y0 ) dP .
(3)
f (Yn ) f (Yn + X) dP = +
|X| |X|<
<2 f 2 f
P [|X| < ] 6 + 1= . 6 3
158
Zentrale Grenzwertstze
9-B
3 fr n n0 . 6 P [|X| < ]
+2 f
P [|X| ] 3 . D
9.2 Bemerkung. Die obigen Denitionen und Stze lassen sich auf W-Mae auf Bk
unabhngige Folge identisch verteilter quadratisch integrierbarer reeller Zufallsvariablen mit EX1 =: a, V(X1 ) =: 2 mit > 0. Dann 1 n
n k=1
(Xk a)
Xk
k=1
Xk
k=1
u n
u2 2
ist nach Bemerkung 6.4 die charakterisitsche Funktion einer N(0, 1)-Verteilung.
159
Zentrale Grenzwertstze
nach dem Satz von Taylor eine Darstellung (u) = (0) + u (0) + = 1 + iuEX1
2 Nach Satz 6.6 besitzt wegen EX1 < eine stetige 2. Ableitung und daher
u2 2 EX1 + (u), 2
u2 (0) + (u) 2
mit einem Restterm (u) der Ordnung o(u2 ), d.h. lim (u) = 0. u2
u0
daher
2 Nach Voraussetzung ist EX1 = a = 0 und EX1 (X1 1) = EX1 = VX1 = 1 und
(u) = 1
u2 + (u). 2
u n
u2 u 1 + 2n n
u n
= 1
u2 2
+ n n
u n
Nach Voraussetzung n
u2 2
0 fr n , also
u2 2
+ n n
u n
ge (Xn )nN identisch verteilter reeller Zufallsvariablen auf (, A, P ) mit P [X1 = 1] = p, gilt fr n <R:P <
n k=1 (=)
P [X1 = 0] = 1 p =: q,
(0 < p < 1)
et
2 /2
dt .
160
Zentrale Grenzwertstze
9-B
3.000 Personen stimmt fr A. Weitere 1.000.000 Personen stimmen zufllig ab. Wie gro ist die Wahrscheinlichkeit, dass A angenommen wird? Bezeichne die gleichgltigen Whler mit den Nummern k = 1, 2, 3, . . . , 1.000.000, 1, Xk = 0, Whler whlt A, Whler whlt B.
Xk + r > n
Xk ,
k=1
Xk >
k=1
nr = 498.500. 2
P[
k=1
Xk > 498.500] = P
n k=1
n k=1
n1 4
n 2
Xk
n 2
n1 4
Xk
n k=1
n1 4
Xk
n 2
> 3 = 1 P
n k=1
1 n4
Xk
n 2
1 (3) = 0.9986.
Obwohl lediglich 3.000 Personen sicher fr A stimmen, wird der Vorschlag mit einer Wahrscheinlichkeit von 99.86% angenommen. Dies ist auch der Grund dafr, dass Vorschlge, die den Groteil der Abstimmenden nicht interessieren, bereits von einer kleinen Gruppe von Entschlossenen durchgesetzt werden knnen.
161
Zentrale Grenzwertstze
Normal- oder Poisson-Approximation? Seien Xn unabhngige b(1, p)-verteilte Zufallsvariablen. Nach dem Grenzwertsatz von de Moivre-Laplace gilt
n i=1
D
(1)
N(0,1)vert. ZV
(2)
()
Im Fall (1) sind die Summanden dem Betrag nach klein fr groes n, whrend
im Fall (2) nur die Wahrscheinlichkeit, pn = P [Xn = 1], klein ist, dass die
(a) Normal-Approximation ist gut, falls np(1 p) 9. (b) Poisson-Approximation ist gut, falls n 50 und p 0.05. Im Allgemeinen knnen Poisson- und Normal-Approximation (fr kleine n) nicht gleichzeitig angewendet werden.
9.3 Bemerkungen.
riablen mit endlichen Varianzen und = EX1 , so gilt nach dem starken Gesetz der groen Zahlen, 1 1 Sn := n n
n i=1
Xi ,
P -f.s. und L2 .
162
Zentrale Grenzwertstze
9-B
Mit Standardmethoden der Analysis lsst sich die Fragestellung umformulieren zu > 0 c 0 : lim n
n
Sn = c, n
P -f.s.?
Sn D N(0, V(X1 ))-verteilte Zufallsvariable. n liegt nach dem Satz von Slutsky Verteilungs-Konvergenz gegen
Null vor, also auch nach Wahrscheinlichkeit. b. In der Praxis ist die Verteilungsfunktion F der Zufallsvariablen X meist unbekannt. Seien dazu X1 , . . . , Xn unabhngige Zufallsvariablen mit Verteilungsfunktion F . Schtze Fn durch Fn (x) := Fn (x, ) := 1 n
n
1[Xi ()x] ,
i=1
x R,
wobei Fn (x) die relative Anzahl derjenigen X1 , . . . , Xn bezeichnet mit Xi x. Fn heit empirische Verteilungsfunktion zu X1 , . . . , Xn . Nach dem starken Gesetz der groen Zahlen von Kolmogorov gilt P -f.s. lim Fn (x) = lim 1 n
n i=1
= F (x), also Fn (x) F (x) P -f.s. und L2 . Eine Verschrfung dieser Aussage liefert der Satz von Glivenko-Cantelli Seien Xn , X unabhngige und identisch verteil te Zufallsvariablen. Die empirische Verteilungsfunktion Fn konvergiert P-f.s. gleichmig gegen F , d.h. > 0 n0 N x R, n n0 : sup Fn (x) F (x) < f.s..
xR
163
Zentrale Grenzwertstze
Dieser Satz wird in der mathematischen Statistik bewiesen und heit auch Hauptsatz der Statistik. Nach dem zentralen Grenzwertsatz gilt n Fn (x) F (x) = = 1 n n
n i=1
n i=1
1[Xi x] E1[X1 x]
wobei 2 (x) = V(1[X1 x] ) = F (x)(1F (x)) und 1[X1 x] eine b(1, F (x)) ver teilte Zufallsvariable. Somit ist Fn (x)F (x) approximativ N 0, F (x)(1F (x) n
verteilt. Da (x) 1/4 fr alle x R, gilt fr ein vorgegebenes > 0 und eine N(0, 1)-verteilte Zufallsvariable Z, n F (x)(1 F (x))
P |Z| 2 n = 2(2 n) 1
Zahlenbeispiel = 0.1, n = 100, dann ist P [|Fn (x) F (x)| ] fr jedes x und jede Verteilfungsfunktion F .
0, 955
c. Satz von Berry-Esseen Seien Xn unabhngige identisch verteilte Zufallsvariablen mit EX1 = , V(X1 ) = 2 und E |X1 |3 < . Dann gilt sup P
xR
n i=1 (Xi
x (x) c
E |X1 |3 , 3 n
(x) =
1 t2 e 2 dt . 2
164
Zentrale Grenzwertstze
9-B
9.12 Zentraler Grenzwertsatz von Lindeberg Die Folge (Xn )nN quadratisch inte2 grierbarer reeller Zufallsvariablen mit EX1 > 0, EXn = 0, sei unabhngig und 2 erflle mit sn := n i=1 2 2 EXi , sn = sn die klassische Lindeberg-Bedingung
>0: Dann 1 sn
n
1 2 sn
n i=1
(LB)
Xi
i=1
Die Lindeberg-Bedingung stellt sicher, dass der Einuss aller Zufallsvariablen ungefhr gleich gro ist. Salop kann man sagen, dass ein Zentraler Grenzwertsatz immer existiert, wenn man eine Gre betrachtet, die aus sehr vielen aber kleinen und nahezu unabhngigen Einssen besteht. In diesem Fall kann man stets vermuten, dass die Summe der Einsse normalverteilt ist. Als Beispiel sei der Kurs einer Aktien genannt, die sich im Streubesitzt bendet. Durch unabhngige Kauf- und Verkaufsaktionen haben die Aktienbesitzer nur einen geringen Einuss auf den Kurs, in ihrer Gesamtheit fhrt dies aber zu normalverteilten Tages-Renditen. Bendet sich die Aktie dagegen im Besitz einiger weniger Groaktionre, sind die Aktienkurse nicht mehr (log)normalverteilt.
9.4 Bemerkungen.
a. In Satz 9.12 dient die Folge (sn ) zur Normierung. Die Lindeberg-
Bedingung (LB) schrnkt den Einuss der einzelnen Zufallsvariablen ein. b. In Satz 9.12 mit am Erwartungswert zentrierten Zufallsvariablen impliziert die klassische Lindeberg-Bedingung (LB) die klassische Feller-Bedingung max 1 2 EXi 2 sn 0
i=1,...,n
E|Xi |2+ 0
impliziert. Bei nicht am Erwartungswert zentrierten Zufallsvariablen ist jeweils Xi durch Xi EXi , auch in der Denition von sn , zu ersetzen.
165
Zentrale Grenzwertstze
des n N seien Xn,1 , . . . , Xn,mn unabhngige quadratisch integrierbare reelle Zufallsvariablen mit mn fr n . Ferner seien
mn
EXn,i = 0,
i=1
2 EXn,i = 1
i=1
2 EX1 = 1,
Sn :=
i=1
Xi .
n k=1
Sk N(0,
1 )-verteilte Zufallsvariable. 3
Der zentrale Grenzwertsatz von Lindeberg 9.12 lsst sich so nicht anwenden, da beispielsweise die Unabhngikeit in Bezug auf die Sk verletzt ist. Es gilt jedoch, 3n 2
3
n k=1
Sk = 3n 2
k=1 j=1
Xj = 3n 2
n j=1
Xj .
k=j (nj+1)Xj
166
Zentrale Grenzwertstze
9-B
j n
n k
9.5
Die Vertauschbarkeit der Summen macht man sich schnell an der Skizze klar. 3 Setzen wir nun Xn,j = 3n 2 (n j + 1)Xj , so sind die Voraussetzung von
mn j=1
E
j=1 1 0
3n 2 (n j + 1)Xj
=3
1 n
n j=1
j1 n
3
n
(1 t)2 dt = 1.
denn
3 n
n j=1
2 E X1 1
1 [ 3n 2 |X1 |>]
0,
0 in 2 X1 1 1 [ 3n 2 |X1 |>] 2 2 X1 und EX1 < , also knnen wir den Satz von der
dominierten Konvergenz anwenden. Somit konvergieren die Erwartungswerte gegen Null und nach dem Satz von Stolz-Cesro konvergiert daher auch das arithmetische Mittel gegen Null. Somit gilt 3n 2
3
n k=1
Sk =
j=1
Xn,j N(0, 1)
167
Zentrale Grenzwertstze
Zur Beweisvorbereitung bentigen wir noch einige Ergebnisse. Lemma Seien zi , i C mit |zi | , |i | < 1, so gilt,
n i=1 n n
zi
i=1
i=1
|zi i | .
Der Beweis erfolgt durch Induktion. Der Induktionsanfang mit n = 1 ist klar. n = 2:
|z1 z2 1 2 | |z2 + 2 | + |z1 + 1 | . Der Induktionsschritt erfolgt analog. Aus der Analysis kennen wir die
z1 z2 1 2 = z1 (z2 2 ) + 2 (z1 1 ),
Taylor-Formel mit Integralrestglied Sei I R ein Intervall und f : I C mindestens (n + 1)-mal stetig dierenzierbar, so gilt fr a I
n
f (x) =
k=0
x a
min
x2 , x3
1 1 (ix)k + k! m!
x 0
im (x s)m eis ds .
x 0
ieis (x s) ds
|x|2 , 2
x2 |x|3 (1 + ix ) |x|3 . 2 6
168
Zentrale Grenzwertstze
9-B
|ex (1 x)|
x 0
|es (x s)| ds
x 0
|x s| ds = 1 x 2 . 2
Beweis von Satz 9.13 Wir zeigen zunchst, dass das Maximum der Varianzen von Xn,1 , . . . , Xn,nm gegen Null konvergiert. Sei also > 0
i{1,...,mn }
max
V(Xn,i ) =
i{1,...,mn }
max
2 +
mn
i=1
Somit konvergiert das Maximum gegen Null, da beliebig. Nach Satz 6.7 gilt fr t R, Sn (t) e
t2 2
Seien nun Sn =
n i=1
n i=1
Cn,i = 1.
t2 2
mn
i=1
Xn,i (t)
eCn,i
t2 2
i=1
i=1
, (*)
nach dem obigen Lemma. Anwendung von Hilfsformel 1 und EXn,i = 0 ergibt, n,i (t) 1 cn,i t2 2 =
HF1 2 eitXn,i 1 itXn,i Xn,i
t2 2
dP
min
tXn,i
, tXn,i
dP dP ,
max 1, |t|3
169
Zentrale Grenzwertstze
wobei
2 Xn,i min 1, Xn,i
dP
[|Xn,i |>]
2 Xn,i dP +
[|Xn,i |]
2 Xn,i Xn,i dP
+ Cn,i .
mn i=1
t2 2
(1)
Also konvergiert der gesamte Ausdruck gegen Null fr n , da > 0 beliebig. erhalten, Da Cn,i Varianz, ist Cn,i 0. Wir knnen somit Hilfsformel 2 anwenden und
mn i=1
eCn,i
t2 2
1 Cn,i
t2 2
HF2
t2 4
mn i=1
2 Cn,i
mn
(2)
Wenden wir die Dreieckungsungleichugn sowie (1) und (2) auf (*) an, so folgt t R : Sn (t) e 2 . Multivariate zentrale Grenzwertstze Ist X ein d-dimensionaler integrierbarer Zufallsvektor, d.h. E X < , so heit EX = (EX1 , . . . , EXd ) Erwartungsvektor von X. Ist X ein d-dimensionaler quadratisch integrierbarer Zufallsvektor, d.h. E X , so heit Cov(X) := (Cov(Xi , Xj ))i,j{1,...,d}
2
t2
<
170
Zentrale Grenzwertstze
9-B
Kovarianzmatrix von X, wobei die einzelnen Eintrge die Kovarianzen Cov(Xi , Xj ) := E(Xi EXi )(Xj EXj ) der reellwertigen Zufallsvariablen Xi und Xj darstellen. Auf der Hauptdiagonalen der Kovarianzmatrix stehen die Varianzen der Xi . Insbesondere ist im eindimensionalen Fall gerade VX = Cov(X). Die Nebendiagonalelemente knnen als Ma fr die stochastische Abhngigkeit der Xi , Xj matrix eine Diagonalmatrix.
9.2 Denition Ein d-dimensionaler Zufallsvektor X = (X1 , . . . , Xd )
heit multi-
variat normalverteilt (oder auch d-dimensional normalverteilt), falls fr jedes u Rd die Zufallsvariable u, X = ut X =
d i=1
ui Xi eindimensional normal-
verteilt ist, wobei eine 1-dimensionale Normalverteilung mit Varianz 0 als eine
Xn X genau dann, wenn u, Xn u, X fr alle u Rd . Der Beweis wird in den bungen behandelt.
dratisch integrierbare d-dimensionale Zufallsvariablen mit mn fr n . Des Weiteren gelte (a) n N i {1, . . . , mn } : EXn,i = 0, (b) n N : (c) > 0 :
mn i=1 mn i=1
Cov(Xn,i ) = C Rdd , X
2 n,i 1[ Xi >]
0.
171
Zentrale Grenzwertstze
Dann
mn i=1
Sn :=
u Rd : u, Sn N(0, u, Cu ). 1. Fall u, Cu = 0. Dann ist V( u, Sn ) = 0, also u, Sn = 0 P -f.s. Xn,i = 2. Fall u, Cu > 0. Wende Satz 9.13 auf 1 u, Cu u, Xn,i
1 u, Cu
u, EXn,i = 0,
V(Xn,i ) =
1 u, Cu
mn i=1
V( u, Xn,i ) = 1.
u,Cu
1 u, Cu 1 u, Cu u 2 u, Cu
mn
E
i=1 mn
u, Xn,i
u
2
2
2
1 u,Cu
Xn,i 2
u,Xn,i
|>
E
i=1 mn
Xn,i
2
u u,Cu
Xn,i >
E Xn,i
i=1
[ Xn,i >
u,Cu u
0,
nach Voraussetzung fr n . Damit sind alle Voraussetzungen von Satz 9.13 erfllt.
172
Zentrale Grenzwertstze
9-B
9.3 Korollar Ist (Xn )nN eine unabhngige Folge identisch verteilter quadratisch
173
10
Bedingte Erwartungen
10 Bedingte Erwartungen
Bedingte Erwartungen stellen den mathematischen Rahmen zur Untersuchung der Fragestellung, welchen Mittelwert eine Zufallsvariable Y annimmt unter der Voraussetzung, dass eine andere Zufallsvariable X den Wert x annimmt, E(Y | X = c). Als Beispiel sei die Suche des mittleren Krpergewichts einer gegebenen Bevlkerungsschicht, unter Vorraussetzung einer gewissen Krpergre, genannt. Erinnern wir uns zurck an die Denition des Erwartungswerts, so knnen wir diesen als Verallgemeinerung des Begries der Wahrscheinlichkeit fr das Eintreten eines Ereignisses interpretieren. Allgemeiner gilt P (A | X = x) = E(1A | X = x). Als Beispiel sei das Ereignis A, die Strae ist glatt, unter der Voraussetzung, dass die Lufttemperatur X den Wert x annimmt. nicht mit ein. Wir werden dieses Manko durch die Denition einer allgemeinen bedingten Erwartung beheben. Unsere bisherige Denition von P (A | X = x) schliet den Fall P [X = x] = 0
174
Grundlagen
10-A
10-A Grundlagen
Wie immer sei (, A, P ) ein W-Raum. f ist C-B-messbar f 1 (B) C. Erinnern wir uns zunchst an die Denition der Messbarkeit einer Abbildung. Eine reellwertige Funktion ist eine Zufallsvariable, falls sie A B messbar
ist. Bedingte Erwartungen sind spezielle Zufallsvariablen, bei denen die Messbarkeitsforderung noch verschrft wird.
Zum Beweis des folgenden Satzes bentigen wir den Satz von Radon-Nikodym (siehe Anhang), der ein Verhltnis zwischen zwei Maen und herstellt.
10.1 Satz Sei X : (, A, P ) (R, B) integrierbare Zufallsvariable und C A -
Algebra. Dann existiert eine Zufallsvariable Z : (, A, P ) (R, B) mit folgenden Eigenschaften: (a) Z ist integrierbar und C-B-messbar, (b) C C :
C
X dP =
Z dP .
Ohne Einschrnkung sei X 0, ansonsten zerlegen wir X in X+ und X . Sei : C R deniert durch (C) :=
C
X dP ,
C C, endliches Ma auf C.
C -f..
so ist aufgrund der Integrierbarkeit von X wohldeniert und ein Ma. Auerdem ist ein P
C -stetiges
Somit sind alle Voraussetzungen des Satzes von Radon-Nikodyn erfllt und es folgt die Existenz einer bis auf die quivalenz = P messbare Funktion Z : R+ . Weiterhin ist Z P
C -integrierbar,
eindeutige, CB-
wobei
C
C C : (C) =
Z dP
Z dP .
175
10
Bedingte Erwartungen
Die Aussage des Satzes mag zunchst unscheinbar sein. Es ist jedoch zu beachten, dass die Zufallsvariable Z tatschlich so konstruiert werden kann, dass sie C-B-messbar ist. Da man C als echte Teilmenge von A whlen kann, ist dies berhaupt nicht oensichtlich Z ist eindeutig bis auf die quivalenz P
C -f..
A -Algebra. Die quivalenzklasse (im oberen Sinne) der Zufallsvariablen Z: (, A, P ) (R, B) mit (a) und (b) oder auch ein Reprsentant dieser quivaZ mit E(X | C). lenzklasse heit bedingte Erwartung von X bei gegebenem C. Man bezeichnet Hug wird ein Reprsentant dieser quivalenzklasse als eine Version von
E(X | C) bezeichnet. sondern eine Zufallsvariable dar! E(X | C) kann man als eine Vergrberung Variation als X besitzt. (Siehe Abbildung 11.2) Bemerkungen. blen Z1 und Z2 , so gilt CC: b. E(X | C) =
d dP
C
Die bedingte Erwartung E(X | C) stellt im Allgemeinen also keine reelle Zahl
von X betrachten, da C grber als A und Z daher weniger Mglichkeiten der a. Zur Eindeutigkeit von Satz 10.1 betrachte zwei Zufallsvaria-
(Z1 Z2 ) dP = 0 Z1 = Z2 P
C
C -f..
, wobei (C) =
X dP fr C C.
EX dP ,
=0
X dP =
EX dP .
c.) Sei C = { , B, B c , } fr festes B mit 0 < P (B) < 1. So gilt 1 P (B) B X dP =: E(X | B), B (E(X | C))() = 1 c B c X dP , Bc . P (B )
176
Grundlagen
10-A
4 3 2 1
X Z
1 4
1 2
3 4
10.1
= [0, 1], A =
1 1 [0, 4 ), [ 1 , 2 ), [ 1 , 3 ), [ 3 , 1] 4 2 4 4
,C=
1 [0, 2 ), [ 1 , 1] 2
A.
Scharfes Hinsehen liefert, dass die rechte Seite nach obiger Denition C B-messbar ist. Weiterhin gilt
B
Bc
X dP , X dP = X dP = X dP , X dP ,
Bc
Bc
Bc
rechte Seite" dP + X dP +
Bc
rechte Seite" dP
X dP =
X dP .
a) C C :
E(X | C) dP =
X dP .
b) X = c P-f.s. E(X | C) = c f.s. c) X 0 P-f.s. E(X | C) 0 f.s. d) E(1 X1 + 2 X2 | C) = 1 E(X1 | C) + 2 E(X2 | C) f.s.
177
10
Bedingte Erwartungen
e) X1 X2 P-f.s. E(X1 | C) E(X2 | C) f.s. f) X C-B-messbar X = E(X | C) f.s. g) X integrierbar, Y C-B-messbar, XY integrierbar E(XY | C) = Y E(X | C) f.s. g) X, X integrierbar, XE(X | C) integrierbar E(XE(X | C) | C) = E(X | C)E(X | C) f.s. h) -Algebra C1,2 mit C1 C2 A, X integrierbar E(E(X | C1 ) | C2 ) = E(X | C1 ) f.s.
Hier bedeutet f.s., Rest C2 P-f.s. bzw. Rest C1 P-f.s. a) Folgt sofort aus der Denition der bedingten Erwartung.
b) Klar, denn Glttung einer Konstanten ergibt die Konstante selbst. c) Fr eine C B-messbare Funktion Z mit C C : P
CC
f.s.
Z dP 0 folgt Z 0
d) Folgt direkt aus der Linearitt des Intergrals. e) Folgt direkt aus der Monotonie des Integrals, denn fr C B-messbare Zufallsvariablen Z1,2 mit CC:
Z1 dP
C-
Z2 dP
f.s.
178
Grundlagen
10-A
CC:
Y E(X | C) dP =
XY dP .
Ohne Einschrnkung ist X 0, ansonsten gehen wir zu X+ und X ber. Sei C C so gilt
C
Y E(X | C) dP =
d dP
C
Y E(X | C) dP
C
C,
wobei E(X | C) =
mit (C) =
Y d =
Y d ,
C ).
mit (A) =
ches Ma auf A. Erneute Anwendung des Zusatzes zum Satz von RadonNikodym ergibt, d dP . dP
X dP fr A A (also =
Y d =
Nun ist
d dP
d dP = dP
Y X dP .
g) Folgt sofort aus g), wenn wir Y = E(X | C) setzen. h) () Aus g) folgt direkt, dass E(E(X | C1 ) | C2 ) = E(X | C1 ) E(1 | C2 ),
1
da E(X | C1 ) C1 B-messbar. () Die zweite Gleichung ist plausibel, da die Vergrberung von X ber C2 zur noch kleineren -Algebra C1 dasselbe liefert, wie die unmittelbare Vergrberung ber C1 .
179
10
Bedingte Erwartungen
Seien also Z := E(X | C1 ) und Y := E(X | C2 ). Es ist zu zeigen, dass Weiterhin sei C C1 C2 , so gilt per denitionem,
C
C C
P (A | C) := E(1A | C) heit bedingte Wahrscheinlichkeit von A bei gegebenem C. Setzen wir C = {, }, so ist E(1A | C) = E1A = P (A) (vgl. Bsp 1). Nach E(1A | C) = P (A | C).
10.1 Bemerkung zu Denition 10.2.
CC:
P (A | C) dP = P (A C).
Sei C C, so gilt
C
P (A | C) dP =
E(1A | C) dP =
1A dP =
1A 1C dP = P (A C).
denn
Bc ,
(P (A | C))()
B, B.
180
Grundlagen
10-A
10.3 Denition
E(X | Y ) := E(X | Y 1 (A )) heit bedingte Erwartung von X bei gegebenem Y . Y 1 (A) bezeichnet hier die kleinste -Algebra in , bzgl. der Y messbar ist. 2.) Seien X : (, A, P ) (R, B), Yi : (, A, P ) (i , Ai ) fr i I Zufallsvariablen und X integrierbar. C A sei die kleinste -Algebra in , bzgl. der alle Yi messbar sind, d.h.
iI
C=F
E(X | (Yi )iI ) := E(X | C) bedingte Erwartung von X bei gegebenen Yi , i I. 3.) Sei A A und Y : (, A, P ) ( , A ) Zufallsvariable. P (A | Y ) := E(1A | Y ) heit bedingte Wahrscheinlichkeit von A bei gegebenem Y .
10.2 Bemerkungen. Sei X : (, A, P ) (R, B) eine integrierbare Zufallsvariable.
a. Sei C -Algebra in A. Dann gilt (X 1 (B), C) unabhngig E(X | C) = EX f.s. b. Sei Y : (, A, P ) ( , A ) eine Zufallsvariable. Dann gilt (X, Y ) unabhngig E(X | Y ) = EX f.s. a. Zu zeigen ist, dass CC: Schreiben wir EX dP = (EX) 1C dP = (EX)(P (C)), EX dP = X dP .
181
10
Bedingte Erwartungen
mit Hilfe der Unabhngigkeit, so ist die Gleichheit oensichtlich. b. Folgt direkt mit a).
mit E(X | Y ) = g Y . g ist die sog. Faktorisierung der bedingten Erwartung. g ist eindeutig bis auf die quivalenz = PY -f.. . Sei Z := E(X | Y ), dann Z : (, F (Y )) (R, B). a) Existenz 1. Schritt. Rckfhrung auf Indikatorfunktionen. Sei Z = 1A fr ein A F (Y ) = Y 1 (A ), also existiert ein A A , so dass Y 1 (A ) = A. 1, Y () A , d.h. A, = 1A (). 1A (Y ()) = 0, sonst Also ist Z = g Y mit g = 1A .
2. Schritt. Z sei nichtnegativ und einfach. Dann folgt die Existenz von g mit Z = g Y direkt aus dem 1. Schritt. von einfachen Zufallsvariablen Zn mit Zn Z. Nach dem 2. Schritt existieren gn : ( , A ) (R, B ) mit Zn = gn Y . Setzen wir g := sup gn ,
nN
182
Grundlagen
10-A
so ist g reellwertig. Da Z = supnN Zn , gilt auch P -f.s. Z = g Y. 4. Schritt. Sei Z messbar, so besitzt Z eine Darstellung Z = Z+ Z , mit g+ , g mit Z+ = g+ Y und Z = g Y . g := g+ g ist die gesuchte Abbildung. b) Eindeutigkeit. Es gelte E(X | Y ) = g1 Y f.s. = g2 Y f.s. und somit C F (Y ) : C A :
C
g1 Y dP =
X dP =
Y 1 (C )
g2 Y dP .
Y 1 (C )
g1 Y dP =
g2 Y dP .
Nach dem Transformationssatz gilt somit C A : d.h. gerade C A : (g1 g2 ) dPY = 0 g1 dPY = g2 dPY ,
riable und Y : (, A, P ) ( , A ) Zufallsvariable. Sei g bzw. gA eine bis auf quivalenz = PY - f.. eindeutig bestimmte Faktorisierung von E(X|Y ) bzw. von P (A | Y ). E(X | Y = y) := g(y) heit bedingte Erwartung von X unter der Hypothese Y = y. P (A | Y = y) := gA (y)
183
10
Bedingte Erwartungen
Y 1 (A )
X dP ,
E(X | Y = y) dPY (y) = EX. P (A | Y = y) dPY (y) = P (Y 1 (A ) A). P (A | Y = y) dPY (y) = P (A).
E(X | Y = y) dPY (y) anstelle des Erwartungswerts EY zu berechnen. a) Sei g eine Faktorisierung von E(X | Y ) (deren Existenz sichert Satz 10.3) und A A . So gilt
Y 1 (A )
X dP = =
Y 1 (A A
E(X | Y ) dP
Satz 10.3
Y 1 (A ) A
g Y dP
Def 10.4
E(X | Y ) stimmen g1 und g2 bis auf eine Menge vom PY -Ma Null berein,
hngig von der Wahl von g. Nach Satz 10.4 gilt {y } g(y ) dPY (y ) = 1 P [Y = y] X dP ,
Sei also g eine Faktorisierung von E(X | Y ), so ist E(X | Y ) = g(y) unab-
[Y =y]
g(y) =
[Y =y]
X dP .
184
Grundlagen
10-A
b.) P (A | Y = y) = P (A | [Y = y]).
s. Denition 10.4 s. Bsp 2
( , A ) Zufallsvariable.
a) X = cf.s. E(X | Y = ) = c PY -f... b) X 0 f.s. E(X | Y = ) 0 PY -f... c) E(X1 + X2 | Y = ) = E(X1 | Y = ) + E(X2 | Y = ) PY -f... d) X1 X2 f.s. E(X1 | Y = ) E(X2 | Y = ) PY -f... Diese Eigenschaften ergeben sich sofort aus Satz 10.2 und Satz 10.3.
Dann gilt:
a) Ist 0 Xn X f.s., so folgt E(Xn | C) E(X | C) f.s. (Satz von der monotonen Konvergenz fr bedingte Erwartungen). b) Ist Xn X f.s., |Xn | Y f.s. und Y eine integrierbare Zufallsvariable, so folgt E(Xn | C) E(X | C) f.s. (Satz von der dominierten Konvergenz fr bedingte Erwartungen). a) Sei 0 Xn X f.s., so folgt mit dem klassischen Satz von der monotonen Konvergenz, dass E |Xn X| = EXn EX 0. Auerdem folgt aus der Dreiecksungleichung oder aus Satz 10.7, E(E(|Xn X| | C)) E(|E((Xn X) | C)|) = E(|E(Xn | C) E(X | C)|),
185
10
Bedingte Erwartungen
Nun existiert eine Teilfolge, so dass E(Xnk | C) E(X | C) f.s. und da (E(Xn | C)) monoton folgt
wobei die linke Seite gegen Null konvergiert, also E(Xn | C) E(X | C).
L1
Xnk X f.s. ist auch die Konvergenz von (E(Xnk | C)) monoton und da
E(Xn | C) E(X | C). b) Sei Xn X f.s. Setzen wir Zn := sup |Xk X|, so ist klar, dass Zn 0 P -f.s. und es gilt
kn
|E(Xn | C) E(X | C)| E(|Xn X| | C) E(Zn | C), aufgrund der Monotonie der bedingten Erwartung. Es gengt nun zu zeigen, dass E(Zn | C) 0 P -f.s. Da Zn 0 P -f.s., konvergiert auch E(Zn | C) P -f.s. punktweise gegen eine nichtnegative Zufallsvariable. Sei also U := lim E(Zn | C). Nun gilt
n
Wir knnen schreiben E(U ) = E(E(U | C)) E(E(Zn | C)) = E(Zn ) 0, nach dem klassischen Satz von der dominierten Konvergenz, denn die Zn konvergieren f.s. und werden durch eine integrierbare Zufallsvariable majorisiert. Somit ist U = 0 f.s.
ble. Dann ist E(X | C) I fast sicher. Ist f (X) integrierbar, so gilt f (E(X | C)) E(f (X) | C) f.s.
E(X | C) I.
186
Grundlagen
10-A
Eine konvexe Funktion f : I R besitzt eine Darstellung als f (x) = sup v(x),
vV
V := v : I R : v(t) = a + bt f (t),
tI .
Somit gilt aufgrund der Linearitt f (E(X | C)) = sup v(E(X | C)) = sup(E(v(X) | C)).
vV vV
187
11
Martingale
11 Martingale
Ziel dieses Kapitels ist es, Kriterien fr ein starkes Gesetz der groen Zahlen auch fr abhngige Zufallsvariablen zu nden. Dazu untersuchen wir zunchst spezielle Folgen von Zufallsvariablen, die Martingale, fr die sehr angenehme Konvergenstze existieren, auch wenn die Zufallsvariablen der Folge abhngig sind. Martingale spielen eine groe Rolle in der Spieltheorie, in der Finanzmathematik und in der stochastischen Analysis. angegeben, mit die Konvergenz fr n bezeichnet. Fr alles Weitere sei (, A, P ) ein W-Raum, n N und sofern nicht anders
(R, B) heit bei gegebener monoton wachsender Folge (An ) von -Algebren An A mit An -B-Messbarkeit von Xn [wichtiger Fall An = F (X1 , . . . , Xn )] a) ein Martingal bzgl. (An ), wenn n N : E(Xn+1 | An ) = Xn f.s. d.h. n N C An :
C
Xn+1 dP =
Xn dP .
Xn+1 dP
Xn dP .
c) ein Supermartingal bzgl. (An ), wenn (Xn ) ein Submartingal bzgl. (An ) ist. Eine Folge von Zufallsvariablen ist aber nicht per se ein Martingal sondern immer nur in Bezug auf eine Folge von -Algebren.
188
1111.1 Bemerkung. Ein Martingal (Xn ) bezglich (An ) ist stets auch ein Martingal
b) Sei (Xn ) ein Submartingal bezglich (An ), so gilt E(Xn+1 | X1 , . . . , Xn ) = E(Xn+1 | F (X1 , . . . , Xn ))
Xn
11.1 Satz Sei (Vn ) eine Folge von Zufallsvariablen Vn : (, A, P ) (R, B). Die Par-
tialsummenfolge
Vj
gelten
bzgl. (F (V1 , V1 + V2 , . . . , V1 + . . . + Vn )) = (F (V1 , . . . , Vn )), wenn fr jedes n a) Vn integrierbar, b) E(Vn+1 | V1 , . . . , Vn ) = 0 bzw. 0 f.s.
Vj | Fn =
n j=1
E(Vj | Fn )
E(Vn+1 | Fn ) = 0 f.s.
Vj | Fn = E(Vn+1 | Fn ) + E
n
n j=1
Vj | Fn
= E(Vn+1 | Fn ) + da
n j=1
Vj ,
j=1
verschwindet.
189
11
Martingale
11.2 Denition Ein Spiel mit zuflligen Gewinnstnden X1 , X2 , . . . nach dem 1., 2., . . .
Schritt heit fair, wenn EX1 = 0 und (Xn ) ein Martingal [bzgl. (F (X1 , . . . , Xn ))] ist, d.h. EX1 = 0 und fr jedes n gilt E(Xn+1 | X1 = x1 , . . . , Xn = xn ) = xn fr P(X1 ,...,Xn ) -f.a. (x1 , . . . , xn ).
11.2 Satz Seien die Vn : (, A, P ) (R, B) quadratisch integrierbare Zufallsvaria-
n j=1
Vj ) ein Martingal.
Dann sind die Vn paarweise unkorreliert, d.h. i j : E(Vi Vj ) = 0. Ohne Einschrnkung ist j > i. Da Vi und Vj quadratisch integrierbar, gilt nach der Cauchy-Schwartz- bzw. Hlder-Ungleichung, dass Vj Vi ebenfalls integrierbar, denn
2 (E(Vj Vi ))2 (EVj )(EVi2 ) < .
n i=1
Vj )n zu
einer unabhngigen Folge (Vn ) von integrierbaren reellen Zufallsvariablen mit Erwartungswerten 0. Nach Satz 11.1 gengt es zu zeigen, dass E(Vn+1 | V1 , . . . , Vn ) = 0 f.s. nach Bemerkung 10.2, da (F (Vn+1 ), F (V1 , . . . , Vn )) ein unabhngiges Paar von -Algebren ist, gilt E(Vn+1 | V1 , . . . , Vn ) = EVn+1 = 0.
11.3 (Sub-/Super-)Martingalkonvergenztheorem von Doob Sei (Xn ) ein Sub-, Super-
oder Martingal mit lim sup E|Xn | < . Dann existiert eine integrierbare reelle Zufallsvariable X, so dass Xn X P -f.s.
n
190
11-
Zur Beweisvorbereitung bentigen wir noch Denition 11.3 und 11.4, sowie Satz 11.4 und 11.5.
11.3 Denition Sei (An ) eine monoton wachsende Folge von -Algebren An A.
Eine Zufallsvariable
N := N {}
Hierbei heit T Stoppzeit im engeren Sinne, falls P [T < ] = 1 (Kein Vorgri auf die Zukunft). Wichtiger Spezialfall: An = F (X1 , . . . , Xn ) mit Zufallsvariablen Xn . Man kann (Xn ) als Folge der Gewinnstnde in einem Spiel interpretieren. Ein Spieler ohne prophetische Gaben bricht das Spiel im zuflligen Zeitpunkt T aufgrund des bisherigen Spielverlaufs, d.h. aufgrund der Informationen, die bis zu diesem Zeitpunkt zur Verfgung stehen, ab.
Bsp 2 T () = inf {n N : Xn () B}, festes messbares B.
Zum Beispiel habe sich ein Aktienhndler einen festen Minimalwert vorgege-
geben, bei dessen Unterschreitung er seine Aktien verkaufen will. B stellt dann das Ereignis dar, dass eine Aktie den Minimalwert unterschreitet, und Xn den Aktienkurs seiner Aktien. Seine Bedingung lautet damit Verkaufe die Aktien fr das kleinste n, so dass Xn B.
11.4 Denition Sei (Xn ) eine Folge von Zufallsvariablen Xn : (, A, P ) (R, B)
und (Tn ) eine Folge von Stoppzeiten bzgl. (Xn ) [d.h. bzgl. (F (X1 , . . . , Xn ))] mit T1 T2 . . . < . So wird eine neue Folge (XTn )n von Zufallsvariablen deniert durch (XTn )() := XTn () (), .
Der bergang von (Xn ) zu (XTn ) heit optional sampling [frei gewhlte Stichprobenbildung].
191
11
Martingale
Man kann optional sampling z.B. als ein Testen des Spielverlaufs zu den Zeitpunkten Tn () interpretieren. Anschaulich greift man aus einer vorgegebenen Menge von Zufallsvariablen eine zufllige Teilmenge heraus. Dabei ist es durchaus mglich, dass eine Zufallsvariable mehrfach auftritt. Vorsicht: Die (XTn ) stellen keine Teilfolge von (Xn ) dar!
11.4 Optional sampling theorem Sei (Xn ) ein Submartingal, M N fest und (Tn )
Die durch optional sampling erhaltene Folge (XTn )nN ist ebenfalls ein Sub-
martingal. Entsprechend fr Martingal statt Submartingal. Die Martingaleigenschaft ist invariant unter Stoppen. Interpretieren wir (Xn ) z.B. als Folge von Gewinnstnden in einem Spiel, so besagt der Satz, dass sich die Fairness eines Spielverlaufs nicht ndert. Wir beweisen den Satz fr Submartingale. Fr Martingale erfolgt er analog. Sei n N beliebig aber fest und C F (XT1 , . . . , XTn ). Zu zeigen ist
C
XTn+1 dP
XTn dP .
M j=1
Sei Dj = C [Tn = j] fr j {1, . . . , M}. Wegen C = C = [(XT1 , . . . , XTn ) B] fr ein B B und damit Dj = [(XT1 , . . . , XTn ) B, Tn = j] =
j1 ,...,jn1 =1 j1 j2 ...jn1 j
XTn+1 dP =
k=1
XTn+1 dP =
k=j
Dj [Tn+1 =k]
Xk dP .
192
11-
XTn+1 dP =
k=M2
Xk dP .
Wir schtzen nun jeden der drei Summanden ab. aufgrund der Submartingaleigeschaft
DM2 [Tn+1 =M]
Xk dP =
XM1 dP + XM1 dP .
XM1 dP
XM1 dP
XM2 dP .
XTn+1 =
XM2 dP + XM2 dP .
XM2 dP
XTn+1
DM2
XM2 dP =
DM2
XTn dP ,
da auf DM2 , Tn = M 2.
11.5 Upcrossing inequality von Doob Sei (X1 , . . . , Xn ) ein beim festen Index n
N abbrechendes Submartingal und a, b reelle Zahlen mit a < b. Die Zufallsva[a, b] durch X1 , . . . , Xn an (d.h. die Anzahl der bergnge der abbrechenden Folge von einem Wert a zu einem Wert b). Dann gilt (b a)EU [a, b] E(Xn a)+ E(X1 a)+ .
riable U[a, b] gebe die Anzahl der aufsteigenden berquerungen des Intervalls
193
11
Martingale
10
11.1
Da (X1 , . . . , Xn ) ein Submartingal, ist auch (X1 a, . . . , Xn a) ein Submartingal und ebenso ((X1 a)+ , . . . , (Xn a)+ ), da ( a)+ : R R konvex. valls [0, b a] durch ((X1 a)+ , . . . , (Xn a)+ ) an. Deshalb knnen wir ohne Einschrnkung a = 0 und Xi 0 annehmen. T1 , . . . , Tn+1 durch folgende Vorschrift, Zu zeigen ist nun b EU[0, b] EXn EX1 . Wir denieren uns Zufallsvariablen T1 () = 1, min {i : 1 i n, Xi () = 0} , T2 () = n, T3 () = U [a, b] gibt auch die Anzahl der aufsteigenden berschreitungen des Inter-
falls ein solches i existiert, sonst, falls ein solches i existiert, sonst,
. . . abwechselnd Tn+1 () = n.
min {i : T2 () i n, Xi () b} , n,
194
11-
Nach Satz 11.4 ist auch (XT1 , . . . , XTn ) ein Submartingal. Nun ist
n
Xn X1 =
k=1
(XTk+1 XTk ) =
XT2j+1 XT2j +
b, Aufsteigungen bU[0,b]
XT2j XT2j1
E...0, da Submartingal
Also EXn EX1 bEU [0, b]. Nun knnen wir einen Beweis fr Satz 11.3 geben. Beweis von 11.3. 1. Schritt. Wir zeigen, < a < b < : P lim inf Xn < a < b < lim sup Xn
n n =:A(a,b)
=0
Whle also a < b beliebig aber fest. Un [a, b] gebe die Anzahl der aufsteigenden berquerungen des Intervalls [a, b] durch X1 , . . . , Xn an. Fr jedes n N gilt (b a)EUn [a, b] = (b a)
Satz 11.5 A(a,b)
A(a, b). Nach dem Satz von der monotonen Konvergenz gilt
A(a,b)
Angenommen P (A(a, b)) > 0. Dann gilt aber Un [a, b] fr n auf Un [a, b] dP P (A(a, b)) = .
>0 A(a,b)
Im Widerspruch zu messbar.
2. Schritt. Sei A := [lim infn Xn < lim supn Xn ] = P (A) P (A(a, b)) = 0.
=0
a,bQ
a,bQ
Nun gilt
Also existiert eine erweitert reellwertige Zufallsvariable X mit Xn X f.s. E X lim inf E |Xn | <
n
nach Voraussetzung. Also ist X integrierbar und daher X R f.s. Setzen wir X = X 1[X R] , so Xn X f.s. und X ist reellwertige Zufallsvariable.
195
11
Martingale
A mit An -B+ -Messbarkeit von Un und gilt weiterhin E(Un+1 | An ) (1 + n )Un + n , wobei n , n R+ mit n < ,
auf (, A, P ) und (An ) eine monoton wachsende Folge von Sub- -Algebren von
Zusatz zum Martingalkonvergenztheorem Ist das Martingal (Xn ) bezglich der Folge (An ) gleichgradig integrierbar, d.h. lim sup E(|Xn | | 1[|Xn |c] = 0,
n
so gilt zustzlich Xn X,
L1
Xn = E(X | An ).
Sei > 0 fest. Dann existiert ein c > 0, so dass sup E(|Xn | | 1[|Xn |>c] ) < ,
n1
da (Xn ) gleichgradig integrierbar. Nun gilt E |Xn | = E(|Xn | | 1[|Xn |>c] ) + E(|Xn | | 1[|Xn |c] ) < c + .
< c
Also ist (Xn ) beschrnkt in L1 , d.h. sup E |Xn | < . Mit Satz 11.3 folgt somit
n
lim Xn =: X existiert f.s. und X L1 , d.h. E |X| < . c, x > c, fc (x) = x, c x c, c, x < c,
n1
196
11-
so ist f lipschitz stetig und wegen der gleichgradigen Integrierbarkeit der Xn existiert ein c > 0, so dass n N :E fc (Xn ) Xn < E fc (X) X < Da lim Xn = X f.s. folgt
n
, 3
, 3
(1) (2)
fc (Xn ) fc (X) f.s. und fc (Xn ) c. Mit dem Satz von der dominierten Konvergenz folgt E fc (Xn ) fc (X) 0 f.s. Zusammenfassend ergibt sich, E |Xn X| E Xn fc (Xn ) + E fc (Xn ) fc (X) + E fc (X) X < also Xn X in L1 . Noch zu zeigen ist Xn = E(X | An ) f.s. Sei C Am und n m. Da (Xn ) ein |E(Xn 1C ) E(X1C )| E(|Xn X| 1C ) E(|Xn X|) 0, so folgt E(Xm 1C ) = E(X1C ).
11.6 Satz Sei (Vn ) eine Folge von quadratisch integrierbaren reellen Zufallsvariablen
mit
n=1
n=1
Ohne Einschrnkung sei EVn = 0 ansonsten ersetze Vn durch Vn EVn . Wn := Vn E(Vn | V1 , . . . , Vn1 ) ist somit integrierbar.
197
11
Martingale
11.2
a) Wir zeigen
n k=1
11.1 gengt es dazu zu zeigen, dass fr alle n gilt E(Wn+1 | V1 , . . . , Vn ) = 0. Es gilt nun gerade, E(Wn+1 | V1 , . . . , Vn )
Wk E
n k=1
|Wk |
n k=1
(mit Hilfe von (a + b)2 2a2 + 2b2 ). Anwendung von 10.7 ergibt,
2 2 E [E(Vn | V1 , . . . , Vn1 )]2 E E(Vn | V1 , . . . , Vn1 ) EVn .
198
Nun sind die Wn quadratisch integrierbar und stellen ein Martingal dar, sind also nach 11.2 unkorreliert. Somit ist
n 2 n
E
k=1
Wk
k=1
E |Wk |2 4
n k=1
E |Vk |2 = 4
k=1
VVk < .
n k=1
Aus a) und b) folgt mit Satz 11.3 die Behauptung, dass ( giert.
Wk )n f.s. konver-
Falls die (Vn ) unabhngig, knnen wir Bemerkung 10.2 anwenden und erhalten E(Vn | V1 , . . . , Vn1 ) = EVn f.s.
n=1
11.7 Satz Sei (Vn ) eine Folge von quadratisch integrierbaren reellen Zufallsvariablen
mit
1 n
j=1
f.s.
n j=1 (Vj
(Kriterium von Kolmogorov zum starken Gesetz der groen Zahlen) Nach Satz 11.6 fr n1 Vn anstatt Vn gilt,
n=1
EVj ) 0 f.s.
11.1 Lemma von Kronecker Sei (cn ) eine Folge reeller Zahlen.
n=1
cn 1 konvergiert n n
n j=1
cj 0.
199
11
Martingale
Sei sn =
n j=1
n j=1
cj =
j=1
j=1
(j (j 1)) sj1 .
1
Somit gilt 1 n
n j=1
cj = s n
1 n
n j=1
sj1 0.
11.2 Bemerkung. Aus Satz 11.6 bzw. 11.7 ergibt sich unmittelbar fr eine Folge (Vn )
quadratisch integrierbarer reeller Zufallsvariablen eine hinreichende Bedingung fr die f.s.-Konvergenz der Reihe
n j=1
Vn bzw. fr
1 n
n j=1
Vj 0 f.s.
11.8 Kriterium von Kolmogorov fr das starke Gesetz der groen Zahlen Eine un-
n2 V (Xn ) <
Xk EX1 f.s.
Der Satz wurde bereits im Kapitel 8 beweisen, wir wollen nun unter Verwendung der Martingaltheorie einen eleganteren Beweis geben. Lemma Sei (Xn ) eine Folge unabhngiger, identisch verteilter Zufallsvariablen mit E |X1 | < . Setze Yn := Xn 1[|Xn |n] (Stutzung). Dann gilt a) EYn EX1 , b) P [Xn = Yn fr fast alle n] = 1,
200
11-
n2 V(Yn ) < .
a) Sei Zn := X1 1[|X1 |n] . Fr jedes n N haben X1 und Xn dieselbe Verteilgung also besitzen auch Yn und Zn dieselbe Verteilung. dem Satz von der dominierten Konvergenz EYn = EZn EX1 f.s. Somit gilt EZn = EYn . Ferner ist |Zn | |Xn | und Zn X1 f.s. also nach
b)
n=1
P [Xn Yn ] =
n=1
P [|X1 | > t] dt
Lemma 4.1
Mit dem 1. Lemma von Borel und Cantelli folgt somit P [Xn Yn fr fast alle n] = 0. c) Fr jedes n N gilt nach Partialbruchzerlegung, 2 1 1 1 2 . n2 n(n + 1) n n+1 Damit erhalten wir eine Abschtzung fr den Reihenrest 1 2 . n2 k (*)
nk
Somit folgt
n=1
1 |}
201
11
Martingale
Yn := Xn 1[|Xn |n] ,
Sn :=
i=1
Xi .
Yi EX1 f.s.
Yi =
1 n
n i=1
EYi +
1 n
n i=1
(Yi EYi ).
11.2 Korollar Sei (Xn ) eine Folge von unabhngigen identisch verteilten reell-erweiterten
+ Zufallsvariablen mit EX1 < und EX1 = , d.h. EX1 = . Dann gilt
1 n
n=1
Xi f.s.
Deshalb knnen wir ohne Einschrnkung davon ausgehen, dass Xi 0. Sei k N beliebig aber fest und setze
(k) Zn := Xn 1[Xn k] .
202
0-
(k)
Xi
1 n
n i=1
Zi
(k)
EZ1
(k)
f.s.
(**)
(k)
EZ1
EX1 .
Xi f.s.
der -Algebren Anj in mit F (Xnj Anj An,j+1 A sollen die folgenden Bedingungen erfllen a) Xn,j ist quadratisch integrierbar, Ej1 Xnj := E(Xnj | An,j1 ) = 0, die Xn,j bilden ein sogenanntes Martingaldierenzschema.
jn j=1 2 Ej1 Xn,j 1. P
b)
203
lim
n
fn d =
lim fn d.
n
Lemma von Fatou Fr jede Folge (fn ) von erweitert reellwertigen messbaren Funktionen mit fn 0 -f.. gilt lim inf fn d lim inf fn d.
Satz von der dominierten Konvergenz (Lebesgue) Fr erweitert-reellwertige messbare Funktionen fn , f und g mit fn f -f.., |fn | g -f.. fr alle n und g d < existiert limn fn d und es gilt
n
lim
fn d =
f d.
Denition
An A gibt mit An und (An ) < . 2.) Ein Ma auf A heit -stetig, falls A A : (A) = 0 (A) = 0.
204
1-
Satz von Radon-Nikodym Seien (, A) Messraum, und -endliche Mae auf A und sei -stetig. Dann existiert eine Funktion f : (, A) (R+ , B+ ) mit A A : (A) =
A
f d
f ist eindeutig bis auf quivalenz =-f... f ist die sog. Radon-Nikodym-Ableitung von nach und wird hug kurz durch
d d
angegeben.
die Radon-Nikodyn-Ableitung dQ d
Bsp 1 Sei Q ein W-Ma auf B, das LB-Ma auf B und Q sei -stetig. Dann ist
die gewhnliche Dichte von Q. Zusatz Seien , , -endliche Mae, sei -stetig und sei -stetig. Dann gilt d d d = . d d d
205
Literaturverzeichnis
Literaturverzeichnis
[1] Bauer, H. Wahrscheinlichkeitstheorie; de Gruyter, Berlin (1990), 4. Au. [2] Bauer, H. Ma- und Integrationstheorie; de Gruyter, Berlin (1998), 2. Au. [3] Billingsley, P. Probability and Measure; Wiley, New York (1995), 3rd ed. [4] Capiski, M., Kopp, E. Measure Integral and Probability; Springer (2004), n 2nd ed. [5] Dudley, R.M. Real Analysis and Probability; Cambridge University Press (2002), 2nd ed. [6] Elstrodt, J. Ma- und Integrationstheorie; Springer (2009), 6. Au. [7] Feller, W. An Introduction to Probability and Its Applications I,II; Wiley, New York (1970/71), 3rd ed./2nd ed. [8] Fisz, M. Wahrscheinlichkeitsrechnung und mathematische Statistik; VEB Deutscher Verlag der Wissenschaften, Berlin (1970), 5. Au. [9] Gnssler, P., Stute, W. Wahrscheinlichkeitstheorie; Springer, Berlin (1977). [10] Henze, N. Stochastik fr Einsteiger: Eine Einfhrung in die faszinierende Welt des Zufalls; Vieweg+Teubner (2008), 7. Au. [11] Hesse, C. Wahrscheinlichkeitstheorie Eine Einfhrung mit Beispielen und Anwendungen. Vieweg+Teubner (2009), 2. Au. [12] Hinderer, K. Grundbegrie der Wahrscheinlichkeitstheorie; Springer, Berlin (1985), 3. korr. Nachdruck. [13] Jacod, J., Protter, P. Probability Essentials. Springer, Berlin (2004), 2nd ed.
206
Literaturverzeichnis
1-
[14] Kallenberg, O. Foundations of Modern Probability. Springer, New York (2001), 2nd ed. [15] Klenke, A. Wahrscheinlichkeitstheorie; Springer, Heidelberg (2006) [16] Krengel, U. Einfhrung in die Wahrscheinlichkeitstheorie und Statistik; Vieweg, Braunschweig (2003), 7. Au. [17] Love, M. Probability Theory I,II; Springer, Berlin (1977/78), 4th ed. [18] Meintrup D., Scher S. Stochastik Theorie und Anwendungen; Springer (2004). [19] Williams, D. Probability with Martingales; Cambridge University Press (1991). [20] Wengenroth, J. Wahrscheinlichkeitstheorie. De Gruyter (2008). [21] Williams, D. Weighing the Odds A Course in Probability and Statistics; Cambridge University Press (2001).
207