You are on page 1of 24

Bayes-Statistik

Marian Sommer - 28. September 2012


Seminar zur Stochastik
WS 2012 - Institut fr Statistik und Wirtschaftsmathematik - RWTH Aachen
www.isw.rwth-aachen.de
Inhaltsverzeichnis
1 Grundlagen 1
2 Bayes-Schtzfunktion 3
3 Beispiele 5
4 Das IMDb-Top250-Bewertungssystem 18
5 Zusammenfassung und Ausblick 21
Literaturverzeichnis 23
1 Grundlagen
Diese Ausarbeitung knpft an die Grundlagen ber Schtzfunktionen in der Statistik
an. Es werden einige Denitionen bentigt, die fortlaufend verwendet werden.
Denition 1.1 (statistischer Raum) Sei (X, B) ein Messraum, = eine Men-
ge und P = {P

| } eine Familie von Wahrscheinlichkeitsverteilungen auf B mit


P

= P

falls =

. Dann heit (X, B, P) statistischer Raum, X Stichprobenraum,


P Verteilungsannahme, Parameterraum.
Denition 1.2 (Statistik) Sei (X, B, P) ein statistischer Raum und (V, V) ein
Messraum. Eine messbare Abbildung T : (X, B) (V, V) heit Statistik. (V, V, P
T
)
mit P
T
:= {P
T
|P P} heit wieder statistischer Raum.
Denition 1.3 (Nichtrandomisierte statistische Entscheidungsfunktion, Ent-
scheidungsraum) Sei (X, B, P) ein statistischer Raum und (D, D) ein Messraum.
Eine messbare Abbildung : (X, B) (D, D) heit nichtrandomisierte statistische
Entscheidungsfunktion oder Schtzfunktion und (D, D) heit Entscheidungsraum.
Denition 1.4 (Verlustfunktion) Es sei (X, B, P) ein statistischer Raum, P =
{P

| }, = eine Menge, und (D, D) ein Messraum. Eine Funktion


L : D [0, ], (, d) L(, d)
heit Verlustfunktion, wenn L(, ) D(B
1
[0, ]) messbar ist , wobei B
1
die Borelsche -Algebra auf R = R {, } ist.
Eine bekannte und hug benutzte Verlustfunktion ist die Gausssche Verlustfunk-
tion.
Denition 1.5 (Gausssche Verlustfunktion) Es sei D R, P = {P

|
}, g : (, D) (R
1
, B
1
) messbar. Dann heit
L : D [0, ], (, d) (g() d)
2
Gausssche Verlustfunktion. Fr g() = wird L auch quadratischer Verlustfunktion
genannt.
Denition 1.6 (statistisches Entscheidungsproblem) Sei (X, B, P) ein statis-
tischer Raum, P = {P

| }, = eine Menge, (D, D) ein Entscheidungsraum


und L : D [0, ] eine Verlustfunktion. Dann heit
E = ((X, B, P), (D, D), L)
statistisches Entscheidungsproblem
Denition 1.7 (Risikofunktion) Gegeben sei ein statistisches Entscheidungspro-
blem E = ((X, B, P), (D, D), L) und sei die Menge aller nichtrandomisierten Ent-
scheidungsfunktionen. Die Funkrion
R : [0, ], (, )

X
L(, (x))dP

(x)
heit Risikofunktion.
1
Denition 1.8 (UMP-Schzer) Es sei E = ((X, B, P), (D, D), L) ein statisti-
sches Entscheidungsproblem. Eine nichtrandomisierte Entscheidungsfunktion heit
gleichmig optimal oder UMP-Schtzer (Uniformly most powerful) genau dann,
wenn
R(, ) R(,

) , ,


wobei die Menge aller nichtrandomisierten Entscheidungsfunktionen sei.
Denition 1.9 (UMVU-Schtzer, Erwartungstreue) Es sei E = ((X, B, P), (D, D), L)
ein statistisches Entscheidungsproblem, wobei L durch die Gausssche Verlustfunk-
tion gegeben ist. Jede Schtzfunktion fr die E

((X)) = g() (Erwartungs-


treue Schtzfunktion fr g()) gilt und die gleichmig optimal, ist heit UMVU-
Schtzer(Uniformly minimum variance unbiased estimator).
Eine Identittsaussage hat C.R.Rao(1973) entdeckt.
Satz 1.1 Es sei X : (

, A

, P) (X, B, P

) eine von abhngige Zu-


fallsvariable und

: X G R
1
erwartungstreue Schtzfunktion fr g() mit
V ar

(X) < , .

ist UMVU-Schtzer genau dann, wenn


: X R
1
B B
1
-messbar mit E

(X) = 0 , :
Cov(

(X), (X)) = 0 ,

mit V ar

(X) <
Fr einen Beweis siehe C.R.Rao(1973). Anwendung ndet dieser Satz in der Bestim-
mung des UMVU-Schtzers bei binomialverteilter Zufallsvariable.
Beispiel 1.1 (Binomialer UMVU-Schtzer) Es sei X eine binomialverteilte Zu-
fallsvariable, X bin(n, p) , n N, p (0, 1) = , X = {0, . . . , n}. Wegen
E(X) = np E
_
X
n
_
= p
ist (x) =
x
n
, x {0, . . . , n} erwartungstreue Schtzfunktion fr p.
: R R erwatungstreue Schtzfunktion fr 0
p [0, 1] : E
p
((X)) =
n

j=0
(j)p
j
(1 p)
(nj)
= 0
ist ein Polynom in p mit berabzhlbar vielen Nullstellen.
(j) = 0 , j {0, . . . , n}
So erhlt man
Cov
p
((X), (X)) = E
p
((X)(X)) E
p
((X)) E
p
((X))
. .
=0
=
n

j=0
j
n
(j)
. .
=0
p
j
(1 p)
nj
= 0, p (0, 1)
2
Mit Satz1.1 folgt, dass (X) = X/n UMVU-Schtzer ist fr p ist .
Denition 1.10 (Absolute Stetigkeit von Maen) Seien , Mae auf einer
-Algebra A. heit absolut stetig bzgl. , wenn fr alle A A gilt:
(A) = 0 (A) = 0
Kurz: << oder dominiert
Satz 1.2 (Satz von Radon-Nikodym) Seien , Mae auf einem Messraum
(, A

) mit << , -endlich.


Funtion f : (, A) ([0, ], B
1
[0, ]) messbar mit
(A) =

A
f(x)d(x) , A A .
f heit Radon-Nikodym-Ableitung von bzgl. .
Einen Beweis ndet man in Shervish (1995), S.597.
Es folgt der Satz, der diesem Teilgebiet der Statistik seinen Namen gegeben hat.
Satz 1.3 (Satz von Bayes) Sei (

, A

, P) ein Wahrscheinlichkeitsraum. Fr zwei


Ereignisse A, B A mit P(B) > 0 und P(A) > 0 gilt
P(A|B) =
P(B|A) P(A)
P(B)
Beweis von Satz1.3
P(A|B)
Def.
=
P(A B)
P(B)
=
P(A B)
P(A)

P(A)
P(B)
Def.
=
P(B|A) P(A)
P(B)
2 Bayes-Schtzfunktion
Grundlage dieses Seminars ist das Kapitel ber Bayes-Schtzung (Bayes-Estimation)
aus dem Buch von Keener(2010) [1].
Der Vergleich zweier Schtzfunktionen bzgl. deren Risikofunktion fhrt zu keinem
zufriedenstellenden Ergebnis, falls sich diese schneiden (Vergleichkriterium aus der
Mathematischen Statistik: UMP-Schtzer). Betrachtet man die Risikofunktion ei-
ner Schtzfunktion (im folgenden Schtzer genannt) ber einen gewichteten Mit-
telwert (bzw. gewichtetes Mittelintegral) der Risikofunktion, so erhlt man den
Bayesschen Ansatz. Das Bayes-Risiko sei wie folgt deniert:
Denition 2.1 (Bayes-Risiko, a-priori-Verteilung) Gegeben sei ein statistisches
Entscheidungsproblem E = ((X, B, P), (D, D), L) mit Risikofunktion R(, ) :
[0, ] und eine nichtrandomisierte Entscheidungsfunktion. Es sei zustzlich I eine
-Algebra ber mit
1) P

(B) ist I-(B


1
[0, 1])-messbar B B
3
2) (, d) L(, d) ist (I D)-(B
1
[0, 1])-messbar
und sei die Menge aller Wahrscheinlichkeitsverteilungen auf (, I). Jedes
heit a-priori-Verteilung.
Fr heit
(1) r(, ) :=

R(, )d()
Bayes-Risiko von bzgl. .
Das Ziel der Bayes-Statistik ist eine Schtzfunktion zu nden, die das Bayes-Risiko
bzgl. einer a-priori-Verteilung minimiert.
Denition 2.2 (Bayes-Schtzer) Es gelten die Voraussetzungen aus Denition2.1.
sei fest gewhlt. Eine nichtrandomisierte Entscheidungsfunktion , die (1) mi-
nimiert wird Bayes-Schtzfunktion fr bzgl. genannt.
Ist die a-priori-Verteilung aus dem Kontext bekannt, so bezeichnet man auch ab-
krzend als Bayes-Schtzer fr .
Im Bayesschen Wahrscheinlichkeitsmodell geht man nun davon aus, dass der unbe-
kannte Parameter sowie die Stichprobe x zufllig sind. Sei (

, A

, P) ein Wahr-
scheinlichkeitsraum, dann deniert man die Zufallsvariablen
X| = : (

, A

, P) (X, B, P

) ,
: (

, A

, P) (, I, ) ,
wobei alle Bezeichnungen denen aus Denition2.1 entsprechen. Abkrzend schreibt
man dafr
und X| = P

.
Mit diesen Zufallsvariablen erhlt man eine alternative Darstellung der Risikofunk-
tion:
R(, ) =

X
L(, (x))dP

(x) = E[L(, (X))| = ] = E[L(, (X))| = ]


Daraus folgt ebenso eine alternative Darstellung des Bayes-Risikos:
r(, ) =

R(, )d()
= E(R(, ))
= E(E(L(, (X))|))
= E(L(, (X)))
= E(E(L(, (X))|X))
Ein Ansatz zur Minimierung des Bayes-Risikos von bzgl. , die Minimierung der
Risikofunktion, ist bereits bekannt. Falls gleichmig optimal ist, dann ist insbe-
sondere das Bayes-Risiko minimal, also ist jeder UMP-Schtzer auch Bayes-Schtzer
von . Der zweite Ansatz ist, den sogenannten a-posteriori-Erwartungswert von
L(, (X)), E(L(, (X))|X = x), zu minimieren. Die Verteilung fr dessen Be-
rechnung erhlt man ber den Satz von Bayes.
4
Theorem 2.1 Sei E = ((X, B, P), (D, D), L), ein statistisches Entschei-
dungsproblem und X| = P

. Falls
a) EL(,
0
(X)) < fr eine Entscheidungsfunktion
0
und
b) fr P
X
-f.a. x existiert ein Wert

(x), der
E[L(, d)|X = x]
bzgl. d minimiert.
Dann ist

ein Bayes-Schtzer.
Beweis: Sei eine beliebige Schtzfunktion. Dann gilt fr P
X
-f.a. x:
E[L(, (X))|X = x] = E[L(, (x))|X = x]
E[L(,

(x))|X = x]
= E[L(,

(X))|X = x] .
Daraus folgt
E[L(, (X))|X] E[L(,

(X))|X]
und zustzliche Erwartungswertbildung ber X ergibt dann
EL(, (X)) = E[E(L(, (X))|X)]
E[E(L(,

(X))|X)]
= EL(,

(X)) .
Folglich ist

Bayes-Schtzer von .
Bedingung (a) knnte man auch weglassen, allerdings wre dann jede Schtzfunktion
ein Bayes-Schtzer von , da das Bayes-Risiko fr alle Schtzfunktionen unendlich
ist.
3 Beispiele
Es folgen Beispiele fr die Berechnung von Bayes-Schtzern unter einfachen und
bekannten Verlustfunktionen.
Beispiel 3.1 (gewichtete quadratische Verlustfunktion) Gegeben sei die ge-
wichtete quadratische Verlustfunktion
L(, d) = w()(d g())
2
,
wobei g : (, I) (R, B
1
) und w : (, I) ([0, ), B
1
[0, )). Nach Theorem(2.1)
minimiert

den Ausdruck
5
E[w()(d g())
2
|X = x] = d
2
E[w()|X = x]
2dE[w()g()|X = x]
+E[w()g
2
()|X = x] .
Falls E(w()|X = x) = 0 gilt, dann ist
E[w()(d g())
2
|X = x] = 2dE[w()g()|X = x]
+E[w()g
2
()|X = x]
eine lineare Funktion in d. Damit Bedingung (b) erfllt ist muss also E[w()g()|X =
x] = 0 gelten. Der a-posteriori-Erwartungswert ist dann konstant in d, also sind alle
Entscheidungsfunktionen nach Theorem2.1 Bayes-Schtzer.
Falls E(w()|X = x) > 0 kann man einen P
X
-f.s. Bayes-Schtzer bestimmen. Der
a-posteriori-Erwartungswert von L(, d) ist eine quadratische Funktion in d. Setze
also die Ableitung
2dE[w()|X = x] 2E[w()g()|X = x]
gleich Null und erhalte
d E(w()|X = x) E(w()g()|X = x)
_

_
> 0 fr d >

(x)
= 0 fr d =

(x)
< 0 fr d <

(x)
,
wobei
(2)

(x) =
E[w()g()|X = x]
E[w()|X = x]
.
Folglich ist

P
X
-f.s. eindeutiger Bayes-Schtzer fr g().
Ist die Gewichtungsfunktion w 1, so entspricht die Verlustfunktion der quadrati-
schen Verlustfunktion. Dann ist

(X) = E[g()|X]
der a-posteriori-Erwartungswert von g().
Falls P = {P

| } eine dominierte Familie von Verteilungen ist mit Dichte p

und
falls << , wobei das Lebesgue-Ma sei. Mit dem Satz von Radon-Nikodym
folgt, dass eine Dichte bzgl. existiert, welche durch () bezeichnet werde. Dann
ist die gemeinsame Dichte von X und
p

(x)() .
Die Randdichte von X ist dann gegeben durch
q(x) =

(x)()d()
und die bedingte Dichte von bei gegebenem X = x ist mit dem Satz von Bayes
(|x) =
p

(x)()
q(x)
.
6
Benutzt man diese bedingte Dichte, wird (2) zu
(3)

(x) =

w()g()p

(x)()d()

w()p

(x)()d()
.
Der Faktor 1/q(x) krzt sich dabei.
Beispiel 3.2 (Binomial-Verteilung) Sei P

= bin(n, ) wobei n N und


(0, 1) die Erfolgswahrscheinlichkeit ist. Eine bliche Wahl fr die a-piori-Verteilung
von ist die Beta(, )-Verteilung mit der zugehrigen Dichte
() =
_
_
_
(+)
()()

1
(1 )
1
, [0, 1]
0 , sonst
,
wobei > 0, > 0 fest. Da sich die Dichte zu 1 integriert, folgt
(4)
1

1
(1 )
1
d =
()()
( +)
.
Mit (4) kann man den Erwartungswert von leicht berechnen:
E =
(+)
()()
1

1+1
(1 )
1
d
(4)
=
(+)
()()
(+1)()
(++1)
=

+
Die Randdichte von X im Bayesschen Modell ist
q(x) =

p

(x)()d
=
1

0
_
n
x
_
(+)
()()

x+1
(1 )
nx+1
d
=
_
n
x
_
(+)
()()
(x+)(nx+)
(n++)
, x {0, . . . , n} .
q(x) ist oensichtlich die Zhldichte einer Beta-Binomial-Verteilung. Teilt man die
gemeinsame Dichte p

(x)() durch die eben berechnete Zhldichte q(x), so erhlt


man die bedingte Dichte
(|x) =
(n + +)
( +x)( +n x)

x+1
(1 )
nx+1
, x {0, . . . , n} , (0, 1) .
Die bedingte Zhldichte (|x) impliziert
|X = x Beta(x +, n x +) .
Die a-posteriori-Verteilung aus der a-priori-Verteilung und der beobachteten Stich-
probe zu berechnen ist hier einfach:
man erhht um die Anzahl der Erfolge x und um die Anzahl der Misserfolge nx.
Falls, wie in diesem Fall, die Klasse der a-priori-, sowie der a-posteriori-Verteilung
7
bereinstimmt, so nennt man diese Verteilungsklasse konjugiert. Letzteres wird in
Beispiel(3.7) ausfhrlicher behandelt.
Unter Gaussscher Verlustfunktion mit g() = ergibt sich somit

(X) = E[|X] =
X +
n + +
als Bayes-Schtzer fr . Elementares Umformen ergibt dann

(X) =
_
n
n + +
_
X
n
+
_
1
n
n + +
_

+
was zeigt, dass der Bayes-Schtzer ein gewichteter Mittelwert aus dem UMVUE-
Schtzer X/n und dem a-priori-Erwartungswert E = /( +) ist.
Die Beta-verteilung ist eine beliebte Wahl fr die a-priori-Dichte, da die Dichte,
abhngig von den Parametern und unterschiedliche Darstellungen annehmen
kann, wie man in folgender Abbildung erkennen kann.
Dichte einer Beta(, )-Verteilung
1
Notation [Proportionalitt ] Seien h, g : X R Funktionen. h heit porpor-
tional zu g in (x), wenn ein a R\{0} existiert mit h(x) = a g(x), x X.
Kurz schreibt man h(x)
x
g(x). Insbesondere gilt h(x)
x
b g(x) b R\{0}.
Da fr Dichten h

h = 1 gilt, folgt, dass a = (

g)
1
. a ist somit eine Normierungs-
konstante, sofern 0 <

g < .
Beispiel 3.3 (Negative Binomial-Verteilung) Es sei (X
i
)
iN
ein Bernoulli-Prozess
mit Erfolgswahrscheinlichkeit und X die Anzahl der Fehlversuche vor dem zweiten
Erfolg, dann ist die Dichte von X| = gegeben durch
p

(x) = P

(X = x) = (x + 1)
2
(1 )
x
, x = 0, 1, 2, . . .
1
http://de.wikipedia.org/wiki/Betaverteilung
8
Erklrung der Dichte:
_
x + 1
1
_
(1 )
x

. .
(I)

..
(II)
(I) Wahrscheinlichkeit, dass ein Erfolg in x+1 Bernoulli-Versuchen, mit Erfolgswahr-
schienlichkeit , auftritt
(II) Wahrscheinlichkeit fr zweiten Erfolg im x+2ten Versuch
Betrachtet man die Schtzung von g() = 1/ in einem Bayessches Modell, in
dem gleichverteilt auf (0, 1) sei (also U(0, 1) ). Dann ist
(|x)

(x)()


2
(1 )
x
.
Diese Dichte ist oensichtlich in proportional zur Beta(3, x + 1)-Verteilung. Dies
impliziert
|X = x Beta(3, x + 1) .
Der a-posteriori-Erwartungswert von 1/ ist dann

0
(x) = E[
1
|X = x] =
(x+4)
(3)(x+1)
1

0
(1 )
x
d
(4)
=
(x+4)(2)(x+1)
(3)(x+1)(x+3)
=
x+3
2
.
Der UMVU-Schtzer fr 1/ (siehe Keener, Beispiel(5.3)) ist

1
(x) =
x + 2
2
,
der im Zusammenhang mit dem eben berechneten
0
steht

0
(X) =
1
(X) +
1
2
.
Also hat der Schtzer
0
die konstante Verzerrung
Bias(,
0
) = E

0
(X)
1

= E

1
(X) +
1
2

1

=
1

+
1
2

1

=
1
2
.
Mit quadratischer Verlustfunktion ist die Risikofunktion die Varianz des Schtzers
addiert mit der quadratischen Verzerrung. Da
0
und
1
sich nur bis auf eine Kon-
stante unterscheiden, haben sie dieselbe Varianz und somit ist
R(,
0
) = V ar

(
0
) +
1
4
= V ar

(
1
) +
1
4
= R(,
1
) +
1
4
.
Daraus folgt, dass die Risikofunktion des UMVU-Schtzers
1
echt kleiner ist, als
die Risikofunktion vom Bayes-Schtzer
0
.
Zur Erinnerung: ein Schtzer heit unzulssig, wenn es einen Schtzer
0
gibt, der
9
dominiert (
0
, d.h. R(,
0
) R(, ) und
0
: R(
0
,
0
) <
R(
0
, )).
Ein unzulssiger Schtzer ist grunstzlich kein Bayes-Schtzer, da ein Schtzer mit
niedrigerer Risikofunktion, ber Integration in , dann auch ein niedrigeres Bayes-
Risiko besitzt. Theorem (2.1) greift hier nicht, da Bedingung (a) nicht erfllt ist:
(5) EL(, (X)) =

x=0

(0,1)
_
(x)
1

_
2
(x + 1)
2
(1 )
x
d
=

x=0
(x + 1)
_
_
_(x)
2
2(x)

(0,1)
(1 )
x
d +

(0,1)
(1 )
x
d
_
_
_
Die Integrale berechnen sich wie folgt:

(0,1)
(1 )
x
d =
1
x+1

(0,1)
(x + 1)(1 )
x
d
=
1
x+1
[(1 )
x
]
=1
=0
=
1
x+1
(0 1) =
1
x+1

(0,1)
(1 )
x
d
P.I.
=
_

_

1
x+1
(1 )
x+1
__
=1
=0


(0,1)

1
x+1
(1 )
x+1
d
= 0 +
1
(x+1)(x+2)
[(1 )
x+2
]
=1
=0
=
1
(x+1)(x+2)
Angenommen es existiert eine Schtzfunktion

mit E(L(,

(X))) < . Mit


Theorem2.1 folgt dann, dass
0
das Bayes-Risiko P
X
-f.s. eindeutig minimiert.
Setzt man
0
=
x+3
2
und die berechneten Integrale in (5) ein:

x=0
_
(x + 1)(x + 3)
2
4

x + 3
x + 2
+ 1
_
=

x=0
(x + 2)(x + 1)(x + 3)
2
4(x + 3) + 4(x + 2)
4(x + 2)
. .
a
x
:=
Wegen
a
x
> 1 x
4
..
0
+ 9x
3
..
0
+29x
2
. .
0
+35x
..
0
+ 6
..
>0
> 0
fr x N folgt, dass

x=0
a
x
= und somit E(L(,
0
(X))) = , was ein Wider-
spruch zur Annahme ist. In diesem Fall minimiert jeder Schtzer (1).
Beispiel 3.4 Gegeben sei ein Bayessches Modell mit exponentialverteilter Zufalls-
variable mit Ausfallrate > 0, d.h. die Dichte von ist gegeben durch
() = exp(), > 0 .
10
Fr gegebenes = , seien X
1
, . . . , X
n
i.i.d.
po() mit Dichte
p

(x
i
) =

x
i
x
i
!
exp() , i = 1, . . . , n
und X := (X
1
, . . . , X
n
). Die Verlustfunktion sei wie folgt deniert:
L(, d) =
p
(d )
2
,
wobei p > 0 eine feste Konstante sei.
Die Dichte von X bei gegebenem = ist dann
p

(x) =
n

i=1
p

(x
i
) =
n

i=1

x
i
x
i
!
exp()
=

T(x)
exp(n)

n
i=1
x
i
!
, x N
n
0
,
wobei T(x) =

n
i=1
x
i
.
Mit Beispiel (3.1) hat der Bayes-Schtzer fr folgende Form

(x) =

0

p+1
p

(x)()d

0

p
p

(x)()d
=

0

T(x)+p+1
exp((n+))d

0

T(x)+p
exp((n+)
P.I.
=
[

T(x)+p+1

1
n+
exp((n+))
)]
=
=0

0
(T(x)+p+1)
T(x)+p
(
1
n+
exp((n+)))d

0

T(x)+p
exp((n+))d
()
=
T(x)+p+1
n+

0

T(x)+p
exp((n+))d

0

T(x)+p
exp((n+))d
=
T(x)+p+1
n+
, x N
n
0
.
Wobei in der Umformung (*) folgende Grenzwerte eingehen:
lim
0

T(x)+p+1
. .
0
_

1
n +
exp((n +))
_
. .
1
= 0
lim

T(x)+p+1
exp((n +))
. .
0

1
n +
_
= 0
da jede Exponentialfunktion schneller gegen unendlich luft als jedes Polynom.
Beispiel 3.5 Sei ein Bayessches Modell gegeben, in dem die a-priori-Verteilung
absolut stetig sei mit Dichte
() =
1
(1 +)
2
, > 0 .
Fr gegebenes = , sei die Variable X gleichverteilt auf (0, ) (X U(0, )).
Dann ist die Randverteilung von X gegeben durch
11
q(x) =

p

(x)()d
=

x
1
(1+)
2

1

d [ da p

(x) =
1

1
(0,)
(x) =
1

1
(x,)
() ]
=

x
_
1


1
1+

1
(1+)
2
_
d
=
_
log() log( + 1) +
1
+1
_
=
=x
=
_
log(

1+
) +
1
+1
_
=
=x
= lim

log(1
1
1+
) + lim

1
1+
lim
x
_
log(1
1
+1
+
1
1+
)
_
= 0 + 0 log
_
1+x
x
_

1
x+1
= log
_
1+x
x
_

1
x+1
, x > 0 .
Also gilt mit dem Satz von Bayes
p(|x) =
p

(x) ()
q(x)
=
1
(1 +)
2
q(x)
, > x > 0
und somit
E[|d||X = x] =

x
|d|
(1+)
2
q(x)
d
=

d
x
d
(1 +)
2
q(x)
d
. .
1
+


d
d
(1 +)
2
q(x)
d
. .
2
.
Zu 1 :
1 =
d
q(x)

d
x
1
(1+)
2
d +
1
q(x)

d
x

1
(1+)
2
d
=
d(q(x)q(d))
q(x)
+
1
q(x)
_
1
d+1

1
x+1
_
= d
dq(d)
q(x)
+
1
q(x)(d+1)

1
(1+x)q(x)
Zu 2 :
2 =
1
q(x)

d

1
(1+)
2
d
d
q(x)

d
1
(1+)
2
d
=
1
q(x)

_
1
1+
_
=
=d

dq(d)
q(x)
=
1
q(x)(d+1)

dq(d)
q(x)
Also insgesamt:
1 + 2 = d
2d q(d)
q(x)

1
(1 +x)q(x)
+
2
(1 +d)q(x)
Da

d
q(d) =

d
_
log
_
1+d
d
_

1
d+1
_
=
d
d+1

1
d
2
+
1
(d+1)
2
=
(d+1)+d
(d+1)
2
d
=
1
d(1+d)
2
,
ist die Ableitung nach d des Ausdrucks 1 + 2 gegeben durch
12

d
1 + 2 =

d
_
d
2dq(d)
q(x)

1
(1+x)q(x)
+
2
(1+d)q(x)
_
= 1
2
q(x)
(q(d) +dq

(d))
2
q(x)(1+d)
2
(3.5)
= 1
2
q(x)
_
q(d) +d
_

1
d(1+d)
2
__

2
q(x)(1+d)
2
= 1
2q(d)
q(x)
+
2
q(x)(1+d)
2

2
q(x)(1+d)
2
= 1
2q(d)
q(x)
.
Oensichtlich ist q(d) streng monoton fallend fr d > x, da
(6)

d
q(d) =
1
d(1 +d)
2
< 0 , d > x(> 0) .
Zudem gilt fr A(d) := 1
2q(d)
q(x)
:
A(x) = 1
lim
d
A(d) = 1
Mit (6) ist A streng monoton steigend mit Werten zwischen -1 und 1 und somit
existiert eine eindeutige Nullstelle in der gilt:
q(

(X)) =
q(X)
2
dessen Gleichung dann den Bayes-Schtzer beschreibt. Mit dieser Gleichung erhlt
man zudem
(7) P(

(X) < |X = x) =

(x)
1
(1 +)
2
q(x)
d =
q(

(x))
q(x)
=
1
2
.
Lehmann und Casella(1998) fanden heraus, dass jeder Median von |X = x Bayes-
Schtzer von ist. Da hier mit einer stetigen Verteilung gearbeitet wird, ist das
Ergebnis aus (7) klar.
Beispiel 3.6 Fr die Bayes-Schtzung einer linearen Regression werde angenom-
men, dass die additive Konstante
1
und die Steigung
2
unabhngig a-priori-
verteilt sind mit
1
N(0,
2
1
) und
2
N(0,
2
2
). Fr gegebenes
1
=
1
und

2
=
2
seien die unabhngigen Daten Y
1
, . . . , Y
n
jeweils Y
i
N(
1
+
2
x
i
,
2
)
verteilt fr i = 1, . . . , n, wobei die Varianz
2
> 0 bekannt sei und x
1
, . . . , x
n
Kon-
stanten sind, die sich zu 0 aufsummieren (

n
i=1
x
i
= 0). Die zugehrigen Dichten
sind dann
() = (
1
,
2
)
s.u.
= (
1
)(
2
)
=
1

2
2
1
exp
_

1
2

2
1

2
1
_

2
2
2
exp
_

1
2

2
2

2
2
_
und
13
p

(y) =
n

i=1
p

(y
i
)
=
n

i=1
1

2
2
exp
_

1
2
(y
i
(
1
+
2
x
i
))
2

2
_
=
_
1

2
2
_
n
exp
_

1
2
2
n

i=1
(y
i
(
1
+
2
x
i
))
2
_
=
_
1

2
2
_
n
exp
_

1
2
2
_
n

i=1
y
2
i
2
n

i=1
(
1
+
2
x
i
)y
i
+
n

i=1
(
1
+
2
x
i
)
2
__
=
_
1

2
2
_
n
exp
_

1
2
2
_
n

i=1
y
2
i
2
1
n

i=1
y
i
2
2
n

i=1
y
i
x
i
+
n

i=1

2
1
+ 2
1

2
n

i=1
x
i
+
n

i=1

2
2
x
2
i
__
=
_
1

2
2
_
n
exp
_

1
2
2
_
n

i=1
y
2
i
2
1
n

i=1
y
i
2
2
n

i=1
y
i
x
i
+n
2
1
+
n

i=1

2
2
x
2
i
__
Die Dichte von (
1
,
2
)|Y ist proportional zu
()p

(y)

exp
_

2
1
2
2
1


2
2
2
2
2

n
2
1
2
2


2
1
2
2

n
i=1
x
2
i
+

1

n
i=1
y
i
+

2

n
i=1
x
i
y
i
_

exp
_
_
_
_
_
_
_
_
_
_
_
_
_

_
_
_
_

2
1
2
n

i=1
y
i

2
1
n+

2
1
+
_
n

i=1
y
i
_
2
n+

2
1
_
_
_
_

_
n

2
+
1

2
1
_
2

_
_
_
_

2
2
2
2
n

i=1
y
i
x
i
n

i=1
x
2
i
+

2
2
+
_
_
_
n

i=1
x
i
y
i
n

i=1
x
2
i
+

2
2
_
_
_
2
_
_
_
_

_
n

i=1
x
2
i

2
+
1

2
2
_
2
_
_
_
_
_
_
_
_
_
_
_
_

exp
_

n
i=1
y
i
n+
2
/
2
1
_
2
2(n/
2
+1/
2
1
)
1

_

n
i=1
x
i
y
i

n
i=1
x
2
i
+
2
/
2
2
_
2
2
(

n
i=1
x
2
i
/
2
+1/
2
2
)
1
_

_
Bei gegebenen Stichproben-Daten sind also
1
und
2
unabhngige normalver-
teilte Zufallsvariablen. Die jeweiligen Bayes-Schtzer sind dann die a-posteriori-
Erwarungswerte:
E[
1
|X, Y ] =

n
i=1
Y
i
n +
2
/
2
1
und E[
2
|X, Y ] =

n
i=1
x
i
Y
i

n
i=1
x
2
i
+
2
/
2
2
.
Beispiel 3.7 (konjugierte a-priori-Verteilungsklassen) Sei P = {P

, }
eine einparametrische Exponentialfamilie in Normalform, dessen Dichte gegeben ist
durch:
p

(x) = h(x) exp(T(x) A()) , x X .


14
Sei der Parameterraum ein Intervall und =
,
eine absolut stetige a-priori-
Verteilung mit Dichte
() =
_
_
_
exp( A() B(, )),
0, sonst
,
wobei
B(, ) = log

exp( A())d .
Die Dichten von
,
bilden eine zweiparametrische Exponentialfamilie. Sei

=
{(, ) : B(, ) < } der Parameterraum. Fr gelte zustzlich, dass () 0,
falls gegen die Rnder von luft, unabhngig von den Werten (, ) E. Mit
dieser Annahme gilt fr :

()d = lim
sup
() lim
inf
() = 0 .
Wegen

() = [ A

()]() folgt, dass


E[ A

()] =

()d
!
= 0
und damit
(8) EA

() =

.
Nehme das Bayessche Modell mit
,
, X
1
, . . . , X
n
seien bei gegebenem
= P

-verteilt und stochastisch unabhngig. p

(x) ist dann proportional zu


exp(nT(x) nA()), wobei T(X) := [T(X
1
) + +T(X
n
)]/n. Die bedingte Dichte
von unter X = x ist proportional zu
p

(x)() exp(( +nT(x)) ( +n)A())


+nT(x),+n
.
Also ist |X = x
+nT(x),+n
. mit diesem Ergebnis kann man den Bayes-Schtzer
von A

() berechnen:
E[A

()|X] =
+nT(X)
+n
=

+n

+
n
n +
T(X) ,
wobei der letzte Ausdruck oensichtlich ein gewichtetes arithmetisches Mittel von
EA

() =

und T(X) ist.


Betrachtet man nun den Fall, dass P

die Exponentialverteilung mit Ausfallrate


und Erwartungswert 1/ ist. Da p

(x) = exp(x) = exp(x + log()) whlt


man T(x) = x und A() = log(). Dann ist

,
()

exp( + log()) =

exp() , > 0 .
muss negativ sein, da sonst die obige Konvergenzbedingung fr nicht erfllt ist.
Die -Dichte ist oensichtlich proportional zu einer Gamma-Dichte und deswegen
ist
,
die Gamma-Verteilung mit ( + 1, ). Da 1/ = A

(), ist der Bayes-


Schtzer von 1/ gegeben durch
E[A

()|X] =
+nT
+n
=
|| +nX
+n
.
15
Beispiel 3.8 Gegeben sei ein Bayessches Modell mit zuflligem Parameter , der
Bernoulli-verteilt sei mit Erfolgswarscheinlichkeit 1/2, also P( = 1) = P( = 0) =
1/2. Fr gegebenes = 0 habe X die Dichte f
0
und fr gegebenes = 1 habe X
die Dichte f
1
. Man bestimme nun den Bayes-Schtzer von bei
(i) Gaussscher Verlustfunktion mit g() =
(ii) Verlustfunktion L(, d) = 1
{=d}
[0-1-Verlustfunktion] .
Zu (i):
Die gemeinsame Dichte ist ()p

(x) = f

(x)/2, x X, {0, 1}. Durch Summa-


tion erhlt man die Randdichte von X:
q(x) =
1

=0
()p

(x) =
1

=0
f

(x)
2
=
f
1
(x) +f
0
(x)
2
, x X .
Die bedingte Dichte von bei gegebenem X = x ist dann gegeben durch
(|x) =
()p

(x)
q(x)
=
f

(x)
f
0
(x) +f
1
(x)
, {0, 1} , x X .
(|x) ist die Wahrscheinlichkeitsfunktion einer Bernoulli-Verteilung mit Erfolgs-
wahrscheinlichkeit p = p(x) =
f
1
(x)
f
0
(x)+f
1
(x)
, x X. Der Bayes-Schtzer von unter
quadratischer Verlustfunktion ist dann der Erwartungswert dieser bedingten Vertei-
lung:
E(|X) =
1

=0

(X)
f
0
(X) +f
1
(X)
=
f
1
(X)
f
0
(X) +f
1
(X)
.
Zu (ii):
Theorem (2.1) zufolge sollte der Bayes-Sctzer das a-posteriori-Risiko minimieren.
Die a-posteriori-Verteilung kann (i) entnommen werden.
E(1
{=d}
|X) =

1
=0
1
{=d}
f

(X)
f
0
(X)+f
1
(X)
= 1
{d=0}
f
0
(X)
f
0
(X) +f
1
(X)
. .
=(1p(X))
+1
{d=1}
f
1
(X)
f
0
(X) +f
1
(X)
. .
=p(X)
(**) = 1
{d=1}
(1 p(X)) +1
{d=0}
p(X)
Mann muss nun eine Fallunterscheidung zur Minimierung des a-posteriori-Erwartungswerts
von L in d betrachten:
1. falls p(X) >
1
2
f
1
(X) > f
0
(X) ist (**) minimal fr d = 1
2. falls p(X) <
1
2
f
1
(X) < f
0
(X) ist (**) minimal fr d = 0
3. falls p(X) =
1
2
ist (**) fr d = 0 oder d = 1 minimal
Durch den 3. Fall, p(X) =
1
2
, folgt die die Nicht-Eindeutigkeit des Bayes-Schtzers.
Die beiden resultierenden Bayes-Schtzer sind

1
(X) =
_
_
_
1 , fallsp(X)
1
2
0 , sonst
16
und
_
_
_
1 , fallsp(X) >
1
2
0 , sonst
.
Beispiel 3.9 sei Standard-Exponentialverteilt, d.h. mit Dichte () = exp(),
> 0, und fr gegebenes = , seien X
1
, . . . , X
n
i.i.d.
exp(), d.h. mit Dichte
p

(x) =
_
_
_
exp(x) , x 0
0 , sonst
.
Die Verlustfunktion sei durch L(, d) = (d )
2
/d deniert. Nach Theorem(2.1) ist
der Bayes-Schtzer (x) das d, welches den a-posteriori-Erwartungswert minimiert:
E
_
(d )
2
d

X = x
_
= d 2E[|X = x] +
E[
2
|X = x]
d
.
Setze die Ableitung dieses Ausdrucks gleich Null und erhalte (x) =

E[
2
|X = x].
Es sei T(X) := X
1
+ + X
n
, X = (X
1
, . . . , X
n
). Wegen (|x)

(x)()

n
exp([1 +T(x)]) ist
E[
2
|X = x]
(3)
=

n+2
exp((1+T(x)))d

n
exp((1 +T))d
. .
A:=
P.I.
=
1
A
_
_
_
_
_
_
_

n+2

1
1 +T(x)
_
exp((1 +T(x)))
_
=infty
=0
. .
=0

0
(n + 2)
n+1
_

1
1+T(x)
_
exp((1 +T(x)))d
_
=
1
A
_
n+2
T(x)+1

n+1
exp((1 +T(x)))d
_
P.I.
=
n+2
A(T(x)+1)
_
_
_
_
_
_
_

n+1

1
1 +T(x)
_
exp((1 +T(x)))
_
=infty
=0
. .
=0

0
(n + 1)
n
_

1
1+T(x)
_
exp((1 +T(x)))d
_
=
(n+2)(n+1)
(T(x)+1)
2
A
A
=
(n+1)(n+2)
(1+T)
2
.
Also ist der Bayes-Schtzer:

(X) =

n
2
+ 3n + 2
1 +T(X)
.
17
4 Das IMDb-Top250-Bewertungssystem
Die IMDb (Internet-Movie-Database) bestimmt ihre TOP250 mit einem Bewer-
tungssystem, dessen Formel sie als echte Bayessche Schtzung bezeichnen:
(9) Gewichtete Wertung(WR) =
C m+R v
m+v
wobei C die Durchschnittsbewertung aller Filme ist (derzeit 7,1), v die Anzahl ab-
gegebener Stimmen fr den Film, R der Durchschnitt der Bewertung fr den Film
und m das erforderliche Minimum an Stimmen, um in den 250 besten Filmen auf-
gelistet zu sein (derzeit 25000).
2
Man bewertet einen Film mit einer Note von 1 bis
10, wobei 1 einer niedrigen und 10 einer hohen Bewertung entspricht.
Schreibt man die gewichtete Wertung (9) ein wenig um, versteht man auch die Plau-
sibilitt des Schtzers:
WR =
m
m+v
C +
v
m+v
R
Auf die Gewichtete Wertung(WR) des Films gehen, unabhngig von der Anzahl der
fr den Film abgegebenen Bewertungen v, immer zustzliche m Stimmen mit der
Durchschnittsbewertung aller Filme C ein. Je grer die Anzahl der Bewertungen
fr einen Film v N ist, desto schwcher ist der Einuss des Durchschnittswerts
aller Filme C auf die gewichtete Wertung des Films. Dieses System ist hilfreich,
um hohen Bewertungen von neuen Filmen entgegen zu wirken, die nur eine geringe
Anzahl an Bewertungen haben.
Doch wie kommt IMDb nun darauf, dass gerade dieser Schtzer ein Bayes-Schtzer
ist? Eine Theorie ist die folgende:
3
Nehme an, dass die abgegebenen Bewertungen fr einen Film X
i
, i = 1, . . . , n, i.i.d.
normalverteilt mit unbekanntem Erwartungswert und Varianz 1 seien. Die a-priori-
Verteilung sei normalverteilt mit bekanntem Erwartungswert
0
und bekannter Ge-
nauigkeit
0
, wobei die Genauigkeit deniert ist durch den Kehrwert der Varianz.
Die a-posteriori-Verteilung einer N(, )-Verteilung, wobei die a-priori-Verteilung
N(
0
,
0
)-verteilt ist, ist wiederum eine Normalverteilung
4
mit Erwartungswert (al-
so Bayes-Schtzer fr unter Gaussscher Verlustfunktion mit g() = ):

0
+

n
i=1
X
i

0
+n
Mit = 1, wie oben beschrieben, ergibt sich dann:

0
+

n
i=1
X
i

0
+n
Ein direkter Vergleich mit der Formel (9) von IMDb lsst auf folgende Identitten
schlieen:
v n
2
http://www.imdb.de/chart/top
3
http://masanjin.net/blog/bayesian-average
4
http://en.wikipedia.org/wiki/Conjugate_prior
18
Ist klar, denn die Anzahl der Bewertungen fr den Film oben war so deniert.
C
0

0
kann man hier als Expertenwissen interpretieren. Die Durchschnittsbewertung
aller Filme C ist IMDb bekannt, also gehen sie davon aus, dass der Film ebenso eine
Bewertung um C annehmen wird.
m
0
m wurde hier von IMDB ebenfalls als Expertenwissen eingebracht. 1/m beschreibt in
diesem Modell dann die Varianz der a-priori-Verteilung. Je grer m gewhlt wird,
desto mehr konzentriert sich die Wahrscheinlichkeit der a-priori-Verteilung um die
Durchschnittsbewertung aller Filme C ( =
0
).
R v =
1
v
_
v

i=1
X
i
_
v =
v

i=1
X
i
R v beschreibt die kumulierten Bewertungen fr den Film.
Die Annahme der Normalverteilung einer Stimme kann sich allerdings als proble-
matisch erweisen, da zum Trger der Normalverteilung alle Werte unter 1 und ber
10 gehren.
Das Argument des zu groen Trgers lsst sich leicht durch Betrachtung der Vertei-
lungsfunktion von (WR) entkrften.
Da X
1
, . . . , X
v
n
i.i.d.
N(, 1) folgt, dass Y :=
1
n

n
i=1
N(, 1/n). Die Randvertei-
lung von Y ist dann proportional zu
19
p(y)
y

exp
_

n(y)
2
2
_
exp
_

(
0
)
2
2
0
_
d

exp
_

ny
2
2
+ny
n
2
2


2
2
0
+

0

2
0


2
0
2
2
0
_
d

y
exp
_

ny
2
2
_

exp
_
_
_
_
_
_

1
2
_
_
_
_
_
_
_
n +
1

2
0
_
. .
S:=

2
2
_
ny +

0

2
0
_
. .
T:=

_
_
_
_
_
_
_
_
_
_
_
_
d

y
exp
_

ny
2
2
_
exp
_
1
2
(TS
1
)
2
S
1
_

exp
_

1
2
_

2
2TS
1
+(TS
1
)
2
S
1
__
d

y
exp
_

ny
2
2
_
exp
_
1
2

T
2
S
_

exp
_
_
_
1
2
( TS
1
)
2
_

S
1
_
2
_
_
_d
. .
=1, da proportial in zu N(TS
1
,S
1
)-Dichte

y
exp
_
_
_
ny
2
2
+
1
2

_
ny+

2
0
_
2
S
_
_
_

y
exp
_

ny
2
2
+
1
2

n
2
y
2
S
+
n
0

2
0
S
y +
1
2
_

2
0
_
2
S
1
_

y
exp
_
_
_
_
_

1
2
_
_
_
_
_
_
_
_
_
_
n
n
2
S
. .
U:=
_
_
_
_
_
y
2
2
n
0

2
0
S
y
_
_
_
_
_
_
_
_
_
_

y
exp
_
_
_
1
2
_
_
_
y
2
2
n
0

2
0
S
U
1
y+
_
n
0

2
0
S
U
1
_
2
U
1
_
_
_
_
_
_

y
exp
_
_
_
1
2
_
y
2

n
0

2
0
S
U
1
_
2
(

U
1
)
2
_
_
_
Diese Dichte ist proportional zu einer Normalverteilung mit Erwartungswert

:=
n
0

2
0
S
U
1
=
n
0

2
0
n+1
_
n
n
2
n+
1

2
0
_
1
=
n
0

2
0
n+1
_
n(
2
0
n+1)n
2

2
0

2
0
n+1
_
1
=
n
0

2
0
n+1

sigma
2
0
n+1
n
=
0
und Varianz

:= U
1
=
_
n
n
2
S
_
1
=
_
n
n
2
n+
1

2
0
_
1
=

2
0
n+1
n
=
2
0
+
1
n
.
Berechne durch Standardisierung von Y die Verteilungsfunktion von
(Y ) =
m
m+v
C +
v
m+v
Y .
20
F
(Y )
(a) = P ((Y ) a)
= P
_
m
m+v
C +
v
m+v
Y a
_
= P
_
v
m+v
Y a
m
m+v
C
_
= P
_
Y
(m+v)amC
v
_
= P
_
_
_
_
_
_
_
_
XC

1
m
+
1
v

(m+v)amC
v
C

1
m
+
1
v
. .
A
a
:=
_
_
_
_
_
_
_
_
= (A
a
),
dabei ist
A
a
=
(m+v)(aC)

mv
v

m+v
=

m(aC)

m+v

v
=

m(a C)

m
v
+ 1.
Falls a > C ist A
a
streng monoton fallend in v, fr v N, d.h. maximal in v = 1
und minimal fr v . Falls a < C ist A
a
streng monoton steigend in v, fr v N,
d.h. minimal in v = 1 und maximal fr v .
Betrachte (A
10
) minimal und (A
1
) maximal in v N, d.h. v
(A
10
) = (

25000(10 7, 1)) (458, 53) 1


(A
1
) = (

25000(1 7, 1)) (964, 49) 0 .


Damit kann man die Wahrscheinlichkeit dafr berechnen, dass die Bayes-Schtzung
sich im gewnschten Bewertungsbereich bewegt
P (1 (Y ) 10)
stetig
= P((Y ) 10) P((Y ) 1) = (A
10
) (A
1
) 1
Da der Trger des Modells ganz R ist, ist es mglich, dass Werte unter 1 und ber 10
angenommen werden, aber wie gerade gezeigt ist dies ein hchst unwahrscheinliches
Ereignis. Probleme knnten weiterhin auftreten, da die Durchschnittsbewertung nur
mit einer Nachkommastelle ausgegeben wird. Die Rechnung auf Rundungsfehler zu
untersuchen ist wohl eher eine Aufgabenstellung der Numerik.
5 Zusammenfassung und Ausblick
Nach einer Einfhrung in das Grundmodell der Bayes-Statistik ist nun verstndlich
geworden, wie man einfache Bayes-Schtzer unter verschiedenen Verlustfunktionen
bestimmt. Zur Motivation wurde das IMDb-Bayes-Modell aufgefhrt.
Durch eine Modizierung des Bayes-Modells erhlt man einen weiteren interessan-
ten Schtzer. Ist ein Parameter der a-priori-Verteilung zustzlich unbekannt, dann
21
muss man diesen ebenso schtzen. blicherweise benutzt man dafr den Maximum-
Likelihood-Schtzer der a-priori-Verteilung. Man substituiert nun den unbekannten
Parameter durch den Maximum-Likelihood-Schtzer und fhrt wie gewohnt mit der
Bestimmung des Bayes-Schtzers fort. Fr diese Methode bentigt man also min-
destens zwei Stichprobenentnahmen. Der resultierende Schtzer wird empirischer
Bayes-Schtzer genannt. Eine intensivere Behandlung von Bayes-Schtzern ndet
man in Lehmann und Casella (1998).
22
Literatur
[1] Keener, R.W. (2010), Theoretical Statistics - Topics for a Core Course, Sprin-
ger, New York.
[2] Lehmann, E.L., und Casella, G. (1998), Theory of Point-Estimation, 2nd Ed.,
Springer, New York.
[3] Rao, C.R. (1973), Lineare statistische Methoden und ihre Anwendungen,
Akademie-Verlag, Berlin.
[4] Schervish, M.J. (1995), Theory of Statistics, Springer, New York.
23

You might also like