Professional Documents
Culture Documents
= P
falls =
|
}, g : (, D) (R
1
, B
1
) messbar. Dann heit
L : D [0, ], (, d) (g() d)
2
Gausssche Verlustfunktion. Fr g() = wird L auch quadratischer Verlustfunktion
genannt.
Denition 1.6 (statistisches Entscheidungsproblem) Sei (X, B, P) ein statis-
tischer Raum, P = {P
X
L(, (x))dP
(x)
heit Risikofunktion.
1
Denition 1.8 (UMP-Schzer) Es sei E = ((X, B, P), (D, D), L) ein statisti-
sches Entscheidungsproblem. Eine nichtrandomisierte Entscheidungsfunktion heit
gleichmig optimal oder UMP-Schtzer (Uniformly most powerful) genau dann,
wenn
R(, ) R(,
) , ,
wobei die Menge aller nichtrandomisierten Entscheidungsfunktionen sei.
Denition 1.9 (UMVU-Schtzer, Erwartungstreue) Es sei E = ((X, B, P), (D, D), L)
ein statistisches Entscheidungsproblem, wobei L durch die Gausssche Verlustfunk-
tion gegeben ist. Jede Schtzfunktion fr die E
, A
, P) (X, B, P
: X G R
1
erwartungstreue Schtzfunktion fr g() mit
V ar
(X) < , .
(X) = 0 , :
Cov(
(X), (X)) = 0 ,
mit V ar
(X) <
Fr einen Beweis siehe C.R.Rao(1973). Anwendung ndet dieser Satz in der Bestim-
mung des UMVU-Schtzers bei binomialverteilter Zufallsvariable.
Beispiel 1.1 (Binomialer UMVU-Schtzer) Es sei X eine binomialverteilte Zu-
fallsvariable, X bin(n, p) , n N, p (0, 1) = , X = {0, . . . , n}. Wegen
E(X) = np E
_
X
n
_
= p
ist (x) =
x
n
, x {0, . . . , n} erwartungstreue Schtzfunktion fr p.
: R R erwatungstreue Schtzfunktion fr 0
p [0, 1] : E
p
((X)) =
n
j=0
(j)p
j
(1 p)
(nj)
= 0
ist ein Polynom in p mit berabzhlbar vielen Nullstellen.
(j) = 0 , j {0, . . . , n}
So erhlt man
Cov
p
((X), (X)) = E
p
((X)(X)) E
p
((X)) E
p
((X))
. .
=0
=
n
j=0
j
n
(j)
. .
=0
p
j
(1 p)
nj
= 0, p (0, 1)
2
Mit Satz1.1 folgt, dass (X) = X/n UMVU-Schtzer ist fr p ist .
Denition 1.10 (Absolute Stetigkeit von Maen) Seien , Mae auf einer
-Algebra A. heit absolut stetig bzgl. , wenn fr alle A A gilt:
(A) = 0 (A) = 0
Kurz: << oder dominiert
Satz 1.2 (Satz von Radon-Nikodym) Seien , Mae auf einem Messraum
(, A
A
f(x)d(x) , A A .
f heit Radon-Nikodym-Ableitung von bzgl. .
Einen Beweis ndet man in Shervish (1995), S.597.
Es folgt der Satz, der diesem Teilgebiet der Statistik seinen Namen gegeben hat.
Satz 1.3 (Satz von Bayes) Sei (
, A
R(, )d()
Bayes-Risiko von bzgl. .
Das Ziel der Bayes-Statistik ist eine Schtzfunktion zu nden, die das Bayes-Risiko
bzgl. einer a-priori-Verteilung minimiert.
Denition 2.2 (Bayes-Schtzer) Es gelten die Voraussetzungen aus Denition2.1.
sei fest gewhlt. Eine nichtrandomisierte Entscheidungsfunktion , die (1) mi-
nimiert wird Bayes-Schtzfunktion fr bzgl. genannt.
Ist die a-priori-Verteilung aus dem Kontext bekannt, so bezeichnet man auch ab-
krzend als Bayes-Schtzer fr .
Im Bayesschen Wahrscheinlichkeitsmodell geht man nun davon aus, dass der unbe-
kannte Parameter sowie die Stichprobe x zufllig sind. Sei (
, A
, P) ein Wahr-
scheinlichkeitsraum, dann deniert man die Zufallsvariablen
X| = : (
, A
, P) (X, B, P
) ,
: (
, A
, P) (, I, ) ,
wobei alle Bezeichnungen denen aus Denition2.1 entsprechen. Abkrzend schreibt
man dafr
und X| = P
.
Mit diesen Zufallsvariablen erhlt man eine alternative Darstellung der Risikofunk-
tion:
R(, ) =
X
L(, (x))dP
R(, )d()
= E(R(, ))
= E(E(L(, (X))|))
= E(L(, (X)))
= E(E(L(, (X))|X))
Ein Ansatz zur Minimierung des Bayes-Risikos von bzgl. , die Minimierung der
Risikofunktion, ist bereits bekannt. Falls gleichmig optimal ist, dann ist insbe-
sondere das Bayes-Risiko minimal, also ist jeder UMP-Schtzer auch Bayes-Schtzer
von . Der zweite Ansatz ist, den sogenannten a-posteriori-Erwartungswert von
L(, (X)), E(L(, (X))|X = x), zu minimieren. Die Verteilung fr dessen Be-
rechnung erhlt man ber den Satz von Bayes.
4
Theorem 2.1 Sei E = ((X, B, P), (D, D), L), ein statistisches Entschei-
dungsproblem und X| = P
. Falls
a) EL(,
0
(X)) < fr eine Entscheidungsfunktion
0
und
b) fr P
X
-f.a. x existiert ein Wert
(x), der
E[L(, d)|X = x]
bzgl. d minimiert.
Dann ist
ein Bayes-Schtzer.
Beweis: Sei eine beliebige Schtzfunktion. Dann gilt fr P
X
-f.a. x:
E[L(, (X))|X = x] = E[L(, (x))|X = x]
E[L(,
(x))|X = x]
= E[L(,
(X))|X = x] .
Daraus folgt
E[L(, (X))|X] E[L(,
(X))|X]
und zustzliche Erwartungswertbildung ber X ergibt dann
EL(, (X)) = E[E(L(, (X))|X)]
E[E(L(,
(X))|X)]
= EL(,
(X)) .
Folglich ist
Bayes-Schtzer von .
Bedingung (a) knnte man auch weglassen, allerdings wre dann jede Schtzfunktion
ein Bayes-Schtzer von , da das Bayes-Risiko fr alle Schtzfunktionen unendlich
ist.
3 Beispiele
Es folgen Beispiele fr die Berechnung von Bayes-Schtzern unter einfachen und
bekannten Verlustfunktionen.
Beispiel 3.1 (gewichtete quadratische Verlustfunktion) Gegeben sei die ge-
wichtete quadratische Verlustfunktion
L(, d) = w()(d g())
2
,
wobei g : (, I) (R, B
1
) und w : (, I) ([0, ), B
1
[0, )). Nach Theorem(2.1)
minimiert
den Ausdruck
5
E[w()(d g())
2
|X = x] = d
2
E[w()|X = x]
2dE[w()g()|X = x]
+E[w()g
2
()|X = x] .
Falls E(w()|X = x) = 0 gilt, dann ist
E[w()(d g())
2
|X = x] = 2dE[w()g()|X = x]
+E[w()g
2
()|X = x]
eine lineare Funktion in d. Damit Bedingung (b) erfllt ist muss also E[w()g()|X =
x] = 0 gelten. Der a-posteriori-Erwartungswert ist dann konstant in d, also sind alle
Entscheidungsfunktionen nach Theorem2.1 Bayes-Schtzer.
Falls E(w()|X = x) > 0 kann man einen P
X
-f.s. Bayes-Schtzer bestimmen. Der
a-posteriori-Erwartungswert von L(, d) ist eine quadratische Funktion in d. Setze
also die Ableitung
2dE[w()|X = x] 2E[w()g()|X = x]
gleich Null und erhalte
d E(w()|X = x) E(w()g()|X = x)
_
_
> 0 fr d >
(x)
= 0 fr d =
(x)
< 0 fr d <
(x)
,
wobei
(2)
(x) =
E[w()g()|X = x]
E[w()|X = x]
.
Folglich ist
P
X
-f.s. eindeutiger Bayes-Schtzer fr g().
Ist die Gewichtungsfunktion w 1, so entspricht die Verlustfunktion der quadrati-
schen Verlustfunktion. Dann ist
(X) = E[g()|X]
der a-posteriori-Erwartungswert von g().
Falls P = {P
und
falls << , wobei das Lebesgue-Ma sei. Mit dem Satz von Radon-Nikodym
folgt, dass eine Dichte bzgl. existiert, welche durch () bezeichnet werde. Dann
ist die gemeinsame Dichte von X und
p
(x)() .
Die Randdichte von X ist dann gegeben durch
q(x) =
(x)()d()
und die bedingte Dichte von bei gegebenem X = x ist mit dem Satz von Bayes
(|x) =
p
(x)()
q(x)
.
6
Benutzt man diese bedingte Dichte, wird (2) zu
(3)
(x) =
w()g()p
(x)()d()
w()p
(x)()d()
.
Der Faktor 1/q(x) krzt sich dabei.
Beispiel 3.2 (Binomial-Verteilung) Sei P
1
(1 )
1
, [0, 1]
0 , sonst
,
wobei > 0, > 0 fest. Da sich die Dichte zu 1 integriert, folgt
(4)
1
1
(1 )
1
d =
()()
( +)
.
Mit (4) kann man den Erwartungswert von leicht berechnen:
E =
(+)
()()
1
1+1
(1 )
1
d
(4)
=
(+)
()()
(+1)()
(++1)
=
+
Die Randdichte von X im Bayesschen Modell ist
q(x) =
p
(x)()d
=
1
0
_
n
x
_
(+)
()()
x+1
(1 )
nx+1
d
=
_
n
x
_
(+)
()()
(x+)(nx+)
(n++)
, x {0, . . . , n} .
q(x) ist oensichtlich die Zhldichte einer Beta-Binomial-Verteilung. Teilt man die
gemeinsame Dichte p
x+1
(1 )
nx+1
, x {0, . . . , n} , (0, 1) .
Die bedingte Zhldichte (|x) impliziert
|X = x Beta(x +, n x +) .
Die a-posteriori-Verteilung aus der a-priori-Verteilung und der beobachteten Stich-
probe zu berechnen ist hier einfach:
man erhht um die Anzahl der Erfolge x und um die Anzahl der Misserfolge nx.
Falls, wie in diesem Fall, die Klasse der a-priori-, sowie der a-posteriori-Verteilung
7
bereinstimmt, so nennt man diese Verteilungsklasse konjugiert. Letzteres wird in
Beispiel(3.7) ausfhrlicher behandelt.
Unter Gaussscher Verlustfunktion mit g() = ergibt sich somit
(X) = E[|X] =
X +
n + +
als Bayes-Schtzer fr . Elementares Umformen ergibt dann
(X) =
_
n
n + +
_
X
n
+
_
1
n
n + +
_
+
was zeigt, dass der Bayes-Schtzer ein gewichteter Mittelwert aus dem UMVUE-
Schtzer X/n und dem a-priori-Erwartungswert E = /( +) ist.
Die Beta-verteilung ist eine beliebte Wahl fr die a-priori-Dichte, da die Dichte,
abhngig von den Parametern und unterschiedliche Darstellungen annehmen
kann, wie man in folgender Abbildung erkennen kann.
Dichte einer Beta(, )-Verteilung
1
Notation [Proportionalitt ] Seien h, g : X R Funktionen. h heit porpor-
tional zu g in (x), wenn ein a R\{0} existiert mit h(x) = a g(x), x X.
Kurz schreibt man h(x)
x
g(x). Insbesondere gilt h(x)
x
b g(x) b R\{0}.
Da fr Dichten h
h = 1 gilt, folgt, dass a = (
g)
1
. a ist somit eine Normierungs-
konstante, sofern 0 <
g < .
Beispiel 3.3 (Negative Binomial-Verteilung) Es sei (X
i
)
iN
ein Bernoulli-Prozess
mit Erfolgswahrscheinlichkeit und X die Anzahl der Fehlversuche vor dem zweiten
Erfolg, dann ist die Dichte von X| = gegeben durch
p
(x) = P
(X = x) = (x + 1)
2
(1 )
x
, x = 0, 1, 2, . . .
1
http://de.wikipedia.org/wiki/Betaverteilung
8
Erklrung der Dichte:
_
x + 1
1
_
(1 )
x
. .
(I)
..
(II)
(I) Wahrscheinlichkeit, dass ein Erfolg in x+1 Bernoulli-Versuchen, mit Erfolgswahr-
schienlichkeit , auftritt
(II) Wahrscheinlichkeit fr zweiten Erfolg im x+2ten Versuch
Betrachtet man die Schtzung von g() = 1/ in einem Bayessches Modell, in
dem gleichverteilt auf (0, 1) sei (also U(0, 1) ). Dann ist
(|x)
(x)()
2
(1 )
x
.
Diese Dichte ist oensichtlich in proportional zur Beta(3, x + 1)-Verteilung. Dies
impliziert
|X = x Beta(3, x + 1) .
Der a-posteriori-Erwartungswert von 1/ ist dann
0
(x) = E[
1
|X = x] =
(x+4)
(3)(x+1)
1
0
(1 )
x
d
(4)
=
(x+4)(2)(x+1)
(3)(x+1)(x+3)
=
x+3
2
.
Der UMVU-Schtzer fr 1/ (siehe Keener, Beispiel(5.3)) ist
1
(x) =
x + 2
2
,
der im Zusammenhang mit dem eben berechneten
0
steht
0
(X) =
1
(X) +
1
2
.
Also hat der Schtzer
0
die konstante Verzerrung
Bias(,
0
) = E
0
(X)
1
= E
1
(X) +
1
2
1
=
1
+
1
2
1
=
1
2
.
Mit quadratischer Verlustfunktion ist die Risikofunktion die Varianz des Schtzers
addiert mit der quadratischen Verzerrung. Da
0
und
1
sich nur bis auf eine Kon-
stante unterscheiden, haben sie dieselbe Varianz und somit ist
R(,
0
) = V ar
(
0
) +
1
4
= V ar
(
1
) +
1
4
= R(,
1
) +
1
4
.
Daraus folgt, dass die Risikofunktion des UMVU-Schtzers
1
echt kleiner ist, als
die Risikofunktion vom Bayes-Schtzer
0
.
Zur Erinnerung: ein Schtzer heit unzulssig, wenn es einen Schtzer
0
gibt, der
9
dominiert (
0
, d.h. R(,
0
) R(, ) und
0
: R(
0
,
0
) <
R(
0
, )).
Ein unzulssiger Schtzer ist grunstzlich kein Bayes-Schtzer, da ein Schtzer mit
niedrigerer Risikofunktion, ber Integration in , dann auch ein niedrigeres Bayes-
Risiko besitzt. Theorem (2.1) greift hier nicht, da Bedingung (a) nicht erfllt ist:
(5) EL(, (X)) =
x=0
(0,1)
_
(x)
1
_
2
(x + 1)
2
(1 )
x
d
=
x=0
(x + 1)
_
_
_(x)
2
2(x)
(0,1)
(1 )
x
d +
(0,1)
(1 )
x
d
_
_
_
Die Integrale berechnen sich wie folgt:
(0,1)
(1 )
x
d =
1
x+1
(0,1)
(x + 1)(1 )
x
d
=
1
x+1
[(1 )
x
]
=1
=0
=
1
x+1
(0 1) =
1
x+1
(0,1)
(1 )
x
d
P.I.
=
_
_
1
x+1
(1 )
x+1
__
=1
=0
(0,1)
1
x+1
(1 )
x+1
d
= 0 +
1
(x+1)(x+2)
[(1 )
x+2
]
=1
=0
=
1
(x+1)(x+2)
Angenommen es existiert eine Schtzfunktion
mit E(L(,
x=0
_
(x + 1)(x + 3)
2
4
x + 3
x + 2
+ 1
_
=
x=0
(x + 2)(x + 1)(x + 3)
2
4(x + 3) + 4(x + 2)
4(x + 2)
. .
a
x
:=
Wegen
a
x
> 1 x
4
..
0
+ 9x
3
..
0
+29x
2
. .
0
+35x
..
0
+ 6
..
>0
> 0
fr x N folgt, dass
x=0
a
x
= und somit E(L(,
0
(X))) = , was ein Wider-
spruch zur Annahme ist. In diesem Fall minimiert jeder Schtzer (1).
Beispiel 3.4 Gegeben sei ein Bayessches Modell mit exponentialverteilter Zufalls-
variable mit Ausfallrate > 0, d.h. die Dichte von ist gegeben durch
() = exp(), > 0 .
10
Fr gegebenes = , seien X
1
, . . . , X
n
i.i.d.
po() mit Dichte
p
(x
i
) =
x
i
x
i
!
exp() , i = 1, . . . , n
und X := (X
1
, . . . , X
n
). Die Verlustfunktion sei wie folgt deniert:
L(, d) =
p
(d )
2
,
wobei p > 0 eine feste Konstante sei.
Die Dichte von X bei gegebenem = ist dann
p
(x) =
n
i=1
p
(x
i
) =
n
i=1
x
i
x
i
!
exp()
=
T(x)
exp(n)
n
i=1
x
i
!
, x N
n
0
,
wobei T(x) =
n
i=1
x
i
.
Mit Beispiel (3.1) hat der Bayes-Schtzer fr folgende Form
(x) =
0
p+1
p
(x)()d
0
p
p
(x)()d
=
0
T(x)+p+1
exp((n+))d
0
T(x)+p
exp((n+)
P.I.
=
[
T(x)+p+1
1
n+
exp((n+))
)]
=
=0
0
(T(x)+p+1)
T(x)+p
(
1
n+
exp((n+)))d
0
T(x)+p
exp((n+))d
()
=
T(x)+p+1
n+
0
T(x)+p
exp((n+))d
0
T(x)+p
exp((n+))d
=
T(x)+p+1
n+
, x N
n
0
.
Wobei in der Umformung (*) folgende Grenzwerte eingehen:
lim
0
T(x)+p+1
. .
0
_
1
n +
exp((n +))
_
. .
1
= 0
lim
T(x)+p+1
exp((n +))
. .
0
1
n +
_
= 0
da jede Exponentialfunktion schneller gegen unendlich luft als jedes Polynom.
Beispiel 3.5 Sei ein Bayessches Modell gegeben, in dem die a-priori-Verteilung
absolut stetig sei mit Dichte
() =
1
(1 +)
2
, > 0 .
Fr gegebenes = , sei die Variable X gleichverteilt auf (0, ) (X U(0, )).
Dann ist die Randverteilung von X gegeben durch
11
q(x) =
p
(x)()d
=
x
1
(1+)
2
1
d [ da p
(x) =
1
1
(0,)
(x) =
1
1
(x,)
() ]
=
x
_
1
1
1+
1
(1+)
2
_
d
=
_
log() log( + 1) +
1
+1
_
=
=x
=
_
log(
1+
) +
1
+1
_
=
=x
= lim
log(1
1
1+
) + lim
1
1+
lim
x
_
log(1
1
+1
+
1
1+
)
_
= 0 + 0 log
_
1+x
x
_
1
x+1
= log
_
1+x
x
_
1
x+1
, x > 0 .
Also gilt mit dem Satz von Bayes
p(|x) =
p
(x) ()
q(x)
=
1
(1 +)
2
q(x)
, > x > 0
und somit
E[|d||X = x] =
x
|d|
(1+)
2
q(x)
d
=
d
x
d
(1 +)
2
q(x)
d
. .
1
+
d
d
(1 +)
2
q(x)
d
. .
2
.
Zu 1 :
1 =
d
q(x)
d
x
1
(1+)
2
d +
1
q(x)
d
x
1
(1+)
2
d
=
d(q(x)q(d))
q(x)
+
1
q(x)
_
1
d+1
1
x+1
_
= d
dq(d)
q(x)
+
1
q(x)(d+1)
1
(1+x)q(x)
Zu 2 :
2 =
1
q(x)
d
1
(1+)
2
d
d
q(x)
d
1
(1+)
2
d
=
1
q(x)
_
1
1+
_
=
=d
dq(d)
q(x)
=
1
q(x)(d+1)
dq(d)
q(x)
Also insgesamt:
1 + 2 = d
2d q(d)
q(x)
1
(1 +x)q(x)
+
2
(1 +d)q(x)
Da
d
q(d) =
d
_
log
_
1+d
d
_
1
d+1
_
=
d
d+1
1
d
2
+
1
(d+1)
2
=
(d+1)+d
(d+1)
2
d
=
1
d(1+d)
2
,
ist die Ableitung nach d des Ausdrucks 1 + 2 gegeben durch
12
d
1 + 2 =
d
_
d
2dq(d)
q(x)
1
(1+x)q(x)
+
2
(1+d)q(x)
_
= 1
2
q(x)
(q(d) +dq
(d))
2
q(x)(1+d)
2
(3.5)
= 1
2
q(x)
_
q(d) +d
_
1
d(1+d)
2
__
2
q(x)(1+d)
2
= 1
2q(d)
q(x)
+
2
q(x)(1+d)
2
2
q(x)(1+d)
2
= 1
2q(d)
q(x)
.
Oensichtlich ist q(d) streng monoton fallend fr d > x, da
(6)
d
q(d) =
1
d(1 +d)
2
< 0 , d > x(> 0) .
Zudem gilt fr A(d) := 1
2q(d)
q(x)
:
A(x) = 1
lim
d
A(d) = 1
Mit (6) ist A streng monoton steigend mit Werten zwischen -1 und 1 und somit
existiert eine eindeutige Nullstelle in der gilt:
q(
(X)) =
q(X)
2
dessen Gleichung dann den Bayes-Schtzer beschreibt. Mit dieser Gleichung erhlt
man zudem
(7) P(
(X) < |X = x) =
(x)
1
(1 +)
2
q(x)
d =
q(
(x))
q(x)
=
1
2
.
Lehmann und Casella(1998) fanden heraus, dass jeder Median von |X = x Bayes-
Schtzer von ist. Da hier mit einer stetigen Verteilung gearbeitet wird, ist das
Ergebnis aus (7) klar.
Beispiel 3.6 Fr die Bayes-Schtzung einer linearen Regression werde angenom-
men, dass die additive Konstante
1
und die Steigung
2
unabhngig a-priori-
verteilt sind mit
1
N(0,
2
1
) und
2
N(0,
2
2
). Fr gegebenes
1
=
1
und
2
=
2
seien die unabhngigen Daten Y
1
, . . . , Y
n
jeweils Y
i
N(
1
+
2
x
i
,
2
)
verteilt fr i = 1, . . . , n, wobei die Varianz
2
> 0 bekannt sei und x
1
, . . . , x
n
Kon-
stanten sind, die sich zu 0 aufsummieren (
n
i=1
x
i
= 0). Die zugehrigen Dichten
sind dann
() = (
1
,
2
)
s.u.
= (
1
)(
2
)
=
1
2
2
1
exp
_
1
2
2
1
2
1
_
2
2
2
exp
_
1
2
2
2
2
2
_
und
13
p
(y) =
n
i=1
p
(y
i
)
=
n
i=1
1
2
2
exp
_
1
2
(y
i
(
1
+
2
x
i
))
2
2
_
=
_
1
2
2
_
n
exp
_
1
2
2
n
i=1
(y
i
(
1
+
2
x
i
))
2
_
=
_
1
2
2
_
n
exp
_
1
2
2
_
n
i=1
y
2
i
2
n
i=1
(
1
+
2
x
i
)y
i
+
n
i=1
(
1
+
2
x
i
)
2
__
=
_
1
2
2
_
n
exp
_
1
2
2
_
n
i=1
y
2
i
2
1
n
i=1
y
i
2
2
n
i=1
y
i
x
i
+
n
i=1
2
1
+ 2
1
2
n
i=1
x
i
+
n
i=1
2
2
x
2
i
__
=
_
1
2
2
_
n
exp
_
1
2
2
_
n
i=1
y
2
i
2
1
n
i=1
y
i
2
2
n
i=1
y
i
x
i
+n
2
1
+
n
i=1
2
2
x
2
i
__
Die Dichte von (
1
,
2
)|Y ist proportional zu
()p
(y)
exp
_
2
1
2
2
1
2
2
2
2
2
n
2
1
2
2
2
1
2
2
n
i=1
x
2
i
+
1
n
i=1
y
i
+
2
n
i=1
x
i
y
i
_
exp
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
2
1
2
n
i=1
y
i
2
1
n+
2
1
+
_
n
i=1
y
i
_
2
n+
2
1
_
_
_
_
_
n
2
+
1
2
1
_
2
_
_
_
_
2
2
2
2
n
i=1
y
i
x
i
n
i=1
x
2
i
+
2
2
+
_
_
_
n
i=1
x
i
y
i
n
i=1
x
2
i
+
2
2
_
_
_
2
_
_
_
_
_
n
i=1
x
2
i
2
+
1
2
2
_
2
_
_
_
_
_
_
_
_
_
_
_
_
exp
_
n
i=1
y
i
n+
2
/
2
1
_
2
2(n/
2
+1/
2
1
)
1
_
n
i=1
x
i
y
i
n
i=1
x
2
i
+
2
/
2
2
_
2
2
(
n
i=1
x
2
i
/
2
+1/
2
2
)
1
_
_
Bei gegebenen Stichproben-Daten sind also
1
und
2
unabhngige normalver-
teilte Zufallsvariablen. Die jeweiligen Bayes-Schtzer sind dann die a-posteriori-
Erwarungswerte:
E[
1
|X, Y ] =
n
i=1
Y
i
n +
2
/
2
1
und E[
2
|X, Y ] =
n
i=1
x
i
Y
i
n
i=1
x
2
i
+
2
/
2
2
.
Beispiel 3.7 (konjugierte a-priori-Verteilungsklassen) Sei P = {P
, }
eine einparametrische Exponentialfamilie in Normalform, dessen Dichte gegeben ist
durch:
p
exp( A())d .
Die Dichten von
,
bilden eine zweiparametrische Exponentialfamilie. Sei
=
{(, ) : B(, ) < } der Parameterraum. Fr gelte zustzlich, dass () 0,
falls gegen die Rnder von luft, unabhngig von den Werten (, ) E. Mit
dieser Annahme gilt fr :
()d = lim
sup
() lim
inf
() = 0 .
Wegen
() = [ A
()] =
()d
!
= 0
und damit
(8) EA
() =
.
Nehme das Bayessche Modell mit
,
, X
1
, . . . , X
n
seien bei gegebenem
= P
+nT(x),+n
.
Also ist |X = x
+nT(x),+n
. mit diesem Ergebnis kann man den Bayes-Schtzer
von A
() berechnen:
E[A
()|X] =
+nT(X)
+n
=
+n
+
n
n +
T(X) ,
wobei der letzte Ausdruck oensichtlich ein gewichtetes arithmetisches Mittel von
EA
() =
,
()
exp( + log()) =
exp() , > 0 .
muss negativ sein, da sonst die obige Konvergenzbedingung fr nicht erfllt ist.
Die -Dichte ist oensichtlich proportional zu einer Gamma-Dichte und deswegen
ist
,
die Gamma-Verteilung mit ( + 1, ). Da 1/ = A
()|X] =
+nT
+n
=
|| +nX
+n
.
15
Beispiel 3.8 Gegeben sei ein Bayessches Modell mit zuflligem Parameter , der
Bernoulli-verteilt sei mit Erfolgswarscheinlichkeit 1/2, also P( = 1) = P( = 0) =
1/2. Fr gegebenes = 0 habe X die Dichte f
0
und fr gegebenes = 1 habe X
die Dichte f
1
. Man bestimme nun den Bayes-Schtzer von bei
(i) Gaussscher Verlustfunktion mit g() =
(ii) Verlustfunktion L(, d) = 1
{=d}
[0-1-Verlustfunktion] .
Zu (i):
Die gemeinsame Dichte ist ()p
(x) = f
=0
()p
(x) =
1
=0
f
(x)
2
=
f
1
(x) +f
0
(x)
2
, x X .
Die bedingte Dichte von bei gegebenem X = x ist dann gegeben durch
(|x) =
()p
(x)
q(x)
=
f
(x)
f
0
(x) +f
1
(x)
, {0, 1} , x X .
(|x) ist die Wahrscheinlichkeitsfunktion einer Bernoulli-Verteilung mit Erfolgs-
wahrscheinlichkeit p = p(x) =
f
1
(x)
f
0
(x)+f
1
(x)
, x X. Der Bayes-Schtzer von unter
quadratischer Verlustfunktion ist dann der Erwartungswert dieser bedingten Vertei-
lung:
E(|X) =
1
=0
(X)
f
0
(X) +f
1
(X)
=
f
1
(X)
f
0
(X) +f
1
(X)
.
Zu (ii):
Theorem (2.1) zufolge sollte der Bayes-Sctzer das a-posteriori-Risiko minimieren.
Die a-posteriori-Verteilung kann (i) entnommen werden.
E(1
{=d}
|X) =
1
=0
1
{=d}
f
(X)
f
0
(X)+f
1
(X)
= 1
{d=0}
f
0
(X)
f
0
(X) +f
1
(X)
. .
=(1p(X))
+1
{d=1}
f
1
(X)
f
0
(X) +f
1
(X)
. .
=p(X)
(**) = 1
{d=1}
(1 p(X)) +1
{d=0}
p(X)
Mann muss nun eine Fallunterscheidung zur Minimierung des a-posteriori-Erwartungswerts
von L in d betrachten:
1. falls p(X) >
1
2
f
1
(X) > f
0
(X) ist (**) minimal fr d = 1
2. falls p(X) <
1
2
f
1
(X) < f
0
(X) ist (**) minimal fr d = 0
3. falls p(X) =
1
2
ist (**) fr d = 0 oder d = 1 minimal
Durch den 3. Fall, p(X) =
1
2
, folgt die die Nicht-Eindeutigkeit des Bayes-Schtzers.
Die beiden resultierenden Bayes-Schtzer sind
1
(X) =
_
_
_
1 , fallsp(X)
1
2
0 , sonst
16
und
_
_
_
1 , fallsp(X) >
1
2
0 , sonst
.
Beispiel 3.9 sei Standard-Exponentialverteilt, d.h. mit Dichte () = exp(),
> 0, und fr gegebenes = , seien X
1
, . . . , X
n
i.i.d.
exp(), d.h. mit Dichte
p
(x) =
_
_
_
exp(x) , x 0
0 , sonst
.
Die Verlustfunktion sei durch L(, d) = (d )
2
/d deniert. Nach Theorem(2.1) ist
der Bayes-Schtzer (x) das d, welches den a-posteriori-Erwartungswert minimiert:
E
_
(d )
2
d
X = x
_
= d 2E[|X = x] +
E[
2
|X = x]
d
.
Setze die Ableitung dieses Ausdrucks gleich Null und erhalte (x) =
E[
2
|X = x].
Es sei T(X) := X
1
+ + X
n
, X = (X
1
, . . . , X
n
). Wegen (|x)
(x)()
n
exp([1 +T(x)]) ist
E[
2
|X = x]
(3)
=
n+2
exp((1+T(x)))d
n
exp((1 +T))d
. .
A:=
P.I.
=
1
A
_
_
_
_
_
_
_
n+2
1
1 +T(x)
_
exp((1 +T(x)))
_
=infty
=0
. .
=0
0
(n + 2)
n+1
_
1
1+T(x)
_
exp((1 +T(x)))d
_
=
1
A
_
n+2
T(x)+1
n+1
exp((1 +T(x)))d
_
P.I.
=
n+2
A(T(x)+1)
_
_
_
_
_
_
_
n+1
1
1 +T(x)
_
exp((1 +T(x)))
_
=infty
=0
. .
=0
0
(n + 1)
n
_
1
1+T(x)
_
exp((1 +T(x)))d
_
=
(n+2)(n+1)
(T(x)+1)
2
A
A
=
(n+1)(n+2)
(1+T)
2
.
Also ist der Bayes-Schtzer:
(X) =
n
2
+ 3n + 2
1 +T(X)
.
17
4 Das IMDb-Top250-Bewertungssystem
Die IMDb (Internet-Movie-Database) bestimmt ihre TOP250 mit einem Bewer-
tungssystem, dessen Formel sie als echte Bayessche Schtzung bezeichnen:
(9) Gewichtete Wertung(WR) =
C m+R v
m+v
wobei C die Durchschnittsbewertung aller Filme ist (derzeit 7,1), v die Anzahl ab-
gegebener Stimmen fr den Film, R der Durchschnitt der Bewertung fr den Film
und m das erforderliche Minimum an Stimmen, um in den 250 besten Filmen auf-
gelistet zu sein (derzeit 25000).
2
Man bewertet einen Film mit einer Note von 1 bis
10, wobei 1 einer niedrigen und 10 einer hohen Bewertung entspricht.
Schreibt man die gewichtete Wertung (9) ein wenig um, versteht man auch die Plau-
sibilitt des Schtzers:
WR =
m
m+v
C +
v
m+v
R
Auf die Gewichtete Wertung(WR) des Films gehen, unabhngig von der Anzahl der
fr den Film abgegebenen Bewertungen v, immer zustzliche m Stimmen mit der
Durchschnittsbewertung aller Filme C ein. Je grer die Anzahl der Bewertungen
fr einen Film v N ist, desto schwcher ist der Einuss des Durchschnittswerts
aller Filme C auf die gewichtete Wertung des Films. Dieses System ist hilfreich,
um hohen Bewertungen von neuen Filmen entgegen zu wirken, die nur eine geringe
Anzahl an Bewertungen haben.
Doch wie kommt IMDb nun darauf, dass gerade dieser Schtzer ein Bayes-Schtzer
ist? Eine Theorie ist die folgende:
3
Nehme an, dass die abgegebenen Bewertungen fr einen Film X
i
, i = 1, . . . , n, i.i.d.
normalverteilt mit unbekanntem Erwartungswert und Varianz 1 seien. Die a-priori-
Verteilung sei normalverteilt mit bekanntem Erwartungswert
0
und bekannter Ge-
nauigkeit
0
, wobei die Genauigkeit deniert ist durch den Kehrwert der Varianz.
Die a-posteriori-Verteilung einer N(, )-Verteilung, wobei die a-priori-Verteilung
N(
0
,
0
)-verteilt ist, ist wiederum eine Normalverteilung
4
mit Erwartungswert (al-
so Bayes-Schtzer fr unter Gaussscher Verlustfunktion mit g() = ):
0
+
n
i=1
X
i
0
+n
Mit = 1, wie oben beschrieben, ergibt sich dann:
0
+
n
i=1
X
i
0
+n
Ein direkter Vergleich mit der Formel (9) von IMDb lsst auf folgende Identitten
schlieen:
v n
2
http://www.imdb.de/chart/top
3
http://masanjin.net/blog/bayesian-average
4
http://en.wikipedia.org/wiki/Conjugate_prior
18
Ist klar, denn die Anzahl der Bewertungen fr den Film oben war so deniert.
C
0
0
kann man hier als Expertenwissen interpretieren. Die Durchschnittsbewertung
aller Filme C ist IMDb bekannt, also gehen sie davon aus, dass der Film ebenso eine
Bewertung um C annehmen wird.
m
0
m wurde hier von IMDB ebenfalls als Expertenwissen eingebracht. 1/m beschreibt in
diesem Modell dann die Varianz der a-priori-Verteilung. Je grer m gewhlt wird,
desto mehr konzentriert sich die Wahrscheinlichkeit der a-priori-Verteilung um die
Durchschnittsbewertung aller Filme C ( =
0
).
R v =
1
v
_
v
i=1
X
i
_
v =
v
i=1
X
i
R v beschreibt die kumulierten Bewertungen fr den Film.
Die Annahme der Normalverteilung einer Stimme kann sich allerdings als proble-
matisch erweisen, da zum Trger der Normalverteilung alle Werte unter 1 und ber
10 gehren.
Das Argument des zu groen Trgers lsst sich leicht durch Betrachtung der Vertei-
lungsfunktion von (WR) entkrften.
Da X
1
, . . . , X
v
n
i.i.d.
N(, 1) folgt, dass Y :=
1
n
n
i=1
N(, 1/n). Die Randvertei-
lung von Y ist dann proportional zu
19
p(y)
y
exp
_
n(y)
2
2
_
exp
_
(
0
)
2
2
0
_
d
exp
_
ny
2
2
+ny
n
2
2
2
2
0
+
0
2
0
2
0
2
2
0
_
d
y
exp
_
ny
2
2
_
exp
_
_
_
_
_
_
1
2
_
_
_
_
_
_
_
n +
1
2
0
_
. .
S:=
2
2
_
ny +
0
2
0
_
. .
T:=
_
_
_
_
_
_
_
_
_
_
_
_
d
y
exp
_
ny
2
2
_
exp
_
1
2
(TS
1
)
2
S
1
_
exp
_
1
2
_
2
2TS
1
+(TS
1
)
2
S
1
__
d
y
exp
_
ny
2
2
_
exp
_
1
2
T
2
S
_
exp
_
_
_
1
2
( TS
1
)
2
_
S
1
_
2
_
_
_d
. .
=1, da proportial in zu N(TS
1
,S
1
)-Dichte
y
exp
_
_
_
ny
2
2
+
1
2
_
ny+
2
0
_
2
S
_
_
_
y
exp
_
ny
2
2
+
1
2
n
2
y
2
S
+
n
0
2
0
S
y +
1
2
_
2
0
_
2
S
1
_
y
exp
_
_
_
_
_
1
2
_
_
_
_
_
_
_
_
_
_
n
n
2
S
. .
U:=
_
_
_
_
_
y
2
2
n
0
2
0
S
y
_
_
_
_
_
_
_
_
_
_
y
exp
_
_
_
1
2
_
_
_
y
2
2
n
0
2
0
S
U
1
y+
_
n
0
2
0
S
U
1
_
2
U
1
_
_
_
_
_
_
y
exp
_
_
_
1
2
_
y
2
n
0
2
0
S
U
1
_
2
(
U
1
)
2
_
_
_
Diese Dichte ist proportional zu einer Normalverteilung mit Erwartungswert
:=
n
0
2
0
S
U
1
=
n
0
2
0
n+1
_
n
n
2
n+
1
2
0
_
1
=
n
0
2
0
n+1
_
n(
2
0
n+1)n
2
2
0
2
0
n+1
_
1
=
n
0
2
0
n+1
sigma
2
0
n+1
n
=
0
und Varianz
:= U
1
=
_
n
n
2
S
_
1
=
_
n
n
2
n+
1
2
0
_
1
=
2
0
n+1
n
=
2
0
+
1
n
.
Berechne durch Standardisierung von Y die Verteilungsfunktion von
(Y ) =
m
m+v
C +
v
m+v
Y .
20
F
(Y )
(a) = P ((Y ) a)
= P
_
m
m+v
C +
v
m+v
Y a
_
= P
_
v
m+v
Y a
m
m+v
C
_
= P
_
Y
(m+v)amC
v
_
= P
_
_
_
_
_
_
_
_
XC
1
m
+
1
v
(m+v)amC
v
C
1
m
+
1
v
. .
A
a
:=
_
_
_
_
_
_
_
_
= (A
a
),
dabei ist
A
a
=
(m+v)(aC)
mv
v
m+v
=
m(aC)
m+v
v
=
m(a C)
m
v
+ 1.
Falls a > C ist A
a
streng monoton fallend in v, fr v N, d.h. maximal in v = 1
und minimal fr v . Falls a < C ist A
a
streng monoton steigend in v, fr v N,
d.h. minimal in v = 1 und maximal fr v .
Betrachte (A
10
) minimal und (A
1
) maximal in v N, d.h. v
(A
10
) = (