Professional Documents
Culture Documents
Maximum
Likelihood and
Bayesian Estimation
1
INTRODUCTION
• Permasalahan estimasi parameter adalah salah satu hal klasik
dalam statistik, yang dapat dilakukan melalui pendekatan
dalam berbagai cara.
• Jika kita tahu bentuk parametrik densitas probabilitas kelas-
kondisional kita dapat mengurangi learning task dari salah
satu temuan distribusinya sendiri parameter yang ditemukan
menggunakan hasil distribusi untuk klasifikasi.
• Kita akan mempertimbangkan dua prosedur umum estimasi
yaitu:
Max
Likelihood Maksimum Likelihood Estimation dan Bayesian
Estimation hasilnya secara identik hampir sama
namun secara konsep berbeda.
Bayesian 2
OIntroduction
O Bayesian framework
O Desain secara optimal classifier dengan diketahuinya:
O P(i) : priors
O P(x | i) : class-conditional densities
1
MAXIMUM LIKELIHOOD
ESTIMATION
4
PRINSIP UMUM MAXIMUM
LIKELIHOOD ESTIMATION
O Asumsi kita memiliki conditional classes dan
P(x | j) ~ N( j, j)
P(x | j) P (x | j, j), where
( j , j ) ( 1j, 2j ,...,11
j , 22
j , cov(x m n
j , x j )...)
2
The Gaussian Case: Unknown μ
O Example of a specific case: unknown
O P(x | ) ~ N(, )
(Contoh dari multivariate normal population)
1
d 1
t
1
lnP(x k | ) ln (2) (x k ) (x k )
2 2
1
and lnP( x k | ) (x k )
2
• Multiplying oleh & penataan ulang, diperoleh:
1 k n
ˆ x k
n k 1
Conclusion:
Memberikan P(xk | j), j = 1, 2, …, c menjadi Gaussian pada d-dimensional
feature space, mengestimasi vector = (1, 2, …, c)t dan performa
classification menggunakan Bayes decision rule ( chapter 2).
2
The Gaussian Case :Unknown μ and Σ
O Max Likelihood Estimation:
O Univariate Gaussian Case: unknown &
= (1, 2) = (, 2)
1 1
l ln P( x k | ) ln 2 2 ( x k 1 ) 2
2 2 2
(ln P( x k | ))
1
l 0
(lnP( x k | ))
2
1
(x k 1 ) 0
2
2
1 ( x k 1 ) 0
2 2 2 2
2
2
OIntroduction
O Bayesian framework
O Desain secara optimal classifier dengan diketahuinya:
O P(i) : priors
O P(x | i) : class-conditional densities
1
PRINSIP UMUM MAXIMUM
LIKELIHOOD ESTIMATION
O Asumsi kita memiliki conditional classes dan
P(x | j) ~ N( j, j)
P(x | j) P (x | j, j), where
( j , j ) ( 1j, 2j ,...,11
j , 22
j , cov(x m n
j , x j )...)
2
The Gaussian Case :Unknown μ and Σ
O Max Likelihood Estimation:
O Univariate Gaussian Case: unknown &
= (1, 2) = (, 2)
1 1
l ln P( x k | ) ln 2 2 ( x k 1 ) 2
2 2 2
(ln P( x k | ))
1
l 0
(lnP( x k | ))
2
1
(x k 1 ) 0
2
2
1 ( x k 1 ) 0
2 2 2 2
2
2
BIAS
1 2 n1 2
E ( x i x ) . 2
n n
2
3.3 BAYESIAN ESTIMATION
O Estimasi Bayesian (pendekatan Bayesian Learning)
untuk masalah klasifikasi pola.
13
Algorithm 1: Expectation-
Maximization
14
BIAS
1 2 n1 2
E ( x i x ) . 2
n n
2
3.3 BAYESIAN ESTIMATION
O Estimasi Bayesian (pendekatan Bayesian Learning)
untuk masalah klasifikasi pola.
16
3.4 BAYESIAN PARAMETER
ESTIMATION:GAUSSIAN CASE
P(x | ) ~ N(, 2 )
P( ) ~ N( 0 , 20 )
0 and 0 are known!
4
3.4.1 The Univariate Case: p(μ|D)
O Kasus di mana μ adalah satu-satunya
parameter yang tidak diketahui.
O Untuk mempermudahnya, kita
memperlakukan pertama kasus univariat :
18
Bayesian Learning
3.4.2 The Univariate Case: p(x|D)
O P( | D) telah dihitung
O P(x | D) masih harus dihitung
membutuhkan:
P(x | D ) ~ N( n , 2 n2 )
Max P( j | x, D Max P( x | j , D j ).P( j )
Pattern Classification, Chapter 1 j
20
j
4
3.4.3 The Multivariate Case
21
3.5 BAYESIAN PARAMETER
ESTIMATION:GENERAL THEORY
O P(x | D) perhitungan dapat diterapkan untuk setiap
situasi dimana kepadatan diketahui dapat parametrized.
O Asumsi dasarnya adalah:
Bentuk P(x | ) diasumsikan diketahui, tapi nilai tidak
diketahui sebenarnya.
O Pengetahuan tentang diasumsikan dikenal sebagai prior
density P()
O The rest of our knowledge about dikenal sebagai set D of n
random variables x1, x2, …, xn yang mengikuti P(x)
5
The basic problem is:
“Compute the posterior density P( | D)”
then “Derive P(x | D)”
P(D | ).P()
P( | D ) ,
P(D | ).P()d
Dan melalui asumsi independen:
k n
P(D | ) P( x k | )
k 1
Pattern Classification, Chapter 1 23
5
Example 1: Recursive Bayes
learning and maximum likelihood
O Metode Recursive Bayes pembaruan
Bayesian parameter estimasi secara
bertahap pada setiap poin training sampel.
2. Model error:
kesalahan karena memiliki model yang tidak sesuai. Kesalahan ini hanya
dapat dihilangkan jika desainer menentukan model yang mencakup model
yang benar yang dihasilkan data.
3. Kesalahan estimasi:
kesalahan yang timbul dari kenyataan bahwa parameter diperkirakan dari
sampel yang terbatas. Kesalahan ini dapat dikurangi dengan meningkatkan
pelatihan data
27
3.5.2 NON-INFORMATIVE PRIORS
AND INVARIANCE
O Analoginya, dalam Bayesian framework kita memiliki "non-
informatif" prior melalui parameter untuk distribusi kategori
tunggal.
O Misalkan kita menggunakan metode Bayesian untuk
menyimpulkan dari data mean dan varians dari Gaussian.
O Apa prior memungkinkan kita pasang di parameter ini?
O Tentunya unit pengukuran spasial - meter, kaki, inci - adalah
historical accident dan tidak relevan dengan bentuk fungsional
prior.
O Sehingga hal ini diimplikasikan sebagai scale invariance:
28
3.6 SUFFICIENT STATISTICS
O Kecukupan statistik θ adalah fungsi dari sampel
yang berisi semua informasi yang diperlukan untuk
menentukan θ.
O Kecukupan statistik untuk model tertentu
(misalnya, eksponensial family) kita hanya perlu
memperkirakan nilainya dari data untuk membuat
classifier tidak ada fungsi lain dari data yang
relevan.
29
3.6.1 SUFFICIENT STATISTICS
AND THE EXPONENTIAL
FAMILY
O Untuk melihat bagaimana Faktorisasi Teorema
dapat digunakan untuk mendapatkan statistik
yang cukup, pertimbangkan sekali lagi kasus
normal d-dimensi akrab dengan kovarians
tetap tetapi berarti tidak diketahui
30
3.7 PROBLEMS OF
DIMENSIONALITY
O Dalam kategori aplikasi multi praktis, itu sama sekali
tidak biasa menghadapi masalah
melibatkan lima puluh atau seratus fitur, terutama jika
fitur yang biner dihargai.
Kita mungkin biasanya percaya bahwa setiap fitur
berguna untuk setidaknya beberapa dari diskriminasi;
sementara kita dapat meragukan bahwa setiap fitur
memberikan informasi yang independen,
sengaja fitur berlebihan belum disertakan. Ada dua isu
yang
harus dihadapkan. Yang paling penting adalah
bagaimana akurasi klasifikasi tergantung pada
dimensi (dan jumlah data pelatihan); yang kedua adalah
komputasi yang kompleksitas merancang classifier
31
3.7.1 ACCURACY, DIMENSION,
AND TRAINING SAMPLE SIZE
O Jika fitur secara statistik independen, ada
beberapa hasil teoritis yang menyarankan
kemungkinan kinerja yang sangat baik.
O Sebagai contoh, perhatikan dua kelas multivariat
kasus normal dengan kovarians yang sama di
mana p (x | ωj) ~ N (μj, Σ), j =1, 2. Jika a priori
probabilitas yang sama, maka tidak sulit untuk
menunjukkan ( bahwa tingkat kesalahan Bayes
diberikan oleh
32
3.7.3 OVERFITTING
O Ini sering terjadi jumlah sampel yang tersedia tidak
memadai, dan pertanyaan tentang kelanjutannya
muncul.
O Salah satu kemungkinan adalah untuk mengurangi
dimensi ini, baik dengan mendesain ulang extractor
fitur, dengan memilih bagian yang tepat dari fitur yang
ada, atau dengan menggabungkan fitur yang ada
dalam beberapa cara. kemungkinan lainnya adalah
asumsi semua kelas c berbagi matriks kovarians yang
sama, dan untuk pool data yang tersedia
33
Insufficient Data in Curve Fitting
3.8 Expectation-Maximization
(EM)
O Ide dasar dari harapan maksimalisasi
atau algoritma EM, adalah untuk
iteratively memperkirakan likelihood
dari data yang ada. Metode memiliki
prekursor dalam algoritma
Baum-Welch .
35
Algorithm 1: Expectation-
Maximization
36
3.9 BAYESIAN BELIEF NETWORKS
37
3.10 HIDDEN MARKOV MODELS
O Hidden Markov Model (HMMs) telah
menemukan penggunaan terbesar di
masalah, untuk speech recognition or
gesture recognition.
38
3.10.1 First-order Markov models
O Kami menganggap urutan state pada
successive times ,urutan state setiap
saat t dilambangkan
ω (t). Sebuah urutan tertentu dari
panjang T dilambangkan dengan
39
3.10.2 FIRST-ORDER HIDDEN
MARKOV MODELS
O Kami terus berasumsi bahwa pada setiap
langkah waktu t sistem ini dalam ω negara
(t) tapi sekarang
kami juga menganggap bahwa itu
memancarkan beberapa (terlihat) simbol v
(t). Sementara canggih Markov
model memungkinkan untuk emisi fungsi
kontinu (mis, spektrum), kita akan
membatasi
diri untuk kasus di mana simbol diskrit
dipancarkan
40
CONTOH FIRST-ORDER HIDDEN
MARKOV MODELS
41
ALGORITHM 2: FORWARD
42
ALGORITHM 3: BACKWARD
43
3.10.5 DECODING
O Memberikan sequence dari visibel
state, permasalahan decoding
adalah menemukan urutan
kemungkinan terbaik dari hidden
state.
44
SUMMARY
O Jika kita tahu bentuk parametrik densitas probabilitas kelas-
kondisional kita dapat mengurangi learning task dari salah
satu temuan distribusinya sendiri .
O Go to Journal ..................
46