Chapter3 Maximumlikelihoodandbayesianestimation Fix 161208093019

“CHAPTER 3”
Maximum
Likelihood and
Bayesian Estimation
Oleh : AAN JELLI PRIANA

(156150100111022)
1
INTRODUCTION
• Permasalahan estimasi parameter adalah salah satu hal klasik
dalam statistik, yang dapat dilakukan melalui pendekatan
dalam berbagai cara.
• Jika kita tahu bentuk parametrik densitas probabilitas kelas-
kondisional  kita dapat mengurangi learning task dari salah
satu temuan distribusinya sendiri  parameter yang ditemukan
menggunakan hasil distribusi  untuk klasifikasi.
• Kita akan mempertimbangkan dua prosedur umum estimasi
yaitu:
Max
Likelihood Maksimum Likelihood Estimation dan Bayesian
Estimation  hasilnya secara identik hampir sama
namun secara konsep berbeda.
Bayesian 2
OIntroduction
O Bayesian framework
O Desain secara optimal classifier dengan diketahuinya:
O P(i) : priors
O P(x | i) : class-conditional densities
Unfortunately, we rarely have this complete

information!
O Desain classifier berdasarkan set of labeled

training samples (supervised learning)
O Asumsi: priors diketahui
O Membutuhkan kecukupan jumlah training samples
untuk estimasi class-conditional densities, khususnya
saat dimensi feature space adalah besar
1
MAXIMUM LIKELIHOOD
ESTIMATION
O Metode maksimum Likelihood berusaha menemukan nilai

parameter terbaik yang didukung oleh data training, yaitu
 memaksimalkan peluang mendapatkan sampel yang
diamati sebenarnya.
O Memiliki sifat konvergensi yang baik dengan meningkatnya

ukuran sampel; Diperkirakan nilai parameter mendekati
nilai sebenarnya sebagai n meningkat.
O Lebih simpel dari pada alternative technique lainnya
4
PRINSIP UMUM MAXIMUM
LIKELIHOOD ESTIMATION
O Asumsi  kita memiliki conditional classes dan
P(x | j) ~ N( j, j)
P(x | j)  P (x | j, j), where
  ( j ,  j )  ( 1j,  2j ,...,11
j ,  22
j , cov(x m n
j , x j )...)
Menggunakan kelas j samples untuk estimasi class

j parameters
5
2
The Gaussian Case: Unknown μ
O Example of a specific case: unknown 
O P(x | ) ~ N(, )
(Contoh dari multivariate normal population)
1
d 1
 t
1
lnP(x k |  )   ln (2)   (x k   )  (x k   )
2 2
1
and   lnP( x k |  )   (x k   )
 = , dimana Max Likelihood estimasi untuk  “must satisfy”:

k n
1
  (x k  ˆ )  0
k 31
Pattern Classification, Chapter 6
2
• Multiplying oleh  & penataan ulang, diperoleh:
1 k n
ˆ   x k
n k 1
yang merupakan arithmetic average atau mean dari

samples of the training samples!
Conclusion:
Memberikan P(xk | j), j = 1, 2, …, c menjadi Gaussian pada d-dimensional
feature space, mengestimasi vector  = (1, 2, …, c)t dan performa
classification menggunakan Bayes decision rule ( chapter 2).
Pattern Classification, Chapter 3 7
2
The Gaussian Case :Unknown μ and Σ
O Max Likelihood Estimation:
O Univariate Gaussian Case: unknown &
 = (1, 2) = (, 2)
1 1
l  ln P( x k | )   ln 2 2  ( x k  1 ) 2
2 2 2
  
 (ln P( x k | )) 
1
 l     0
  
 (lnP( x k | )) 
 2 
 1
  (x k  1 )  0
 2
 2
 1  ( x k  1 )  0

 2 2 2 2
2
2
OIntroduction
O Bayesian framework
O Desain secara optimal classifier dengan diketahuinya:
O P(i) : priors
O P(x | i) : class-conditional densities
Unfortunately, we rarely have this complete

information!
O Desain classifier berdasarkan set of labeled

training samples (supervised learning)
O Asumsi: priors diketahui
O Membutuhkan kecukupan jumlah training samples
untuk estimasi class-conditional densities, khususnya
saat dimensi feature space adalah besar
1
PRINSIP UMUM MAXIMUM
LIKELIHOOD ESTIMATION
O Asumsi  kita memiliki conditional classes dan
P(x | j) ~ N( j, j)
P(x | j)  P (x | j, j), where
  ( j ,  j )  ( 1j,  2j ,...,11
j ,  22
j , cov(x m n
j , x j )...)
Menggunakan kelas j samples untuk estimasi class

j parameters
10
2
The Gaussian Case :Unknown μ and Σ
O Max Likelihood Estimation:
O Univariate Gaussian Case: unknown &
 = (1, 2) = (, 2)
1 1
l  ln P( x k | )   ln 2 2  ( x k  1 ) 2
2 2 2
  
 (ln P( x k | )) 
1
 l     0
  
 (lnP( x k | )) 
 2 
 1
  (x k  1 )  0
 2
 2
 1  ( x k  1 )  0

 2 2 2 2
2
2
BIAS
O Estimasi maksimum likelihood untuk σ2 varians adalah bias
1 2 n1 2
E  ( x i  x )   .   2
n  n
O An unbiased estimator untuk  adalah:

1 k n t
C  (x k   )(x k  ˆ )
  n - 1 k1       
Sample covariancematrix
2
3.3 BAYESIAN ESTIMATION
O Estimasi Bayesian (pendekatan Bayesian Learning)
 untuk masalah klasifikasi pola.
O Meskipun nantinya hasil yang di dapat dengan metode ini

umumnya hampir identik dengan hasil maksimum likelihood,
namun terdapat perbedaan secara konseptual, yaitu:
O dalam metode maksimum likelihood kita melihat vektor true
parameter, kita mencari θ, dan harus diperbaiki,
O dalam Bayesian learning, kita mempertimbangkan θ menjadi
variabel acak, dan data training untuk konversi distribusi pada
variabel ini ke densitas (kepadatan) posterior probabilitas.
13
Algorithm 1: Expectation-
Maximization
14
BIAS
O Estimasi maksimum likelihood untuk σ2 varians adalah bias
1 2 n1 2
E  ( x i  x )   .   2
n  n
O An unbiased estimator untuk  adalah:

1 k n t
C  (x k   )(x k  ˆ )
  n - 1 k1       
Sample covariancematrix
2
3.3 BAYESIAN ESTIMATION
O Estimasi Bayesian (pendekatan Bayesian Learning)
 untuk masalah klasifikasi pola.
O Meskipun nantinya hasil yang di dapat dengan metode ini

umumnya hampir identik dengan hasil maksimum likelihood,
namun terdapat perbedaan secara konseptual, yaitu:
O dalam metode maksimum likelihood kita melihat vektor true
O dalam Bayesian learning, kita mempertimbangkan θ menjadi
16
3.4 BAYESIAN PARAMETER
ESTIMATION:GAUSSIAN CASE
Tujuan: Estimate  menggunakan a-posteriori density P( | D)
O Univariate Gaussian case: P( | D)

 adalah sebagai unknown parameter
P(x |  ) ~ N(,  2 )
P( ) ~ N( 0 ,  20 )
0 and 0 are known!
4
3.4.1 The Univariate Case: p(μ|D)
O Kasus di mana μ adalah satu-satunya
parameter yang tidak diketahui.
O Untuk mempermudahnya, kita
memperlakukan pertama kasus univariat :
18
Bayesian Learning
3.4.2 The Univariate Case: p(x|D)
O P( | D) telah dihitung
O P(x | D) masih harus dihitung
P(x | D )   P(x |  ).P( | D )d is Gaussian
membutuhkan:
P(x | D ) ~ N( n ,  2   n2 )
Membutuhkan class-conditional density P(x | Dj, j)

P(x | Dj, j) together with P(j) and using Bayes formula,
we obtain the Bayesian classification rule:
  
Max P( j | x, D  Max P( x |  j , D j ).P( j )

Pattern Classification, Chapter 1 j
20
j
4
3.4.3 The Multivariate Case
O Treatment kasus multivariat dimana

Σ diketahui tapi μ tidak, adalah
langsung
generalisasi dari kasus univariat.
21
3.5 BAYESIAN PARAMETER
ESTIMATION:GENERAL THEORY
O P(x | D) perhitungan dapat diterapkan untuk setiap
situasi dimana kepadatan diketahui dapat parametrized.
O Asumsi dasarnya adalah:
Bentuk P(x | ) diasumsikan diketahui, tapi nilai  tidak
diketahui sebenarnya.
O Pengetahuan tentang  diasumsikan  dikenal sebagai prior
density P()
O The rest of our knowledge about  dikenal sebagai set D of n
random variables x1, x2, …, xn yang mengikuti P(x)
5
The basic problem is:
“Compute the posterior density P( | D)”
then “Derive P(x | D)”
Penggunaan Bayes formula, kita memiliki:
P(D | ).P()
P( | D )  ,
 P(D | ).P()d
Dan melalui asumsi independen:
k n
P(D | )   P( x k | )
k 1
5
Example 1: Recursive Bayes
learning and maximum likelihood
O Metode Recursive Bayes  pembaruan
Bayesian parameter estimasi secara
bertahap pada setiap poin training sampel.
O Pada prinsipnya lebih disukai maksimum

likelihood karena lebih mudah untuk
menerapkan dan dalam batas training set
besar  memberikan pengklasifikasi yang
hampir sama akurat.
24
3.5.1 When do Maximum Likelihood
and Bayes methods differ
O Dalam hampir setiap kasus, maksimum likelihood dan Bayes
Solutions yang setara dalam batas asimtotik data training
terbatas.
O Untuk masalah pengenalan pola praktis yang selalu memiliki
seperangkat data training terbatas  kapan kita harus memilih
MLh or B?
O Kontribusi relatif sumber-sumber ini tergantung pada masalah 

ada argumen teoritis dan metodologis mendukung estimasi
Bayesian, meskipun dalam prakteknya kemungkinan maksimum
likelihood sederhana, dan bila digunakan untuk merancang
pengklasifikasi, dapat menyebabkan pengklasifikasi hampir sama
akurat.
25
O Ada beberapa kriteria yang akan mempengaruhi pilihan:
 komputasi kompleksitas dan metode maksimum likelihood
lebih disukai
O karena hanya memerlukan diferensial teknik kalkulus atau
pencarian gradien, daripada integrasi multidimensi kompleks.
 interpretability.
O Dalam banyak kasus maksimum likelihood akan lebih mudah
untuk ditafsirkan karena ia mengembalikan model tunggal
terbaik dari set desainer yang tersedia. Pendekatan Bayesian
mencerminkan ketidakpastian yang tersisa di
kemungkinan model.
 keyakinan informasi sebelumnya,
O seperti dalam bentuk p distribusi yang mendasari (x | θ). Sebuah
solusi maksimum likelihood p (x | θ) tentu saja harus dari bentuk
parametrik yang diasumsikan; tidak begitu untuk solusi Bayesian.
26
O Ada tiga sumber kesalahan klasifikasi pada final sistem :
1. Bayes atau indistinguish ability error:

kesalahan karena tumpang tindih kepadatan p (x | ωi) untuk nilai yang
berbeda dari i. Kesalahan ini adalah properti yang melekat dari masalah
dan tidak pernah bisa dihilangkan.
2. Model error:
kesalahan karena memiliki model yang tidak sesuai. Kesalahan ini hanya
dapat dihilangkan jika desainer menentukan model yang mencakup model
yang benar yang dihasilkan data.
3. Kesalahan estimasi:
kesalahan yang timbul dari kenyataan bahwa parameter diperkirakan dari
sampel yang terbatas. Kesalahan ini dapat dikurangi dengan meningkatkan
pelatihan data
27
3.5.2 NON-INFORMATIVE PRIORS
AND INVARIANCE
O Analoginya, dalam Bayesian framework kita memiliki "non-
informatif" prior melalui parameter untuk distribusi kategori
tunggal.
O Misalkan kita menggunakan metode Bayesian untuk
menyimpulkan dari data mean dan varians dari Gaussian.
O Apa prior memungkinkan kita pasang di parameter ini?
O Tentunya unit pengukuran spasial - meter, kaki, inci - adalah
historical accident dan tidak relevan dengan bentuk fungsional
prior.
O Sehingga hal ini diimplikasikan sebagai scale invariance:
28
3.6 SUFFICIENT STATISTICS
O Kecukupan statistik  θ adalah fungsi dari sampel
yang berisi semua informasi yang diperlukan untuk
menentukan θ.
O Kecukupan statistik  untuk model tertentu
(misalnya, eksponensial family)  kita hanya perlu
memperkirakan nilainya dari data untuk membuat
classifier  tidak ada fungsi lain dari data yang
relevan.
29
3.6.1 SUFFICIENT STATISTICS
AND THE EXPONENTIAL
FAMILY
O Untuk melihat bagaimana Faktorisasi Teorema
dapat digunakan untuk mendapatkan statistik
yang cukup, pertimbangkan sekali lagi kasus
normal d-dimensi akrab dengan kovarians
tetap tetapi berarti tidak diketahui
30
3.7 PROBLEMS OF
DIMENSIONALITY
O Dalam kategori aplikasi multi praktis, itu sama sekali
tidak biasa menghadapi masalah
melibatkan lima puluh atau seratus fitur, terutama jika
fitur yang biner dihargai.
Kita mungkin biasanya percaya bahwa setiap fitur
berguna untuk setidaknya beberapa dari diskriminasi;
sementara kita dapat meragukan bahwa setiap fitur
memberikan informasi yang independen,
sengaja fitur berlebihan belum disertakan. Ada dua isu
yang
harus dihadapkan. Yang paling penting adalah
bagaimana akurasi klasifikasi tergantung pada
dimensi (dan jumlah data pelatihan); yang kedua adalah
komputasi yang kompleksitas merancang classifier
31
3.7.1 ACCURACY, DIMENSION,
AND TRAINING SAMPLE SIZE
O Jika fitur secara statistik independen, ada
beberapa hasil teoritis yang menyarankan
kemungkinan kinerja yang sangat baik.
O Sebagai contoh, perhatikan dua kelas multivariat
kasus normal dengan kovarians yang sama di
mana p (x | ωj) ~ N (μj, Σ), j =1, 2. Jika a priori
probabilitas yang sama, maka tidak sulit untuk
menunjukkan ( bahwa tingkat kesalahan Bayes
diberikan oleh
32
3.7.3 OVERFITTING
O Ini sering terjadi  jumlah sampel yang tersedia tidak
memadai, dan pertanyaan tentang kelanjutannya
muncul.
O Salah satu kemungkinan adalah untuk mengurangi
dimensi ini, baik dengan mendesain ulang extractor
fitur, dengan memilih bagian yang tepat dari fitur yang
ada, atau dengan menggabungkan fitur yang ada
dalam beberapa cara. kemungkinan lainnya adalah
asumsi semua kelas c berbagi matriks kovarians yang
sama, dan untuk pool data yang tersedia
33
Insufficient Data in Curve Fitting
3.8 Expectation-Maximization
(EM)
O Ide dasar dari harapan maksimalisasi
atau algoritma EM, adalah untuk
iteratively memperkirakan likelihood
dari data yang ada. Metode memiliki
prekursor dalam algoritma
Baum-Welch .
35
Algorithm 1: Expectation-
Maximization
36
3.9 BAYESIAN BELIEF NETWORKS
O Disini akan ditunjukan grafik

dependensi yang dinamakan
bayesian belief networks atau causal
networks  bentuk topologi directed
acyclic graph (DAG)
37
3.10 HIDDEN MARKOV MODELS
O Hidden Markov Model (HMMs) telah
menemukan penggunaan terbesar di
masalah, untuk speech recognition or
gesture recognition.
38
3.10.1 First-order Markov models
O Kami menganggap urutan state pada
successive times ,urutan state setiap
saat t dilambangkan
ω (t). Sebuah urutan tertentu dari
panjang T dilambangkan dengan
39
3.10.2 FIRST-ORDER HIDDEN
MARKOV MODELS
O Kami terus berasumsi bahwa pada setiap
langkah waktu t sistem ini dalam ω negara
(t) tapi sekarang
kami juga menganggap bahwa itu
memancarkan beberapa (terlihat) simbol v
(t). Sementara canggih Markov
model memungkinkan untuk emisi fungsi
kontinu (mis, spektrum), kita akan
membatasi
diri untuk kasus di mana simbol diskrit
dipancarkan
40
CONTOH FIRST-ORDER HIDDEN
MARKOV MODELS
41
ALGORITHM 2: FORWARD
42
ALGORITHM 3: BACKWARD
43
3.10.5 DECODING
O Memberikan sequence dari visibel
state, permasalahan decoding
adalah menemukan urutan
kemungkinan terbaik dari hidden
state.
44
SUMMARY
O Jika kita tahu bentuk parametrik densitas probabilitas kelas-
kondisional  kita dapat mengurangi learning task dari salah
satu temuan distribusinya sendiri .
O Maksimum Likelihood Estimation dan Bayesian Estimation 

hasilnya secara identik hampir sama namun secara konsep
berbeda
O Perbedaan secara konseptual antara maximum likelihood dan

bayesian estimation, yaitu:
 dalam metode maksimum likelihood kita melihat vektor true
 dalam Bayesian learning, kita mempertimbangkan θ menjadi
45
Implementation
O Go to Journal ..................
46

Chapter3 Maximumlikelihoodandbayesianestimation Fix 161208093019

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Chapter3 Maximumlikelihoodandbayesianestimation Fix 161208093019

Uploaded by

Copyright:

Available Formats

“CHAPTER 3”

Oleh : AAN JELLI PRIANA

Unfortunately, we rarely have this complete

O Desain classifier berdasarkan set of labeled

O Metode maksimum Likelihood berusaha menemukan nilai

O Memiliki sifat konvergensi yang baik dengan meningkatnya

O Lebih simpel dari pada alternative technique lainnya

Menggunakan kelas j samples untuk estimasi class

 = , dimana Max Likelihood estimasi untuk  “must satisfy”:

yang merupakan arithmetic average atau mean dari

Pattern Classification, Chapter 3 7

Pattern Classification, Chapter 3 8

Unfortunately, we rarely have this complete

O Desain classifier berdasarkan set of labeled

Menggunakan kelas j samples untuk estimasi class

Pattern Classification, Chapter 3 11

O Estimasi maksimum likelihood untuk σ2 varians adalah bias

O An unbiased estimator untuk  adalah:

Pattern Classification, Chapter 3 12

O Meskipun nantinya hasil yang di dapat dengan metode ini

O Estimasi maksimum likelihood untuk σ2 varians adalah bias

O An unbiased estimator untuk  adalah:

Pattern Classification, Chapter 3 15

O Meskipun nantinya hasil yang di dapat dengan metode ini

Tujuan: Estimate  menggunakan a-posteriori density P( | D)

O Univariate Gaussian case: P( | D)

Pattern Classification, Chapter 1 17

P(x | D )   P(x |  ).P( | D )d is Gaussian

Membutuhkan class-conditional density P(x | Dj, j)

O Treatment kasus multivariat dimana

Pattern Classification, Chapter 1 22

Penggunaan Bayes formula, kita memiliki:

O Pada prinsipnya lebih disukai maksimum

O Kontribusi relatif sumber-sumber ini tergantung pada masalah 

1. Bayes atau indistinguish ability error:

O Disini akan ditunjukan grafik

O Maksimum Likelihood Estimation dan Bayesian Estimation 

O Perbedaan secara konseptual antara maximum likelihood dan

You might also like