You are on page 1of 46

“CHAPTER 3”

Maximum
Likelihood and
Bayesian Estimation

Oleh : AAN JELLI PRIANA


(156150100111022)

1
INTRODUCTION
• Permasalahan estimasi parameter adalah salah satu hal klasik
dalam statistik, yang dapat dilakukan melalui pendekatan
dalam berbagai cara.
• Jika kita tahu bentuk parametrik densitas probabilitas kelas-
kondisional  kita dapat mengurangi learning task dari salah
satu temuan distribusinya sendiri  parameter yang ditemukan
menggunakan hasil distribusi  untuk klasifikasi.
• Kita akan mempertimbangkan dua prosedur umum estimasi
yaitu:

Max
Likelihood Maksimum Likelihood Estimation dan Bayesian
Estimation  hasilnya secara identik hampir sama
namun secara konsep berbeda.

Bayesian 2
OIntroduction
O Bayesian framework
O Desain secara optimal classifier dengan diketahuinya:
O P(i) : priors
O P(x | i) : class-conditional densities

Unfortunately, we rarely have this complete


information!

O Desain classifier berdasarkan set of labeled


training samples (supervised learning)
O Asumsi: priors diketahui
O Membutuhkan kecukupan jumlah training samples
untuk estimasi class-conditional densities, khususnya
saat dimensi feature space adalah besar

1
MAXIMUM LIKELIHOOD
ESTIMATION

O Metode maksimum Likelihood berusaha menemukan nilai


parameter terbaik yang didukung oleh data training, yaitu
 memaksimalkan peluang mendapatkan sampel yang
diamati sebenarnya.

O Memiliki sifat konvergensi yang baik dengan meningkatnya


ukuran sampel; Diperkirakan nilai parameter mendekati
nilai sebenarnya sebagai n meningkat.

O Lebih simpel dari pada alternative technique lainnya

4
PRINSIP UMUM MAXIMUM
LIKELIHOOD ESTIMATION
O Asumsi  kita memiliki conditional classes dan
P(x | j) ~ N( j, j)
P(x | j)  P (x | j, j), where

  ( j ,  j )  ( 1j,  2j ,...,11
j ,  22
j , cov(x m n
j , x j )...)

Menggunakan kelas j samples untuk estimasi class


j parameters
5

2
The Gaussian Case: Unknown μ
O Example of a specific case: unknown 

O P(x | ) ~ N(, )
(Contoh dari multivariate normal population)

1
d 1
 t
1
lnP(x k |  )   ln (2)   (x k   )  (x k   )
2 2
1
and   lnP( x k |  )   (x k   )

 = , dimana Max Likelihood estimasi untuk  “must satisfy”:


k n
1
  (x k  ˆ )  0
k 31
Pattern Classification, Chapter 6

2
• Multiplying oleh  & penataan ulang, diperoleh:

1 k n
ˆ   x k
n k 1

yang merupakan arithmetic average atau mean dari


samples of the training samples!

Conclusion:
Memberikan P(xk | j), j = 1, 2, …, c menjadi Gaussian pada d-dimensional
feature space, mengestimasi vector  = (1, 2, …, c)t dan performa
classification menggunakan Bayes decision rule ( chapter 2).

Pattern Classification, Chapter 3 7

2
The Gaussian Case :Unknown μ and Σ
O Max Likelihood Estimation:
O Univariate Gaussian Case: unknown &
 = (1, 2) = (, 2)

1 1
l  ln P( x k | )   ln 2 2  ( x k  1 ) 2
2 2 2
  
 (ln P( x k | )) 
1
 l     0
  
 (lnP( x k | )) 
 2 
 1
  (x k  1 )  0
 2
 2
 1  ( x k  1 )  0

 2 2 2 2
2

Pattern Classification, Chapter 3 8

2
OIntroduction
O Bayesian framework
O Desain secara optimal classifier dengan diketahuinya:
O P(i) : priors
O P(x | i) : class-conditional densities

Unfortunately, we rarely have this complete


information!

O Desain classifier berdasarkan set of labeled


training samples (supervised learning)
O Asumsi: priors diketahui
O Membutuhkan kecukupan jumlah training samples
untuk estimasi class-conditional densities, khususnya
saat dimensi feature space adalah besar

1
PRINSIP UMUM MAXIMUM
LIKELIHOOD ESTIMATION
O Asumsi  kita memiliki conditional classes dan
P(x | j) ~ N( j, j)
P(x | j)  P (x | j, j), where

  ( j ,  j )  ( 1j,  2j ,...,11
j ,  22
j , cov(x m n
j , x j )...)

Menggunakan kelas j samples untuk estimasi class


j parameters
10

2
The Gaussian Case :Unknown μ and Σ
O Max Likelihood Estimation:
O Univariate Gaussian Case: unknown &
 = (1, 2) = (, 2)

1 1
l  ln P( x k | )   ln 2 2  ( x k  1 ) 2
2 2 2
  
 (ln P( x k | )) 
1
 l     0
  
 (lnP( x k | )) 
 2 
 1
  (x k  1 )  0
 2
 2
 1  ( x k  1 )  0

 2 2 2 2
2

Pattern Classification, Chapter 3 11

2
BIAS

O Estimasi maksimum likelihood untuk σ2 varians adalah bias

1 2 n1 2
E  ( x i  x )   .   2
n  n

O An unbiased estimator untuk  adalah:


1 k n t
C  (x k   )(x k  ˆ )
  n - 1 k1       
Sample covariancematrix

Pattern Classification, Chapter 3 12

2
3.3 BAYESIAN ESTIMATION
O Estimasi Bayesian (pendekatan Bayesian Learning)
 untuk masalah klasifikasi pola.

O Meskipun nantinya hasil yang di dapat dengan metode ini


umumnya hampir identik dengan hasil maksimum likelihood,
namun terdapat perbedaan secara konseptual, yaitu:
O dalam metode maksimum likelihood kita melihat vektor true
parameter, kita mencari θ, dan harus diperbaiki,
O dalam Bayesian learning, kita mempertimbangkan θ menjadi
variabel acak, dan data training untuk konversi distribusi pada
variabel ini ke densitas (kepadatan) posterior probabilitas.

13
Algorithm 1: Expectation-
Maximization

14
BIAS

O Estimasi maksimum likelihood untuk σ2 varians adalah bias

1 2 n1 2
E  ( x i  x )   .   2
n  n

O An unbiased estimator untuk  adalah:


1 k n t
C  (x k   )(x k  ˆ )
  n - 1 k1       
Sample covariancematrix

Pattern Classification, Chapter 3 15

2
3.3 BAYESIAN ESTIMATION
O Estimasi Bayesian (pendekatan Bayesian Learning)
 untuk masalah klasifikasi pola.

O Meskipun nantinya hasil yang di dapat dengan metode ini


umumnya hampir identik dengan hasil maksimum likelihood,
namun terdapat perbedaan secara konseptual, yaitu:
O dalam metode maksimum likelihood kita melihat vektor true
parameter, kita mencari θ, dan harus diperbaiki,
O dalam Bayesian learning, kita mempertimbangkan θ menjadi
variabel acak, dan data training untuk konversi distribusi pada
variabel ini ke densitas (kepadatan) posterior probabilitas.

16
3.4 BAYESIAN PARAMETER
ESTIMATION:GAUSSIAN CASE

Tujuan: Estimate  menggunakan a-posteriori density P( | D)

O Univariate Gaussian case: P( | D)


 adalah sebagai unknown parameter

P(x |  ) ~ N(,  2 )
P( ) ~ N( 0 ,  20 )
0 and 0 are known!

Pattern Classification, Chapter 1 17

4
3.4.1 The Univariate Case: p(μ|D)
O Kasus di mana μ adalah satu-satunya
parameter yang tidak diketahui.
O Untuk mempermudahnya, kita
memperlakukan pertama kasus univariat :

18
Bayesian Learning
3.4.2 The Univariate Case: p(x|D)
O P( | D) telah dihitung
O P(x | D) masih harus dihitung

P(x | D )   P(x |  ).P( | D )d is Gaussian

membutuhkan:
P(x | D ) ~ N( n ,  2   n2 )

Membutuhkan class-conditional density P(x | Dj, j)


P(x | Dj, j) together with P(j) and using Bayes formula,
we obtain the Bayesian classification rule:

  
Max P( j | x, D  Max P( x |  j , D j ).P( j )

Pattern Classification, Chapter 1 j
20
j

4
3.4.3 The Multivariate Case

O Treatment kasus multivariat dimana


Σ diketahui tapi μ tidak, adalah
langsung
generalisasi dari kasus univariat.

21
3.5 BAYESIAN PARAMETER
ESTIMATION:GENERAL THEORY
O P(x | D) perhitungan dapat diterapkan untuk setiap
situasi dimana kepadatan diketahui dapat parametrized.
O Asumsi dasarnya adalah:
Bentuk P(x | ) diasumsikan diketahui, tapi nilai  tidak
diketahui sebenarnya.
O Pengetahuan tentang  diasumsikan  dikenal sebagai prior
density P()
O The rest of our knowledge about  dikenal sebagai set D of n
random variables x1, x2, …, xn yang mengikuti P(x)

Pattern Classification, Chapter 1 22

5
The basic problem is:
“Compute the posterior density P( | D)”
then “Derive P(x | D)”

Penggunaan Bayes formula, kita memiliki:

P(D | ).P()
P( | D )  ,
 P(D | ).P()d
Dan melalui asumsi independen:

k n
P(D | )   P( x k | )
k 1
Pattern Classification, Chapter 1 23

5
Example 1: Recursive Bayes
learning and maximum likelihood
O Metode Recursive Bayes  pembaruan
Bayesian parameter estimasi secara
bertahap pada setiap poin training sampel.

O Pada prinsipnya lebih disukai maksimum


likelihood karena lebih mudah untuk
menerapkan dan dalam batas training set
besar  memberikan pengklasifikasi yang
hampir sama akurat.
24
3.5.1 When do Maximum Likelihood
and Bayes methods differ
O Dalam hampir setiap kasus, maksimum likelihood dan Bayes
Solutions yang setara dalam batas asimtotik data training
terbatas.
O Untuk masalah pengenalan pola praktis yang selalu memiliki
seperangkat data training terbatas  kapan kita harus memilih
MLh or B?

O Kontribusi relatif sumber-sumber ini tergantung pada masalah 


ada argumen teoritis dan metodologis mendukung estimasi
Bayesian, meskipun dalam prakteknya kemungkinan maksimum
likelihood sederhana, dan bila digunakan untuk merancang
pengklasifikasi, dapat menyebabkan pengklasifikasi hampir sama
akurat.
25
O Ada beberapa kriteria yang akan mempengaruhi pilihan:
 komputasi kompleksitas dan metode maksimum likelihood
lebih disukai
O karena hanya memerlukan diferensial teknik kalkulus atau
pencarian gradien, daripada integrasi multidimensi kompleks.
 interpretability.
O Dalam banyak kasus maksimum likelihood akan lebih mudah
untuk ditafsirkan karena ia mengembalikan model tunggal
terbaik dari set desainer yang tersedia. Pendekatan Bayesian
mencerminkan ketidakpastian yang tersisa di
kemungkinan model.
 keyakinan informasi sebelumnya,
O seperti dalam bentuk p distribusi yang mendasari (x | θ). Sebuah
solusi maksimum likelihood p (x | θ) tentu saja harus dari bentuk
parametrik yang diasumsikan; tidak begitu untuk solusi Bayesian.
26
O Ada tiga sumber kesalahan klasifikasi pada final sistem :

1. Bayes atau indistinguish ability error:


kesalahan karena tumpang tindih kepadatan p (x | ωi) untuk nilai yang
berbeda dari i. Kesalahan ini adalah properti yang melekat dari masalah
dan tidak pernah bisa dihilangkan.

2. Model error:
kesalahan karena memiliki model yang tidak sesuai. Kesalahan ini hanya
dapat dihilangkan jika desainer menentukan model yang mencakup model
yang benar yang dihasilkan data.

3. Kesalahan estimasi:
kesalahan yang timbul dari kenyataan bahwa parameter diperkirakan dari
sampel yang terbatas. Kesalahan ini dapat dikurangi dengan meningkatkan
pelatihan data

27
3.5.2 NON-INFORMATIVE PRIORS
AND INVARIANCE
O Analoginya, dalam Bayesian framework kita memiliki "non-
informatif" prior melalui parameter untuk distribusi kategori
tunggal.
O Misalkan kita menggunakan metode Bayesian untuk
menyimpulkan dari data mean dan varians dari Gaussian.
O Apa prior memungkinkan kita pasang di parameter ini?
O Tentunya unit pengukuran spasial - meter, kaki, inci - adalah
historical accident dan tidak relevan dengan bentuk fungsional
prior.
O Sehingga hal ini diimplikasikan sebagai scale invariance:

28
3.6 SUFFICIENT STATISTICS
O Kecukupan statistik  θ adalah fungsi dari sampel
yang berisi semua informasi yang diperlukan untuk
menentukan θ.
O Kecukupan statistik  untuk model tertentu
(misalnya, eksponensial family)  kita hanya perlu
memperkirakan nilainya dari data untuk membuat
classifier  tidak ada fungsi lain dari data yang
relevan.

29
3.6.1 SUFFICIENT STATISTICS
AND THE EXPONENTIAL
FAMILY
O Untuk melihat bagaimana Faktorisasi Teorema
dapat digunakan untuk mendapatkan statistik
yang cukup, pertimbangkan sekali lagi kasus
normal d-dimensi akrab dengan kovarians
tetap tetapi berarti tidak diketahui

30
3.7 PROBLEMS OF
DIMENSIONALITY
O Dalam kategori aplikasi multi praktis, itu sama sekali
tidak biasa menghadapi masalah
melibatkan lima puluh atau seratus fitur, terutama jika
fitur yang biner dihargai.
Kita mungkin biasanya percaya bahwa setiap fitur
berguna untuk setidaknya beberapa dari diskriminasi;
sementara kita dapat meragukan bahwa setiap fitur
memberikan informasi yang independen,
sengaja fitur berlebihan belum disertakan. Ada dua isu
yang
harus dihadapkan. Yang paling penting adalah
bagaimana akurasi klasifikasi tergantung pada
dimensi (dan jumlah data pelatihan); yang kedua adalah
komputasi yang kompleksitas merancang classifier

31
3.7.1 ACCURACY, DIMENSION,
AND TRAINING SAMPLE SIZE
O Jika fitur secara statistik independen, ada
beberapa hasil teoritis yang menyarankan
kemungkinan kinerja yang sangat baik.
O Sebagai contoh, perhatikan dua kelas multivariat
kasus normal dengan kovarians yang sama di
mana p (x | ωj) ~ N (μj, Σ), j =1, 2. Jika a priori
probabilitas yang sama, maka tidak sulit untuk
menunjukkan ( bahwa tingkat kesalahan Bayes
diberikan oleh

32
3.7.3 OVERFITTING
O Ini sering terjadi  jumlah sampel yang tersedia tidak
memadai, dan pertanyaan tentang kelanjutannya
muncul.
O Salah satu kemungkinan adalah untuk mengurangi
dimensi ini, baik dengan mendesain ulang extractor
fitur, dengan memilih bagian yang tepat dari fitur yang
ada, atau dengan menggabungkan fitur yang ada
dalam beberapa cara. kemungkinan lainnya adalah
asumsi semua kelas c berbagi matriks kovarians yang
sama, dan untuk pool data yang tersedia

33
Insufficient Data in Curve Fitting
3.8 Expectation-Maximization
(EM)
O Ide dasar dari harapan maksimalisasi
atau algoritma EM, adalah untuk
iteratively memperkirakan likelihood
dari data yang ada. Metode memiliki
prekursor dalam algoritma
Baum-Welch .

35
Algorithm 1: Expectation-
Maximization

36
3.9 BAYESIAN BELIEF NETWORKS

O Disini akan ditunjukan grafik


dependensi yang dinamakan
bayesian belief networks atau causal
networks  bentuk topologi directed
acyclic graph (DAG)

37
3.10 HIDDEN MARKOV MODELS
O Hidden Markov Model (HMMs) telah
menemukan penggunaan terbesar di
masalah, untuk speech recognition or
gesture recognition.

38
3.10.1 First-order Markov models
O Kami menganggap urutan state pada
successive times ,urutan state setiap
saat t dilambangkan
ω (t). Sebuah urutan tertentu dari
panjang T dilambangkan dengan

39
3.10.2 FIRST-ORDER HIDDEN
MARKOV MODELS
O Kami terus berasumsi bahwa pada setiap
langkah waktu t sistem ini dalam ω negara
(t) tapi sekarang
kami juga menganggap bahwa itu
memancarkan beberapa (terlihat) simbol v
(t). Sementara canggih Markov
model memungkinkan untuk emisi fungsi
kontinu (mis, spektrum), kita akan
membatasi
diri untuk kasus di mana simbol diskrit
dipancarkan
40
CONTOH FIRST-ORDER HIDDEN
MARKOV MODELS

41
ALGORITHM 2: FORWARD

42
ALGORITHM 3: BACKWARD

43
3.10.5 DECODING
O Memberikan sequence dari visibel
state, permasalahan decoding
adalah menemukan urutan
kemungkinan terbaik dari hidden
state.

44
SUMMARY
O Jika kita tahu bentuk parametrik densitas probabilitas kelas-
kondisional  kita dapat mengurangi learning task dari salah
satu temuan distribusinya sendiri .

O Maksimum Likelihood Estimation dan Bayesian Estimation 


hasilnya secara identik hampir sama namun secara konsep
berbeda

O Perbedaan secara konseptual antara maximum likelihood dan


bayesian estimation, yaitu:
 dalam metode maksimum likelihood kita melihat vektor true
parameter, kita mencari θ, dan harus diperbaiki,
 dalam Bayesian learning, kita mempertimbangkan θ menjadi
variabel acak, dan data training untuk konversi distribusi pada
variabel ini ke densitas (kepadatan) posterior probabilitas.
45
Implementation

O Go to Journal ..................

46

You might also like