Máxima Verosimilitud y Estimación Bayesiana de Parámetros PDF

Mxima Verosimilitud y Estimacin
Bayesiana de Parmetros
Reconocimiento de Patrones 2013
Duda Captulo 3
Mxima Verosimilitud y Estimacin

Bayesiana de Parmetros
En general no disponemos de toda la informacin

necesaria para disear un clasificador ptimo con los
mtodos previamente vistos. Se cuenta con un
conocimiento vago y un conjunto de entrenamiento.
Objetivo: encontrar alguna forma de utilizar esta

informacin para disear o entrenar el clasificador
Estimacin de las Priors:
Consideraciones fsicas del problema ( fronteras suaves)

Experiencia previa, grado de creencia
Estimacin de las densidades p(x/w1):
En general: nmero de datos insuficiente (maldicin de la

dimensionalidad)
Si conocemos o suponemos la familia de densidades como
paramtricas el problema se transforma en un problema de
estimacin de parmetros y se reduce significativamente.
Estimacin de parmetros- dos enfoques
posibles:
Estimador de Mxima Verosimilitud (MLE) frecuentistas

Estimacin Bayesiana
Estimador de Mxima Verosimilitud
Los parmetros son cantidades determinsticas

desconocidas
La mejor estimacin es aquella que maximiza la
probabilidad de obtener las muestras observadas
Ventajas:
Buenas propiedades de convergencia a medida que la

cantidad de muestras de entrenamiento aumenta.
Simple
Estimacin Bayesiana
Los parmetros son variables aleatorias con una

cierta distribucin a priori.
Las observaciones o datos aportan informacin
que transforma las probabilidades a priori en
densidades a posteriori.
La observacin de muestras adicionales tiene por
efecto concentrar las densidades a posteriori en
picos ms definidos (aprendizaje bayesiano)

C conjuntos de datos D1....Dc clasificad os ( D j w j )
D j : realizaci n de un proceso aleatorio iid.
p (x / w j ) tiene forma paramtrica conocida
Ej : p (x / w j ) N ( j , j )
Notacin para explicitar dependencia : p (x / w j , j )
con j vector de parmetros desconocid os.
Suponemos : i , j son independientes i j
c problemas de estimacin desacoplados

Di conjunto de muestras , de clase wi estimar p(x/wi ,i )
Notacin simplificada : D Di , i D x1....x n x i R d
n
iid p( D / ) p (x k / )
k 1
p ( D / ) : verosimil itud de respecto a D

MLE arg max p ( D / )
valor de que ms concuerda con las observacio nes.

Como la funcin logaritmic a es creciente estricta :
arg max log p( D / )
l() : log verosimili tud
Condicin necesaria para el estimador M L : l 0

Verificar que es un mximo (Hessiana definida negativa)
Testear todos los mximos locales para encontrar mximo global
Ej: Gaussiana y desconocidas

l (,) log p( D / , )
1 n
d
l (, ) log 2 det( 1 ) (x k )T 1 (x k )
2 k 1
Vamos a buscar los ceros del gradiente con respecto a y 1

n
1 n
l (x k ) n x k
n k 1
k 1
1
M edia muestral
Para calcular el gradiente respecto a -1 precisamos :

A d d a.b dx1
a T Ab traza(a T Ab ) traza( Aba T )
traza( A B) Ail Bil

traza( AT B) B
A
l 1 l 1
traza( AB ) B T
A
traza( AT B) traza( B T A) traza( AB T )
d
det A Aik adj T ( A) ik

k 1
det( A) adj T ( A) ij det A( A1 ) ji

Aij
log det( A) ( A1 ) ji ( AT ) ji A log(det A) AT

Aij
Ej: Gaussiana y desconocidas
1 n
1 l 1 (log( 2 ) d det) 1 traza 1 (x k )(x k )T
2 k 1
1 n T
1 l (x k )(x k )T 0
2 k 1
n
1
(x )(x )T
k
k
n k 1
covarianza muestral
n
1
(x )(x )T
n
k
k
n k 1
Propiedades del MLE

Sea un estimador
sesgo :
b( ) E ( )
- error sistemtico
Si b( ) 0 decimos que es insesgado

Si lim b( ) 0 decimos que es asintoticamente insesgado
n
Ejemplo:
1 n
n x k
n k 1
x k iid N(, )
1 n
E ( ) E (x k ) insesgado
n k 1
n
1
n (x k n )(x k n )T
n k 1
1
1
1
1
T
T
T
T
E ( n ) E (x k x k ) 2 E (x i x j ) E (x k x i ) E (x k x i )
n k
n ij
n i
n i
Ejemplo:
) E x x
1
1
2
E ( ) n n n
n
n
n
E (x )(x
i
1
n 1
E ( n ) 1

n
n
sesgado
n
asintotica
mente
insesgado
Propiedades de un estimador
Independientemente de si asumimos determinista o aleatorio,

su estimacin es una variable aleatoria funcin de las
observaciones.
Para caracterizar un estimador se calcula su sesgo, su varianza
y su error cuadrtico medio.
MSE ( ) E
var E E
b E
Una medida global del comportamiento la brinda el MSE
Compromiso sesgo-varianza de un
estimador
MSE ( ) E E E E
var 2 E E E E
MSE () var b 2
n
b 2
)
MSE (
var
i
i
i 1
Comparacin MLE Estimacin

Bayesiana
Fenmeno general: Procedimientos con mayor

flexibilidad para adaptarse a los datos (mayor nmero de
parmetros libres) tienden a tener menos bias pero mayor
varianza.
Ejemplo : Regresin Pag- 467 Duda.
Compromiso Bias- Varianza
Fig. 2.11 Hastie
Propiedades de un estimador
Obtener estimadores insesgados es deseable.

Compromiso sesgo varianza: En algunos casos el introducir un
pequeo sesgo genera una disminucin significativa de la
varianza y por lo tanto del error cuadrtico medio.
El lmite de Cramer-Rao nos da, para un problema de
estimacin determinado, la mnima varianza de cualquier
estimador insesgado.
Varianza mnima de un estimador

insesgado
Teorema : Cota de Cramer - Rao
Sea p(x/) una pdf tal que : Ex/ ln p(x/) 0
Ex/ f (x) f (x) p(x/)dx
Sea un estimador insesgado de C I 1 0

2
donde I ij Ex/
ln p(x/)
i j
I : M atriz de Fisher C : M atriz de Covarianza
Estimador eficiente
Un estimador insesgado es eficiente si:
) I (
)
C (
) I (
)
var( i ) C (
ii
ii
Def: Un estimador asintticamente insesgado es

asintticamente eficiente si:
C ( ) n
I 1
asintticamente de mnima varianza
Propiedad asinttica del MLE

Cuando n el estimador de mxima verosimil itud ML
de sigue una ley gaussiana N ,I 1

ML es asintticamente insesgago y asintticamente eficiente
En problemas de reconocimiento de patrones con conjunto
de entrenamiento grandes los estimadores asintticamente
insesgados son aceptables.
Si tenemos modelos paramtricos adecuados que ajustan a
los datos el estimador MLE da resultados muy buenos.
Qu pasa si asumimos un modelo no ajustado?
p( x / w1 ) N (3,1) azul
p( x / w2 ) N (6,10) verde - distribucin real de los datos
p( x / w2 ) N ( ,1) roja - modelo asumido
umbral propuesto: 4,5
umbral ptimo 5
Estimacin Bayesiana
1.
2.
3.
Estimacin de densidades utilizando toda la

informacin disponible: Prioris y Datos.
Hiptesis:
p(x/): conocida pero no se conoce el vector de
parmetros en forma exacta.
Conocimiento a priori de en p().
Resto del conocimiento a cerca de est
contenido en el conjunto D de muestras tomadas
en forma iid de acuerdo a p(x) desconocida.
Estimacin Bayesiana
c
D Di
Di D j
Di wi : muestras de entrenamie nto clase i

D : conjunto de muestras de entrenamie nto
x : una muestra sin clasificar
p (x / wi , D) P( wi / D)
P( wi / x, D) c
p(x / w j , D) P( w j / D)
j 1
supondremos : P( wi / D) P( wi ) prioris conocidas
i j las muestras Di no tienen influencia sobre p(x / w j , D) :

esto es p(x / w j , D) p(x / w j , D j ) j
P(wi / x, D)
p(x / wi , Di ) P(wi )
c
p(x / w , D ) P(w )
j 1
Podemos tratar cada clase de forma independiente

para aliviar notacin : Di D, wi w
p(x / w, D) P(w)
P(w / x, D)
p(x / D)
Distribucin de parmetros
Supondremos que la densidad p(x) es paramtrica de

forma conocida y parmetros desconocidos ( p(x/ )
completamente conocida)
La observacin de muestras aporta nueva informacin

y da lugar a la probabilidad a posteriori p(/D) que
esperamos que sea ms en pico en torno al verdadero
valor de que el prior p() conocida.
Distribucin de parmetros
Objetivo: Encontrar p(x/D) que es lo ms cerca que
puedo estar de p(x).
p(x / D) p (x, / D)d

p(x, / D) p(x / , D) p( / D)
p (x / D) p (x / ) p ( / D)d
usando Bayes :
p( / D)
p ( D / ) p ()
p( D / ) p()d
Ejemplo:
p ( x / ) N ( , 2 ) 2 : conocido ,
prior sobre p ( ) N ( 0 , 0 ),
2
0 : lo que creemos
0 2 : incertidum bre
p( D / ) p( )
p( / D)
p( D / ) p( )d
D x1 ,......xn
independientes
1 n xk 2 0 2
p ( / D) p (xk / ) p ( ) exp
2
2
2 k 1
k 1
0
n
1 n
1
1
2
0
exp 2 2 2 2 xk 2
2
0
0
k 1
1
1 n

p( / D)
exp
2 n
2 n
Identificando coeficient es :
n
1
1
2 2 2
n
0
n n n 0
n 2 2 0 2
2
n 0
2
n
0
n
2
2
2
2
n 0
n 0
2
2
2
0
n n 2 2
0
i) n 0 : al aumentar la cantidad de muestras disminuye incertidum bre

n
ii) n n : la influencia del prior disminuye

n
iii) si 0 n n : confiamos ms en los datos que en los priors

si 0 0 n 0 : tenemos confianza n 0 .
Fig. 3.2 Duda
Obtenida densidad a posteriori, podemos calcular p(x/D)

p(x/D) p(x/)p(/D)d
1 x 2 n 2
d
exp
2
2
2
2 n
n
1 x n 2
1
f ( , n , x) exp
2
2
2 n
2 n
2
2
2
1 2 2
n
n
n
donde f ( , n , x) exp
d
2
2
2 2 2
n
R
n
1 2
n
d 2 con
f ( , n , x) exp
2
2
n
1
2
p( x / D) N ( n , n )
2
n : incertidum bre en la estimacin de n

: incertidum bre nuestra medida
Esto es vlido para cada clase,
determinam os p(x/w j ,D j ) j 1..c
Clasificac in : P ( w j / x, D) kp( x / w j , D j ) P ( w j )
Decido x w j* con j* a rg max P ( w j / x, D)
j
Estimacin Bayesiana
A diferencia de MLE que para la estimacin de

p(x/D) tiene en cuenta una estimacin puntual de
los parmetros en la estimacin Bayesiana integra
la densidad a posteriori p(/D) .
Para el caso gaussiano multivariado el resultado
es anlogo considerando vectores medias y
matrices covarianza.
Com hacemos los clculos con densidades
cualesquiera?
Aprendizaje Bayesiano Recursivo

Incremental
n
D x1...x n iid p(x/) p( D / ) p (x k / )

i 1
p ( / D)
p ( D / ) p ()
p( D / ) p()d
Notemos : D i x1...x i i 1,...n

p ( D n / ) p ( D n 1 / ) p(x n / )
p ( / D 0 ) p () prior
p ( / D n )
p (x n / ) p ( / D n 1 )
n 1
p
(
x
/
)
p
(
/
D
)d
n
Vnculo con el MLE

Si pD/ tiene un pico pronunciado en
y p 0 con p suave en un entorno de ,
como p / D pD/ p ,
p / D tambin t iene un pico pronunciado en
p (x / D) p (x / ) p / D d p (x / ) verosimilitud
Estimador MAP
MAP arg max p ( / D) arg max ln p ( D / ) ln p()
si p() cte MAP MLE

El estimador M AP no est bien visto por los Bayesianos
ya que reduce una densidad a un valor determinis ta
Overfitting y rol del prior

Considerem os a modo de ejemplo :
Se tiene una base ortonormal de funciones g1,....g m
y un conjunto de medidas yi f(xi ) i 1.....n
Objetivo : encontrar un vector 1..... m tal que :
T
yi f(xi ) j g j ( xi ) " explique bien" los datos.

j1
Se busca favorecer la descripcin ms sencilla : una forma

2
es minimizand o .
g1 ( x1 ).......g m ( x1 )
g1 ( x2 ).......g m ( x2 )
G
...........................
g ( x ).......g ( x )
m
n
1 n
Notacin : Y y1 ,..... yn
M odelo : Y - G N (0, d I ) p ( D / )
2
Prior : N (0, m I ) p ()
2
MAP arg max ln p ( D / ) ln p ()
1
1
T
T
(Y G) (Y G)

MAP arg max
2
2
2 m
2 d
1
1
T
T
0 2 G Y 2 G G 2
d
m
d
G G I
T
MAP
GT Y
T
2 1
T
G
G
I
G
Y
MAP
El trmino y por ende el prior, tiene un efecto de

2
regulariza cin/ estabilizacin de la solucin, evitando el

overfitting a los datos de entrenamie nto. Si G T G est mal
condiciona da un pequeo cambio en los datos Y da lugar a un
completamente distinto. Al sumar 2 I disminuye este efecto

MAP
y la solucin se vuelve ms estable.
Comparacin MLE Estimacin

Bayesiana
1.
2.
3.
Para prioris razonables ambas soluciones son equivalentes cuando n .

Qu pasa con conjunto de datos limitados?
Complejidad:
1.
MLE: Clculo diferencial , mtodos gradiente.
2.
Bayesiano: Integracin multidimensional.
Interpretabilidad:
1.
MLE: ms fcil de intrepretar.
2.
Bayesiano: promedio ponderado de los modelos, refleja incertidumbre.
Confianza en la informacin a priori.
1.
MLE: asume la forma paramtrica original
2.
Bayesiano: no asume la forma paramtrica original. Ej gaussiana
varianza conocida.

Máxima Verosimilitud y Estimación Bayesiana de Parámetros PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Máxima Verosimilitud y Estimación Bayesiana de Parámetros PDF

Uploaded by

Copyright:

Available Formats

Mxima Verosimilitud y Estimacin

Mxima Verosimilitud y Estimacin

En general no disponemos de toda la informacin

Objetivo: encontrar alguna forma de utilizar esta

Estimacin de las Priors:

Consideraciones fsicas del problema ( fronteras suaves)

Estimacin de las densidades p(x/w1):

En general: nmero de datos insuficiente (maldicin de la

Estimacin de parmetros- dos enfoques

Estimador de Mxima Verosimilitud (MLE) frecuentistas

Estimador de Mxima Verosimilitud

Los parmetros son cantidades determinsticas

Buenas propiedades de convergencia a medida que la

Los parmetros son variables aleatorias con una

Estimador de Mxima Verosimilitud

Estimador de Mxima Verosimilitud

p ( D / ) : verosimil itud de respecto a D

valor de que ms concuerda con las observacio nes.

Estimador de Mxima Verosimilitud

l() : log verosimili tud

Condicin necesaria para el estimador M L : l 0

Ej: Gaussiana y desconocidas

Vamos a buscar los ceros del gradiente con respecto a y 1

Para calcular el gradiente respecto a -1 precisamos :

traza( A B) Ail Bil

det A Aik adj T ( A) ik

det( A) adj T ( A) ij det A( A1 ) ji

log det( A) ( A1 ) ji ( AT ) ji A log(det A) AT

Ej: Gaussiana y desconocidas

Propiedades del MLE

Si b( ) 0 decimos que es insesgado

Independientemente de si asumimos determinista o aleatorio,

Una medida global del comportamiento la brinda el MSE

Comparacin MLE Estimacin

Fenmeno general: Procedimientos con mayor

Ejemplo : Regresin Pag- 467 Duda.

Compromiso Bias- Varianza

Fig. 2.11 Hastie

Obtener estimadores insesgados es deseable.

Varianza mnima de un estimador

Sea un estimador insesgado de C I 1 0

I : M atriz de Fisher C : M atriz de Covarianza

Un estimador insesgado es eficiente si:

Def: Un estimador asintticamente insesgado es

asintticamente de mnima varianza

Propiedad asinttica del MLE

de sigue una ley gaussiana N ,I 1

Estimacin de densidades utilizando toda la

Di wi : muestras de entrenamie nto clase i

supondremos : P( wi / D) P( wi ) prioris conocidas

i j las muestras Di no tienen influencia sobre p(x / w j , D) :

Podemos tratar cada clase de forma independiente

Supondremos que la densidad p(x) es paramtrica de

La observacin de muestras aporta nueva informacin

p(x / D) p (x, / D)d

i) n 0 : al aumentar la cantidad de muestras disminuye incertidum bre

ii) n n : la influencia del prior disminuye

iii) si 0 n n : confiamos ms en los datos que en los priors

Fig. 3.2 Duda

Obtenida densidad a posteriori, podemos calcular p(x/D)

n : incertidum bre en la estimacin de n

A diferencia de MLE que para la estimacin de

Aprendizaje Bayesiano Recursivo