You are on page 1of 42

Mxima Verosimilitud y Estimacin

Bayesiana de Parmetros
Reconocimiento de Patrones 2013
Duda Captulo 3

Mxima Verosimilitud y Estimacin


Bayesiana de Parmetros

En general no disponemos de toda la informacin


necesaria para disear un clasificador ptimo con los
mtodos previamente vistos. Se cuenta con un
conocimiento vago y un conjunto de entrenamiento.

Objetivo: encontrar alguna forma de utilizar esta


informacin para disear o entrenar el clasificador

Estimacin de las Priors:

Consideraciones fsicas del problema ( fronteras suaves)


Experiencia previa, grado de creencia

Estimacin de las densidades p(x/w1):

En general: nmero de datos insuficiente (maldicin de la


dimensionalidad)
Si conocemos o suponemos la familia de densidades como
paramtricas el problema se transforma en un problema de
estimacin de parmetros y se reduce significativamente.

Estimacin de parmetros- dos enfoques

posibles:

Estimador de Mxima Verosimilitud (MLE) frecuentistas


Estimacin Bayesiana

Estimador de Mxima Verosimilitud

Los parmetros son cantidades determinsticas


desconocidas
La mejor estimacin es aquella que maximiza la
probabilidad de obtener las muestras observadas
Ventajas:

Buenas propiedades de convergencia a medida que la


cantidad de muestras de entrenamiento aumenta.
Simple

Estimacin Bayesiana

Los parmetros son variables aleatorias con una


cierta distribucin a priori.
Las observaciones o datos aportan informacin
que transforma las probabilidades a priori en
densidades a posteriori.
La observacin de muestras adicionales tiene por
efecto concentrar las densidades a posteriori en
picos ms definidos (aprendizaje bayesiano)

Estimador de Mxima Verosimilitud


C conjuntos de datos D1....Dc clasificad os ( D j w j )
D j : realizaci n de un proceso aleatorio iid.
p (x / w j ) tiene forma paramtrica conocida
Ej : p (x / w j ) N ( j , j )
Notacin para explicitar dependencia : p (x / w j , j )
con j vector de parmetros desconocid os.
Suponemos : i , j son independientes i j
c problemas de estimacin desacoplados

Estimador de Mxima Verosimilitud


Di conjunto de muestras , de clase wi estimar p(x/wi ,i )
Notacin simplificada : D Di , i D x1....x n x i R d
n

iid p( D / ) p (x k / )
k 1

p ( D / ) : verosimil itud de respecto a D


MLE arg max p ( D / )

valor de que ms concuerda con las observacio nes.

Estimador de Mxima Verosimilitud


Como la funcin logaritmic a es creciente estricta :
arg max log p( D / )

l() : log verosimili tud

Condicin necesaria para el estimador M L : l 0


Verificar que es un mximo (Hessiana definida negativa)
Testear todos los mximos locales para encontrar mximo global

Ej: Gaussiana y desconocidas


l (,) log p( D / , )

1 n
d
l (, ) log 2 det( 1 ) (x k )T 1 (x k )
2 k 1

Vamos a buscar los ceros del gradiente con respecto a y 1


n

1 n
l (x k ) n x k
n k 1
k 1
1

M edia muestral

Para calcular el gradiente respecto a -1 precisamos :


A d d a.b dx1
a T Ab traza(a T Ab ) traza( Aba T )

traza( A B) Ail Bil


traza( AT B) B
A
l 1 l 1

traza( AB ) B T
A
traza( AT B) traza( B T A) traza( AB T )
d

det A Aik adj T ( A) ik


k 1

det( A) adj T ( A) ij det A( A1 ) ji


Aij

log det( A) ( A1 ) ji ( AT ) ji A log(det A) AT


Aij

Ej: Gaussiana y desconocidas

1 n
1 l 1 (log( 2 ) d det) 1 traza 1 (x k )(x k )T
2 k 1
1 n T
1 l (x k )(x k )T 0
2 k 1
n
1
(x )(x )T

k
k
n k 1

covarianza muestral

n
1
(x )(x )T

n
k
k
n k 1

Propiedades del MLE


Sea un estimador
sesgo :

b( ) E ( )

- error sistemtico

Si b( ) 0 decimos que es insesgado


Si lim b( ) 0 decimos que es asintoticamente insesgado
n

Ejemplo:
1 n
n x k
n k 1

x k iid N(, )

1 n
E ( ) E (x k ) insesgado
n k 1
n
1
n (x k n )(x k n )T
n k 1

1
1
1
1
T
T
T
T
E ( n ) E (x k x k ) 2 E (x i x j ) E (x k x i ) E (x k x i )
n k
n ij
n i
n i

Ejemplo:
) E x x
1
1
2

E ( ) n n n
n
n
n
E (x )(x
i

1
n 1

E ( n ) 1

n
n
sesgado

n
asintotica
mente
insesgado

Propiedades de un estimador

Independientemente de si asumimos determinista o aleatorio,


su estimacin es una variable aleatoria funcin de las
observaciones.
Para caracterizar un estimador se calcula su sesgo, su varianza
y su error cuadrtico medio.

MSE ( ) E

var E E
b E

Una medida global del comportamiento la brinda el MSE

Compromiso sesgo-varianza de un
estimador

MSE ( ) E E E E

var 2 E E E E

MSE () var b 2
n

b 2
)
MSE (
var

i
i
i 1

Comparacin MLE Estimacin


Bayesiana

Fenmeno general: Procedimientos con mayor


flexibilidad para adaptarse a los datos (mayor nmero de
parmetros libres) tienden a tener menos bias pero mayor
varianza.

Ejemplo : Regresin Pag- 467 Duda.

Compromiso Bias- Varianza

Fig. 2.11 Hastie

Propiedades de un estimador

Obtener estimadores insesgados es deseable.


Compromiso sesgo varianza: En algunos casos el introducir un
pequeo sesgo genera una disminucin significativa de la
varianza y por lo tanto del error cuadrtico medio.
El lmite de Cramer-Rao nos da, para un problema de
estimacin determinado, la mnima varianza de cualquier
estimador insesgado.

Varianza mnima de un estimador


insesgado
Teorema : Cota de Cramer - Rao
Sea p(x/) una pdf tal que : Ex/ ln p(x/) 0
Ex/ f (x) f (x) p(x/)dx

Sea un estimador insesgado de C I 1 0


2

donde I ij Ex/
ln p(x/)
i j

I : M atriz de Fisher C : M atriz de Covarianza

Estimador eficiente

Un estimador insesgado es eficiente si:

) I (
)
C (

) I (
)
var( i ) C (
ii
ii

Def: Un estimador asintticamente insesgado es


asintticamente eficiente si:

C ( ) n
I 1

asintticamente de mnima varianza

Propiedad asinttica del MLE


Cuando n el estimador de mxima verosimil itud ML

de sigue una ley gaussiana N ,I 1


ML es asintticamente insesgago y asintticamente eficiente
En problemas de reconocimiento de patrones con conjunto
de entrenamiento grandes los estimadores asintticamente
insesgados son aceptables.
Si tenemos modelos paramtricos adecuados que ajustan a
los datos el estimador MLE da resultados muy buenos.
Qu pasa si asumimos un modelo no ajustado?

p( x / w1 ) N (3,1) azul
p( x / w2 ) N (6,10) verde - distribucin real de los datos
p( x / w2 ) N ( ,1) roja - modelo asumido
umbral propuesto: 4,5
umbral ptimo 5

Estimacin Bayesiana

1.

2.
3.

Estimacin de densidades utilizando toda la


informacin disponible: Prioris y Datos.
Hiptesis:
p(x/): conocida pero no se conoce el vector de
parmetros en forma exacta.
Conocimiento a priori de en p().
Resto del conocimiento a cerca de est
contenido en el conjunto D de muestras tomadas
en forma iid de acuerdo a p(x) desconocida.

Estimacin Bayesiana
c

D Di

Di D j

Di wi : muestras de entrenamie nto clase i


D : conjunto de muestras de entrenamie nto
x : una muestra sin clasificar
p (x / wi , D) P( wi / D)
P( wi / x, D) c
p(x / w j , D) P( w j / D)
j 1

supondremos : P( wi / D) P( wi ) prioris conocidas

i j las muestras Di no tienen influencia sobre p(x / w j , D) :


esto es p(x / w j , D) p(x / w j , D j ) j
P(wi / x, D)

p(x / wi , Di ) P(wi )
c

p(x / w , D ) P(w )
j 1

Podemos tratar cada clase de forma independiente


para aliviar notacin : Di D, wi w
p(x / w, D) P(w)
P(w / x, D)
p(x / D)

Distribucin de parmetros

Supondremos que la densidad p(x) es paramtrica de


forma conocida y parmetros desconocidos ( p(x/ )
completamente conocida)

La observacin de muestras aporta nueva informacin


y da lugar a la probabilidad a posteriori p(/D) que
esperamos que sea ms en pico en torno al verdadero
valor de que el prior p() conocida.

Distribucin de parmetros
Objetivo: Encontrar p(x/D) que es lo ms cerca que
puedo estar de p(x).

p(x / D) p (x, / D)d


p(x, / D) p(x / , D) p( / D)
p (x / D) p (x / ) p ( / D)d
usando Bayes :

p( / D)

p ( D / ) p ()

p( D / ) p()d

Ejemplo:
p ( x / ) N ( , 2 ) 2 : conocido ,
prior sobre p ( ) N ( 0 , 0 ),
2

0 : lo que creemos

0 2 : incertidum bre
p( D / ) p( )
p( / D)
p( D / ) p( )d

D x1 ,......xn

independientes

1 n xk 2 0 2

p ( / D) p (xk / ) p ( ) exp

2
2

2 k 1

k 1
0

n
1 n

1
1
2
0

exp 2 2 2 2 xk 2
2
0
0
k 1

1
1 n

p( / D)
exp
2 n
2 n
Identificando coeficient es :

n
1
1

2 2 2
n
0

n n n 0
n 2 2 0 2
2

n 0
2
n
0
n
2
2
2
2
n 0
n 0

2
2

2
0
n n 2 2
0

i) n 0 : al aumentar la cantidad de muestras disminuye incertidum bre


n

ii) n n : la influencia del prior disminuye


n

iii) si 0 n n : confiamos ms en los datos que en los priors


si 0 0 n 0 : tenemos confianza n 0 .

Fig. 3.2 Duda

Obtenida densidad a posteriori, podemos calcular p(x/D)


p(x/D) p(x/)p(/D)d
1 x 2 n 2
d

exp

2
2
2

2 n
n

1 x n 2
1

f ( , n , x) exp
2
2
2 n
2 n
2
2
2
1 2 2

n
n
n
donde f ( , n , x) exp

d
2
2

2 2 2

n
R
n

1 2
n

d 2 con
f ( , n , x) exp
2
2

n
1
2

p( x / D) N ( n , n )
2

n : incertidum bre en la estimacin de n


: incertidum bre nuestra medida
Esto es vlido para cada clase,
determinam os p(x/w j ,D j ) j 1..c
Clasificac in : P ( w j / x, D) kp( x / w j , D j ) P ( w j )
Decido x w j* con j* a rg max P ( w j / x, D)
j

Estimacin Bayesiana

A diferencia de MLE que para la estimacin de


p(x/D) tiene en cuenta una estimacin puntual de
los parmetros en la estimacin Bayesiana integra
la densidad a posteriori p(/D) .
Para el caso gaussiano multivariado el resultado
es anlogo considerando vectores medias y
matrices covarianza.
Com hacemos los clculos con densidades
cualesquiera?

Aprendizaje Bayesiano Recursivo


Incremental
n

D x1...x n iid p(x/) p( D / ) p (x k / )


i 1

p ( / D)

p ( D / ) p ()

p( D / ) p()d

Notemos : D i x1...x i i 1,...n


p ( D n / ) p ( D n 1 / ) p(x n / )
p ( / D 0 ) p () prior
p ( / D n )

p (x n / ) p ( / D n 1 )

n 1
p
(
x
/

)
p
(

/
D
)d
n

Vnculo con el MLE


Si pD/ tiene un pico pronunciado en
y p 0 con p suave en un entorno de ,
como p / D pD/ p ,
p / D tambin t iene un pico pronunciado en

p (x / D) p (x / ) p / D d p (x / ) verosimilitud

Estimador MAP
MAP arg max p ( / D) arg max ln p ( D / ) ln p()

si p() cte MAP MLE


El estimador M AP no est bien visto por los Bayesianos
ya que reduce una densidad a un valor determinis ta

Overfitting y rol del prior


Considerem os a modo de ejemplo :
Se tiene una base ortonormal de funciones g1,....g m
y un conjunto de medidas yi f(xi ) i 1.....n
Objetivo : encontrar un vector 1..... m tal que :
T

yi f(xi ) j g j ( xi ) " explique bien" los datos.


j1

Se busca favorecer la descripcin ms sencilla : una forma


2

es minimizand o .

g1 ( x1 ).......g m ( x1 )

g1 ( x2 ).......g m ( x2 )
G
...........................

g ( x ).......g ( x )
m
n
1 n

Notacin : Y y1 ,..... yn

M odelo : Y - G N (0, d I ) p ( D / )
2

Prior : N (0, m I ) p ()
2

MAP arg max ln p ( D / ) ln p ()

1
1
T
T

(Y G) (Y G)

MAP arg max
2
2

2 m
2 d

1
1
T
T
0 2 G Y 2 G G 2

d
m
d

G G I
T

MAP

GT Y

T
2 1
T

G
G

I
G
Y
MAP

El trmino y por ende el prior, tiene un efecto de


2

regulariza cin/ estabilizacin de la solucin, evitando el


overfitting a los datos de entrenamie nto. Si G T G est mal
condiciona da un pequeo cambio en los datos Y da lugar a un

completamente distinto. Al sumar 2 I disminuye este efecto


MAP

y la solucin se vuelve ms estable.

Comparacin MLE Estimacin


Bayesiana

1.

2.

3.

Para prioris razonables ambas soluciones son equivalentes cuando n .


Qu pasa con conjunto de datos limitados?
Complejidad:
1.
MLE: Clculo diferencial , mtodos gradiente.
2.
Bayesiano: Integracin multidimensional.
Interpretabilidad:
1.
MLE: ms fcil de intrepretar.
2.
Bayesiano: promedio ponderado de los modelos, refleja incertidumbre.
Confianza en la informacin a priori.
1.
MLE: asume la forma paramtrica original
2.
Bayesiano: no asume la forma paramtrica original. Ej gaussiana
varianza conocida.

You might also like