Professional Documents
Culture Documents
4 Clasicadores Bayesianos
Concha Bielza, Pedro Larranaga Departamento de Inteligencia Articial Universidad Politecnica de Madrid
Modelos bsicos
Nave Bayes (Minsky, 1961) Seminave Bayes (Pazzani, 1997) Nave Bayes aumentado a rbol (Friedman y col., 1997) Clasicador Bayesiano k -dependiente (Sahami, 1996) Red Bayesiana (Jensen, 2001)
Clasicadores Bayesianos
Clasicacin Supervisada con Paradigmas Probabilistas : (x1 , . . . , xn ) {1, 2, . . . , r0 } Matriz de costes: co(r, s) Minimizacin del coste total de errores
r0
(x) = arg m n
k c=1
co(k, c)p(c|x1 , . . . , xn )
Nave Bayes
Formulacin clsica de un problema de diagnstico
m diagnsticos posibles no excluyentes
X1 (x(1) , y(1) ) (x(2) , y(2) ) ... (x(N ) , y(N ) ) x1
(N )
...
Xn xn xn xn
(1) (2)
Y1 y1 y1 y1
(1) (2)
...
Ym ym ym ym
(1) (2)
x1 x1
(1) (2)
(N )
(N )
(N )
Nave Bayes
Formulacin clsica de un problema de diagnstico
) = arg , . . . , ym (y 1 (y1 ,...,ym )
m ax
p(Y1 = y1 , . . . , Ym = ym |X1 = x1 , . . . , Xn = xn )
p(Y1 = y1 , . . . , Ym = ym |X1 = x1 , . . . , Xn = xn ) p(Y1 = y1 , . . . , Ym = ym )p(X1 = x1 , . . . , Xn = xn |Y1 = y1 , . . . , Ym = ym ) nmero de parmetros a estimar: 2m 1 + 2m (2n 1) m 3 5 10 n 10 20 50 parmetros 8 103 33 106 11 1017
Nave Bayes
Diagnsticos excluyentes
c = arg m ax p(C = c|X1 = x1 , . . . , Xn = xn )
c
p(C = c|X1 = x1 , . . . , Xn = xn ) p(C = c)p(X1 = x1 , . . . , Xn = xn |C = c) nmero de parmetros a estimar: (r0 1) + r0 (2n 1) r0 3 5 10 n 10 20 50 parmetros 3 103 5 106 11 1015
Nave Bayes
Diagnsticos excluyentes y variables condicionalmente independientes dado el diagnstico (nave Bayes)
c = arg m ax p(C = c|X1 = x1 , . . . , Xn = xn )
c n
= arg m ax p(C = c)
c i=1
p(Xi = xi |C = c)
Nave Bayes
Nave Bayes (Minsky, 1961) Variables predictoras condicionalmente independientes dada C Predictoras discretas
n
c = arg m ax p(C = c)
c i=1
p(Xi = xi |C = c)
ax p(C = c) c = arg m
c i=1
1 1 2 e c 2i
xi c i c i
Nave Bayes
Nave Bayes
X1
X2
X3
...
Xn
Seminave Bayes
Paso 1. Inicializar el conjunto de variables a utilizar a vaco. Clasificar todos los ejemplos como pertenecientes a la clase ms frecuente Paso 2. Repetir en cada paso la mejor opcin entre: (a) Considerar cada variable que no est en el modelo como una variable a incluir en el modelo. Dicha variable debe incluirse condicionalmente independiente de las variables presentes en el modelo, dada la variable clase (b) Juntar cada variable no presente en el modelo con una variable que ya forme parte del mismo Evaluar cada posible opcin por medio de la estimacin del porcentaje de bien clasificados Hasta que ninguna opcin produzca mejoras
Seminave Bayes
Seminave Bayes
C
Y,V
Y,V
I (X, Y ) =
i=1 j =1
p(xi , yj ) log
I (X, Y |C )
p(c)I (X, Y |C = c)
c rX r Y r0
=
i=1 j =1 k=1
p(xi , yj , ck ) log
Paso 1. Calcular I (Xi , Xj | C ) con i < j, i, j = 1, . . . , n Paso 2. Construir un grafo no dirigido completo cuyos nodos corresponden a las variables predictoras: X1 , . . . , Xn . Asignar a cada arista conectando las variables Xi y Xj un peso dado por I (Xi , Xj | C ) Paso 3. Asignar las dos aristas de mayor peso al rbol a construir Paso 4. Examinar la siguiente arista de mayor peso, y aadirla al rbol a no ser que forme un ciclo, en cuyo caso se descarta y se examina la siguiente arista de mayor peso Paso 5. Repetir el paso 4 hasta seleccionar n 1 aristas Paso 6. Transformar el rbol no dirigido resultante en uno dirigido escogiendo una variable como raiz, para a continuacin direccionar el resto de aristas Paso 7. Construir un modelo TAN aadiendo un nodo etiquetado como C y posteriormente un arco desde C a cada variable predictora Xi
Z W
Z W
Z W
Z W
Z W
Z W
Z W
Proceso de construccin de TAN. I (X, Z |C ) > I (Y, V |C ) > I (X, Y |C ) > I (Z, V |C ) > I (X, V |C ) > I (Z, W |C ) > I (X, W |C ) > I (Y, Z |C ) > I (Y, W |C ) > I (V, W |C ) p(c|x, y, z, v, w) p(c)p(x|c)p(y |x, c)p(z |x, c)p(v |y, c)p(w|z, c)
variables
X1
X2
X3
X4
X5
X3
Proceso de construccin de kDB con k = 2. I (X3 , C ) > I (X1 , C ) > I (X4 , C ) > I (X5 , C ) > I (X2 , C ) I (X3 , X4 |C ) > I (X2 , X5 |C ) > I (X1 , X3 |C ) > I (X1 , X2 |C ) > I (X2 , X4 |C ) > I (X2 , X3 |C ) > I (X1 , X4 |C ) > I (X4 , X5 |C ) > I (X1 , X5 |C ) > I (X3 , X5 |C )
X1
X3
X1
X3
X4
Proceso de construccin de kDB con k = 2. I (X3 , C ) > I (X1 , C ) > I (X4 , C ) > I (X5 , C ) > I (X2 , C ) I (X3 , X4 |C ) > I (X2 , X5 |C ) > I (X1 , X3 |C ) > I (X1 , X2 |C ) > I (X2 , X4 |C ) > I (X2 , X3 |C ) > I (X1 , X4 |C ) > I (X4 , X5 |C ) > I (X1 , X5 |C ) > I (X3 , X5 |C ) p(c|x1 , x2 , x3 , x4 , x5 )
X1
X3
X4
X5
X1
X2
X3
X4
X5
Proceso de construccin de kDB con k = 2. I (X3 , C ) > I (X1 , C ) > I (X4 , C ) > I (X5 , C ) > I (X2 , C ) I (X3 , X4 |C ) > I (X2 , X5 |C ) > I (X1 , X3 |C ) > I (X1 , X2 |C ) > I (X2 , X4 |C ) > I (X2 , X3 |C ) > I (X1 , X4 |C ) > I (X4 , X5 |C ) > I (X1 , X5 |C ) > I (X3 , X5 |C ) p(c|x1 , x2 , x3 , x4 , x5 ) p(c)p(x1 |x3 , c)p(x2 |x1 , x5 , c)p(x3 |c)p(x4 |x1 , x3 , c)p(x5 |x1 , x4 , c)
X1 X3 X4
p(X1 p(X2 p(X2 p(X3 p(X3 = 0) = 0,20 = 0|X1 = 0) = 0,80 = 0|X1 = 1) = 0,80 = 0|X1 = 0) = 0,20 = 0|X1 = 1) = 0,05 p(X4 p(X4 p(X4 p(X4 p(X5 p(X5 = 0|X2 = 0|X2 = 0|X2 = 0|X2 = 0|X3 = 0|X3
X2
X5
= 0, X3 = 0) = 0,80 = 1, X3 = 0) = 0,80 = 0, X3 = 1) = 0,80 = 1, X3 = 1) = 0,05 = 0) = 0,80 = 1) = 0,60