Professional Documents
Culture Documents
HMM 1
Generacin de texto
El reconocimiento se consigue al maximizar la probabilidad de la cadena lingstica W , dadas las pruebas acsticas A, ej., elegir la secuencia lingstica W tal que P(W |A) = max P(W |A)
W
6.345 Reconocimiento automtico del habla HMM 2
Los modelos ocultos de Markov (HMM) se ocupan de la cantidad P(A|W ) Cambio en la notacin: A W P(A|W ) O P(O|)
HMM 3
HMM: Un ejemplo
2
1
2
2
2
2
1
2
0 1
1
2
1
2
2
2
2
2
1
2
2
2
2
Considere 3 tazas, cada una conteniendo mezclas de piedras con estados 1 y 2 Las fracciones para la taza i th son ai1 y ai2 , y ai1 + ai2 = 1 b i (B) y bi (W ); bi (B) + bi (W ) = 1
Considere 2 urnas, cada una con mezclas de bolas blancas y negras. Las fracciones para la urna i th son
El vector de parmetro para este modelo es: = {a01 , a02 , a11 , a12 , a21 , a22 , b1 (B), b1 (W ), b2 (B), b2 (W )}
6.345 Reconocimiento automtico del habla HMM 5
2
2
2
2
2
1
2
2
2
2
2
1
2
2
2
2
2
1
2
2
2
2
2
1
2
2
2
2
2
1
2
2
2
2
Secuencia de observacin: O = {B, W , B, W , W , B} Secuencia de estado: Q = {1, 1, 2, 1, 2, 1} Objetivo: Dado el modelo y la secuencia de observacin O, cmo se puede determinar la secuencia de estado subyacente Q ?
6.345 Reconocimiento automtico del habla HMM 5
HMM 6
Diagrama de estado
estado-2 estado-3
a11
1
a12
2
a22
1 2 3
HMM 7
2. Para t = 1 a T : Elegir o t = vk en funcin de la distribucin de probabilidad del smbolo en el estado si , bi (k) Transicin a un nuevo estado qt+1 = sj segn la distribucin de probabilidad de la transicin de estado para el estado si , aij 3. Incrementar en 1, volver al paso 2 si t T ; de lo contrario, terminar
a 0i q1 bi (k) a ij q2
.....
qT
o1
6.345 Reconocimiento automtico del habla
o2
oT
HMM 8
s1 s2 s3
0 1 2 3 4
La lnea con guiones representa una transicin nula, en la que no se genera ningn smbolo de observacin.
HMM 9
==> Algoritmo de Viterbi 3. Entrenamiento: Cmo ajustamos los parmetros del modelo = {A, B, } para
maximizar P(O | )?
HMM 10
Cmputo de P(O|)
P(O|) =
allQ
P(O, Q |)
P(O|Q , ) = bq1 (o1 )bq2 (o2 ) . . . bqT (oT ) P(Q |) = q1 aq1 q2 aq2 q3 . . . aqT 1 qT
Por tanto:
P(O|) =
q1 ,q2 ,...,qT
El algoritmo de avance
Definamos la variable de avance
dado el modelo, ej.:
t,
t (i) = P(o1 o2 . . . ot , qt = si |) Se puede demostrar fcilmente que: 1 (i) = i bi (o1 ), P(O|) = Por induccin : t+1 (j ) = [
N i=1 N
i=1
aij
t+1(j)
sj
ajj
aNj sN 1 t t+1 T
HMM 13
El algoritmo de retroceso
Del mismo modo, denamos la variable de retroceso t (i), como la probabilidad
de la secuencia de observacin parcial desde el tiempo t + 1 hasta el final, dado el estado
N i=1
t = T 1, T 2, . . . , 1 1iN
HMM 14
aii
HMM 15
Esto maximiza el nmero esperado de estados correctos Definamos t (i) como la probabilidad de estar en el estado si en el tiempo t,
N i=1
t (i) = 1,
1tT
Definamos
t (i) como la probabilidad ms alta a lo largo de una trayectoria max P(q1 q2 . . . qt1 , qt = si , o1 o2 . . . ot |) = [max t (i)aij ]bj (ot+1 )
i
q1 ,q2 ,...,qt1
t+1 (j)
El algoritmo de Viterbi
1. Inicializacin: 1 (i) = i bi (o1 ), 1 (i) = 0 2. Recursin: t (j) = max [t1 (i)aij ]bj (ot ), t (j) = argmax[t1 (i)aij ],
1iN 1iN
1iN
2tT 2tT
1jN 1jN
3. Terminacin:
P = max [T (i)]
qT 1iN
= argmax[T (i)]
1iN
t = T 1, T 2, . . . , 1
Cmputo N 2 T
6.345 Reconocimiento automtico del habla HMM 18
0 s1 .40
a .40
a .10
b .10
s2
.21 .21 .20 .20 .20 .20 .10 .15 .10 .15
.09 .09 .20 .20 .20 .20 .35 .10 .10 .35
.20
.10
s3 0 1 2 3 4
HMM 19
s1 , 0 s2 , 0
.2
.02
a
1.0 0.4
a
0.16
b
0.016
b
0.0016
s1 s2 s3
0.2
0.21
0.084
0.0168
0.00336
0.02
0.03
0.0315
0.0294
0.00588
0
6.345 Reconocimiento automtico del habla
4
HMM 20
s1 , 0 s2 , 0
.2
.02
a
1.0 0.4
a
0.16
b
0.016
b
0.0016
s1 s2 s3
0.2
0.33
0.182
0.0540
0.01256
0.02
0.063
0.0677
0.0691
0.020156
0
6.345 Reconocimiento automtico del habla
4
HMM 21
Reestimacin de Baum-Welch
Denir t (i, j) como la probabilidad de estar en el estado si en tiempo t y en el estado s en tiempo t + 1, dado el modelo y la secuencia de observacin j t (i, j) = P(qt = si , qt+1 = sj |O, ) Luego: t (i, j) = t (i) = t (i)aij bj (ot+1 )t+1 (j) P(O|)
N
t (i, j)
j=1
si
t(i)
aij
sj
t+1(j)
HMM 23
si
t (i, j) t (i)
t=1 T 1 t=1
t (j)
T t=1
t (j)
HMM 24
1. El modelo inicial , dene un punto crtico de la funcin de probabilidad, en cuyo caso = , o 2. El modelo es ms probable que en el sentido de que P(O| > P(O|), ) ej., hemos encontrado un nuevo modelo , a partir del cual es ms probable que
la secuencia de observacin se haya producido.
Por tanto, podemos mejorar la probabilidad de que O sea observado a partir del modelo, si utilizamos iterativamente en lugar de y repetimos la reestimacin hasta que se alcance algn punto restrictivo. El modelo resultante es conocido como el HMM con mxima probabilidad.
HMM 25
En reconocimiento de voz se utilizan normalmente los HMM de izquierda a derecha. Estos HMM no pueden entrenarse mediante una secuencia de observacin simple, porque nicamente se encuentran disponibles un pequeo nmero de observaciones para entrenar a cada estado. Para obtener estimaciones fiables de parmetros del modelo, se deben emplear las secuencias de observacin mltiples. En este caso, el procedimiento de reestimacin debe ser modificado.
(k)
(k)
(k)
Suponga que las secuencias de observacin son mutuamente independientes, y que queremos calcular los parmetros con el fin de maximizar
P(O | ) =
6.345 Reconocimiento automtico del habla
K k=1
P(O (k) | ) =
K k=1
Pk
HMM 26
aij =
=
k t (i)
k t (j)
1 P k=1 k =
K
Tk
t=1 (k) ot =v
k (i)k (i) t t
j ( ) = b
K Tk k=1t=1
k t (j)
HMM 28
Los modelos telefnicos pueden presentar muchos estados, y las palabras se forman
HMM 29
cjk N[x, jk , jk ]
cjk = 1, 1 j N),
k=1
HMM 30
Cada palabra e cdigo est representada por un PDF gaussiano, y se puede utilizar Desde la perspectiva de los CD-HMM ( HMM de densidad continua), esto equivale
a utilizar el mismo conjunto de mezclas M para modelar todos los estados.
Por tanto, se le conoce normalmente como un HMM de mezcla enlazada. Los tres mtodos se han utilizado en muchas tareas de reconocimiento de voz,
con diversos resultados.
Cuestiones de implementacin
Escalamiento: para prevenir la generacin de un valor inferior al mnimo aceptable. Entrenamiento de K-medias segmentales: para entrenar probabilidades de observacin, ejecutando en primer lugar el alineamiento de Viterbi.
Estimaciones iniciales de : para facilitar modelos robustos. Recorte: para reducir el cmputo de bsqueda.
HMM 32
Referencias
X. Huang, A. Acero y H. Hon, Spoken Language Processing, Prentice-Hall, 2001. F. Jelinek, Statistical Methods for Speech Recognition. MIT Press, 1997. L. Rabiner y B. Juang, Fundamentals of Speech Recognition, Prentice-Hall, 1993.
HMM 33