You are on page 1of 4

Complete condi!

onals in LDA

Complete condi!onal distribu!on

za,b 的Full condi!onal

p(za,b = i∣Z¬a,b , wa,b = j, W¬a,b , Θ, Φ, α, β)


= p(za,b = i, Z¬d,n , wa,b = j, W¬a,b , Θ, Φ, α, β)
= p(Z, W , Θ, Φ, α, β)
D K K K V V
Γ(∑k=1 αk ) Γ(∑v=1 βv )
∏( K ∏ θd,k )×∏( V ∏ ϕk,v )
αk −1+Nd,k βv −1+Nk,v
=
d=1 ∏k=1 Γ(αk ) k=1 k=1 ∏v=1 Γ(βv ) v=1
D K K V
∏ ∏ θd,k × ∏ ∏ ϕk,v
αk −1+Nd,k βv −1+Nk,v

d=1 k=1 k=1 v=1

这⾥里里Gibbs Sampling情况类似,除了了位置在(a, b)的词(也就是⽂文档a中第b个词)的topic取


值i不不确定之外,其他所有⽂文档中所有的词的topic都是确定的。上⾯面表达式中所有的θd,k ,
ϕk,v , αk 和βv 因为出现在条件中都是固定的值,和i相关的值只有Nd,k 和Nk,v 。a是确定
的值,因为每个词都是已知的,所以j 也是确定的值。

¬a,b ¬a,b
将位置在(a, b)的词去掉之后统计Nd,k 和Nk,v 都是固定的值,不不会随i的值变化⽽而变
化。所以可以消去常数项得到下⾯面简化的结果。

d,k≠a,i k,v≠i,j
¬a,b ¬a,b

= (θa,i × ) × (ϕi,j × )
αk −1+Nd,k βv −1+Nk,v
∏ ∏θd,k ∏ ∏ϕk,v
d k k v
∝ θa,i × ϕi,j

除了了上⾯面的推导,还可以下⾯面的⽅方法得到同样的结论。根据Markov Blanket可知,zd,n 只
依赖于wd,n , θd , ϕzd,n 。
p(za,b = i∣Z¬a,b , wa,b = j, W¬a,b , Θ, Φ, α, β)
= p(za,b = i∣wa,b = j, θa , ϕza,b )
∝ p(za,b = i, wa,b = j, θa , ϕza,b )
= p(za,b = i, wa,b = j, θa , ϕi )
= p(za,b = i∣θd )p(θa )p(wa,b = j∣ϕi )p(ϕi )
K K V V
Γ(∑k=1 αk ) Γ(∑v=1 βv )
∏ θa,k ∏ ϕi,vv
αk −1 β −1
= θa,i × K × ϕi,j × V
∏k=1 Γ(αk ) k=1 ∏v=1 Γ(βv ) v=1

Γ(∑K αk ) K αk −1 Γ(∑Vv=1 βv ) V β −1
上⾯面表达式中所有的 ∏K k=1 ∏k=1 θa,k 以及 ∏V Γ(βv ) ∏v=1 ϕi,vv 都是固定的
k=1 Γ(αk ) v=1
值,不不会随i的值不不同⽽而变化,所以可以消去之后同样得到最后简化的结果。

p(za,b = i∣wa,b = j, θa , ϕi ) ∝ θa,i × ϕi,j

前⾯面推导过程中有

p(za,b = i, wa,b = j, θa , ϕi ) ∝ θa,i × ϕi,j

⽽而根据条件概率的定义

p(za,b = i∣wa,b = j, θa , ϕi )
p(za,b = i, wa,b = j, θa , ϕi )
= K
∑i=1 p(za,b = i, wa,b = j, θa , ϕi )
θa,i × ϕi,j
= K
∑i=1 θa,i × ϕi,j

因为对于每个i来说θa,i × ϕi,j 的值都是固定的,所以p(za,b = i∣wa,b = j, θa , ϕi )依然


是categorical distribu!on。

有时还会考虑za,b = i, wa,b = j 在⼀一起的full condi!onals


p(za,b = i, wa,b = j∣Z¬a,b , W¬a,b , Θ, Φ, α, β)
= p(za,b = i, wa,b = j∣θa , ϕi )
p(za,b = i, wa,b = j, θa , ϕi )
= K
∑i=1 p(za,b = i, wa,b = j, θa , ϕi )
θa,i × ϕi,j
= K
∑i=1 θa,i × ϕi,j

Notes:
在上⾯面的表达式中wa,b = j 是固定的已观测的值,所以p(za,b = i, wa,b = j∣θa , ϕi )和
p(za,b = i∣wa,b = j, θa , ϕi )没有区别。

θd 以及ϕk 的Full condi!onal

根据Markov Blanket, 可以知道

p(θd ∣W , Z, Θ¬d , Φ, α, β) = p(θd ∣Zd , α)

以及

p(ϕk ∣W , Z, Θ, Φ¬k , α, β) = p(ϕk ∣Wk , Zk , β)

在LDA⽤用Gibbs Sampling的简明推导中,已经得出

p(θd ∣α)p(Zd ∣θd )


p(θd ∣Zd , α) =
∫ p(θd ∣α)p(Zd ∣θd )dθd
Γ(∑Kk=1 αk ) K αk −1+Nd,k
∏K
∏k=1 θd,k
k=1 Γ(αk )
= Γ(∑K αk ) K αk −1+Nd,k
∫ ∏K k=1 ∏ θ
k=1 d,k dθd
k=1 Γ(αk )
K
Γ(∑k=1 (Nd,k + αk )) Nd,k +αk −1
= K θd,k
∏k=1 Γ(Nd,k + αk )
p(Wk ∣ϕk )p(ϕk ∣β)
p(ϕk ∣Wk , Zk , β) =
∫ p(Wk ∣ϕk )p(ϕk ∣β)dϕk
Γ(∑Vv=1 βv ) V β −1+Nk,v
v
∏Vv=1 Γ(βv )
∏v=1 ϕk,v
= Γ(∑Vv=1 βv ) V β −1+Nk,v
v
∫ ∏Vv=1 Γ(βv )
∏v=1 ϕk,v dϕk
V V
Γ(∑v=1 (Nk,v + βv ))
∏ ϕk,v
Nk,v +βv −1
= V
∏v=1 Γ(Nk,v + βv ) v=1

显然p(θd ∣W , Z, Θ¬d , Φ, α, β)以及p(ϕk ∣W , Z, Θ, Φ¬k , α, β)都是Dirichlet


distribu!on。

所以LDA中涉及的latent variables的Full condi!onal全都是Exponen!onal family的分布。

You might also like