601

第 19 章

近似推論

多くの確率モデルにおいて学習が難しいのは,推論の実行が困難なためである.深層学習
の文脈では,通常,可視変数 v の集合と潜在変数 h の集合がある.推論の課題とは,通常,
p(h | v) を計算するか,p(h | v) に関して期待値をとるという困難な問題のことを指す.この
ような演算は,しばしば最尤学習のようなタスクにおいて必要である.

制限付きボルツマンマシンや確率的 PCA のような,隠れ層が 1 つしかない多くの単純なグ
ラフィカルモデルは,p(h | v) を計算したり,p(h | v) に関して期待値をとったりといった推
論演算が容易になるように定義されている.残念ながら,隠れ変数の層が複数あるような多
くのグラフィカルモデルは,計算困難な事後分布を持っている.このようなモデルにおける
厳密推論には指数関数的な量の時間が必要となる.スパース符号化のような単一の層しか持
たないモデルでさえ,この問題を抱えている.

本章では,こうした計算困難な推論問題に立ち向かうための技術をいくつか紹介する.20章
では,深層信念ネットワークや深層ボルツマンマシンなど,そのままでは計算困難となるよう
な確率モデルを訓練するために,こういったテクニックをどのように使用するかについて説
明する.

深層学習における計算困難な推論問題は,通常,構造化グラフィカルモデルにおける潜在変
数間の相互作用から生じる.いくつかの例については図19.1を参照されたい.このような相
互作用は,無向グラフにおける直接的な相互作用や,有向モデルにおける同じ可視ユニットの
共通の先祖間による「弁明」相互作用が原因の可能性がある.
第 19. 近似推論

図 19.1: 深層学習における計算困難な問題は,通常,構造化グラフィカルモデルにおける潜在変数間の
相互作用の結果である.これらの相互作用は,潜在変数が互いに直接接続している辺や,V 構造の子が
観測されることでアクティブとなる長い経路によって生じる可能性がある.(左)隠れ層間の接続があ
る半制限付きボルツマンマシン(semi-restricted Boltzmann machine)(Osindero and Hinton,
2008).このような潜在変数間の直接的な接続は,潜在変数の長いクリークによって事後分布が計算困難
になる.(中央)層内の結合がない変数の層で構成される深層ボルツマンマシンは,層間の接続によっ
て依然として計算困難な事後分布を持つ.(右)この有向モデルは,可視変数が観測されたときに潜在
変数間の相互作用を持つ.これは,どの 2 つの潜在変数にも共通の親があるからである.いくつかの確
率モデルは,上に描かれたグラフ構造のうち 1 つを持つにもかかわらず,潜在変数に関して扱いやすい
推論を提供することができる.これは,グラフに記述されていない追加の依存関係を導入するための条
件付き確率分布を選択した場合に可能となる.たとえば,確率的 PCA は右のようなグラフ構造を持つ
が,使用される特定の条件付き分布の特殊な性質(互いに直交する基底ベクトルを持つ条件付き線形ガ
ウス分布)のために,単純な推論を持つ.

19.1 最適化としての推論
困難な推論問題に立ち向かうためのアプローチの多くは,推論が最適化問題として記述で
きるという考えを利用している.したがって,近似推論アルゴリズムは,その根底にある最適
化問題を近似することによって得られる.

最適化問題を構築するために,観測変数 v と潜在変数 h からなる確率モデルを仮定する.観
測データの対数確率 log p(v; θ) を計算したい.h の周辺化にコストがかかる場合,log p(v; θ)
の計算が非常に困難になることがある.代わりに,log p(v; θ) における下界 L(v, θ, q) なら計
算できる.この下界はエビデンス下界(evidence lower bound,ELBO)と呼ばれてい
る.この下界の一般的な別名に,負の変分自由エネルギー(variational free energy)があ

602
第 19. 近似推論

る.具体的には,エビデンス下界は

L(v, θ, q) = log p(v; θ) − DKL (q(h | v)∥p(h | v; θ)) (19.1)

と定義される.ただし,q は h における任意の確率分布である.

log p(v) と L(v, θ, q) の間の差は KL ダイバージェンスで与えられ,KL ダイバージェンス
はつねに非負なので,L はつねに最大でも求めたい対数確率と同じ値にしかならないことが
わかる.この 2 つは,q が p(h | v) と同じ分布となる場合にのみ等しくなる.

驚くべきことに,かなり容易に L を計算できるような分布 q が存在する.簡単な代数に
よって,以下のように,L をより便利な形に変形できる.

L(v, θ, q) = log p(v; θ) − DKL (q(h | v)∥p(h | v; θ)) (19.2)
q(h | v)
= log p(v; θ) − Eh∼q log (19.3)
p(h | v)
q(h | v)
= log p(v; θ) − Eh∼q log p(h,v;θ)
(19.4)
p(v;θ)
= log p(v; θ) − Eh∼q [log q(h | v) − log p(h, v; θ) + log p(v; θ)] (19.5)
= − Eh∼q [log q(h | v) − log p(h, v; θ)] . (19.6)

これによって,エビデンス下界のより正式な定義が得られる.

L(v, θ, q) = Eh∼q [log p(h, v)] + H(q). (19.7)

q を適切に選択することで,L の計算は扱いやすくなる.任意の q の選択に対して,L は尤
度の下界となる.p(h | v) をよりよく近似する q(h | v) に対しては,下界 L はより厳密にな
る.つまり,下界 L は log p(v) により近づく.q(h | v) = p(h | v) のとき,近似は完全とな
り,L(v, θ, q) = log p(v; θ) となる.

したがって,推論は,L を最大にするような q を見つける処理と考えることができる.厳密
推論は,p(h | v) を含む関数族 q で探索することで,完全に L を最大化する.本章では,近
似最適化を用いて q を見つけだす,さまざまな形の近似推論を導出する方法を示す.最適化
で探索可能な分布族 q を制限することによって,もしくは L を完全に最大化するのではなく,
単に大幅に増加させるだけの不完全な最適化手順を使用することによって,最適化手順をよ
り安価に近似できる.

どのような q を選んでも,L は下界となる.この最適化問題のアプローチの選択によって,
計算が安価または高価になるような,厳密または緩い下界を得ることができる.不完全な最
603
第 19. 近似推論

適化手順を使用したり,限定した q 分布族に対して完全な最適化手順を使用することで,q の
適合度合いは低くくなるが,計算コストを削減することができる.

19.2 期待値最大化
下界 L の最大化に基づく最初のアルゴリズムとして,期待値最大化(expectation max-
imization,EM)アルゴリズムを紹介する.EM アルゴリズムは,潜在変数を持つモデルの
一般的な訓練アルゴリズムである.ここでは,Neal and Hinton (1999) で展開された EM ア
ルゴリズムの観点に従って説明する.本章で説明する他のほとんどのアルゴリズムとは異な
り,EM は近似推論のためのアプローチではなく,近似事後分布の学習のためのアプローチで
ある.

EM アルゴリズムは,2 つのステップを収束するまで交互に行うことで構成される.

• E ステップ(E-step)(期待値ステップ,expectation step):ステップ開始時のパラ
メータ値を θ (0) とする.訓練したい訓練事例 v (i) (バッチでもミニバッチでも有効)
のすべてのインデックス i について,q(h(i) | v) = p(h(i) | v (i) ; θ (0) ) とする.これは,
q が現在のパラメータの値 θ (0) に関して定義されることを意味する.つまり,θ を変
化すると p(h | v; θ) も変化するが,q(h | v) は p(h | v; θ (0) ) と等しいままである.
• M ステップ(M-step)(最大化ステップ,maximization step):選択した最適化アル
ゴリズムを使って,θ に関して
!
L(v (i) , θ, q) (19.8)
i

を完全または部分的に最大化する.

これは,L を最大化するための座標上昇アルゴリズムとみることができる.一方のステッ
プで q に関して L を最大化し,もう一方のステップで θ に関して L を最大化するのである.

潜在変数モデルにおける確率的勾配上昇法は,M ステップが単一の勾配ステップをとるこ
とからなる EM アルゴリズムの特殊な場合とみなすことができる.EM アルゴリズムの他の
変種では,より大きな勾配ステップをとることができる.あるモデル族では,M ステップを
解析的に実行することもできる.そのため,このモデル族では,現在の q が与えられた下での
θ の最適解まで一気に到達することができる.
E ステップに厳密推論が含まれているにもかかわらず,EM アルゴリズムはある意味で近
似推論を使っていると考えることができる.特に,M ステップでは同じ q の値がすべての θ
604
第 19. 近似推論

の値に使えると仮定されている.これによって,M ステップが,E ステップで使われる θ (0)
の値からさらに遠く離れて移動するにつれて,L と真の log p(v) の間に隔たりが生じること
になる.幸いなことに,次のループに入ると,E ステップによって隔たりが再び 0 に戻る.

EM アルゴリズムには,いくつかの異なる洞察が含まれている.まず,学習過程の基本構
造が含まれている.これは,データ集合全体の尤度を改善するためにモデルパラメータを更
新するが,このとき全ての欠損変数*1 は事後分布の推定値によって与えられる値になる,とい
うものである.この洞察は EM アルゴリズム固有のものではない.たとえば,対数尤度を最
大化するために勾配降下法を使うことも同じ性質を持つ.対数尤度の勾配計算では,隠れユ
ニットにおける事後分布に関して期待値をとることが必要である.EM アルゴリズムに含ま
れるもう 1 つの重要な洞察は,異なる θ の値に移動した後でも,同じ q の値を使い続けられ
るということである.この洞察は,古典的な機械学習では,大幅な M ステップ更新を導出す
るために用いられる.深層学習においては,多くのモデルは複雑すぎるため,最適な大幅 M
ステップ更新に対する扱いやすい解を得られない.そのため,EM アルゴリズムにとってよ
り固有なものといえる 2 つ目の洞察は,深層学習では滅多に使われない.

19.3 MAP 推定とスパース符号化
通常,推論という用語は,ある変数集合の下での別の変数集合の確率分布を計算することを
指している.潜在変数を持つ確率モデルを訓練するとき,通常は p(h | v) の計算に関心があ
る.推論の別の形は,欠損変数のとりうる値における分布全体を推定するのではなく,欠損変
数の最も可能性の高い値を計算することである.潜在変数モデルにおいて,これは

h∗ = arg max p(h | v) (19.9)
h

を計算することを意味する.これは最大事後確率(maximum a posteriori)推定として知
られ,MAP 推定と略される.

MAP 推定は,h∗ の厳密な最も可能性の高い値を計算するため,通常近似推論とは考えら
れない.しかし,L(v, h, q) の最大化に基づく学習処理を開発したい場合,MAP 推定を q の
値を与える手順として考えることは有用である.この意味では,MAP 推定は最適な q を提供
しないため,近似推論と考えることができる.

19.1節から,厳密推論が,厳密な最適化アルゴリズムを使用して,制約のない確率分布族に

*1 訳注:ここでは隠れ変数もしくは潜在変数を指す.

605
第 19. 近似推論

おける q に関して
L(v, θ, q) = Eh∼q [log p(h, v)] + H(q) (19.10)

を最大化することで構成されることを思い出してほしい.分布 q の族を制限することによっ
て,MAP 推定を近似推論の形として導くことができる.具体的には,q がディラック分布

q(h | v) = δ(h − µ) (19.11)

になるようにする.これは,µ によって q を完全に制御できることを意味する.µ によって
変化しない L の項を消すと,最適化問題

µ∗ = arg max log p(h = µ, v) (19.12)
µ

が残る.これは,MAP 推定問題

h∗ = arg max p(h | v) (19.13)
h

と等しい.

したがって,EM に類似した学習手順を正当化できる.その学習手順とは,h∗ を推定する
ための MAP 推定と,θ の更新による log p(h∗ , v) の増加を交互に実行する手順である.EM
と同様に,これは L の座標上昇法の形式である.つまり,推論を使った q に関する L の最適
化と,パラメータ更新を使った θ に関する L の最適化を交互に実行する形式である.この手
順全体は,L が log p(v) の下界ということから正当化される.MAP 推定の場合,ディラック
分布の微分エントロピーが負の無限大となり,下界が無限に緩くなるため,この正当化はむし
ろ無意味である.しかし,µ にノイズを加えることで,下界が再び意味を持つようになる.

MAP 推定は,深層学習において,特徴抽出器と学習メカニズムの両方で一般的に使用され
る.これは主にスパース符号化モデルに利用されている.

13.4節から,スパース符号化は,スパース性を導く事前分布を隠れユニットに課す線形因子
モデルであったことを思い出してほしい.通常は,次の式のような因子分解可能なラプラス
事前分布を選択する.
λ −λ|hi |
p(hi ) = e . (19.14)
2
次に,線形変換とノイズを加えることによって,可視ユニットを生成する.

p(v | h) = N (v; W h + b, β −1 I).*2 (19.15)

*2 訳注:原文では左辺の変数が x になっているが誤りなので修正.

606
第 19. 近似推論

p(h | v) は計算することも,表現することさえも困難である.変数 hi と hj の対は,どれ
もともに v の親である.これは,v を観測することで,hi と hj を接続するアクティブな辺
がグラフィカルモデルに含まれるようになることを意味する.したがって,すべての隠れユ
ニットは,p(h | v) の中の 1 つの巨大なクリークに加わる.仮にモデルがガウス分布ならば,
これらの相互作用は共分散行列によって効率的にモデル化できるが,スパースな事前分布に
よって,この相互作用は非ガウス分布になる.

p(h | v) は計算困難なため,対数尤度とその勾配の計算も困難となる.したがって,厳密な
最尤学習は使用できない.その代わり,MAP 推定を使い,さらに h の MAP 推定値まわり
のディラック分布によって定義される ELBO を最大化することでパラメータを学習する.

訓練集合内のベクトル h をすべて連結して行列 H とし,ベクトル v をすべて連結して行
列 V とした場合,スパース符号化の学習処理は
! !" #2
J(H, W ) = |Hi,j | + V − HW ⊤ i,j
(19.16)
i,j i,j

の最小化で構成される.スパース符号化の多くの応用では,非常に小さな H や大きな W と
いった異常な解を防ぐために,W の列ノルムに対する重み減衰や制約も含まれる.

H に関する最小化と W に関する最小化を交互に行うことで,J を最小化できる.どちら
の補助問題も凸問題である.実際,W に関する最小化は単なる線形回帰問題である.しか
し,両方の引数に関する J の最小化は,通常,凸問題ではない.

H に関する最小化には,feature-sign search アルゴリズム (Lee et al., 2007) などの特殊な
アルゴリズムが必要となる.

19.4 変分推論と変分学習
ここまで,エビデンス下界 L(v, θ, q) が log p(v; θ) の下界であること,推論が q に関する
L の最大化とみなせること,そして学習が θ に関する L の最大化とみなせることについて見
てきた.また,EM アルゴリズムによって,固定された q で大きな学習ステップを行うことが
できることと,MAP 推定に基づく学習アルゴリズムによって,分布全体を推定するのではな
く p(h | v) の点推定を用いて学習できることを見てきた.ここでは,より一般的な変分学習
のアプローチを展開する.

変分学習の核となる考えは,制限された分布族 q において L を最大化できるということで
ある.この族は,Eq log p(h, v) が計算しやすいように選択する必要がある.このための典型
的な方法は,q がどのように因子分解されるかについての仮定を導入することである.
607
第 19. 近似推論

変分学習の一般的なアプローチは,q が因子分解可能な分布,すなわち
!
q(h | v) = q(hi | v) (19.17)
i

という制約を課すことである.これは平均場近似(mean field)法と呼ばれる.より一般的
には,任意に選択したグラフィカルモデル構造を q に課すことで,近似で捉えたい相互作用
の数を柔軟に決定することができる.この完全に一般的なグラフィカルモデルのアプローチ
は構造化変分推論(structured variational inference)(Saul and Jordan, 1996) と呼ば
れる.

変分によるアプローチの美しさは,q に対して特定のパラメータ形式を指定する必要がない
ということである.どのように因子分解するべきかは指定するが,そのあとは,最適化問題
によって因子分解の制約の範囲内で最適な確率分布が決定される.離散潜在変数の場合には,
単に,伝統的な最適化技術を使用して,分布 q を記述する有限個の変数を最適化することを意
味する.連続潜在変数の場合には,変分法と呼ばれる数学の分野を用いて関数空間における
最適化を行い,実際に q を表現するためにどの関数を使うべきかを決定することを意味する.
変分法は「変分学習」や「変分推論」といった名前の由来となっている.ただし,これらの名
前は,潜在変数が離散で,変分の計算が不要なときにも適用される.連続潜在変数の場合,変
分法は,モデルを設計する人間から負担の大部分を取り除いてくれる強力な技術である.つ
まり,モデル設計者は q の因子分解の方法を指定するだけでよく,事後分布を正確に近似で
きる特定の q の設計方法を推測する必要はない.

L(v, θ, q) は log p(v; θ) − DKL (q(h | v)∥p(h | v; θ)) と定義されるため,q に関する L の最
大化は DKL (q(h | v)∥p(h | v)) の最小化と考えることができる.この意味では,q を p に適合
させている.しかし,近似を適合させるのに,KL ダイバージェンスをこれまでとは逆向きに
使っている.モデルをデータに適合させるために最尤学習を使うときには DKL (pdata ∥pmodel )
を最小化する.これは,図3.6で示されているように,最尤法はデータが高確率であるすべて
の場所でモデルが高い確率を持つようにするのに対して,最適化に基づく推論手順は真の事
後分布が低確率であるすべての場所で q が低い確率を持つようにするということである.KL
ダイバージェンスの両方の向きが,望ましい特性と望ましくない特性とを持っている.どち
らを使用するべきかについては,それぞれのアプリケーションでどの特性が最優先事項とな
るかに依存する.推論最適化問題の場合,計算上の理由から DKL (q(h | v)∥p(h | v)) を選択
する.特に,DKL (q(h | v)∥p(h | v)) の計算には q に関する期待値の評価も含まれているの
で,q を単純な形に設計することで必要な期待値を単純化できる.逆向きの KL ダイバージェ
ンスには,真の事後分布に関する期待値の計算が必要となる.真の事後分布の形はモデルの
選択によって決定されるため,DKL (p(h | v)∥q(h | v)) を正確に計算するための,コストが
608
第 19. 近似推論

低減されたアプローチを設計することはできない.

19.4.1 離散潜在変数

離散潜在変数を持つ変分推論は比較的単純である.ここで分布 q を定義するが,典型的
に q の各因子は離散状態のルックアップテーブルによって定義される.最も単純な場合,
h は二値であり,q が個別の hi のそれぞれに因子分解できるという平均場近似の仮定をお
く.この場合,確率を要素として持つベクトル ĥ で q をパラメータ化できる.そうすると,
q(hi = 1 | v) = ĥi となる.
q の表現方法を決定したら,単純にそのパラメータを最適化する.離散潜在変数の場合,こ
れは単なる標準的な最適化問題である.原理的には,q の選択は,勾配降下法のような任意の
最適化アルゴリズムを用いて行うことができる.

この最適化は学習アルゴリズムの内部ループで行う必要があるので,非常に高速でなけれ
ばならない.この速度を達成するためには,一般に,比較的小さくて単純な問題を少ない反復
で解くように設計された,特別な最適化アルゴリズムを使用する.よくある選択は不動点方
程式を反復することである.言い換えると,ĥi について以下の式を解くことである.


L = 0. (19.18)
∂ ĥi

収束基準を満たすまで,ĥ の異なる要素を繰り返し更新する.

これをより具体的にするために,二値スパース符号化モデル(binary sparse coding
model)に変分推論を適用する方法を示す(ここではHenniges et al. (2010) によって提案さ
れたモデルを説明するが,彼らが導入した特殊なアルゴリズムではなく,伝統的で一般的な平
均場近似をモデルに適用して説明する).この導出は数学的にかなり詳細になるため,これま
で説明してきた変分推論と変分学習の上位概念的な説明での曖昧さを完全に解消したい読者
を対象とする.変分学習アルゴリズムを導出したり実装したりする予定がない読者は,次の
節まで読み飛ばしても新しい上位概念を読み損ねてしまうことはない.この二値スパース符
号化の例を読み進める読者には,3.10節の,確率モデルで一般的に現れる関数の有用な特性の
一覧を見直しておくことをお勧めする.以下の導出の中で,これらの特性を任意に使用する
が,その場所をその都度強調表示したりはしない.

二値スパース符号化モデルでは,入力 v ∈ Rn は,それぞれの有無の値をとれる m 個
の異なる要素を合計したものにガウスノイズを足したモデルから生成される.各要素は,

609
第 19. 近似推論

h ∈ {0, 1}m の中の対応する隠れユニットによって,オンやオフに切り替わる.すなわち,

p(hi = 1) = σ(bi ) (19.19)

p(v | h) = N (v; W h, β −1 ). (19.20)

ただし,b は学習可能なバイアス集合,W は学習可能な重み行列,β は学習可能な対角精度
行列である.

このモデルを最尤法で学習させるには,パラメータに関して微分することが必要である.バ
イアスの 1 つに関する微分を考えてみよう.つまり,


log p(v) (19.21)
∂bi

∂bi p(v)
= (19.22)
p(v)

!
h p(h, v)
= ∂bi (19.23)
p(v)

!
∂bi h p(h)p(v | h)
= (19.24)
p(v)
!
h p(v | h) ∂b∂ i p(h)
= (19.25)
p(v)
" ∂
p(h)
= p(h | v) ∂bi (19.26)
p(h)
h

=Eh∼p(h|v) log p(h). (19.27)
∂bi

これには,p(h | v) に関する期待値の計算が必要である.残念ながら,p(h | v) は複雑な分
布である.p(h, v) と p(h | v) のグラフ構造については,図19.2を参照されたい.事後分布は
隠れユニットの完全グラフに対応しているため,変数削減アルゴリズムを使っても,力ずくな
方法(brute force)よりも速く必要な期待値を計算することはできない.

代わりに,変分推論と変分学習を使ってこの難しさを解決することができる.

平均場近似を次のように行うことができる.

#
q(h | v) = q(hi | v). (19.28)
i

610
第 19. 近似推論

h1 h2 h3 h4
h1 h3

h2 h4
v1 v2 v3

図 19.2: 4 つの隠れユニットを持つ二値スパース符号化モデルのグラフ構造.(左)p(h, v) のグラフ構
造.辺が有向なので,どの 2 つの隠れユニットも,すべての可視ユニットの共同親であることに注意さ
れたい.(右)p(h | v) のグラフ構造.共同親の間のアクティブな経路を説明するために,事後分布は
すべての隠れユニットの間に辺を必要とする.

二値スパース符号化モデルの潜在変数は二値なので,因子分解可能な q を表現するために
は,単純に m 個のベルヌーイ分布 q(hi | v) をモデル化すればよい.ベルヌーイ分布の平均を
表現する自然な方法は,確率のベクトル ĥ を使って,q(hi = 1 | v) = ĥi とすることである.
ĥi が 0 や 1 にならないという制約を課すことで,たとえば log ĥi を計算するときのエラーを
回避することができる.

変分推論の方程式では,解析的に ĥi が 0 や 1 にならないことがわかるだろう.しかし,ソ
フトウェアの実装では,マシンの丸め誤差によって 0 や 1 といった値になる可能性がある.
ソフトウェアでは,変分パラメータ z という制約のないベクトルを使って二値スパース符号
化を実装し,ĥ = σ(z) という関係によって ĥ を得ることができる.したがって,シグモイド
とソフトプラス(softplus)に関する恒等式 log σ(zi ) = −ζ(−zi ) を使って,コンピュータ上
で log ĥi を安全に計算できる.

二値スパース符号化モデルにおける変分学習の導出を始めるために,平均場近似の使用が
学習を扱いやすくすることを示す.

エビデンス下界は次式で与えられる.

L(v, θ, q) (19.29)
=Eh∼q [log p(h, v)] + H(q) (19.30)
=Eh∼q [log p(h) + log p(v | h) − log q(h | v)] (19.31)
!m n m
#
" " "
=Eh∼q log p(hi ) + log p(vi | h) − log q(hi | v) (19.32)
i=1 i=1 i=1
m $
" %
= ĥi (log σ(bi ) − log ĥi ) + (1 − ĥi )(log σ(−bi ) − log(1 − ĥi )) (19.33)
i=1

611
第 19. 近似推論

! n # $ %&
" βi βi
+ Eh∼q log exp − (vi − Wi,: h)2 (19.34)
i=1
2π 2
m '
" (
= ĥi (log σ(bi ) − log ĥi ) + (1 − ĥi )(log σ(−bi ) − log(1 − ĥi )) (19.35)
i=1
⎡ ⎛ ⎡ ⎤ ⎞⎤
n
1" ⎣log βi − βi ⎝vi2 − 2vi Wi,: ĥ +
"
2 ˆ
⎣Wi,j
"
+ hj + Wi,j Wi,k ĥj ĥk ⎦⎠⎦ .
2 i=1 2π j k̸=j
(19.36)

これらの方程式からはあまり美的魅力を感じないが,L が少数の単純な算術演算で表現でき
ることがわかる.したがって,エビデンス下界 L は計算的に扱いやすく,計算困難な対数尤
度の代わりに L を使用できる.

原則として,v と h の両方について単純に勾配上昇法を実行することで,全く問題なく,推
論と訓練を組み合わせたアルゴリズムとなる.しかし,通常は,2 つの理由からこの手法を使
わない.第 1 に,各 v について ĥ を保管する必要があるということである.通常,事例ごと
にメモリを必要としないアルゴリズムが好まれる.各事例に関して動的に更新されるベクト
ルを覚えておく必要がある場合,学習アルゴリズムを何十億もの事例に拡張することは困難で
ある.第 2 に,v の中身を認識するために,特徴量 ĥ を非常に素早く抽出できるようにしたい
ということである.現実的なデプロイ環境では,ĥ はリアルタイムで計算できる必要がある.

これら 2 つの理由により,通常は平均場パラメータ ĥ を計算するために勾配降下法を使わ
ない.代わりに,不動点方程式を使ってそれらを素早く推定する.

不動点方程式の根底にある考え方は,∇h L(v, θ, ĥ) = 0 を満たす,ĥ の極大値を探すとい
うことである.この方程式をすべての ĥ に関して同時に効率的に解くことはできない.しか
し,単一の変数についてなら解くことができる.すなわち,


L(v, θ, ĥ) = 0. (19.37)
∂ ĥi

その後,解を反復的に i = 1, . . . , m に対する方程式に適用し,収束基準を満たすまでこの
サイクルを繰り返すことができる.一般的な収束基準は,更新のサイクル全体で L がある公
差*3 の量以上に改善しないときや,サイクル内で ĥ が一定量以上変化しないときに停止する
ように設定される.

平均場不動点方程式の反復は,幅広い種類のモデルに高速な変分推論を提供することがで

*3 訳注:公差(tolerance)とは許容される差のことで,不動点方程式では,初期値と現在の値を比較して,その
差が予め決められた公差より大きかったら更新を継続し,以下だったら終了する.

612
第 19. 近似推論

きる一般的な技術である.これをより具体的にするために,特に二値スパース符号化モデル
の更新の導出方法を示す.

最初に,ĥi に関する微分の式を書く必要がある.そのために,式19.36を式19.37の左辺に
代入する.すなわち,

L(v, θ, ĥ) (19.38)
∂ ĥi

∂ ⎣# $ ˆ %
m
= hj (log σ(bj ) − log hˆj ) + (1 − hˆj )(log σ(−bj ) − log(1 − hˆj )) (19.39)
∂ ĥi j=1
⎡ ⎛ ⎡ ⎤ ⎞⎤ ⎤
#n # #
1 ⎣log βj − βj ⎝vj2 − 2vj Wj,: ĥ + ⎣Wj,k
+ 2
ĥk + Wj,k Wj,l ĥk ĥl ⎦⎠⎦⎦
2 j=1 2π
k l̸=k
(19.40)
= log σ(bi ) − log ĥi − 1 + log(1 − ĥi ) + 1 − log σ(−bi ) (19.41)
⎡ ⎛ ⎞⎤
#n #
+ ⎣βj ⎝vj Wj,i − 1 Wj,i 2
− Wj,k Wj,i ĥk ⎠⎦ (19.42)
j=1
2
k̸=i
1 ⊤ #
=bi − log ĥi + log(1 − ĥi ) + v ⊤ βW:,i − W:,i βW:,i − ⊤
W:,j βW:,i ĥj . (19.43)
2
j̸=i

この不動点更新の推論則を適用するために,式19.43を 0 とおいて,ĥi について解く.すな
わち, ⎛ ⎞
1 #
ĥi = σ ⎝bi + v ⊤ βW:,i − W:,i

βW:,i − ⊤
W:,j βW:,i ĥj ⎠ . (19.44)
2
j̸=i

この時点で,回帰結合型ニューラルネットワークとグラフィカルモデルの推論の間に密接
な関係があることがわかる.特に,平均場不動点方程式は,回帰結合型ニューラルネットワー
クを定義する.このネットワークが扱うタスクは推論の実行である.モデルの記述からネッ
トワークを導出する方法は既に説明したが,この推論ネットワークを直接訓練することもで
きる.この主題に基づくいくつかのアイディアについては20章で説明する.

二値スパース符号化の場合,式19.44で示された回帰結合型ニューラルネットワークの接続
は,隣接する隠れユニットの値の変化に基づいて隠れユニットを繰り返し更新することで構
成されていることがわかる.入力はつねに v ⊤ βW という固定メッセージを隠れユニットに
送信するが,隠れユニットは互いに送信するメッセージをたえず更新する.具体的に言うと,
2 つのユニット ĥi と ĥj は,それらの重みベクトルが同調するとき,互いに抑制する.これは
競合の一形態である.つまり,2 つの隠れユニットがともに入力を説明するとき,入力を最
613
第 19. 近似推論

もよく説明するユニットだけがアクティブのままでいられるということである.この競合は,
平均場近似が,二値スパース符号化の事後分布から弁明相互作用を捉えようとする試みであ
る.この弁明効果は,実際には多峰性の事後分布を引き起こすことになる.そのため,事後分
布からサンプルを抽出する場合,あるユニットをアクティブにするサンプルもあれば,別のユ
ニットをアクティブにするサンプルもある.しかし,両方をアクティブにするサンプルはほ
とんどない.残念ながら,弁明相互作用は平均場に使われる階乗分布 q ではモデル化できな
いため,平均場近似はモデル化のために 1 つのモードを選択することを余儀なくされる.こ
れは図3.6に示される動作の一例である.

式19.44を等価な形に書き換えることで,さらにいくつかの洞察を明らかにできる.すな
わち, ⎛ ⎞
⎛ ⎞⊤
⎜ $ 1 ⊤ ⎟
ĥi = σ ⎝bi + ⎝v − W:,j ĥj ⎠ βW:,i − W:,i βW:,i ⎠ . (19.45)
2
j̸=i

(
この再定式化で,各ステップの入力が,v ではなく v − j̸=i W:,j ĥj で構成されているとみ
なすことができる.よって,ユニット i は,他のユニットのコードが与えられた下での v の
残差誤差を符号化しようとしていると考えることができる.そのため,スパース符号化を反
復自己符号化器として考えることができる.スパース符号化は入力の符号化と復号化を繰り
返して,反復するたびに再構成の誤りを修正しようとする.

この例では,1 度に 1 つのユニットを更新する更新則を導出した.より多くのユニットを同
時に更新することができれば好都合である.深層ボルツマンマシンのようないくつかのグラ
フィカルモデルでは,同時に多くの ĥ の入力を解くことができるように構成されている.残
念ながら,二値のスパース符号化では,そのようなブロック更新は認められていない.その代
わり,ダンピング(damping)と呼ばれるヒューリスティックな技術を使って,ブロック更
新を行うことができる.ダンピングのアプローチでは,ĥ のそれぞれの要素について個別に
最適値を解き,すべての値をその方向に小さいステップで動かす.このアプローチでは,も
はや各ステップで L が増加することは保証されないが,実際には多くのモデルでうまく動作
する.メッセージ伝達アルゴリズムにおける同期の度合いやダンピング戦略の選択について,
詳しくはKoller and Friedman (2009) を参照されたい.

19.4.2 変分法

変分学習の説明を続ける前に,変分学習で使われる重要な数学的ツールである変分法
(calculus of variations)について簡単に紹介する必要がある.

614
第 19. 近似推論

多くの機械学習技術は,最小値を与える入力ベクトル θ ∈ Rn を見つけることによっ
て関数 J(θ) を最小化することに基づいている.これは,多変量計算や線形代数を使って
∇θ J(θ) = 0 における臨界点を解くことにより達成できる,場合によっては,ある確率変数に
おける確率密度関数を求めたいときのように,実際に関数 f (x) を解きたいことがある.これ
は変分法によって可能となる.

関数 f の関数は汎関数(functional)J[f ] として知られている.ベクトル値をとる引数
の要素に関して関数の偏微分をとることができるように,x の任意の特定の値における関数
f (x) の個々の値に関して汎関数 J[f ] の汎関数微分(functional derivatives)(変分導関
数(variational derivatives)としても知られている)をとることができる.点 x におけ
δ
る関数 f の値に関する汎関数 J の汎関数微分は δf (x) J と表される.

汎関数微分を形式的に完全に展開することは,本書の範囲を超えている.ここでの目的の
ためには,微分可能な関数 f (x) と微分可能な関数 g(y, x) について連続微分で示せば十分で
ある.すなわち, !
δ ∂
g (f (x), x) dx = g(f (x), x). (19.46)
δf (x) ∂y

この恒等式を直感的に理解するために,f (x) を,実数ベクトル x をインデックスとする,無
数に多くの要素を持つベクトルであると考えることができる.この(いくぶん不完全な)見方
では,汎関数微分を与えるこの恒等式は,正の整数をインデックスとするベクトル θ ∈ Rn に
対して得られるものと同じである.

∂ " ∂
g(θj , j) = g(θi , i). (19.47)
∂θi j ∂θi

他の機械学習の出版物における多くの結果では,より一般化したオイラー・ラグランジュ方程
式(Euler-Lagrange equation)を使って提示されており,これによって g を f の値だけ
でなく f の導関数にも依存するようにできる.しかし,本書で提示する結果には,こういっ
た完全に一般化された形式は必要ない.

ベクトルに関して関数を最適化するために,ベクトルに関して関数の勾配をとり,勾配の全
要素が 0 に等しくなる点について解く.同様に,すべての点で汎関数微分が 0 と等しくなる
関数について解くことで,汎関数を最適化できる.

この処理の働き方の例として,x ∈ R における最大の微分エントロピーを持つ確率密度関
数を見つける問題を考えよう.確率分布 p(x) のエントロピーは次式で定義されることを思い
出してほしい.
H[p] = −Ex log p(x). (19.48)

615
第 19. 近似推論

連続値のため,期待値は積分である.すなわち,
!
H[p] = − p(x) log p(x)dx. (19.49)

結果が確率分布とならない可能性があるため,関数 p(x) に関して H[p] を単純に最大化す
ることはできない.代わりに,ラグランジュの未定乗数法を使って p(x) の積分が 1 になると
いう制約を追加する必要がある.また,分散が増加するにつれ,エントロピーは無限に増加す
る.これでは,どの分布が最大のエントロピーをもつかという問題に意味がなくなってしま
う.代わりに,固定された分散 σ 2 について,どの分布が最大エントロピーをもつかを問うこ
とにする.最後に,エントロピーを変更せずに分布を任意に変化できるため,この問題は劣決
定系となる.単一の解を与えるために,分布の平均が µ であるという制約を追加する.この
最適化問題のラグランジュ汎関数は,
"! #
$ %
L[p] = λ1 p(x)dx − 1 + λ2 (E[x] − µ) + λ3 E[(x − µ)2 ] − σ 2 + H[p] (19.50)
!
$ %
= λ1 p(x) + λ2 p(x)x + λ3 p(x)(x − µ)2 − p(x) log p(x) dx − λ1 − µλ2 − σ 2 λ3 (19.51)

となる.

p に関してラグランジアンを最小化するために,汎関数微分を 0 とおく.すなわち,
δ
∀x, L = λ1 + λ2 x + λ3 (x − µ)2 − 1 − log p(x) = 0. (19.52)
δp(x)

この条件は,p(x) の関数形を示している.この方程式を代数的に変形することによって,
$ %
p(x) = exp λ1 + λ2 x + λ3 (x − µ)2 − 1 (19.53)

が得られる.

p(x) がこの関数形をとることは,直接的には全く仮定しなかった.つまり,汎関数を解析
的に最小化することで,この式そのものを得たのである.最小化問題を終わらせるには,すべ
ての制約が満たされるように λ の値を選択する必要がある.制約が満たされている限り,変
数 λ に関するラグランジアンの勾配は 0 なので,任意の λ 値を自由に選択できる.すべての

制約を満たすために λ1 = 1 − log σ 2π ,λ2 = 0,λ3 = − 2σ1 2 とおくと

p(x) = N (x; µ, σ 2 ) (19.54)

が得られる.これが,真の分布がわからないときに,正規分布を使う理由の 1 つである.正
規分布は最大エントロピーをもつので,この仮定をおくことで,取りうる最小限の構造にで
きる.
616
第 19. 近似推論

エントロピーについてのラグランジュ汎関数の臨界点を調べると,固定分散の最大エント
ロピーに対応する 1 つの臨界点しか見つからなかった.エントロピーを最小化する確率分布
関数はどうなのだろうか.なぜ最小値に対応する 2 つ目の臨界点が見つからなかったのだろ
うか.それは,最小エントロピーを達成する特定の関数がないからである.関数が 2 つの点
x = µ + σ と x = µ − σ により多くの確率密度を配置して,他のすべての x の値により少な
い確率密度を配置すると,要求された分散を維持しながらエントロピーを失う.しかし,2 つ
の点以外のすべてに正確に質量ゼロを配置する関数は,積分が 1 にならないため,有効な確
率分布にならない.したがって,単一の最小の正の実数が存在しないのと同様に,単一の最
小エントロピーの確率分布関数は存在しない.その代わり,これら 2 つの点にのみ質量を置
くように収束する,一連の確率分布は存在するということができる.この縮退した状況は混
合ディラック分布として記述できる.ディラック分布は単一の確率分布関数で記述できない
ので,ディラック分布も混合ディラック分布も関数空間内の単一の特定の点には対応しない.
したがって,こうした分布は,汎関数微分がゼロとなる特定の点について解く手法では出現し
ない.これが,この手法の限界である.ディラック分布のような分布は,解を仮定して,それ
が正しいことを証明するといった,他の手法で見つける必要がある.

19.4.3 連続潜在変数

グラフィカルモデルが連続潜在変数を含んでいる場合にも,やはり L を最大化することで
変分推論と変分学習を行うことができる.しかし,q(h | v) に関して L を最大化するときに,
変分法を使用する必要がある.

多くの場合,専門家は変分法の問題自体を解く必要はまったくない.その代わり,平均場不
動点の更新のための一般的な方程式がある.平均場近似を
!
q(h | v) = q(hi | v) (19.55)
i

とし,すべての j ̸= i について q(hj | v) を固定するならば,非正規化分布
" #
q̃(hi | v) = exp Eh−i ∼q(h−i |v) log p̃(v, h) (19.56)

を正規化することによって最適な q(hi | v) を得られる.ただし,変数のどんな同時状態に対
しても,p によって確率 0 が割り当てられない場合に限る.方程式内の期待値を計算すること
で,q(hi | v) の正しい関数形が得られる.変分学習の新しい形を開発したい場合は,変分法
を使用して q の関数形を直接導出するだけでよい.式19.56によって,任意の確率モデルの平
均場近似が与えられる.

617
第 19. 近似推論

式19.56は不動点方程式である.つまり,それぞれの i の値を順に適用し,収束するまで繰
り返すように設計されている.しかし,この式はそれ以上のことを伝えている.この式は,不
動点方程式によって到達するかどうかにかかわらず,最適解が取る関数形を示している.こ
れは,その方程式から関数形を得ることができ,式の中に現れる値のいくつかをパラメータと
みなせることを意味する.そのため,好きな最適化アルゴリズムで最適化することができる.

例として,潜在変数 h ∈ R2 と 1 つの可視変数 v を持つ,簡単な確率モデルを考えよう.
p(h) = N (h; 0, I) および p(v | h) = N (v; w⊤ h; 1) と仮定する.実際には,h を積分消去す
ることでこのモデルを単純化することができる.その結果は,単に v におけるガウス分布と
なる.このモデル自体は興味深いものではないが,ただ確率モデリングに変分法をどのよう
に適用できるのかを簡単に説明するために構築したのである.

真の事後分布は,正規化定数を無視して,次式で与えられる.

p(h | v) (19.57)
∝p(h, v) (19.58)
=p(h1 )p(h2 )p(v | h) (19.59)
! $
1" #
∝ exp − h21 + h22 + (v − h1 w1 − h2 w2 )2 (19.60)
2
! $
1" 2 #
2 2 2 2 2 2
= exp − h1 + h2 + v + h1 w1 + h2 w2 − 2vh1 w1 − 2vh2 w2 + 2h1 w1 h2 w2 . (19.61)
2

h1 と h2 を一緒に乗算する項が存在するため,真の事後分布は h1 と h2 に因子分解できない
ことがわかる.

式19.56を適用すると,

q̃(h1 | v) (19.62)
% &
= exp Eh2 ∼q(h2 |v) log p̃(v, h) (19.63)
!
1 "
= exp − Eh2 ∼q(h2 |v) h21 + h22 + v 2 + h21 w12 + h22 w22 (19.64)
2
$
−2vh1 w1 − 2vh2 w2 + 2h1 w1 h2 w2 ] (19.65)

となる.このことから,q(h2 | v) から得る必要があるのは,実質的に 2 つの値だけだとわか
る.つまり,Eh2 ∼q(h|v) [h2 ] と Eh2 ∼q(h|v) [h22 ] である.これらを ⟨h2 ⟩ および ⟨h22 ⟩ と書くと,
次式が得られる.
!
1"
q̃(h1 | v) = exp − h21 + ⟨h22 ⟩ + v 2 + h21 w12 + ⟨h22 ⟩w22 (19.66)
2

618
第 19. 近似推論

!
−2vh1 w1 − 2v⟨h2 ⟩w2 + 2h1 w1 ⟨h2 ⟩w2 ] . (19.67)

このことから,q̃ がガウス分布の関数形を持つことがわかる.したがって,q(h | v) =
N (h; µ, β −1 ) とすることができる.ただし,µ と対角ベクトル β は変分パラメータで,任意
に選択した技術を用いて最適化することができる.ここで,q がガウス分布であるとは一切仮
定しなかったことを思い出してほしい.ガウス分布の形は,L に関して q を最大化するため
に変分法を使うことで,自動的に導出されたのである.異なるモデルに同じアプローチを用
いることで,q の異なる関数形が得られる可能性がある.

これはもちろん,説明するために構築した単純な事例に過ぎない.深層学習における連続変
数を用いた変分学習の実際の応用例については,Goodfellow et al. (2013d) を参照されたい.

19.4.4 学習と推論の相互作用

近似推論を学習アルゴリズムの一部として使うことは学習過程に影響し,これが今度は推
論アルゴリズムの精度に影響する.

具体的には,訓練アルゴリズムは,近似推論アルゴリズムの根底にある近似仮定がより真に
なるようにモデルを適応する傾向がある.パラメータを訓練するとき,変分学習は

Eh∼q log p(v, h) (19.68)

を増加させる.これによって,特定の v について,q(h | v) の下で高い確率を持つ h の値に
ついて p(h | v) が増大し,q(h | v) の下で低い確率を持つ h の値について p(h | v) が減少
する.

この挙動は,近似仮定が自己充足的予言*4 となる原因である.単峰性の近似事後分布でモデ
ルを訓練する場合,厳密推論でモデルを訓練することで得られるものよりも,はるかに単峰性
に近い真の事後分布を持つモデルが得られるだろう.

したがって,変分近似によってモデルに課される真の損害の量を計算することは非常に困
難である.log p(v) を推定する手法はいくつかある.多くの場合,モデルを訓練したあとに
log p(v; θ) を推定し,L(v, θ, q) との隔たりが小さいことを確認する.このことから,学習過
程で得られた特定の θ の値について,変分近似が正確であると結論づけることができる.し
かし,変分近似が一般に正確であるとか,変分近似は学習過程にほとんど害を及ぼさないなど

*4 訳注:自己充足的予言とは,ある事象や状況に関しての判断や思い込みが原因となり,結果としてその判断や
思い込みが現実化してしまうことを意味する.ここでは,予め近似事後分布に近似仮定を置いて訓練すること
で,結果としてその仮定に沿うような分布が獲得されることを指している.

619
第 19. 近似推論

と結論づけるべきではない.変分近似による真の損害の量を測るには,θ ∗ = maxθ log p(v; θ)
を知る必要がある.L(v, θ, q) ≈ log p(v; θ) と log p(v; θ) ≪ log p(v; θ ∗ ) は同時に成立でき
る.maxq L(v, θ ∗ , q) ≪ log p(v; θ ∗ ) の場合,θ ∗ による事後分布は,q の分布族で捉えるには
あまりにも複雑すぎるので,訓練過程ではけっして θ ∗ に到達しない.このような問題は検出
が非常に困難である.なぜなら,比較のために θ ∗ を見つけることができる優れた学習アルゴ
リズムがある場合にしか,その問題が起こったことを確かめられないからである.

19.5 学習による近似推論(Learned approximate inference)
ここまで,推論が関数 L の値を増加させる最適化処理として考えられることを見てきた.
不動点方程式や勾配に基づく最適化などの反復処理によって明示的に実行する最適化は,非
常に高価で時間がかかることが多い.多くの推論のためのアプローチでは,近似推論の実行
を学習することによって,このコストを回避する.具体的には,最適化処理が,入力 v を近
似分布 q ∗ = arg maxq L(v, q) に写像する関数 f であると考えることができる.複数段階の反
復最適化処理を単なる関数と考えると,近似 fˆ(v; θ) を実装するニューラルネットワークで近
似できる.

19.5.1 Wake-Sleep

v から h を推論するモデルの訓練で最も困難であることの 1 つは,モデルを訓練するため
の教師あり訓練集合がないということである.つまり,v が与えられた下での適切な h がわ
からない.v から h への写像はモデル族の選択に依存し,学習過程を通じて,θ が変化するに
つれて変わりつづける.wake-sleep アルゴリズム (Hinton et al., 1995b; Frey et al., 1996)
は,h と v の両方のサンプルをモデル分布から抽出することによって,この問題を解決する.
たとえば,有向モデルでは,h から始まり v で終わる伝承サンプリングを行うことで,安価に
行うことができる.この推論ネットワークは,その後,逆写像を実行するように訓練できる.
つまり,現在の v の要因となる h を予測する.このアプローチのおもな欠点は,モデルの下
で高い確率を持つような v の値に対してしか,推論ネットワークを学習できないということ
である.訓練の初めでは,モデル分布はデータ分布に似ていないため,推論ネットワークは
データに似たサンプルを学習する機会がなくなってしまう.

18.2節では,人間や動物における夢を見る睡眠の役割についての 1 つの可能性のある説明
として,夢は,モンテカルロ学習アルゴリズムが無向モデルの対数分配関数の負の勾配を近似
するために使う,負の段階のサンプルを提供しているかもしれないことを示した.生物学的

620
第 19. 近似推論

な夢についてのもう 1 つの可能性のある説明は,夢は,v が与えられた下で h を予測する推
論ネットワークを訓練するために使われる p(h, v) からのサンプルを提供しているということ
である.ある意味で,この説明は分配関数の説明よりも納得できる.モンテカルロアルゴリ
ズムは,数ステップを正の段階の勾配だけを使って実行し,次の数ステップを負の段階の勾配
だけを使って実行すると,一般にうまく働かなくなる.人間や動物は,通常,数時間連続して
起きてから,数時間連続して眠っている.このスケジュールが無向モデルのモンテカルロ訓
練の根拠となりうるかどうか,簡単には明らかにできない.しかし,L の最大化に基づく学習
アルゴリズムは,長時間 q を改善し,長時間 θ を改善して実行することができる.生物学的
な夢の役割が q を予測するためにネットワークを訓練することならば,動物がどのように何
時間も起きていられるのか(長く起きているほど L と log p(v) の隔たりは大きくなるが,L
は下界のままである),そして,内部モデルに損害を与えずにどのように何時間も眠り続けら
れるのか(生成モデル自体は睡眠中に変更されない)を説明できる.もちろん,このような考
えはまったくの推測であり,夢がこうした目標のいずれかを達成していると示唆するような
確かな証拠は何もない.夢は,動物の方策を訓練する動物の遷移モデルから擬似的な経験を
サンプリングすることで,確率モデルよりむしろ強化学習の役割も果たしているのかもしれ
ない.あるいは,夢は,機械学習コミュニティではまだ予期されていない,何か別の目的を果
たしているかもしれない.

19.5.2 推論学習の他の形式

学習 に よ る近 似 推 論 の 戦 略 は ,他の モ デ ルで も 適 用さ れ て い る .Salakhutdinov and
Larochelle (2010) は,学習させた推論ネットワークにおける 1 回の実行が,DBM にお
ける平均場不動点方程式の反復よりも速い推論をもたらすことを示した.この訓練手順は,推
論ネットワークを実行し,その推定値を改善する平均場の 1 ステップを適用し,この改善さ
れた推定値を元の推定値の代わりに出力するように推論ネットワークを訓練することに基づ
いている.

すでに14.8節で,予測スパース分解モデル(PSD)が,浅い符号化器ネットワークを訓練し
て入力のスパースコードを予測することを確認した.これは,自己符号化器とスパース符号
化のハイブリッドと見なせる.符号化器が学習による近似 MAP 推論を実行するものと見な
せる場合においては,そのモデルに対する確率的意味を考え出すことができる.PSD は浅い
符号化器を持つため,平均場推論で見てきたような,ユニット間のある種の競合を実装するこ
とはできない.しかしこの問題は,ISTA テクニック*5 のように,学習による近似推論の実行

*5 訳注:ISTA(Iterative Shrinkage and Thresholding Algorithm)とは,L1 正則化に対する近接勾配法

621
第 19. 近似推論

のために深層符号化器を訓練することで対策できる (Gregor and LeCun, 2010b).

学習による近似推論は,近年,変分自己符号化器 (Kingma, 2013; Rezende et al., 2014) と
いう形で,生成モデリングで主要なアプローチの 1 つとなった.この洗練されたアプローチ
では,推論ネットワークの明示的な目標を構築する必要がない.その代わり,推論ネットワー
クは単に L を定義するために使用され,推論ネットワークのパラメータは L が増加するよう
に適用される.このモデルは20.10.3節で詳しく説明する.

近似推論を使うことによって,幅広い種類のモデルを訓練し,利用できるようになる.こう
したモデルの多くは,次の章で説明する.

(proximal gradient method)である.

622

Sign up to vote on this title
UsefulNot useful