466

第 13 章

線形因子モデル

深層学習の最先端の研究の多くでは,入力の確率モデル pmodel (x) の構築が必要とさ
れている.このようなモデルでは確率的推論によって,その環境にある任意の変数が与
えられた下での任意の他変数を,原理的には予測できる.これらのモデルの多くには,
pmodel (x) = Eh pmodel (x | h) となる潜在変数 h もある.このような潜在変数によって,デー
タを表現する別の方法が得られる.潜在変数に基づく分散表現では,深層順伝播型ネットワー
クと回帰結合型ネットワークに関する説明で見た表現学習の利点のすべてが得られる.

この章では,潜在変数をもつ最も簡単な確率モデルである線形因子モデルについて説明す
る.このモデルは混合モデル (Hinton et al., 1995a; Ghahramani and Hinton, 1996; Roweis
et al., 2002) や,より大きな深層確率モデル (Tang et al., 2012) を構築するための要素とし
て使われることがある.またこれらのモデルは,さらに発展的な深層モデルによって推し進
められる生成モデルの構築において,必要な多くの基礎的アプローチを示している.

線形因子モデルは,h の線形変換にノイズを加えることで x を生成する確率的線形復号化
関数を用いて定義される.

こういったモデルは,単純な同時分布をもつ説明因子を発見できるので興味深い.線形復
号化器を簡単に利用できることから,線形因子モデルは大々的に研究される最初の潜在変数
モデルとなった.

線形因子モデルで記述されるデータ生成過程は次のようなものである.まず,以下の分布
から説明因子 h をサンプリングする.

h ∼ p(h), (13.1)
!
ただし,p(h) は階乗分布 p(h) = i p(hi ) なので,容易にサンプリングできる.次に,因子
第 13. 線形因子モデル

が与えられた下での実数値の観測変数

x = W h + b + noise (13.2)

をサンプリングする.ただし,このノイズは通常ガウス分布であり対角(つまり次元間が独
立)である.これを図13.1に示す.

h1 h2 h3

x1 x2 x3

x = W h + b + noise

図 13.1: 線形因子モデル族を表した有向グラフモデル.観測データベクトル x は,独立な隠れ因子 h
の線形結合にノイズを加えて得られると仮定している.確率的 PCA,因子分析,ICA などのモデルは,
ノイズと事前分布 p(h) の形式について,それぞれ異なる選択をしている.

13.1 確率的 PCA と因子分析
確率的 PCA(主成分分析)
,因子分析,その他の線形因子モデルは,上式(13.1と13.2)の
特別な場合にあたり,ノイズ分布と,x を観測する前の潜在変数 h におけるモデル事前分布
の選択が異なるだけである.

因子分析(factor analysis) (Bartholomew, 1987; Basilevsky, 1994) では,潜在変数の
事前分布は,単に分散 1 を持つガウス分布

h ∼ N (h; 0, I) (13.3)

である.ここで,観測変数 xi は h が与えられた下で条件付き独立(conditionally in-
dependent)であると仮定する.具体的には,ノイズは変数ごとの分散ベクトルを σ 2 =
[σ12 , σ22 , . . . , σn2 ]⊤ とする対角共分散ガウス分布から得られ,その共分散行列は ψ = diag(σ 2 )
となっている。

したがって,潜在変数の役割は異なる観測変数 xi 同士の依存関係を捉えることにある.実
際,x が多変量正規確率変数であることは,以下のように容易にわかる.

x ∼ N (x; b, W W ⊤ + ψ). (13.4)

467
第 13. 線形因子モデル

確率的な枠組みの中で PCA を計算するために,因子分析モデルを少し変更して,条件付き
分散 σi2 を互いに等しくすることができる.そうした場合,σ 2 はスカラーになるので,x の
共分散は単に W W ⊤ + σ 2 I となる.これにより,条件付き分布

x ∼ N (x; b, W W ⊤ + σ 2 I) (13.5)

または,等価な
x = W h + b + σz (13.6)

が導かれる.ただし z ∼ N (z; 0, I) はガウスノイズである.その後,Tipping and Bishop
(1999) が示したように,パラメータ W と σ 2 を推定するのに反復 EM アルゴリズムを利用
することが出来る.

この確率的 PCA (probabilistic PCA)モデルは,潜在変数 h によって,データの大部
分の変動を再構成誤差(reconstruction error)という小さな残差 σ 2 以下で捕捉できると
いう結果を利用する. Tipping and Bishop (1999) が示したように,確率的 PCA は σ → 0
で PCA になる.その場合には,x が与えられた下での h の条件付き期待値は,PCA と同じ
く,W の d 個の列ベクトルで張られた空間への x − b の直交射影となる.

σ → 0 でとなるにつれて,確率的 PCA によって定義された密度モデルは,W の列ベクト
ルで張られた d 次元の周りで非常に鋭くなっていく.これにより,実際には超平面の近くに
集まっていないデータに対して,モデルは非常に低い尤度を割り当てる.

13.2 独立成分分析(ICA)
独立成分分析(ICA)は最も古い表現学習アルゴリズムの 1 つである (Herault and Ans,
1984; Jutten and Herault, 1991; Comon, 1994; Hyvärinen, 1999; Hyvärinen et al., 2001a;
Hinton et al., 2001; Teh et al., 2003).ICA とは,観測信号を拡大縮小したり足し合わせた
りすることでその観測信号を構成するいくつもの潜在的な信号に分解しようとする,線形因
子をモデル化するためのアプローチの 1 つである.潜在的な信号はただ互いにほとんど無相
関というよりも,完全に独立したものとして意図されている.*1

たくさんの異なる個別の方法論が ICA と呼ばれている.ここで紹介するのは他の生成モ
デルに最も似ている変種で,完全にパラメトリックな生成モデルを訓練する (Pham et al.,
1992).潜在因子における事前分布 p(h) は,前もって利用者によって決定されなければなら
ない.モデルは,次いで決定論的に x = W h を生成する.(式3.47を用いて) 変数の非線形変

*1 3.8節で無相関な変数と,独立な変数の違いを論じている.

468
第 13. 線形因子モデル

化を施すことで,p(x) を決定できる.その後のモデルの学習は通常通り最尤法を使って進め
られる.

このアプローチを用いる理由は,p(h) を独立に選ぶことで,元の因子を可能な限り独立に
近い形で復元できるからである.この方法は普通,高位の抽象的な原因因子を捉えるためで
はなく,混合された低位の信号を復元するために使われる.この設定では,各訓練事例がある
時点となり,各 xi は混ざり合った信号の 1 つのセンサによる観測値であり,各 hi は元の信
号 1 つに対する,1 つの推定値である.たとえば,n 人が同時に話しているとしよう.もし n
本のマイクを異なる地点に置いたとすれば,ICA は各マイクで拾ったそれぞれの話し手の声
量の違いを検出でき,各 hi がたった 1 人の発声だけを明瞭に含むように分離できる.これは
神経科学において脳波記録法として一般的に使われている,脳内で発生する電気信号を記録
する技術である.たくさんの電極センサが被験者の頭に付けられていて,身体からの多数の
電気信号の計測に使われる.実験者は,通常脳からの信号だけに関心があるが,被験者の心臓
や眼からの信号は強く,被験者の頭皮から得られる計測値をわかりにくくさせてしまう.電
極に届く信号は混合されているので,ICA は心臓からくる信号の電気的な特徴を脳内で発生
した信号から選り分け,さらに脳の異なる領域からの信号を互いに分離しなければならない.

前述のように,ICA には様々な変種がある.あるものは,x を生成するときに,決定論的
な復号化器を使わずにノイズを加える.ほとんどの場合,最尤基準は使用されないが,代わり
に h = W −1 x の要素を互いに独立にさせようとする.この目標を達成するにはさまざまな
基準が利用できる.式3.47では,W の行列式を求める必要がある.これには計算コストがか
かり,数値演算としても不安定である.ICA の変種には,W を直交行列に制限することで,
このやっかいな演算を避けているものもある.

ICA の変種はどれも p(h) がガウス分布でないことを必要とする.これは,もし p(h) がガ
ウス分布を要素としてもつ独立事前分布であれば,W が一つに定まらないからである.多く
の W の値に対して,同じ p(x) における分布を得ることができてしまう.これは,確率的
PCA や因子分析のような他の線形因子モデルとは,大きく異なっている.他のモデルでは,
モデルに対する演算の多くに閉形式解をもたせるために,p(h) がガウス分布であることを求
d
めるものが多い.利用者が明示的に分布を決める最尤法では,通常は p(hi ) = dhi σ(hi ) を用
いる.典型的に利用されるこういった非ガウス分布は,通常 0 付近に大きな峰を持つので,
ICA のほとんどの実装はスパースな特徴量を学習していると見ることもできる.

ICA の多くの変種は,本書の用法でいう生成モデルではない.本書における生成モデルと
は,p(x) を表現するものか,p(x) からサンプルを抽出できるものかのどちらかである.ICA
の多くの変種は x と h の間の変換方法を知っているだけで,p(x) を表現する方法は何ももた

469
第 13. 線形因子モデル

ず,したがって p(h) における分布を課すこともない.たとえば,h = W −1 x のサンプル尖
度が高ければ,それは p(h) が非ガウス分布であることを示すので,多くの ICA の変種では
サンプル尖度を増加させようとする.しかしながら,これは p(h) を明示的に表現しなくても
達成できる.ICA がデータの生成やデータの密度推定よりも,信号分離の分析ツールとして
よく使われる理由はここにある.

PCA が14章で説明する非線形自己符号化器に一般化できるのと同じように,ICA は非線
形関数 f を用いて観測データを生成する非線形生成モデルに一般化できる.非線形 ICA の
初期の研究は Hyvärinen and Pajunen (1999) に,これをアンサンブル学習に用いた成功例
はRoberts and Everson (2001) およびLappalainen et al. (2000) を参考にされたい.ICA の
もう 1 つの非線形拡張が,非線形独立要素推定(nonlinear independent components
estimation,NICE)というアプローチ (Dinh et al., 2014) である.NICE は,各変換のヤ
コビ行列式が効率良く計算できるような性質をもつ一連の可逆変換(符号化段階)を積み上
げたものである.これによって尤度が正確に計算できる.また ICA と同じように,NICE は
データを因数分解された周辺分布をもつ空間に変換しようとするが,非線形符号化器のおか
げで成功する可能性がより高くなる.符号化器は,その完全な逆変換を行う復号化器に関連
づけられているので,(最初に p(h) からサンプルを抽出し,その後復号化器を適用すること
で) モデルから簡単にサンプルを生成できる.

ICA のもう一つの一般化は,統計的依存関係が一つの群の中にはあって,異なる群の間
にはないような特徴量の群を学習することである (Hyvärinen and Hoyer, 1999; Hyvärinen
et al., 2001b).関係するユニットの群が重複しないように選ばれるとき,これは独立部分空
間分析(independent subspace analysis)と呼ばれる.各隠れユニットに空間座標を割
り当てて,空間的に隣接するユニットの群を重複させることも可能である.これは,隣接する
ユニットに類似の特徴量を学習させる.自然画像に応用すると,このトポグラフィック ICA
(topographic ICA)のアプローチは,隣接する特徴量が,類似した向きや位置,周波数を
もつようなガボールフィルタを学習する.類似のガボール関数による多くの異なる位相ずれ
が各領域の中に発生し,このため狭い領域でのプーリングは並進不変性を生む.

13.3 Slow Feature Analysis
Slow feature analysis(SFA)は,時間信号からの情報を使って不変特徴量を学習する
線形因子モデルである (Wiskott and Sejnowski, 2002).

Slow feature analysis は,slowness 原理と呼ばれる一般原理がきっかけとなっている.光

470
第 13. 線形因子モデル

景の重要な特徴は,光景の描写を構成する個々の計測値に比べて,非常にゆっくり変化すると
いうのがその考え方である.たとえば,コンピュータビジョンでは個々の画素値が非常に速
く変わることがある.もしシマウマが左から右へ画像を横切って動いたなら,個々の画素は
シマウマの縞がその画素を通り過ぎるときに,黒から白にすばやく変わり,また黒に戻るだ
ろう.それに比べて,シマウマが画像の中にいるかどうかを表す特徴量はまったく変化せず,
シマウマの位置を表す特徴量はゆっくりと変化する.そこで,時間をかけてゆっくり変化す
る特徴量を学習するようにモデルを正則化したい.

この slowness 原理は,slow feature analysis より以前から存在しており,様々なモデルに
利用されてきた (Hinton, 1989; Földiák, 1989; Mobahi et al., 2009; Bergstra and Bengio,
2009).一般的に,slowness 原理は勾配降下法で学習されるどのような微分可能なモデルにも
利用できる.slowness 原理は,以下の形式の項をコスト関数に加えることで導入できる.
!
λ L(f (x(t+1) ), f (x(t) )) (13.7)
t

ただし λ は slowness 正規化項の強さを決定するハイパーパラメータ,t は時系列サンプルの
添え字,f は正規化される特徴抽出器,そして L は f (x(t) ) と f (x(t+1) ) との距離を測る損失
関数である.L は一般的には平均二乗差が選ばれる.

Slow feature analysis は,slowness 原理の特に効率の良い利用方法である.なぜなら,線
形特徴抽出器に用いられることで,閉形式で学習できるからである.ICA のいくつかの変種
と同じように,SFA それ自体はちゃんとした生成モデルではない.その意味は,入力空間と
特徴量空間の間の線形写像を定義しても,特徴量空間における事前分布を定義してはおらず,
よって入力空間に分布 p(x) を与えていないということである.

SFA アルゴリズム (Wiskott and Sejnowski, 2002) は,f (x; θ) が線形変換になるように定
義し,最適化問題
min Et (f (x(t+1) )i − f (x(t) )i )2 (13.8)
θ

を,制約
Et f (x(t) )i = 0 (13.9)


Et [f (x(t) )2i ] = 1 (13.10)

の下で解くことからできている.学習された特徴量の平均が 0 という制約は,問題が一意な
解を持つために必要である.そうでなければ,すべての特徴量の値に同じ定数を加えること
で,同じ値の slowness 目的関数を持つ異なる解を作れるだろう.特徴量が単位分散をもつと
いう制約は,すべての特徴量が 0 に潰れるような病的な解を防ぐために必要である.PCA と
471
第 13. 線形因子モデル

同じように,SFA 特徴量は順序づけられており,最初の特徴量が最も遅いようになっている.
複数の特徴量を学習するためには,さらに以下のような制約を加える必要がある.

∀i < j, Et [f (x(t) )i f (x(t) )j ] = 0. (13.11)

これは,学習された特徴量が互いに線形無相関であることを示す.この制約がなければ,学習
した特徴量すべてが単に同一の一番遅い信号を捉えることになるだろう.再構成誤差を最小
化するなどの,特徴量を多様化させる別の仕組みも考えられるだろうが,この無相関の仕組み
は,SFA 特徴量の線形性により,単純な解を採用する.SFA 問題は,線形代数のパッケージ
ソフトによって閉形式で解くことができる.

SFA は典型的に,その実行前に非線形基底展開を x に適用することによって,非線形特徴
量の学習に用いられる.たとえば,x をその 2 次基底展開,すなわちすべての i と j につい
て xi xj を要素にもつベクトルで置き換えることはよくある.したがって線形 SFA モジュー
ルは,線形 SFA 特徴抽出器を繰り返し学習し,その出力に非線形基底展開を適用し,さらに
その基底展開の上で別の線形 SFA 特徴抽出器を学習することによって,深層非線形 slow 特
徴抽出器を学習するように構成できる.

自然な風景動画の小さな空間片で学習すると,2 次基底展開を用いる SFA が学習した特徴
量には,V1 皮質の複雑な細胞にある特徴量と共通する多くの特徴が見られる (Berkes and
Wiskott, 2005).コンピュータで描画された 3D 環境の中でランダムに動く動画で学習する
と,深層 SFA が学習した特徴量には,ネズミの脳で走行指示に使われる神経細胞が表現する
ような特徴量と共通する多くの性質が見られる (Franzius et al., 2007).したがって,SFA は
それなりに生物学的に妥当なモデルと思われる.

SFA の大きな利点は,SFA がどの特徴量を学習するかを深層非線形の設定においてさえも
理論的に予測できることである.そのような理論的予測をするためには,構成空間に関する
環境のダイナミクスを知らなければならない(たとえば,3D 描画環境でのランダムな動きで
は,理論的予測はカメラの位置や速度についての確率分布の知識からもたらされる).潜在因
子が実際どう変わるかの知識があれば,それらの因子を表す最適な関数を解析的に解くこと
ができるだろう.実際に,深層 SFA にシミュレーションデータを適用した実験においては,
理論的に予測された関数を復元できているように思われる.これと比較して,他の学習アル
ゴリズムでは損失関数が特定の画素値に大きく依存しており,どの特徴量をモデルが学習す
るかを特定するのがより難しくなっている.

深層 SFA は,物対認識および姿勢推定の特徴量の学習にも使われてきた (Franzius et al.,
2008).今のところ,slowness 原理は最先端の応用例の基礎にはなっていない.その性能を妨
げている要因が何なのかは明らかではない.我々は,もしかしたら slowness の事前分布は強
472
第 13. 線形因子モデル

すぎるかもしれないと考えている. そうであれば,特徴量が近似的に定数になるような事前分
布を与えるよりも,ある時間ステップから次の時間ステップが容易に予測できるような特徴
量をもつ事前分布を与える方がいいのかもしれない.物体の位置は,その物体の速度が速い
か遅いかに関わらず有用な特徴量であるが,slowness 原理は速い速度をもつ物体の位置を無
視するようにモデルに促す.

13.4 スパース符号化
スパース符号化(Sparse coding) (Olshausen and Field, 1996) は,教師なし特徴量学
習と特徴抽出の仕組みとして重点的に研究されてきた線形因子モデルである.厳密に言えば,
「スパース符号化」の語はこのモデルで h の値を推論する過程を指しており,「スパースモデ
リング」の語はモデルの設計と学習の過程を指している.しかしながら,両方を指して「ス
パース符号化」の語を使うことが多い.

他の線形因子モデルのほとんどと同じように,ノイズを加えた線形復号化器を使って,
式13.2に示すように x の再構成を得ている.より具体的には,スパース符号化モデルは通常
線形因子が等方性精度 β のガウスノイズを持つと仮定している.

1
p(x | h) = N (x; W h + b, I). (13.12)
β

分布 p(h) としては,0 付近で鋭い山をもつものを選ぶ (Olshausen and Field, 1996). 通常
選択される分布には,因数分解されたラプラス分布,コーシー分布,因数分解されたスチュー
デントの t 分布が含まれる.たとえば,スパース性のペナルティ係数 λ の観点からパラメー
タ化されたラプラス事前分布はパラメータ化されたラプラス事前分布は

2 λ 1
p(hi ) = Laplace(hi ; 0, ) = e− 2 λ|hi | (13.13)
λ 4
で与えられ,スチューデントの t 事前分布は

1
p(hi ) ∝ h2i ν+1
(13.14)
(1 + ν )
2

で与えられる.

最尤法によるスパース符号化の訓練は計算困難である.代わりに,データの符号化と,符号
化されたデータをよりよく再構成するような復号化器の学習とを,交互に行うことで学習さ
せる.このアプローチは,最尤法に対する近似の原理を使って,後に19.3節で掘り下げて正当
化される.
473
第 13. 線形因子モデル

PCA のようなモデルでは,h を予測し,重み行列による乗算のみからなる,パラメトリック
な符号化関数が使われることを見てきた.スパース符号化で用いる符号化器はパラメトリッ
クな符号化器ではない.その代わり,符号化器は以下に示すように,最もふさわしい符号値を
一つ探し出す最適化問題を解くような最適化アルゴリズムである.

h∗ = f (x) = arg max p(h | x). (13.15)
h

式13.13と式13.12を組み合わせると,この式から以下の最適化問題が導かれる.

arg max p(h | x) (13.16)
h
= arg max log p(h | x) (13.17)
h
= arg min λ||h||1 + β||x − W h||22 , (13.18)
h

ここでは,h に依存しない項を消し,正の拡大係数で割ることで式を簡単化した.

h に L1 ノルムが付けられるため,この方法はスパースな h∗ を与える(7.1.2節項を参照).
単に推論を行うだけでなくモデルを学習するためには,h に関する最小化と W に関する最
小化を交互に行う.ここの説明では,β をハイパーパラメータとして扱う.この最適化問題に
おける β の役割は λ と共有されており,2 つのハイパーパラメータは必要ないため,通常は
β を 1 とする.原理上は,β をモデルのパラメータとして扱い,学習させることもできる.こ
こでの説明では,h に依存せず β に依存する項を消した.β を学習するためには,これらの
項は含まれている必要があり,そうしなければ β は 0 に潰れてしまうだろう.

すべてのスパース符号化のアプローチが,p(h) と p(x | h) を明示的に構築するわけではな
い.この推論手続きを使って抽出しても多くが 0 であるような活性化値によって,特徴量の
辞書を学習させることにのみ興味がある場合も多い.

もし h をラプラス事前分布からサンプリングすれば,h の要素が実際に 0 になるという事
象は実はゼロ確率事象である.生成モデルそれ自体が特別にスパースというわけではなく,特
徴抽出器だけがスパースなのである.Goodfellow et al. (2013d) は,スパイクとスラブを用
いたスパース符号化モデルと呼ばれる別のモデル族に属する近似推論法を説明しており,そ
こでは事前分布からのサンプルは通常本物の 0 を含んでいる.

ノンパラメトリックな符号化器と組み合わせたスパース符号化のアプローチは,再構成誤差
と対数事前分布の組み合わせを,原理上は他のいかなるパラメトリックな符号化器よりもよ
く最小化できる.もう一つの利点は,符号化器に汎化誤差がないことである.パラメトリッ
ク符号化器は,x から h にどう写像するかを,汎化するような方法で学ばねばならない.訓
練データに似ておらず馴染みのない x に対して,学習されたパラメトリックな符号化器は,
474
第 13. 線形因子モデル

正確な再構成やスパース符号をもたらすような h を見つけるのに失敗するかもしれない.ス
パース符号化モデルの大部分の定式化について推論問題は凸であり,(重みベクトルの複製が
発生するような縮退の場合を除いて)最適化手続きは常に最適なコードを見つける.明らか
にスパース性コストと再構成コストは,未知の点にて依然として上昇する可能性があるが,こ
れは符号化器の重みの汎化誤差ではなく,復号化器の重みの汎化誤差によるものである.ス
パース符号化の最適化に基づく符号化過程に汎化誤差がないことにより,スパース符号化が
分類のための特徴抽出器として使われたなら,パラメトリックな関数がコードの予測に使わ
れたときよりも,よりよい汎化を結果的にもたらすかもしれない.Coates and Ng (2011) は
物体認識課題において,スパース符号化特徴量の方が,線形シグモイド自己符号化器と呼ばれ
るパラメトリック符号化器に基づく関連モデルによる特徴量よりも,よく汎化していること
を示した.この研究に影響を受けてGoodfellow et al. (2013d) は,非常に少ないラベル(ク
ラスごとに 20 以下)しか使えない状況下で,スパース符号化の変種が他の特徴抽出器よりも
よりよく汎化していることを示した.

ノンパラメトリック符号化器の主な欠点は,x が与えられた下での h を計算するために,
より多くの時間が必要となることである.なぜならノンパラメトリックのアプローチでは,
反復アルゴリズムの実行が必要だからである.14章で作られるパラメトリック自己符号化器
のアプローチでは,固定数のレイヤーのみを使っており,多くの場合一つだけである.もう
一つの欠点は,ノンパラメトリック符号化器を介する逆伝播が簡単ではないことで,これが
スパース符号化モデルを教師なし基準で事前学習させて,そのあと教師あり基準で再学習す
ることを難しくしている.近似微分を認める改良されたスパース符号化も確かに存在するが,
広く用いられてはいない (Bagnell and Bradley, 2009).

スパース符号化は,他の線形因子モデルと同じく,図13.2に示すような粗末なサンプルを生
み出すことがよくある.このことは,モデルがデータをうまく再構成できて,分類器に有用
な特徴量をもたらしている場合でさえも起こる.この理由は,各個別の特徴量はよく学習で
きているかもしれないが,隠れコードにおける階乗事前分布が,それぞれの生成されたサン
プルの中のすべての特徴量のランダムな部分集合を含むモデルに結果としてなっているから
である.このことが,最も深い符号レイヤーに非階乗分布を強いるより深いモデルの開発や,
ならびにもっと洗練された浅いモデルの開発への動機付けとなっている.

13.5 PCA の多様体解釈
PCA と因子分析を含む線形因子モデルは多様体を学習していると解釈できる (Hinton
et al., 1997).確率的 PCA は,高い確率を持つ薄いパンケーキの形で領域を定義するものと
475
第 13. 線形因子モデル

図 13.2: MNIST データ集合にて学習されたスパイクとスラブを用いたスパース符号化モデルからのサ
ンプルと重みの例.(左)訓練例に似ていないモデルからのサンプル.一見したところ,モデルがひど
く適合していないのだと思うだろう.(右)モデルの重みベクトルは,ペンの動きや,ときに完全な数
字を表現するよう学習されている.したがって,モデルは有用な特徴量を学習している.問題は,特徴
量についての階乗事前分布が,結果としてランダムに結びついた特徴量の部分集合になってしまうこと
である.そのような部分集合のほとんどが,認識可能な MNIST の数字を形作るのにふさわしくない.
このことが,これらの隠れ符号におけるより強力な分布をもつ生成モデルの設計への動機付けとなって
いる.図はGoodfellow et al. (2013d) の許可を得て転載されている.

見なせる.これはガウス分布であり,いくつかの軸に沿っては非常に狭く,他の軸に沿っては
長く伸びていて,ちょうどパンケーキが水平軸に沿って広がっているのと同じである.これ
を図13.3に示す.PCA はこのパンケーキを,より高次元の空間にある線形多様体に並べるも
のと解釈できる.従来の PCA だけではなく,x の再構成を x にできるだけ近づけることを
目指して行列 W と V を学習する,どのような線形自己符号化器にもこの解釈が適用できる.

符号化器を
h = f (x) = W ⊤ (x − µ) (13.19)

とする.この符号化器は,低次元な h の表現を計算する.自己符号化器の立場では,再構成
を計算する復号化器
x̂ = g(h) = b + V h (13.20)

がある.

再構成誤差
E[||x − x̂||2 ] (13.21)

を最小化する線形符号化器と線形復号化器の選び方は,V = W ,µ = b = E[x] に相当し,

476
第 13. 線形因子モデル

図 13.3: 低次元多様体の近くに集中した確率を捉える平らなガウス分布.この図は,中央を貫く「多様
体平面」の上にある「パンケーキ」の上半分を表している.多様体に直交する方向(平面の外を指す矢
印)の分散は非常に小さく,
「ノイズ」のように考えることができる.一方,それ以外の方向(平面の中
の矢印)の分散は大きく,「信号」や次元数を減らしたデータの座標系に相当する.

W の列は,共分散行列
C = E[(x − µ)(x − µ)⊤ ] (13.22)

の主固有ベクトルと同じ部分空間を張る正規直交基底を構成する.PCA の場合,W の列は
これらの固有ベクトルで,(すべて実数で非負の)対応する固有値の大きさで並んでいる.

C の固有値 λi が,固有ベクトル v (i) の方向の x の分散に相当することも示せる.もし
(µ, b, V , W を上記のように選んだときの)最適再構成
x ∈ RD ,h ∈ Rd で d < D ならば,
誤差は,
D
!
2
min E[||x − x̂|| ] = λi (13.23)
i=d+1

である.よって,もし共分散のランクが d なら,λd+1 から λD までの固有値は 0 で,再構成
誤差も 0 である.

さらに上記の解は,再構成誤差を最小化する代わりに,直交行列 W の下で h の要素の分
散を最大化して得られることも示せる.

線形因子モデルは最も単純な生成モデルであり,データの表現を学習する最も単純なモデル
である.線形分類器と線形回帰モデルが深層順伝播型ネットワークに拡張できるように,こ
477
第 13. 線形因子モデル

れらの線形因子モデルも,より強力かつ柔軟なモデル族で同じタスクを実行する自己符号化
器ネットワークや深層確率モデルへと拡張できる.

478

Sign up to vote on this title
UsefulNot useful