502

第 15 章

表現学習

本章ではまず,表現を学習するということの意味するところについて,また表現という概念
が深い構造の設計にどのように役立ちうるのかについて説明する.また,例えば教師なしタ
スクによって得られた情報を教師ありタスクに利用する場合などを含む,学習アルゴリズム
が異なるタスク間で統計的強度をどのように共有しているかについて説明する.表現の共有
は,複数のモダリティやドメインを扱う場合に有用である.また,タスク表現が存在するもの
の事例が少数であるか,あるいは事例がまったくないようなタスクに対して,すでに学習した
知識を転移させる場合にも有用である.最後に,表現学習が成功した理由に立ち戻って議論
する.分散表現 (Hinton et al., 1986) と深層表現の理論的優位性から始め,データ生成過程
に潜在する仮定,特に観測データの裏に潜む原因についての,より一般的なアイディアについ
て議論して本章をまとめる.

多くの情報処理タスクは,情報がどのように表現されているかに応じて簡単にも難しくも
なる.これは,日常生活にも,コンピュータサイエンス一般にも,そして機械学習にも適用可
能な一般的な原理である.たとえば,人間が「210 割る 6」を筆算で計算するのは簡単である.
代わりに,もし数字がローマ数字で表現されているとすると,このタスクはより難しくなる.
CCX を VI で割るように求められたほとんどの現代人は,まずこれらの数字をアラビア数字
に変換し,位取り記数法による筆算を利用できるようにするところから始めるだろう.より
具体的には,適切な表現や不適切な表現を用いるさまざまな処理の漸近的な実行時間を定量
化することができる.たとえば,ソートされた数値リストの適切な位置に数値を挿入する処
理は,もしリストが連結リストで表現されていれば O(n) の処理であり,赤黒木で表現されて
いれば O(log n) である.

では,機械学習の文脈では,ある表現が他の表現よりも良いというのはどういうことだろ
第 15. 表現学習

うか.一般的に言えば,良い表現とはそれに続く学習タスクを簡単にするものである.通常,
表現の選択は,それに続く学習タスクが何かに依存する.

教師あり学習により訓練された順伝播型ネットワークは,一種の表現学習を行っていると
みなすことができる.具体的には,ネットワークの最後の層は典型的にはソフトマックス回
帰分類器などの線形分類器であり,ネットワークの残りの部分はこの分類器に与える表現を
学習していると考えることができる.教師あり基準を用いた訓練を行うと,すべての隠れ層
における表現は自然と(特に上部の隠れ層ほど)分類タスクを簡単にする特性を帯びるように
なっていく.たとえば,入力された特徴量では線形分離できないクラス群が,最後の隠れ層で
は線形分離できるようになるかもしれない.原理的に,最終層は別のモデル,たとえば近傍分
類器 (Salakhutdinov and Hinton, 2007a) のようなものでもよい.最後から 2 番目の層にお
ける特徴量は,最後の層の種類に応じて異なる特性を学習することが望ましい.

順伝播型ネットワークの教師あり学習は学習される中間表現に関する明示的な条件をまっ
たく含んでいない.他の種類の表現学習アルゴリズムは,表現を形作るためになんらかの方
法で明示的に設計されている場合も多い.たとえば,密度推定を容易にするための表現を学
習したい場合を考えてみよう.より独立した分布はよりモデリングしやすいので,表現ベク
トル h の要素を独立にするような目的関数を設計できるだろう.教師ありネットワークの場
合と同様に,教師なし深層学習アルゴリズムは主な訓練目標を持つとともに,副次的な効果と
して表現を学習することもできる.表現がどのように獲得されたかには関係なく,学習され
た表現を別のタスクに利用することができる.あるいは,複数のタスク(いくつかが教師あり
で,いくつかが教師なしでも良い)を,内部表現を共有させた上で同時に学習させることもで
きる.

表現を学習するほとんどの問題は,入力に関する情報をできるだけ保存することと,(独立
性のような)好ましい特性を獲得することのトレードオフに直面することになる.

表現学習は,教師なし学習や半教師あり学習を行う方法を与えるため特に興味深い.ラベ
ルなし訓練データが多数あり,ラベルあり訓練データが比較的少数であるような状況はしば
しばある.ラベルありの部分集合を利用した教師あり学習技術による訓練は,しばしばひど
い過剰適合を引き起こす.半教師あり学習は,ラベルなしデータも学習に使うことで過剰適
合の問題を低減する方法を提供する.具体的には,半教師あり学習の枠組みを利用すること
でまずラベルなしデータから良い表現を学習し,学習した表現を教師あり学習タスクを解く
ために利用できる.

人間や動物は極めて少数のラベルあり事例から学習することができるが,それがなぜ可能
なのかは今のところわかっていない.たとえば,脳は極めて大規模な分類器のアンサンブル

503
第 15. 表現学習

を使っているとか,ベイズ推定技術を使っているとか,さまざまな要因により人間の高い能力
を説明できるだろう.よくある仮説の 1 つは,脳は教師なし学習や半教師あり学習を有効活
用できるというものである.ラベルなしデータを活用する方法はいくつも存在する.本章で
はラベルなしデータが良い表現の学習に利用できるという仮説に焦点を当てる.

15.1 層ごとの貪欲教師なし事前学習
教師なし学習は,畳み込みや回帰結合のような特殊な構造を必要とせずに深層教師ありネッ
トワークの学習を可能にした初めての方法であり,深層ニューラルネットワークの再燃の
上で重要な歴史的役割を果たした.この手続きのことを教師なし事前学習(unsupervised
pretraining)や,より正確に層ごとの貪欲教師なし事前学習(greedy layer-wise unsu-
pervised pretraining)と呼ぶ.この手続きは,あるタスク(入力分布の形を捉えようとす
る教師なし学習)により学習された表現が,別のタスク(同じ入力ドメインにおける教師あり
学習)にどのように有用であるかを示す標準的な例である.

層ごとの貪欲教師なし事前学習は,RBM や単層自己符号化器,スパースコーディングモデ
ル,隠れ表現を学ぶその他のモデルなどの,単層表現を学習するアルゴリズムに基づいてい
る.各層は 1 つ前の層の出力を入力とし,データの新しい表現を出力として生成する教師な
し学習により事前学習される.ここで,新しい表現の分布(あるいは予測したいカテゴリなど
のその他の変数との関係)はより単純なものとなることが期待される.アルゴリズムの形式
的な記述はアルゴリズム15.1を参照されたい.

教師なし基準を利用した層ごとの貪欲学習法は,教師ありタスクのための深層ニューラル
ネットワークの複数の層を同時に訓練することの困難性を回避するために長らく利用されて
きた.このアプローチは少なくともネオコグニトロン (Fukushima, 1975) まで遡る.2006 年
の深層学習ルネッサンスは,貪欲学習法がすべての層を一緒に学習するための良質な初期値を
見つけるのに利用可能であり,このアプローチが全結合構造における訓練であっても利用でき
ることがわかったことから始まった (Hinton et al., 2006; Hinton and Salakhutdinov, 2006;
Hinton, 2006; Bengio et al., 2007; Ranzato et al., 2007a).この発見の前には,畳み込み深
層ネットワークか,回帰結合の結果としての深さを持つネットワークのみが訓練可能である
とみなされていた.今日,層ごとの貪欲事前学習は全結合深層構造の学習に必ずしも必要で
はないことがわかっているが,教師なし事前学習アプローチは成功した最初の方法であった.

層ごとの貪欲事前学習の貪欲(greedy)というのは,貪欲アルゴリズム(greedy algo-
rithm),つまり解法のすべての部分を一緒に最適化するのではなく,それぞれの部分を独立

504
第 15. 表現学習

に 1 つずつ最適化することを指している.また,層ごと(layer-wise)というのは,その独
立部分がネットワークの各層であることに由来している.すなわち,層ごとの貪欲事前学習
は 1 度に 1 つの層を扱い,k 番目の層を学習するときにはそれまでの層を固定しておく.具
体的には,(最初に訓練される)下の層は,より上の層が挿入された後で変化しない.また,
教師なし(unsupervised)というのは,各層が教師なし表現学習アルゴリズムによって訓練
されることからきている.これはまた事前学習(pretraining)とも呼ばれている.これは,
この学習が,あくまでもすべての層を同時学習アルゴリズムにより再学習(fine-tune)する
前の最初のステップであると想定されているためである.教師あり学習の文脈では,これは
一種の正則化(いくつかの実験において,事前学習は訓練誤差を減らすことなくテスト誤差を
減らしている)やパラメータの初期化の一種とみなすことができる.

「事前学習」という用語は,事前学習そのものの段階だけでなく,事前学習と教師あり学習
の 2 段階を組み合わせたプロトコル全体を指してよく使われる.教師あり学習段階は,事前
学習段階により学習された特徴量の上に乗った簡単な分類器の訓練をともなうか,あるいは
事前学習段階で学習されたネットワーク全体の教師あり再学習をともなう.どのような教師
なし学習アルゴリズムを利用しても,どのようなモデルを採用しても,多くの場合全体的な学
習スキームはほぼ同じである.どの教師なし学習アルゴリズムを選択するかは明らかにその
細部に影響を与えるものの,教師なし事前学習の多くの応用事例はこの基本的なプロトコル
に沿っている.

層ごとの貪欲教師なし事前学習は,深層自己符号化器 (Hinton and Salakhutdinov, 2006)
や,多層の隠れ変数を持つ確率モデルなど,その他の教師なし学習アルゴリズムの初期化にも
利用することができる.このようなモデルには,深層信念ネットワーク (Hinton et al., 2006)
や深層ボルツマンマシン (Salakhutdinov and Hinton, 2009a) も含まれている.これらの深
層生成モデルについては20章で説明する.

8.7.4節で説明したように,層ごとの貪欲教師あり事前学習を行うことも可能である.これ
は,浅いネットワークの学習は深いネットワークの学習よりも簡単であるという前提に立っ
ており,いくつかの文脈で検証されてきているようである (Erhan et al., 2010).

15.1.1 教師なし事前学習はいつ,なぜうまく働くのか

多くのタスクでは,層ごとの貪欲教師なし事前学習は分類タスクのテスト誤差をかなり改善
できる.この結果は,2006 年にはじまる深層ニューラルネットワークへの新たな関心のきっ
かけとなった (Hinton et al., 2006; Bengio et al., 2007; Ranzato et al., 2007a).しかし,そ
の他の多くのタスクでは,教師なし事前学習は利益を与えないか,無視できない害を引き起こ

505
第 15. 表現学習

Algorithm 15.1 層ごとの貪欲教師なし事前学習手続き.
教師なし特徴量学習アルゴリズムを L とする.L は訓練事例の集合を入力とし,符号化器
または特徴量関数 f を返す.入力生データを X とする.X は行ごとに 1 つの事例を持つ.
f (1) (X) は X に対する 1 段目の符号化器の出力を示す.再学習を行うには,学習器 T を用
いる.T は初期関数 f と入力事例 X(および対応する目標 Y ,ただし教師あり再学習を行う
場合)を入力とし,再学習された関数を返す.ステージ数を m とする.
f ← Identity function
X̃ = X
for k = 1, . . . , m do
f (k) = L(X̃)
f ← f (k) ◦ f
X̃ ← f (k) (X̃)
end for
if fine-tuning then
f ← T (f, X, Y )
end if
Return f

すかのどちらかである.Ma et al. (2015) は,化合物活性予想のための機械学習モデルにおけ
る事前学習の効果を調べ,平均的には事前学習がわずかに有害であるが,劇的に役立つような
タスクも多くあることを発見した.教師なし事前学習は役に立つこともあるが有害なことも
多いので,いつ,なぜうまくいくかを理解することは,ある特定のタスクに対して適用可能で
あるかを決める上で重要である.

はじめに,ここでの議論のほとんどは貪欲教師なし事前学習に限定されたものであるとはっ
きりさせておこう.7.13節で言及した仮想敵対的学習のような,ニューラルネットワークで
半教師あり学習を行うまったく異なる別のパラダイムも存在している.また,自己符号化器
や生成モデルを,教師ありモデルと同時に学習させることもできる.このような 1 段階アプ
ローチの例には,識別的 RBM(Larochelle and Bengio, 2008) や梯子ネットワーク (Rasmus
et al., 2015) などの,全体の目的関数が 2 つの項(1 つはラベルを用い,もう 1 つは入力のみ
を用いる)の明示的な総和であるようなモデルが含まれている.

教師なし事前学習は 2 つの異なるアイディアを組み合わせている.1 つ目は,深層ニューラ
ルネットワークの初期パラメータの選択はモデルに対して強い正則化効果を持ちうる(また,
それほどではないにせよ最適化を改善する)というアイディアである.2 つ目は,入力分布

506
第 15. 表現学習

の学習が,入力から出力への写像の学習を手助けしうるという,より一般的なアイディアで
ある.

どちらのアイディアも,完全には理解されていない機械学習アルゴリズムのいくつかの要
素間の複雑な相互作用を伴っている.

1 つ目のアイディア,すなわち深層ニューラルネットワークの初期パラメータの選択がその
性能に対して強い正則化効果を持ちうるということについては,まだ良くわかっていない.事
前学習が有名になった際,モデルをある位置に初期化することは,ある局所解を避けて別の局
所解へと向かわせるものと理解されていた.今日,局所解はもはやニューラルネットワーク
の最適化における深刻な問題であるとは考えられていない.標準的なニューラルネットワー
クの学習手順は通常,どんな種類の臨界点にも到達していないことがわかっている.ただし,
事前学習が,事前学習なしではたどり着けなかった領域にモデルを初期化している可能性は
残されている.たとえば,コスト関数が事例ごとに非常にバラついておりミニバッチが著し
くノイズにまみれた勾配の推定しか与えない区域に囲まれた領域や,ヘッセ行列が著しく不
完全に条件づけられており勾配降下法が非常に小さなステップしか利用しない区域で囲まれ
た領域などがこれに該当する.しかし,事前学習されたパラメータのどの側面が教師あり学
習の段階で保存されているかを正確に特徴づけるのは難しい.これが,現代的なアプローチ
が通常教師なし学習と教師あり学習を 2 つの逐次的な段階としてではなく,同時に利用して
いる 1 つの理由である.また,単に特徴抽出器のパラメータを固定させて,教師あり学習を
学習済みの特徴量の上にのせた分類器にのみ行うことで,教師あり学習段階での最適化がど
のように教師なし学習段階で得られた情報を保存しているかという複雑な考えと格闘するの
を避けることができる.

学習アルゴリズムが教師なし段階で学習した情報を,教師あり学習段階をよりよく実行する
ために利用できるという別のアイディアはより理解されている.基本的なアイディアは,教
師なしタスクで有用な特徴量には,教師あり学習のタスクにとっても有用なものもありうる
ということである.たとえば,自動車とオートバイの画像の生成モデルを訓練する場合,タイ
ヤについて知るとともに,画像中にタイヤがいくつあるかを知る必要があるだろう.運がよ
ければ,タイヤの表現は教師あり学習器が利用しやすい形式になりうる.これは数学的,ある
いは理論的レベルではまだ理解されていないため,どのタスクが教師なし学習から利点を得
られるかを常に予想することはできない.このアプローチの多くの側面は,使われている特
定のモデルに強く依存している.たとえば,事前学習された特徴量の上に線形分類器を乗せ
る場合には,その特徴量は潜在的なクラスを線形分離しなければならない.このような特性
が自然に得られることも多いが,つねに得られるわけではない.これが,教師あり学習と教師
なし学習を同時に行うことが好まれるもう 1 つの理由である.同時に行うことで,出力層に

507
第 15. 表現学習

より課された制約を最初から自然に取り入れることができる.

教師なし事前学習を表現学習の観点からみると,教師なし事前学習は初期表現が不十分であ
る場合により有効であると期待できる.1 つの重要な例は単語埋め込みの利用である.2 つの
異なる one-hot ベクトル間の距離はすべて同じ(L2 の二乗が 2 となる距離)になるので,単
語表現に one-hot ベクトルを用いてもあまり有益ではない.学習された単語埋め込みは,単
語間の類似度を単語間の距離により自然に符号化することができる.そのため,教師なし事
前学習は単語を処理する際に特に有用である.逆に画像を処理する際にはそこまで有用では
ない.これはおそらく,画像はすでにリッチなベクトル空間に存在していて,その距離が低品
質ながら類似度の測定方法となるためであると思われる.

正則化の観点から見ると,教師なし事前学習はラベルあり事例が非常に少ない場合にもっ
とも手助けになると期待できる.教師なし事前学習によって付加される情報のソースはラベ
ルなしデータであり,ラベルなし事例が大量にある場合にもうまく働くと期待できる.大量
のラベルなし事例を利用した教師なし事前学習と少数のラベルあり事例を利用した半教師あ
り学習の利点は,2011 年の 2 つの国際転移学習コンペティションにおける教師なし事前学習
の勝利により,とりわけ明らかになった (Mesnil et al., 2011; Goodfellow et al., 2011).こ
のコンペティションでは,目標タスクのラベルあり事例が少なく(クラスあたり 5 から数十
程度)設定されていた.この結果については,Paine et al. (2014) による慎重に管理された実
験で検証されている.

その他にも,いくつかの要因が関連しているようである.たとえば,教師なし事前学習はお
そらく学習される関数が極めて複雑である場合にもっとも有用である.教師なし学習は重み
減衰のような正則化とは異なっている.なぜなら,学習器が単純な関数を発見する方向にバイ
アスを与えるのではなく,むしろ学習器が教師なし学習タスクにとって有用であるような特
徴量関数を発見する方向に向かわせているからである.もし真の潜在的な関数が入力分布の
規則性によって複雑に形作られているならば,教師なし学習はより適切な正則化となりうる.

これらの注意点はとりあえずおいておき,ここでは,教師なし事前学習が改善をもたらすと
分かっている成功事例のいくつかを分析し,なぜこのような改善ができるかについて知られ
ていることを説明する.通常,教師なし事前学習は分類器を改良するために利用され,テスト
集合の誤差を減らすという観点からもっとも興味を持たれている.しかし,教師なし事前学
習は分類以外のタスクも手助けし,単に正則化として働くだけでなく,最適化を改善すること
もできる.たとえば,教師なし事前学習は,深層自己符号化器の訓練再構成誤差とテスト再構
成誤差の両方を改良することができる (Hinton and Salakhutdinov, 2006).

Erhan et al. (2010) は,教師なし事前学習のいくつかの成功について説明するために,多

508
第 15. 表現学習

1500
With pretraining
1000
Without pretraining
500

0

−500

−1000

−1500
−4000 −3000 −2000 −1000 0 1000 2000 3000 4000

図 15.1: 非線形写像による関数空間(パラメータ空間ではないことに注意されたい.これはパラメータ
ベクトルから関数への多対一の写像を避けるためである.)における異なるニューラルネットワークの
学習軌道の可視化.各ニューラルネットワークはランダムに異なる値で初期化されたり,あるいは教師
なし事前学習を行ったり行わなかったりしたものである.各点は訓練過程の特定の時点における異なる
ニューラルネットワークに対応している.この図はErhan et al. (2010) の許可を得て改変した.関数
空間での座標軸は,すべての入力 x を出力 y に関連づける無限次元のベクトルである.Erhan et al.
(2010) は多くの決まった x に y を結びつけることで,高次元空間への線形射影を行った.また彼らは
その後,Isomap(Tenenbaum et al., 2000) を利用した 2 次元空間へのさらなる非線形射影を行った.
図中の色は時刻を表している.すべてのネットワークは,図の中心付近(ほとんどの入力に対してクラ
ス y に関する近似的な一様な分布を与える関数の領域に対応する)で初期化されている.時間が経つに
つれて,学習により関数が外側,つまり強い予測をする点へと移動している.事前学習を行った場合に
は訓練がばらつかずにある 1 つの領域で停止しており,また事前学習を行わない場合には重ならない領
域で停止している.Isomap は大域的な相対距離(したがって大きさも)を保存しようとするため,事
前学習済みモデルに対応する小さな領域は,事前学習に基づく推定量が分散を低下させていることを示
唆している.

くの実験を行った.訓練誤差の改善とテスト誤差の改善は,どちらも教師なし事前学習が,
それなしには到達不可能な領域にパラメータを導くという観点から説明することができる.
ニューラルネットワークの訓練は非決定的であり,実行するたびに異なる関数へと収束する.
訓練は,勾配が小さくなった点,過剰適合を防ぐための早期打ち切りにより学習が終了した
点,勾配は大きいものの確率性やヘッセ行列の条件不足などの問題により下り坂に向かうス
テップが見つけにくい点で停止するだろう.事前学習を行わなかったニューラルネットワー
クがバラバラな領域で停止するのに対して,教師なし事前学習を利用したニューラルネット
ワークは一貫して特定の関数領域で停止する.この現象の視覚的な説明は,図15.1を参照され
たい.事前学習を利用したネットワークが到達した領域は小さく,このことは,事前学習が推
定過程の分散を低下させており,そしてまた深刻な過剰適合のリスクを低下させていること

509
第 15. 表現学習

を示唆している.言い換えれば,教師なし事前学習はニューラルネットワークのパラメータ
をそこから抜けられないような領域に初期化しており,この初期化を利用した学習結果を一
貫させ,またこの初期化を行わない場合と比較してそれほど悪い結果になりにくくしている.

Erhan et al. (2010) はまた,事前学習がもっともよく働くのはいつかという問いに対する
答えもいくつか提供している.すなわち,より深いネットワークでは,事前学習によってテス
ト誤差の平均と分散をもっとも低下させたことを報告している.これらの実験は,より深い
ネットワークを学習する現代的な技術(ReLU,ドロップアウト,バッチ正規化)が発明され
たり普及したりする前に行われており,最新の手法とともに教師なし事前学習を行う効果に
ついてはあまり明らかになっていないことを心に留めておいて欲しい.

重要な問いの 1 つは,教師なし事前学習がどのように正則化として機能しうるかである.1
つの仮説は,事前学習によって,観測データを生成する潜在的因子に関する特徴量を学習アル
ゴリズムが発見するのを促しているというものである.これは,教師なし事前学習の他にも
多くのアルゴリズムを動機づけている重要なアイディアである.より詳細には15.3節で説明
する.

他の教師なし学習手法と比較して,教師なし事前学習は 2 つの別々の訓練段階を必要とす
るというデメリットがある.多くの正則化手法には,1 つのハイパーパラメータの値を調節す
ることで正則化の強度を利用者が制御できるメリットがある.教師なし事前学習には,教師
なし段階で生じる正則化の強度を調節するわかりやすい方法が存在しない.代わりに大量の
ハイパーパラメータがあり,その効果を事後に測定することはできるが,事前に予測すること
は難しい.事前学習戦略を使う代わりに教師なし学習と教師あり学習を同時に行う場合には,
1 つのハイパーパラメータが存在する.通常は教師なしコストに付与される係数であり,教師
なし目的関数が教師ありモデルを正則化する強さを決める.利用者は,係数を小さくするこ
とで,予期したとおりに弱い正則化をつねに実現することができる.教師なし事前学習の場
合,このように正則化の強さを柔軟に変化させる方法は存在しない.すなわち,教師ありモデ
ルは,事前学習のパラメータに初期化されているか,あるいはいないかのどちらかである.

2 段階学習のもう 1 つのデメリットは,それぞれの段階が独自のハイパーパラメータを持
つことである.通常,2 段目の性能は 1 段目の途中では予想できないため,1 段目のハイパー
パラメータを試してから,それを 2 段目から得られるフィードバックを利用して更新するま
での間には長い遅延がある.もっとも理にかなった方法は,Larochelle et al. (2009) に示さ
れているように,教師あり段階での検証データに対する誤差を事前学習段階のハイパーパラ
メータの選択に利用するというものである.実際には,いくつかのハイパーパラメータ,たと
えば事前学習の繰り返し回数などは,教師なし目的関数における早期打ち切りを利用するこ

510
第 15. 表現学習

とで,事前学習段階で簡易的に設定される.これは理想的な方法ではないものの,教師あり目
的関数を利用する場合よりも計算上はるかに安価である.

今日,自然言語処理の領域を除いて,教師なし事前学習はほとんど使われていない.自然言
語処理の領域は one-hot ベクトルによる自然な単語表現が単語間の類似度を測るのに適切で
なく,また極めて大量のラベルなしデータが利用可能である.その場合の事前学習の利点は,
巨大なラベルなしデータ(たとえば数十億もの単語を含むコーパスなど)に対して 1 度だけ
事前学習を行うことで(通常は単語の,さらには文章の)良好な表現を学習し,学習事例が
かなり少ない教師ありタスクでその表現を利用したり再学習したりできることである.この
ような取り組み方はCollobert and Weston (2008b),Turian et al. (2010),Collobert et al.
(2011a) によって切り開かれ,今日でも利用されている.
ドロップアウトやバッチ正規化によって正則化された教師あり学習に基づく深層学習の技
術は,たくさんのタスクで人間レベルの性能を発揮できているが,それは極めて大規模なラ
ベルありデータ集合が存在する場合に限られている.同様の技術は CIFAR-10 や MNIST の
ような,クラスあたりおおよそ 5,000 のラベルあり事例があるような,中規模のデータ集合
においても教師なし事前学習を上回っている.選択的スプライシングデータ集合のような極
めて小規模なデータ集合においては,ベイズ的な手法が教師なし事前学習による方法を凌駕
している (Srivastava, 2013).これらの理由から教師なし事前学習の人気は低下している.そ
れでもなお,教師なし事前学習は深層学習研究の歴史上において重要なマイルストーンであ
り続けており,最新のアプローチに影響を与え続けている.事前学習のアイディアは8.7.4節
に示した教師あり事前学習(supervised pretraining)に一般化され,転移学習を実現す
るためのアプローチとして極めて一般的となっている.転移学習のための教師あり事前学習
は,ImageNet データ集合で事前学習された畳み込みネットワークを利用する場合によく使わ
れる (Oquab et al., 2014; Yosinski et al., 2014).専門家はこれらの目的のために学習した
ネットワークのパラメータを公開しており,自然言語処理の領域での事前学習単語ベクトル
(Collobert et al., 2011a; Mikolov et al., 2013a) と同様である.

15.2 転移学習とドメイン適応
転移学習やドメイン適応とは,ある設定(たとえば分布 P1 )で学んだことを別の設定(た
とえば分布 P2 )の汎化能力向上に役立てようとする状況を指す言葉である.これは,前の節
で考えた教師なし学習タスクにより得られた表現を教師あり学習タスクに転移するというア
イディアをより一般化している.

511
第 15. 表現学習

転移学習(transfer learning)では,学習器は 2 つ以上の異なるタスクを実行する.ただ
し,ここでは P1 の変化を説明するような因子の多くが,P2 を学習するために捉えるべき変
化にとっても適切であると仮定している.通常,これは入力が同じでも目標が異なる性質を
持つ教師あり学習の状況として理解される.たとえば,はじめに犬と猫のような視覚的に分
類されるある集合について学習し,続いて蟻と蜂のような最初とは異なる集合について学習
する場合があるだろう.もし最初の設定(P1 からのサンプリング)において大量のデータが
あれば,P2 から得られる非常に少ない事例のみで素早く汎化するために有用な表現を学習す
る手助けになるだろう.視覚的なカテゴリの多くは,エッジや目に見える形などの下位の概
念,幾何学的変化による影響,照明の変化などを共有している.一般に,複数の設定で現れる
潜在的因子に対応する,異なる設定やタスクに対して有用な特徴量が存在している時に,転
移学習やマルチタスク学習 (7.7節),ドメイン適応は表現学習によって達成できる.このこと
は,共有された下位層とタスク依存の上位層をもつ図7.2に示されている.

しかし,異なるタスク間で共有されているのが入力の意味ではなく,出力の意味である場
合もある.たとえば,音声認識システムでは,出力層は適切な文章を生成する必要があるが,
入力に近い前方の層は話者によって大きく異なる音素や副音素の発声を認識する必要がある.
このような場合,図15.2に示すように出力に近い上位層を共有し,タスクごとに前処理を持つ
方が理にかなっている.

ドメイン適応(domain adaptation)の場合,タスク(と最適な入出力の写像)は各設
定で同じであるものの,それぞれの入力分布が微妙に異なっているような場合である.たと
えば,感情分析(センチメント分析)のタスクを考えてみよう.このタスクは,あるコメン
トがポジティブな感情を示すものか,ネガティブな感情を示すものかを決定するものである.
ウェブ上に投稿されるコメントはさまざまなカテゴリに属している.ドメイン適応は,書籍,
ビデオ,音楽などのメディアコンテンツ上のカスタマーレビューで学習した感情予測器を,後
からテレビやスマートフォンなどの家電に関するコメントの分析に利用する際に必要となる.
この場合,すべての記述をポジティブ,ニュートラル,ネガティブのいずれかに言い当てる潜
在的な関数を考えることはできるが,あるドメインと他のドメインでは語彙や文体が異なっ
ており,複数のドメイン間で一般化するのがより難しいのは当然である.雑音除去自己符号
化器を利用した単純な教師なし事前学習は,ドメイン適応を利用した感情分析で極めてうま
く働くことがわかっている (Glorot et al., 2011b).

類似した問題はコンセプトドリフト(concept drift)と呼ばれる.コンセプトドリフトは
データ分布が時間とともにゆるやかに変化することを考慮した転移学習の 1 種とみなすこと
ができる.コンセプトドリフトと転移学習は,どちらもマルチタスク学習の特殊形とみなす
ことができる.通常「マルチタスク学習」という用語は教師あり学習のタスクを指すが,転移

512
第 15. 表現学習

y

h(shared)

Selection switch

h(1) h(2) h(3)

x(1) x(2) x(3)

図 15.2: マルチタスク学習や転移学習のための構造の例.出力変数 y はすべてのタスクに対して同じ意
味を持ち,一方で入力変数 x はタスクごと(つまり,たとえばユーザごと)に異なる意味(さらには次
元数が異なることさえありうる)を持っている.3 つのタスクに対する入力を x(1) ,x(2) ,x(3) と記す.
選択スイッチまでの下位レベルはタスク特有であり,それより上位レベルは共有されている.下位レベ
ルはタスクに特有な入力を汎用的な特徴量に変換するように学習される.

学習の一般的な概念は,教師なし学習や強化学習にも同様に適用可能である.

いずれの場合でも,目的とするところは,最初の設定からのデータを生かして,2 つ目の設
定における学習や,さらには 2 つ目の設定における予測の直接的な作成に有用な情報を抽出
することである.表現学習の核となる概念は,同一の表現が双方の問題設定で有用であると
いうものである.どちらの問題設定でも同じ表現を利用することにより,双方のタスクで利
用できる訓練データを活かした表現を獲得することができる.

すでに言及したように,転移学習のための教師なし深層学習はいくつかの機械学習のコン
ペティションで成功を納めてきた (Mesnil et al., 2011; Goodfellow et al., 2011).初期のコ
ンペティションの実験設定は次のようなものである.参加者は,あるいくつかのカテゴリ集
合に関するデータ集合(分布 P1 から得られたもの)が与えらる.参加者は,例えば転移設定
(分布 P2 )からサンプリングした入力に対して適用した場合に線型分類器を少ないラベルあり
事例から良好に汎化できるような,(生データをなんらかの表現に写像する)良好な特徴空間
を学習することをこのデータ集合から学習することを求められる.このコンペティションで
得られたもっとも印象的な結果の 1 つは,(最初の設定 P1 において集められたデータを用い
た純粋な教師なし学習による)より深い表現を使う構造ほど,2 つ目の(転移学習の)設定 P2

513
第 15. 表現学習

における新しいカテゴリの学習曲線がよりよくなるというものである.深い表現を使うと,浅
い表現を使う場合と比較して少ないラベル付き事例数でも漸近的な汎化能力を達成できる.

ワンショット学習(one-shot learning)とゼロショット学習(zero-shot learning)
は 2 つの転移学習の極端な形式である.ゼロショット学習はゼロデータ学習(zero-data
learning)と呼ばれることもある.ワンショット学習では転移タスクのたった 1 つのラベル
あり事例のみが与えられ,ゼロショット学習のタスクではラベルあり事例がまったく与えら
れない.

ワンショット学習 (Fei-Fei et al., 2006) は,潜在的なクラスを綺麗に分けるような表現を
1 段階目で学習することで可能となる.知識を転移する際には,1 つのラベル付き事例があれ
ば,特徴空間上でその点の周りにあるいくつものテスト事例のラベルを推論するのに十分で
ある.学習された表現空間で,このような不変性に対応する変化の要因がその他の要因から
綺麗に区別でき,特定のカテゴリの物体を識別するのにどの要因が重要なのかを何らかの形
で学習する限りにおいて,これはうまくいく.

ゼロショット学習の例として,学習器が大量のテキストを読んだ後に物体認識を行うような
問題設定を考えよう.もしそのテキストが物体を十分にうまく説明できているとすれば,あ
る特定の物体のクラスを,その物体の画像を 1 枚も見ずに認識しうる.たとえば,猫は 4 本
の足と尖った耳を持つというテキストを読んでいた場合,学習器は猫の画像を前もって見て
いなくても,ある画像が猫であると推測することができうるだろう.

ゼロデータ学習 (Larochelle et al., 2008) とゼロショット学習 (Palatucci et al., 2009;
Socher et al., 2013b) が可能なのは,訓練時に追加情報が利用されているからである.ゼロ
データ学習のシナリオを,3 つのランダムな変数を含むものとして考えることができる.そ
れぞれ,通常の入力 x,通常の出力または目標 y ,タスクを記述する追加の確率変数 T であ
る.モデルは条件付き分布 p(y | x, T ) を推定するように訓練される.ここで,T はモデルに
実行させたいタスクの記述である.猫に関する記述を読んだ後に猫を認識する例では,出力
は y = 1 が"yes",y = 0 が"no"を示すようなバイナリ変数 y である.タスク変数 T は,返
答を求める「この画像の中に猫はいますか?」のような質問を表している.もし,T と同じ空
間に存在する物体の教師なし事例を含んだ訓練集合があれば,見たことがない T のインスタ
ンスの意味を推測することができるかもしれない.猫の画像を見たことがなくても猫を識別
するという例では,「猫には 4 本の足がある」や「猫には鋭い耳がある」といった文を含む,
ラベルなしのテキストデータを持っていることが重要である.

ゼロショット学習を実現するには,T がある種の汎化を可能にするような方法で表現され
ている必要がある.たとえば,T は物体のカテゴリを指すような単純な one-hot ベクトルで

514
第 15. 表現学習

はダメである.Socher et al. (2013b) は,代わりに,それぞれのカテゴリに関係する単語の物
体カテゴリの分散表現を,学習された単語埋め込みによって与えている.

機械翻訳の分野でも同様の現象が起こっている (Klementiev et al., 2012; Mikolov et al.,
2013b; Gouws et al., 2014).機械翻訳では,ある言語に関する複数の単語が与えられており,
その単語間の関係は単一言語コーパスにより学習可能である.同時にまた,機械翻訳ではあ
る言語の単語と別の言語の単語を関連づける翻訳文が与えられる.このとき,もし言語 X に
おける単語 A を言語 Y における単語 B へと翻訳するラベルあり事例が与えられなかったと
しても,ラベル付き事例による学習を汎化して,未知の単語 A に関する翻訳を推測すること
ができる.なぜなら,このやり方では,言語 X における単語の分散表現と,言語 Y における
単語の分散表現を学習し,その後,2 つの空間を関係づける(おそらく双方向の)リンクを,
双方の言語における文章のペアからなる訓練事例を介して構築していることになるためであ
る.この転移は,3 つの要素(2 つの表現と,それらの間の関係)がすべて一緒に学習された
場合にもっともうまくいくであろう.

ゼロショット学習は転移学習の特殊な形式である.同様の原理は,マルチモーダル学習
(multi-modal learning)をどのように実現できるかを説明するのにも役立つ.すなわち,
あるモダリティでの表現とその他のモダリティでの表現,およびあるモダリティにおける観
測 x と別のモダリティにおける観測 y からなるペア (x, y) の(普通は同時分布の)関係を捉
えるとい方法である (Srivastava and Salakhutdinov, 2012).これらの 3 種類のパラメータ
集合(x から表現へ,y から表現へ,および 2 つの表現間の関係)を学習することで,ある表
現に含まれる概念は別の表現に含まれる概念へと繋がれ,その逆方向も同様で,新しいペアに
意味のある汎化ができる.この手順を図15.3に示す.

15.3 半教師あり学習による原因因子の紐解き
表現学習に関する重要な問いに,ある表現が他の表現よりも良いというのはどういうこと
だろうか,というものがある.1 つの仮説は,理想的な表現とは,その表現の中の特徴量が観
測データの潜在的原因に対応しており,それぞれの特徴量や特徴空間における方向が別個の
原因に対応していることで,表現がお互いの原因を時ほぐせるというようなものである.こ
の仮説は,まずはじめに p(x) の良い表現を探すようなアプローチを動機づけている.もし y
が x のもっとも顕著な原因のうちに含まれていれば,そのような表現はおそらく p(y | x) を
計算する上でも良い表現である.このアイディアは,遅くとも 1990 年代には深層学習研究の
大いなる指針となっていた (Becker and Hinton, 1992; Hinton and Sejnowski, 1999).どの
ような場合に半教師あり学習が純粋な教師あり学習を凌ぐのかに関するその他の論争につい

515
第 15. 表現学習

hx = fx (x)

hy = fy (y)

fx
fy

x space
y space

xtest

ytest

(x, y) pairs in the training set
fx : encoder function for x
fy : encoder function for y
Relationship between embedded points within one of the domains
Maps between representation spaces

図 15.3: x と y の 2 つのドメイン間の転移学習はゼロショット学習を可能にする.ラベルあり,ある
いはラベルなしの事例 x は表現関数 fx を学習可能にし,同様に事例 y は fy を学習可能にする.上向
き矢印は関数 fx および fy を適用していることを意味しており,矢印の形でそれぞれの関数を区別し
ている.hx 空間における距離は x 空間内の点の任意のペアの類似度を与える.これはおそらく x 空間
における距離よりも意味があるものである.同様に,hy 空間における距離は y 空間内の点の任意のペ
アの類似度を提供する.これらの類似度関数は点線の双方向矢印で示されている.ラベルあり事例(破
線の水平線)は表現 fx (x) と表現 fy (y) の間の 1 方向または双方向の写像(実線の双方向矢印)を学
習して,これらの表現を互いに繋げることのできた (x, y) のペアである.ゼロデータ学習は,ここで
次のように実現できる.まず,たとえある単語に対する画像がこれまでに提示されていなかったとして
も,画像 xtest をその単語 ytest と関連づけることができる.これは単純に単語表現 fy (ytest ) と画像表
現 fx (xtest ) を,表現空間の間の写像を介してお互いに関連づけることができるためである.その画像
とその単語はペアで与えられたことがなくとも,それぞれの特徴ベクトル fx (xtest ) や fy (ytest ) が互い
に関連づけられているため,これはうまく働く.この図は Hrant Khachatrian の示唆から着想を得た.

516
第 15. 表現学習

ては,Chapelle et al. (2006) の 1.2 節を参照されたい.

表現学習のその他のアプローチでは,たとえばその要素がスパースであったり,他と独立で
あったりするような,モデリングしやすい表現に関心をおいてきた.潜在的な原因因子を綺
麗に分離するような表現が必ずしもモデリングしやすいものである必要はないかもしれない.
しかし,教師なし表現学習を介した半教師あり学習を動機づけるさらなる仮説は,多くの AI
タスクにおいて,この 2 つの特性を一致させる.すなわち,観測したものに対する潜在的な説
明をいったん獲得すれば,個々の属性を他から分離することは一般に簡単である,ということ
である.具体的には,もし表現 h が観測された x の潜在的な原因の多くを表現しており,出
力 y がもっとも顕著な原因に含まれていれば,h から y を予測するのは容易である.

y=1 y=2 y=3
p(x)

x

図 15.4: 混合モデル。3 つの成分の混合であるような x の密度の例を示す.成分そのものは潜在する説
明因子 y である.混合成分(たとえば画像データにおける自然物クラス)は統計的に顕著であるため,
p(x) を教師なしの方法でラベルなし事例からモデリングするだけで,因子 y が明らかになる.

まず,p(x) の教師なし学習が p(y | x) の学習の助けにならず,半教師あり学習が失敗する
場合を考えてよう.たとえば,p(x) が一様分布であり,f (x) = E[y | x] を学習しようとして
いる場合を考える.明らかに,x の値の訓練集合を観測するだけでは p(y | x) について何の
情報も得られない.

次に,半教師あり学習が成功しうる簡単な例を見てみよう.図15.4に示すように,y の値ご
とに 1 つの混合成分を持つ混合分布から x が立ち上がっている場合を考えてみよう.もし混
合成分同士がうまく分離していれば,p(x) のモデリングにより各成分の正確な位置が明らか
になり,各クラスに 1 つずつラベルあり事例があれば p(y | x) を完全に学習できるだろう.
しかし,より一般的には,何が p(y | x) と p(x) を互いに結びつけるのだろうか.

もし y が x の原因因子の 1 つと密接に関係していれば,p(x) と p(y | x) は強く結びつき,
517
第 15. 表現学習

変動の潜在的要因を紐解こうとする教師なし表現学習が半教師あり学習の戦略として有用と
なるだろう.

y が x の原因因子の 1 つであり,h がすべての因子を表現していると考えよう.真の生成
過程は,h が x の親であるような有向グラフィカルモデルに従った構造を持つものとして考
えることができる.
p(h, x) = p(x | h)p(h) (15.1)

結果として,データは次の周辺確率を持つ.

p(x) = Eh p(x | h) (15.2)

この単純な観測の結果から,(汎化の観点から言って)x に関するもっとも良いモデルは,x
の中で観測された変化を説明するような潜在変数として h を使い,上記の「真の」構造を暴
くようなものであると言える.それゆえ,上で議論した「理想的な」表現学習はこのような隠
れ因子を復元するべきである.もし y がこのような因子の 1 つであれば(あるいはそのうち
の 1 つと密接に関係していれば)
,そのような表現から y を予測するための学習を行うのも容
易である.また,x の下での y の条件付き分布は,以下に示すように,ベイズ則により上式
の成分と結びついている.
p(x | y)p(y)
p(y | x) = (15.3)
p(x)

すなわち,周辺分布 p(x) は条件付き分布 p(y | x) に密接に結びついており,前者の構造に関
する知識は,後者の学習に対して手助けになるはずである.それゆえ,このような仮定が満た
される状況では,半教師あり学習の性能は改善されるはずである.

重要な研究課題は,ほとんどの観測結果が,極めて多くの数の潜在的原因によって生成され
ているという事実によるものである.y = hi であるが,教師なし学習器にはどの hi なのかが
わかっていないと考えよう.力づくな解法は,教師なし学習器が表現を学習する際に,適度に
注目されるすべての生成因子 hj を捉えさせ,それらを互いに紐解き,そうすることでどの hj
が y に対応しているかにかかわらず,h から y を簡単に予測できるようにする手法である.

実際のところ,ある観測に影響をあたえるような変動の因子のすべて,もしくはほとんど
すべてを捉えるということは不可能であり,この力づくな解法は実現できない.たとえば,
ある風景の中で,背景にあるとても小さな物体すべてを表現に符号化する必要があるだろう
か.人間が今行っているタスクと直ちに関係しないような環境の変化を認知できないという
のはよく知られた心理学的な現象である.この現象については,たとえばSimons and Levin
(1998) を参照されたい.半教師あり学習における最先端の重要な研究は,それぞれの状況で
何を符号化するべきか決定することである.現在のところ,大量の潜在的原因を扱うための

518
第 15. 表現学習

Input Reconstruction

図 15.5: 平均二乗誤差により訓練された自己符号化器.この例では卓球の玉を再構築するのに失敗して
いる.卓球の玉が存在していることや,それらの空間的な座標は画像を生成するために重要な潜在的な
原因因子であり,ロボティクスタスクにとって重要な情報である.残念なことに,この自己符号化器は
容量が制限されており,また平均二乗誤差による訓練では,卓球の玉を符号化するのに十分なほど顕著
な情報であるとはみなさなかった.

主要な戦略は 2 つある.1 つ目は,もっとも適切な変化の要因群を捉えるように,教師あり学
習の信号を同時に教師なし学習の信号としても使う方法であり,2 つ目は,もし純粋に教師な
し学習のみを利用するのならば,より大きな表現を使うことである.

教師なし学習に関する新たに生まれた戦略は,どの潜在的原因がもっとも顕著であるかに
関する定義を変化させることである.歴史的には,自己符号化器や生成モデルは,多くの場合
平均二乗誤差に似た固定された基準を最適化するように訓練されてきた.これらの固定され
た基準はどの原因が顕著と考えられるかを決定している.たとえば,画像のピクセルに対し
て適用された平均二乗誤差は,多数のピクセルの輝度が大きく変化する場合にのみ潜在的原
因が顕著であるということを暗黙的に指定している.この方法は,解こうとしているタスク
が小さな物体との相互作用を含む場合に問題となりうる.図15.5に,自己符号化器が小さな
卓球の玉を符号化する必要があることを学習できなかったロボティクスタスクの事例を示す.
同じロボットは,野球のボールのようにより大きく,平均二乗誤差による基準でより顕著な変
化を引き起こすような物体とはうまく相互作用することができている.

顕著さの定義には他の方向性もありうる.たとえば,あるピクセル群が簡単に見てわかるよ
うなパターンに従っているとすれば,たとえそのパターンが極度の明るさや暗さをともなっ
ていなくても,そのようなパターンは極めて顕著だと考えることができる.このような顕著
さに関する定義を実装する1つの方法は,近年開発されたアプローチである敵対的生成ネッ

519
第 15. 表現学習

トワーク(Generative Adversarial Networks, GANs)(Goodfellow et al., 2014c) を
利用することである.このアプローチでは,生成モデルは順伝播分類器を騙すように訓練さ
れる.順伝播分類器は,生成モデルから来たすべてのサンプルを偽物であると,そして訓練
集合から来たすべてのサンプルを本物であると判定しようとする.このフレームワークでは,
順伝播型ネットワークが識別可能などんな構造的パターンも顕著さが大きくなる.敵対的生
成ネットワークについては20.10.4節でより詳細に説明する.ここでの説明では,このネット
ワークが,何が顕著であるかを決める方法を学習していると理解すれば十分である.Lotter
et al. (2015) は,人間の頭部画像を生成するように訓練されたモデルが,最小二乗誤差で訓
練した場合には耳の生成をおろそかにする傾向にあるが,敵対的フレームワークで訓練した
場合には耳をうまく生成できることを示した.耳は周りの皮膚と比較して著しく明るかった
り暗かったりしないので,最小二乗誤差損失によれば,耳は特に顕著ではないと判断される.
しかし,耳の形は特徴的で決まった場所にあるため,敵対的生成フレームワークのもとでは非
常に顕著なものとなり,順伝播型ネットワークは耳の検出を簡単に学習できる.具体的な画
像については図15.6を参照されたい.敵対的生成ネットワークは,どの因子を表現するべきか
の決定に向けた 1 つのステップにすぎない.将来の研究において,どの因子を表現するべき
かを決定するより良い方法が発見され,またタスクに依存して異なる因子を表現するための
メカニズムが開発されることを期待している.

Schölkopf et al. (2012) が指摘したように,潜在的な原因因子を学習する利点は,もし真の
生成過程において x が結果であり y が原因であるならば,p(x | y) のモデリングが p(y) の変
化に対してロバストになることである.もし因果関係が逆ならば,これは成り立たない.な
ぜならば,ベイズ則により,p(x | y) は p(y) の変化に敏感だからである.ドメインの違いや
時間的な非定常性,あるいはタスクの性質の変化に伴う分布の変化を考えるとき,潜在的な原
因における周辺分布は変化しうる一方で,因果メカニズムは不変のままである(宇宙の法則は
一定である)
.それゆえ,原因因子 h と p(x | h) を復元しようと試みる生成モデルの学習を介
して,あらゆる変化に対するより良好な汎化やロバスト性が期待される.

15.4 分散表現
概念の分散表現(互いに分離可能なさまざまな要素により構成された表現)は,表現学習
を実現するもっとも重要なツールの 1 つである.分散表現が強力なのは,それぞれが k 個の
値を持つ n 個の特徴量を利用することで,k n の異なる概念を表現することができるためであ
る.本書を通して見てきたように,多数の隠れユニットを持つニューラルネットワークも,多
数の潜在変数を持つ確率モデルも,この分散表現を利用している.ここでは,新しい洞察を

520
第 15. 表現学習

Ground Truth MSE Adversarial

図 15.6: 予測的生成ネットワークによる,どの特徴量が顕著であるかを学習することの重要性を示す例.
この例において,予測的生成ネットワークは特定の視点での人間の頭部の 3D モデルの外観を予測する
ように訓練されたものである.(左)正解事例.正しい画像であり,ネットワークが出力するべきもの.
(中央)平均二乗誤差のみで学習させた予測的生成ネットワークが生成した画像.周辺の肌と比較して,
耳は明るさに大きな違いを生じさせないので,それらの表現をモデルが学習するには十分に顕著ではな
かった.(右)平均二乗誤差と敵対的損失の組み合わせにより訓練されたモデルが出力した画像.この
学習されたコスト関数を使用すると,耳は予測可能なパターンに従うため顕著である.どの潜在的な原
因が重要であり,またモデリングに十分関連しているかを学習することは,活発に研究されている重要
な領域である.図はLotter et al. (2015) の好意により提供された.

加えよう.15.3節で示したように,多くの深層学習アルゴリズムは,データを説明するような
潜在的な原因因子の表現を隠れユニットが学習できるという仮定に動機づけられている.表
現空間における各方向は異なる潜在的状態変数の値に対応できるため,分散表現はこのアプ
ローチにおいて自然な方法である.

分散表現の 1 つの例は n 次元のバイナリ素性ベクトルである.この場合,それぞれが入力
空間における異なる領域に対応するかもしれない 2n 個の状態を取ることができる(図15.7).
このような表現は,入力が 1 つのシンボルやカテゴリと関連しているシンボリック表現と比
較することができる.もし辞書に n 個のシンボルがあったとすると,それぞれが関連するカ
テゴリの存在を検出する役割を持つ n 個の特徴抽出器を考えることができるだろう.この場
合,図15.8に示すように,入力空間の n 個の異なる領域を切り分けるような,表現空間におけ
る n 個の異なる状態のみが起こりうる.このようなシンボル表現は one-hot 表現と呼ばれて
いる.それは,相互排他的な(1 つだけが有効であるような)n ビットのバイナリベクトルで
表現することができるからである.シンボル表現は広範な非分散表現のクラスの具体的な例
である.これは,多くのエントリを含みうるものの,各エントリに対して独立した意味のある
制御方法を持たない表現である.

521
第 15. 表現学習

h2 h3

h = [1, 0, 0]>

h = [1, 1, 0]> h = [1, 0, 1]>

h = [1, 1, 1]>

h1
h = [0, 1, 0]> h = [0, 1, 1]> h = [0, 0, 1]>

図 15.7: 分散表現に基づく学習アルゴリズムがどのように入力空間を領域分割するかを示した図.この
例には,h1 ,h2 ,h3 の 3 つのバイナリ素性がある.各素性は,学習された線形変換の出力を閾値で区
切ることにより定義される.各素性は R2 の平面を 2 つの半平面に分割する.h+
i を hi = 1 となる入力
ポイントの集合,h−
i を hi = 0 となる入力ポイントの集合としよう.この図では,各線は 1 つの hi に
対する決定境界を示しており,また対応する矢印は h+
i 側を指している.この表現は,全体として見る
と,これらの半平面の交わりごとに固有の値を取る.たとえば,表現値 [1, 1, 1]⊤ は領域 h+ + +
1 ∩ h2 ∩ h3
に対応している.これを図15.8に示す非分散表現の例と比較してみて欲しい.入力が d 次元の一般的な
場合,分散表現は Rd を半平面ではなく半空間の交わりにより分割する.n 個の素性を持つ分散表現は
O(nd ) の異なる領域に一意のコードを割り当てるが,一方で,n 個の事例を持つ最近傍アルゴリズムは
n 個の領域にのみ一意のコードを割り当てる.したがって,分散表現は非分散表現よりも指数関数的に
多くの領域を区別することができる.ここで,すべての h 値が取りうる値ではないこと(この例では
h = 0 は存在しない)と,分散表現の上にある線形分類器はすべての隣接領域に異なるクラスの識別を
割り当てることができないことを心に留めておくこと.深層線形閾値ネットワークであっても VC 次元
はたった O(w log w) である (Sontag, 1998).ここで,w は重みの数である.強力な表現層と弱い分類
層の組み合わせは強力な正則化となりうる.すなわち,
「人」と「人でない」という概念を学習しようと
する分類器は,
「眼鏡をかけていない男性」を表す入力に割り当てられたクラスと異なるクラスを「眼鏡
をかけた女性」を表す入力に割り当てる必要はない.このネットワークの容量に関する制約は,各分類
器がほんの少数の hi に焦点を当てることを促進し,また線形分離可能な形でクラスを表現する方法の学
習を促進する.

522
第 15. 表現学習

非分散表現に基づく学習アルゴリズムの例は,次のようなものである.

• k 平均法を含むクラスタリング手法.各入力ポイントは決まって 1 つのクラスタに割
り当てられる.
• k 最近傍法アルゴリズム.1 つまたは少数のテンプレートやプロトタイプ事例が,与え
られた入力に関連づけられている.k > 1 の場合,各入力を表現する複数の値が存在
するが,それらを互いに独立して制御することはできず,それゆえ真の分散表現では
ない.
• 決定木.入力が与えられた時に,たった 1 つの葉ノード(および根から葉にいたるまで
の経路上にあるノード)のみが活性化する.
• 混合ガウスや混合エキスパート.テンプレート(クラスタの中心)あるいはエキスパー
トが活性の度合いに関連づけられる.k 最近傍法と同様に,各入力は複数の値により表
現されるが,それらの値を互いに独立に制御するのは容易ではない.
• ガウシアンカーネル(や他の類似の局所カーネル)を利用したカーネルマシン.各「サ
ポートベクトル」やテンプレート事例の活性度合いは連続値となるが,混合ガウスと同
様の問題がある.
• n グラムを基にした言語/翻訳モデル.文脈(シンボルの連なり)の集合は接尾辞の木
構造に応じて仕切られる.たとえば,1 つの葉ノードが w1 と w2 という最後の 2 語に
対応してもよい.木の各葉ノード(共有があってもよい)に別個のパラメータが推定さ
れる.

いくつかの非分散表現アルゴリズムでは,出力は部分ごとに一定ではなく,代わりに周辺の
領域との補完により決まる.パラメータ(または事例)の数と,区切ることが可能な領域の数
との関係は依然として線形のままである.

分散表現をシンボリックな表現と区別する重要な関連概念が,異なる概念間で共通の属性
によって汎化が生じることである.純粋なシンボルでは,「猫」と「犬」の間の距離は,他の
任意の 2 つのシンボル間の距離と同じである.しかし,もし意味のある分散表現でそれらを
関連づけるとすれば,猫に関して言える多くのことが犬にも汎化され,逆もまた然りである.
たとえば,この分散表現は,
「猫」と「犬」双方に埋め込まれている同じ値として,
「毛が生え
ている」や「足の数」のようなエントリを持つことができる.単語の分散表現に対して演算を
行う自然言語モデルは,単語の one-hot 表現に対して直接演算を行う他のモデルよりも,ずっ
とうまく汎化できる(12.4節を参照されたい)
.分散表現によって,豊富な類似度空間が生じ,
その空間では意味的に類似した概念(または入力)は距離も近くなる.このような特性は,純
粋なシンボリック表現では得られない.

523
第 15. 表現学習

図 15.8: 最近傍アルゴリズムがどのように入力空間を領域分割するかを示した図.最近傍アルゴリズム
は,非分散表現に基づく学習アルゴリズムの例である.他の非分散アルゴリズムは異なる分割の仕方を
するが,通常それらは各領域ごとに別個のパラメータ集合を利用して入力空間を分割する.非分散アプ
ローチの利点は,十分なパラメータが与えられれば,難しい最適化アルゴリズムを解かなくても訓練集
合に適合できることである.これは,領域ごとに異なる出力を独立に選択するのが容易なためである.
このアプローチの欠点は,このような非分散モデルは滑らかさに関する prior を介した局所的な汎化し
かできないことであり,その結果として利用可能な事例数よりも多くの山と谷を持つような複雑な関数
を学習するのが難しくなる点である.この例を分散表現の場合(図15.7)と比較されたい.

学習アルゴリズムの一部に分散表現を用いることが統計的な利点を持ちうるのは,いつで,
またそれはなぜなのだろうか.分散表現は,見るからに複雑な構造が少数のパラメータに
よって簡潔に表現できるような時に,統計的な利点を持つことができる.いくつかの従来的
な非分散学習アルゴリズムでは,滑らかさの仮定によってのみ汎化が行われる.滑らかさの
仮定とは,もし u ≈ v であれば,学習される目標関数 f は一般に f (u) ≈ f (v) という性質を
持つということである.このような仮定を定式化する方法はたくさんあるが,結局のところ
f (x) ≈ y であることが分かっている事例 (x, y) があったとして,入力を x + ϵ まで少しだけ
動かすときに,変化量を可能な限り小さくしてこの制約を近似的に満たすような推定器 fˆ を
選択する問題に落ち着く.この仮定が非常に有用なのは明らかであるが,この仮定は次元の
呪いの影響を受ける.すなわち,多くの異なる領域で何度も増減するようなある目標関数を
学習するためには,*1 ,少なくとも識別可能な領域数と同じだけの事例が必要となる.これら
の領域のそれぞれをカテゴリやシンボルと考えることもできる.すなわち,シンボル(あるい
は領域)ごとに別個の自由度を持たせることで,シンボルから値への任意の復号化器の写像を

*1 潜在的には,指数関数的に多くの領域で振る舞いが異なるある関数を学習させたいこともあるだろう.すなわ
ち,d 次元空間において,次元ごとに少なくとも 2 つの異なる値を持つ場合,f は 2d 個の異なる領域で異な
る振る舞いをすることが望ましく,それには O(2d ) の訓練事例が必要である.

524
第 15. 表現学習

学習することができる.しかし,この方法では新たなシンボルを新たな領域に汎化させるこ
とはできない.

運の良ければ,目標関数は滑らかさ以外にもなんらかの規則性を持ちうるかもしれない.た
とえば,最大プーリングを利用した畳み込みネットワークは,画像中の物体の位置によらず物
体を認識することができる.この性質は,物体の空間的変換が入力空間でのなめらかな変換
に対応していなくても現れる.

分散表現学習アルゴリズムの特殊な事例について吟味してみよう.このアルゴリズムとは,
入力の線形関数を閾値で区切ることによりバイナリ素性を抽出するというようなものである.
図15.7に示すように,この表現における各バイナリ素性は実数空間 Rd を一対の半空間に分割
する.半空間の数 n が増加するにずれて指数関数的に増加する半空間の交わりの数は,この
分散表現の学習器がどのくらいの数の領域を識別できるかを決定づけている.実数空間 Rd に
おける n 個の超平面の配置により,何個の領域が生成されているのだろうか.超平面の交わ
りに関する一般的な結果 (Zaslavsky, 1975) を適用すると,このバイナリ素性表現が識別可能
な領域の数は
d " #
! n
= O(nd ) (15.4)
j=0
j

となる (Pascanu et al., 2014b).したがって,入力の大きさに対して指数関数的に,隠れユ
ニット数に対して多項式的に増加することがわかる.

これらの説明は,分散表現の汎化能力を説明するための幾何学的な主張を与える.すなわ
ち,O(nd) のパラメータ(実数空間 Rd における n 個の線形閾値特徴量)を利用して,入力空
間において O(nd ) の領域を明確に表現することができるということである.代わりに,もし
データに関してまったく何の仮定も置かず,領域ごとに 1 つの固有のシンボルを持つ表現を
利用し,シンボルごとにパラメータを分けて Rd 中の対応する部分空間を識別すると,O(nd )
の領域を記述するためには O(nd ) の事例が必要となる.より一般的に,分散表現を支持する
この主張は,線形閾値ユニットを使う代わりに,分散表現の属性ごとに非線形でおそらく連
続な特徴抽出器を利用する場合にも拡張することができるだろう.この場合の主張は,もし
k ≪ r で,k 個のパラメータを持つパラメトリックな変換が入力空間における r 個の領域を学
習でき,またこのような表現を得ることが関心のあるタスクにとって有益であるならば,この
方法はもしかすると非分散設定よりもずっとうまく汎化できるだろうということである.非
分散設定では,同じ特徴量と,入力空間から r 個の領域への関連する分割とを得るのに O(r)
の事例が必要だろう.より少数のパラメータでモデルを表現すれば,適合させるパラメータ
がより少なくて済み,それゆえうまく汎化させるのにはるかに少ない訓練事例で済む.

525
第 15. 表現学習

分散表現を基にしたモデルがなぜ良好な汎化能力を持つのかについて,より進んだ主張は,
そのようなモデルは多くの異なる領域をはっきりと区別して符号化できるにもかかわらずそ
の容量が制限されていることである.たとえば,線形閾値ユニットを利用したニューラルネッ
トワークの VC 次元はわずか O(w log w) である (Sontag, 1998).ただし,w は重みの個数で
ある.この限界は,非常に多くの固有な符号が表現空間に割り当てられうる一方で,すべての
符号空間を完全に利用することも,表現空間 h から出力 y に写像するような任意の関数を線
形分類器で学習することもできないために生じるものである.したがって,分散表現を線形
分類器とともに利用することは,識別したいクラスは h が捉える潜在的な原因因子の関数と
して線形分離できるという事前信念を表している.通常は,緑色の物体すべてに関する画像
集合や,すべての車に関する画像集合などのカテゴリを学習したいのであって,非線形な排他
的論理和ロジックが必要なカテゴリを学習したいわけではない.たとえば,すべての赤い車
と緑色のトラックの集合をあるクラスとし,すべての緑色の車と赤いトラックの集合を異な
るクラスとしたいことは通常ない.

これまでに議論したアイディアは抽象的なものであるが,実験的にも検証されている.
Zhou et al. (2015) は,ImageNet と Places ベンチマークデータ集合で訓練された深層畳み込
みネットワークの隠れユニットが,多くの場合,人間が自然に割り当てるようなラベルと対応
づけて解釈できるような特徴量を学習していることを発見した.実際には,隠れユニットが
簡単な言葉で表されるようなものをいつも学習するわけではないというのは確かだが,もっ
とも優れたコンピュータビジョンの深層ネットワークの上位層近くにこれが現れるのを見て
みるのは興味深い.これらの特徴量に共通するものは,他のすべての状態をことごとく見な
くても,それぞれが学習していることを想像できるということである.Radford et al. (2015)
は,生成モデルが顔画像の表現を学習し,表現空間内の異なる方向が異なる変動の潜在的因
子を捉えていることを実証した.図15.9は,表現空間のある方向がその人物が男性か女性か
に対応し,別の方向がその人がメガネをかけているかどうかに対応していることを示してい
る.このような特徴量は自動的に発見されたものであり,あらかじめ定められたものではな
い.隠れユニット分類器のためにラベルを用意する必要はない.すなわち,ある目的関数に
対する勾配降下法は,そのタスクがそのような特徴を必要とする限り,意味的に興味深い特徴
を自然に学習する.男性と女性の区別や,メガネのあるなしの区別を学習するときに,それ以
外の n − 1 個の特徴量すべての状態を,その値のすべての組み合わせを含む事例によって特
徴づける必要はない.このような統計的な分離可能性により,訓練中には見られなかった人
間の特徴量の新たな状態に対して汎化することができるようになる.

526
第 15. 表現学習

- + =

図 15.9: 分散表現を学習した生成モデル.メガネをかけるという概念から性別の概念を分離している.
メガネをかけた男性の概念の表現から始めて,メガネをかけていない男性の概念を表現するベクトルを
引き,最後にメガネをかけていない女性の概念を表現するベクトルを足し合わせると,メガネをかけた
女性の概念を表現するベクトルが得られる.この生成モデルは,正しいクラスに属すると認識できるよ
うな画像を指すすべての表現ベクトルを正しく復号化している.画像はRadford et al. (2015) の許可を
得て転載されている.

15.5 深さがもたらす指数関数的な増大
6.4.1節では,多層パーセプトロンが万能近似器であることと,浅いネットワークと比較し
て指数関数的に小さな深層ネットワークによって表現できる関数があることを確認した.モ
デルの規模を小さくすることは統計的な効率の改善に繋がる.本節では,より一般的に分散
隠れ表現を持つ他の種類のモデルに対して同様の結果をどのように適用できるかについて述
べる。

15.4節で,顔画像に潜在する説明因子を学習させた生成モデルの例を確認した.説明因子に
は,人の性別と,メガネをかけているかどうかが含まれていた.このタスクを達成した生成モ
デルは深層ニューラルネットワークをもとにしたものである.線形ネットワークのような浅
いネットワークに抽象的な説明因子と画像のピクセルとの間にある複雑な関係の学習を期待
するのは妥当ではないだろう.このタスクやその他の AI タスクにおいて,互いにほぼ独立に
選ぶことができてかつ意味のある入力に対応しているような因子はかなり高次であり,極め
て非線形な方法で入力と関係している可能性が高い.われわれは,これが表現では(入力の関
数としてみたときの)高次の特徴量や(生成モデルの原因としてみたときの)因子がいくつも
の非線形性の組み合わせにより得られるような,深層分散表現が必要な理由であると考えて

527
第 15. 表現学習

いる.

多くの非線形性と,再利用された特徴量の階層との組み合わせを利用して計算を構成する
ことによって、分散表現を用いることにより得られる指数関数的増大に加えて,統計的効率の
指数関数的増大も得られることが,多くの異なる設定において証明されている.1 つの隠れ層
を持つ多くの種類のネットワーク(たとえば,飽和非線形性,ブーリアンゲート,積和,RBF
ユニットを使ったもの)は万能近似器であると示すことができる.万能近似器であるモデルの
グループは,十分な隠れユニット数が与えられると,多くのクラスの関数(すべての連続関数
を含む)をゼロでない任意の許容水準で近似することができる.しかし,必要な隠れユニット
数は莫大である.深層構造が持つ表現力に関する理論的な検証結果によれば,深さ k の構造
では効率的に表現できるものの,不十分な深さ(深さ 2 や深さ k − 1)では入力の規模に対し
て指数関数的な隠れユニット数が必要となるような関数の族が存在することが示されている.

6.4.1節では,決定的順伝播型ネットワークが関数の万能近似器であることを見てきた.制
限付きボルツマンマシンや深層信念ネットワークを含む,潜在変数の隠れ層を 1 つ持つ多
くの構造化確率モデルは確率分布の万能近似器である (Le Roux and Bengio, 2008, 2010;
Montúfar and Ay, 2011; Montúfar, 2014; Krause et al., 2013).

6.4.1節では,十分な深さを持つ深層順伝播型ネットワークが,浅すぎるネットワークと比
較して指数関数的な利点を持つことを見てきた.同様の結果は,確率モデルなどのその他のモ
デルについても得ることができる.そのような確率モデルの 1 つに積和ネットワーク(sum-
product network,SPN)がある (Poon and Domingos, 2011).これらのモデルは,確
率変数の集合に対する確率分布を計算するために多項式回路を利用している.Delalleau and
Bengio (2011) は,指数関数的に巨大なモデルを必要とするのを避けるためには最低限の深さ
の SPN を必要とする確率分布が存在することを示した.のちに,Martens and Medabalimi
(2014) は,SPN の有限な深さの間には,どの 2 つの間にも有意差があり,SPN を扱いやす
くするために利用される制約の一部はその表現力を制限する可能性があることを示した.

別の興味深い進展は,畳み込みネットワークに関連する深層回路の族の表現力に関する一連
の理論的な結果である.これらの結果は,浅い回路が深い回路により計算された関数を近似
すればよいだけであっても,深い回路が指数関数的な利点を持つことを強調している (Cohen
et al., 2015).比較のために述べると,従来の理論的な研究は浅い回路が特定の関数を正確に
複製しなければならないという設定での主張にとどまっていた.

528
第 15. 表現学習

15.6 潜在的原因発見のための手掛かり
本章の結びとして,「ある表現が他の表現よりも良いというのはどういうことだろうか」と
いう最初の問いに話を戻そう.1 つの答えは,15.3節で最初に述べた,理想的な表現とはデー
タを生成した潜在的な変動の原因因子,特に扱っているアプリケーションに関連する因子を
紐解くものであるというものである.表現学習における戦略のほとんどは,この潜在的な変
動の因子を学習によって見つけるのを助ける手掛かりを導入することに基づいている.この
手掛かりにより,学習器は観測された因子を他の因子から分離することができる.教師あり
学習は極めて強力な手掛かりを与える.すなわち,各 x とともに観測されるラベル y は,通
常,変動の因子の少なくとも 1 つの値を直接的に特定しているということである.より一般
的に,豊富なラベルなしデータを活用するために,表現学習は潜在的因子に関するより直接的
ではないその他の手掛かりを利用している.これらの手掛かりは,学習アルゴリズムの設計
者が学習器を導くために課される暗黙的な事前信念の形をとる.ノーフリーランチ定理など
の結果は,良好な汎化性能を得るために正則化戦略が必要であることを示している.普遍的
な優れた正則化戦略を見つけるのは不可能であるが,深層学習の目的の 1 つは,人間や動物
が解けるタスクに類似したさまざまな AI タスクに適用可能な,ほどほどに一般的な正則化戦
略の集合を見つけることである.

ここでは,このような一般的な正則化戦略のリストを提供する.このリストは明らかに完
成したものではないが,潜在的因子に対応する特徴量を学習アルゴリズムが発見するように
促す方法の具体的な例を与える.このリストはBengio et al. (2013d) の 3.1 節で紹介された
ものを一部拡張している.

• 滑らかさ:これは,d を単位量とするとき,わずかな ϵ に対して f (x + ϵd) ≈ f (x) が
成り立つことを意味している.この仮定により,学習器は訓練事例を使って入力空間
の近傍点を汎化できる.多くの機械学習アルゴリズムはこのアイディアを活用してい
るが,次元の呪いを克服するには十分ではない.
• 線形性:多くの学習アルゴリズムは,いくつかの変数の間の関係が線形であることを仮
定している.これにより,アルゴリズムは観測データからかなり離れたデータに対す
る予測を行えるようになるが,時には極端すぎる予測を導くこともある.滑らかさの
仮定を用いない単純な機械学習アルゴリズムのほとんどは,代わりに線形性の仮定を
用いている.これらは実際異なる仮定である.たとえば,大量の重みを持つ線形関数
を高次元空間に適用した場合,その出力はあまり滑らかなものではないだろう.線形

529
第 15. 表現学習

性の仮定の限界に関するさらなる議論はGoodfellow et al. (2014b) を参照されたい.
• 複数の説明因子:表現学習アルゴリズムの多くは,データが複数の潜在的な説明因子に
より生成されており,これらの因子のそれぞれの状態が与えられればほとんどのタス
クは簡単に解けるという仮定に動機づけられている.15.3節では,この見方が表現学
習を経由した半教師あり学習をどのように動機づけるかに言及した.p(x) と p(y | x)
はどちらも同じ潜在的な説明因子を参照しているため,p(x) の構造を学習するには
p(y | x) のモデリングに有用なのと同じ特徴量のいくらかを学習する必要がある.
15.4節ではこの見方が,表現空間内の異なる方向が異なる変動の因子に対応している分
散表現を利用することをどのように動機づけるかを説明した.
• 原因因子:モデルは,学習された表現 h で表される変動の因子を観測データ x の原因
として扱うように構築され,その逆は成り立たない.15.3節で議論したように,これは
半教師あり学習にとって有益であり,根本的な原因に関する分布が変化したときや,新
しいタスクに学習済みのモデルを使うときに,このモデルをより頑健にする.
• 深さあるいは説明因子の階層性:上位の抽象的な概念は,階層構造をなす単純な概念に
より定義できる.他の視点から見ると,深いアーキテクチャを利用することは,あるタ
スクが多段階プログラムで達成されるべきであるという信念を反映している.この多
段階プログラムは,各段階は前の段階で達成された処理の出力を参照するようなもの
である.
• タスク間の共有因子:この仮定は,同じ入力 x を共有する異なる変数 yi に対応する
たくさんのタスクがあるときや,各タスクがグローバルな入力 x の部分集合や関数
f (i) (x) と結びついているとき,各 yi は関連する因子 h の共通プールからなる異なる
部分集合と結びついているというものである.これらの部分集合は重なり合っている
ため,共有された中間表現 P (h | x) を経由してすべての P (yi | x) を学習することで,
タスク間の統計的強度が共有される.
• 多様体:確率の大部分は集中しており,集中している領域は局所的に繋がっていて,ま
た小さな体積を占めている.連続値を扱う場合,この領域はデータが存在する元の空間
よりかなり小さな次元を持つ低次元多様体により近似することができる.いくつもの
機械学習アルゴリズムは,この多様体上でのみ意味のある振る舞いをする (Goodfellow
et al., 2014b).いくつかの機械学習アルゴリズム,特に自己符号化器は多様体構造を
明示的に学習しようとする.
• 自然なクラスタリング:多くの機械学習アルゴリズムは,入力空間において結合された
多様体はそれぞれ 1 つのクラスに割り当てられるであろうと仮定している.データは
いくつもの繋がっていない多様体上に存在しているかもしれないが,クラスはそれぞ

530
第 15. 表現学習

れの多様体の中で一定のままである.この仮定は,接線伝播法や二重逆伝播法,多様体
正接分類器や敵対的学習などさまざまな学習アルゴリズムを動機づけている.
• 時間的,空間的なコヒーレンス:Slow feature analysis や関連するアルゴリズムは,
もっとも重要な説明因子は時間をかけてゆっくり変化するか,少なくとも真の潜在的
な説明因子を予測する方がピクセルの値のような生の観測値を予測するよりも簡単で
あることを仮定している.このアプローチのさらなる説明は13.3節を参照されたい.
• スパース性:ほとんどの特徴量は,おそらくほとんどの入力を説明するのに関連してい
ない.たとえば,象の胴体を検出する特徴量は,猫の画像を表現するときに利用する
必要はない.それゆえ,
「ある」か「ない」かで解釈できるようなどのような特徴量も,
ほとんどの場合は「ない」という状態であるべき,という事前分布を課すことは妥当で
ある.
• 因子の依存関係の簡潔さ:良い高次の表現では,因子は互いに単純な依存関係で結びつ
!
いている.もっとも単純な可能性は周辺独立 P (h) = i P (hi ) であるが,線形従属や
浅い自己符号化器によって捉えられた関係などもまた適切な仮定である.この仮定は
多くの物理法則で成り立っており,線形予測器や因数分解された事前分布を,学習され
た表現の上に結合するときに仮定されている.

表現学習の概念は,深層学習の多くの形式のすべてと結びついている.順伝播型や回帰結
合型ネットワーク,自己符号化器や深層確率モデルは,すべて表現を学習し,そして利用して
いる.可能な限り最良な表現を学ぶ方法は,研究のエクサイティングな領域として残されて
いる.

531

Sign up to vote on this title
UsefulNot useful