49

第3章

確率と情報理論

本章では,確率論と情報理論について説明する.

確率論は不確実な命題を表現する数学的な枠組みである.この枠組みにより,不確実性を
定量化する手段はもちろん,不確実さを伴う命題を導く公理も提供される.人工知能の応用
では,主に 2 つの方法で確率論を使う.1 つ目は,確率法則によって AI システムがどのよう
に推論するべきかを知って,確率論を使うことで得られる多様な表現の計算や近似のための
アルゴリズムを設計することである.2 つ目は,確率と統計を使って,提案された AI システ
ムの振る舞いを理論的に解析することである.

確率論は科学と工学の数多くの分野で活用される基本的なツールである.本章は,主にソ
フトウェア工学の経験はあるものの,確率論に触れる機会が限られている読者が,本書の内容
を理解できるようになることを目的としている.

確率論は不確実な命題を作り出し,不確実性が存在する中での推論を可能にする一方で,情
報理論は確率分布の形で不確実性の程度の定量化を可能にする.

すでに確率論と情報理論に精通している読者は,機械学習の構造化確率モデルの記述に使
われるグラフを説明する3.14節を除いて,本章を飛ばして構わない.

もし本章のテーマについて事前の経験がまったくないとしても,本章は深層学習の研究プ
ロジェクトをうまく実行するのに十分なはずであるが,Jaynes (2003) のような資料を追加で
参照することを強く推奨する.
第 3. 確率と情報理論

3.1 なぜ確率なのか
コンピュータ科学の分野の多くではほとんどの場合,完全に決定論的で確実な対象を扱う.
通常プログラマーは,CPU が機械語の命令それぞれを完璧に実行すると想定してよい.ハー
ドウェアのエラーは発生するものではあるが,ほとんどのソフトウェアアプリケーションに
おいては,それを織り込んで設計する必要がないくらいに非常に珍しいことである.多くの
コンピュータ科学者とソフトウェアエンジニアが,比較的洗練された確かな環境で働いてい
ることを考えると,機械学習で確率論がかなり使われていることに驚くだろう.

機械学習は常に不確実な量を扱い,また時には確率的な(非決定論的な)量を扱わなけれ
ばならない.不確実性と確率性は数多くの要因から生じ得る.研究者は遅くとも 1980 年代か
ら,確率を使って不確実性を定量化することについて活発に議論してきた.ここで紹介され
ている議論の多くは,Pearl (1988) でまとめられているか,あるいは示唆されているもので
ある.

ほとんどすべての活動において,不確実性が存在する中での推論能力が要求される.実際,
定義によって真であるとする数学的な宣言を除けば,絶対的に真である命題や絶対に起こる
ことが保証される事象を思いつくのは難しい.

不確実性を生み出す可能性のある原因は 3 つある.

1. モデル化されるシステムに固有の確率性.例えば,量子構造の解釈のほとんどは,素粒
子の力学が確率的であることを示している.カードが厳密に無作為にシャッフルされ
るはずの仮想的なカードゲームのように,確率的な力学があると仮定する理論的なシ
ナリオを作ることもできる.
2. 不完全な可観測性.決定論的システムであっても,システムの振る舞いを決める変数
のすべてを観測することができない場合は,確率的であるように見える.例えば,モン
ティ・ホール問題では,ゲーム番組の参加者が 3 つのドアの中から 1 つを選び,選ん
だドアの向こうにある賞品を勝ち取る.2 つのドアの向こうにはハズレを意味する山羊
がいて,3 番目のドアの向こうには賞品の車がある.参加者の選択による結果は決定論
的だが,参加者の観点からは結果は不確実である.
3. 不完全なモデリング.観測した情報を破棄しなければならないモデルを使うとき,破棄
された情報はモデルの予測を不確実なものにする.例えば,自身の周りにある物体すべ
ての位置を正確に観測できるロボットを作るとしよう.もしロボットが,その物体の
未来の位置を予測するときに空間を離散的に分割するならば,それによってロボット

50
第 3. 確率と情報理論

はすぐに,物体の正確な位置に対する確実性を失ってしまう.すなわち,それぞれの物
体は,その存在が観測された離散的なセルの中ならどこにでも存在する可能性がある.

多くの場合,たとえ我々が真の規則が決定的であり,モデル化しているシステムが複雑な
規則に適合しそうだとしても,確実だが複雑な規則ではなく不確実だが単純な規則を用いる
方が実用的である.例えば,「ほとんどの鳥は飛ぶ」という単純な規則は低コストで開発でき
て,広い範囲で有用だが,一方で「まだ飛び方を覚えていない幼い鳥や,飛ぶ能力を失った病
気か怪我の鳥,ヒクイドリやダチョウ,キウイ . . . といった飛ぶ能力がない鳥を除けば,鳥は
飛ぶ」という形式の規則を開発や維持,伝達することは高コストであり,またこれらのあらゆ
る努力をもってしても,脆く,失敗しやすい.

不確実性を表現し,推論する手法が必要だというのは明らかな一方で,人工知能の応用に
必要なあらゆるツールが確率論から提供されるというのは,明示的に明らかなわけではない.
もともと確率論は,事象の出現頻度を分析するために生み出された.ポーカーゲームで特定
の手札を引くような事象を研究するために,どのように確率論が使われるのかというのは理
解しやすい.このような事象は,反復可能であることが多い.ある結果が起こる確率が p で
あるというのは,もしその実験(例:手札を引く)を無限回繰り返したときに,繰り返しのう
ちの p の割合に相当する回数だけその結果が起こることを意味する.このような推論は,繰
り返すことができない命題にはそのまま適用できそうにない.もし医者が患者を診断し,イ
ンフルエンザである確率が 40% であると言う場合,これは何かまったく異なることを意味し
ている.患者の複製を無限に作ることはできず,患者の複製が同じ症状を見せているのに,
違う基礎疾患を持っていると考える理由もない.医者が患者を診断する場合,信念の度合い
(degree of belief)を表現するために確率を使う.1 は患者がインフルエンザにかかってい
ることが確実であることを示し,0 は患者がインフルエンザにかかっていないことが確実であ
ることを示す.前者の確率のように,事象が起こる割合に直接関係しているものは頻度確率
(frequentist probability)と呼ばれ,確実性を量的な度合いで表す後者のような確率はベ
イズ確率(Bayesian probability)と呼ばれる.

不確実性についての常識的な推論に期待される特徴をいくつか挙げた場合,それらの性質を
満たす唯一の方法は,ベイズ確率が頻度確率と全く同じように振る舞うとみなすことである.
例えばポーカーゲームで,ある手札がプレイヤーに与えられている場合にそのプレーヤーが
勝つ確率を計算したいならば,ある症状が患者に見られる場合に病気である確率を計算する
のとまったく同じ公式を使う.同じ公理で,頻度確率とベイズ確率を使えるということを小
規模な常識的仮定が意味している理由の詳細については,Ramsey (1926) を参照されたい.

確率論は,不確実性を扱うための論理学の拡張と見ることができる.論理学によって,ある

51
第 3. 確率と情報理論

命題の集合が真または偽であるという仮定が与えられたときに,どの命題が真または偽であ
るかを決定するための,形式的な規則の集合が得られる.確率論の場合は,ある命題の尤もら
しさが与えられたときに,対象とする命題が真である尤もらしさを決定するための,形式的な
規則の集合が得られる.

3.2 確率変数
確率変数(random variable)は,無作為に異なる値を取ることができる変数である.通
常,確率変数自体は小文字の単純な書体で表記し,変数として取ることが可能な値は小文字の
筆記体で記す.例えば,x1 と x2 は両方とも確率変数 x が取りうる値である.ベクトル値の
変数では,確率変数は x,その値の 1 つは x と書かれる.確率変数はそれ自体,起こり得る
状態の単なる記述である.すなわち,それぞれの状態の尤もらしさを記述する確率分布と組
み合わせる必要がある.

確率変数は離散値でも連続値でもよい.離散確率変数では,有限個または可算無限個の状態
が存在する.この状態は整数でなくてもいいことに注意されたい.また単に,まったく数値で
はないと考えられる名称付きの状態でもよい.連続確率変数は実数値と関連付けられている.

3.3 確率分布
確率分布(probability distribution)とは,確率変数や確率変数の集合が取り得る状態
それぞれの尤もらしさを記述するものである.確率分布を記述する方法は,変数が離散か連
続であるかどうかで決まる.

3.3.1 離散変数と確率質量関数

離散変数の確率分布は確率質量関数(probability mass function,PMF)を使って記
述できる.通常は,確率質量関数を大文字 P で表す.しばしば,それぞれの確率変数は異な
る確率質量関数と関連付けられる.そのため,読者は関数の名前ではなく確率変数により用
いられている確率密度関数を推測しなければならない.つまり,通常 P (x) は,P (y) と同じ
ではない.

確率質量関数は,ある確率変数の状態から,その確率変数がその状態を取る確率への写像で
ある.x = x である確率は P (x) で表され,確率が 1 であるとは x = x が必ず起きることを

52
第 3. 確率と情報理論

示し,確率が 0 であるとは x = x が起こり得ないことを示している.どの確率質量関数を使
うかをはっきりさせるため,確率変数名を P (x = x) のように明示的に書く場合がある.最初
に変数を定義し,さらに記号 ∼ を使って,確率変数がどの分布に従うかを後から指定するこ
とがある.その場合は,x ∼ P (x) のように書く.

確率質量関数は,同時に多くの変数に作用することが可能である.そのような多変数の確
率分布は同時確率分布(joint probability distribution)と呼ばれる.P (x = x, y = y)
は同時に x = x かつ y = y である確率を表し,簡潔に P (x, y) とも書ける.

確率変数 x の確率質量関数であるためには,関数 P は以下の性質を満さなければならない.

• P の定義域は,x が取り得る状態すべての集合でなければならない.
• ∀x ∈ x, 0 ≤ P (x) ≤ 1. 発生しない事象の確率は 0 であり,これよりも発生確率が低く
なる状態はない.同様に,発生することが保証されている事象の確率は 1 であり,これ
よりも発生確率が高くなる状態はない.
!
• x∈x P (x) = 1. この性質を正規化(normalized)されていると言う.この性質がな
ければ,多数発生している事象の 1 つの確率を計算することで,1 より大きな確率が得
られてしまう場合がある.

例えば,k 個の異なる状態を持つ離散確率変数 x を考える.すべての i に対して確率質量関
数を
1
P (x = xi ) = (3.1)
k
とすることで,x の一様分布(uniform distribution)を定義できる.これは,どの状態も
等しく尤もらしいとする確率分布である.これが確率質量関数の要件を満たすことが分かる.
k は正整数であるため, k1 の値は正である.また,以下の式から分かるように,分布は正しく
正規化されている.
" "1 k
P (x = xi ) = = =1 (3.2)
i i
k k

3.3.2 連続変数と確率密度関数

連続確率変数を取り扱うとき,確率分布の記述には,確率質量関数ではなく確率密度関数
(probability density function,PDF)を使う.確率密度関数であるためには,関数 p は
以下の性質を満たさなければならない.

• p の定義域は,x が取り得る状態すべての集合でなければならない.
53
第 3. 確率と情報理論

• ∀x ∈ x, p(x) ≥ 0. ただし,p(x) ≤ 1 は必要条件でないことに注意されたい.
!
• p(x)dx = 1.

確率密度関数 p(x) からは,特定の状態の確率は直接的に得られない.代わりに,容積が δx
の微小領域の中にある確率は p(x)δx で与えられる.

確率密度関数を積分すると,点集合の実際の確率質量を求めることができる.特に,集合 S
に x が存在する確率は,p(x) をその集合について積分することで求められる.1 変数の例で
!
は,区間 [a, b] に x が存在する確率は, [a,b]
p(x)dx で求められる.

連続確率変数の特定の確率密度に対応する確率密度関数の例として,実数のある区間での
一様分布を考えよう.これは関数 u(x; a, b) で考えることができる.ただし a と b は区間の
端点であり,b > a である.「;」記号は「パラメータ化されている」という意味で,x は関
数の引数であり,a と b は関数を定義するパラメータだと考える.この区間の外には確率質
量が存在しないようにするために,すべての x ̸∈ [a, b] で u(x; a, b) = 0 とする.[a, b] では
u(x; a, b) = 1
b−a であり,これはどこでも非負であることが分かる.さらには,その積分は 1
である.x が [a, b] において一様分布に従うことを,x ∼ U (a, b) と表す.

3.4 周辺確率
変数の集合の確率分布が分かっているときに,その部分集合の確率分布を知りたい場合が
ある.部分集合の確率分布は,周辺確率分布(marginal probability distribution)と呼
ばれる.

例えば,離散確率変数 x と y について,P (x, y) が分かっているとしよう.P (x) は確率の
加法定理(sum rule)で求められる.
"
∀x ∈ x, P (x = x) = P (x = x, y = y). (3.3)
y

「周辺確率」という名称は,紙の上での周辺確率の計算手順に由来する.x の値で行を,y
の値で列を指定するマス目の中に P (x, y) の値が書かれている場合,マス目の 1 行分の値を足
し合わせ,その行の右にある紙の余白(周辺)に P (x) の値を書くのが自然である.

連続変数の場合は,合計の代わりに積分を使う必要がある.
#
p(x) = p(x, y)dy. (3.4)

54
第 3. 確率と情報理論

3.5 条件付き確率
ある事象が起きたという条件の下で,別な事象が起きる確率を知りたい場合は多い.これは
条件付き確率(conditional probability)と呼ばれる.x = x が与えられた下で y = y と
なる条件付き確率を P (y = y | x = x) と表す.この条件付き確率は,以下の式で求められる.

P (y = y, x = x)
P (y = y | x = x) = (3.5)
P (x = x)

条件付き確率は,P (x = x) > 0 のときのみ定義される.絶対に起きない事象を条件とした条
件付き確率は計算できない.

条件付き確率を,何らかの行動があった後に何が起きるかを計算することと混同しないこと
が重要である.ドイツ語を話す人がドイツ人である条件付き確率は非常に高いが,もし無作
為に選んだ人がドイツ語を話すように教わったとしても,その人の出身国は変わらない.行
動の結果を計算することは,介入質問(intervention query)をすると言う.介入質問は,
因果関係モデル(causal modeling)の領域であり,本書では対象としない.

3.6 条件付き確率の連鎖律
多数の確率変数における同時確率分布は,たった 1 つの変数に対する条件付き確率分布に
分解できる場合がある.

P (x(1) , . . . , x(n) ) = P (x(1) )Πni=2 P (x(i) | x(1) , . . . , x(i−1) ). (3.6)

この見方を,確率の連鎖律(chain rule)または確率の乗法定理(product rule)と呼
ぶ.これは,式3.5の条件付き確率の定義から直接的に導かれる.例えば,この条件付き確率
の定義を 2 回適用すると以下が得られる.

P (a, b, c) = P (a | b, c)P (b, c)
P (b, c) = P (b | c)P (c)
P (a, b, c) = P (a | b, c)P (b | c)P (c).

55
第 3. 確率と情報理論

3.7 独立と条件付き独立
2 つの確率変数 x と y の確率分布が,x だけを含むものと y だけを含むものの 2 つの因子
の積で表現できるならば,この 2 つの確率変数は独立(independent)である.

∀x ∈ x, y ∈ y, p(x = x, y = y) = p(x = x)p(y = y) (3.7)

.

確率変数 z が与えられた下で,2 つの確率変数 x と y の条件付き確率分布が,z のすべて
の値において上記の方法で因数分解されるならば,x と y は条件付き独立(conditionally
independent)である.

∀x ∈ x, y ∈ y, z ∈ z, p(x = x, y = y | z = z) = p(x = x | z = z)p(y = y | z = z). (3.8)

独立と条件付き独立を簡潔な表記で表すことができる.x⊥y は x と y が独立であることを
意味し,x⊥y | z は z が与えられた下で x と y が条件付き独立であることを意味する.

3.8 期待値,分散と共分散
確率分布 P (x) に関する関数 f (x) の期待値(expectation, expected value)とは,P
から x が抽出された下で f が取る値の平均または平均値のことである.離散変数の場合,期
待値は以下の総和で計算できる.
!
Ex∼P [f (x)] = P (x)f (x) (3.9)
x

一方で連続変数の場合は,以下の積分で計算される.
"
Ex∼p [f (x)] = p(x)f (x)dx (3.10)

分布の性質が前後関係からはっきりしている場合,期待値が計算される確率変数の名前を,
Ex [f (x)] のように単純に書くことができる.期待値を計算する確率変数が明らかな場合,添
字をすべて省略して E[f (x)] と書ける.通常 E[·] は,括弧の中にあるすべての確率変数の値
の平均だと想定できる.同様に,曖昧さがない場合は,角括弧を省略することができる.

56
第 3. 確率と情報理論

例えば,α と β が x に依存しない場合,期待値は次のように線形となる.

Ex [αf (x) + βg(x)] = αEx [f (x)] + βEx [g(x)] (3.11)

分散(variance)は,確率分布からさまざまな x の値を抽出した場合,その確率変数 x の
関数値のばらつき度合いを示す指標である
! "
2
Var(f (x)) = E (f (x) − E[f (x)]) . (3.12)

分散が小さい時,f (x) の値はその期待値の近くに集まっている.分散の平方根は標準偏差
(standard deviation)と呼ばれる.

共分散(covariance)は,2 つの変数の大きさと共に,それらの値がどの程度線形的に互
いに関連しているかを表す.

Cov(f (x), g(y)) = E [(f (x) − E [f (x)]) (g(y) − E [g(y)])] (3.13)

共分散の絶対値が大きいということは,値が大きく変化し,同時にその値がそれぞれの平均値
から大きく離れていることを意味する.共分散の符号が正である場合,両方の変数は同時に,
相対的に大きな値となる傾向がある.共分散の符号が負である場合,一方の変数が相対的に
小さな値を取るときに,もう一方の変数は相対的に大きな値となる傾向があり,その逆も言え
る.相関(correlation)のような他の指標では,変数の大きさの影響を排除して,変数の関
連度合いのみを測るために,各変数の寄与度を正規化している.

共分散と依存という考えは関連があるが,別な概念である.2 つの独立な変数の共分散は 0
であり,2 つの変数の共分散が 0 ではない場合は依存しているので,関連はある.しかしなが
ら,独立は共分散とは異なる性質である.2 つの確率変数で共分散が 0 になるためには,それ
らの変数の間に線形の依存関係があってはならない.独立は,共分散が 0 であることよりも
強い要件である,なぜなら,独立は非線形の関係性も除外するからである.2 つの変数が依存
していて,しかも共分散が 0 になる場合がある.例えば最初に,区間 [−1, 1] の一様分布から
1
実数 x を抽出することを考える.次に確率変数 s を取る.確率 2 で,s の値を 1 にする.そ
れ以外の場合は,s の値を −1 にする.その後 y = sx として,確率変数 y を生成できる.明
らかに,x と y は独立ではない.なぜなら,x は完全に y の大きさを決定しているからであ
る.しかし,Cov(x, y) = 0 となる.

確率変数のベクトル x ∈ Rn の共分散行列(covariance matrix)は,以下のような n × n
行列である.
Cov(x)i,j = Cov(xi , xj ). (3.14)

共分散行列の対角成分は,分散になる.

Cov(xi , xi ) = Var(xi ) (3.15)
57
第 3. 確率と情報理論

3.9 一般的な確率分布
単純な確率分布のいくつかは,機械学習の様々な場面で有用である.

3.9.1 ベルヌーイ分布

ベルヌーイ分布(Bernoulli distribution)は一つの二値の確率変数における分布であ
る.これは 1 つのパラメータ φ ∈ [0, 1] で制御され,それによって確率変数の確率が 1 に等し
くなる.この分布には次の性質がある.

P (x = 1) = φ (3.16)

P (x = 0) = 1 − φ (3.17)

P (x = x) = φx (1 − φ)1−x (3.18)

Ex [x] = φ (3.19)

Varx (x) = φ(1 − φ) (3.20)

3.9.2 マルチヌーイ分布

マルチヌーイ(multinoulli)またはカテゴリ(categorical)分布は,k 個の異なる状態
をとる 1 つの離散変数における分布である.ここで k は有限の値である.*1 .マルチヌーイ分
布はベクトル p ∈ [0, 1]k−1 でパラメータ化される.ただし pi は i 番目の状態の確率である.
最後の k 番目の状態の確率は,1 − 1⊤ p で求められる.1⊤ p ≤ 1 の制約が必要なことに注意
されたい.マルチヌーイ分布を使って対象カテゴリの分布を参照することが多いので,通常
は,状態 1 が数値 1 になるとは仮定しない.そのため通常は,マルチヌーイ分布に従う確率
変数の期待値や分散の計算は必要ない.

ベルヌーイ分布とマルチヌーイ分布は,その定義域におけるあらゆる分布を十分に記述で
きる.これらの分布がその定義域におけるあらゆる分布を記述できるのは,強力な分布であ

*1「マルチヌーイ」は,Gustavo Lacerdo によって最近作られた語で,Murphy (2012) によって広められた.
マルチヌーイ分布は多項分布(multinomial distribution)の特別な形である.多項分布は,{0, . . . , n}k
に含まれるベクトルの分布で,マルチヌーイ分布から n 個のサンプルが取られたときに,k 個の各カテゴリ
が選ばれた回数を表している.多くの書籍で,n = 1 の場合のみを参照していることを明らかにしないまま,
「多項」という単語を使ってマルチヌーイを参照している.

58
第 3. 確率と情報理論

0.40
0.35
0.30 Maximum at x = µ

0.25 Inflection points at
p(x)

0.20 x=µ±

0.15
0.10
0.05
0.00
2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0
x
図 3.1: 正規分布.正規分布 N (x; µ, σ 2 ) は,よく知られた「ベル型曲線」になる.中央の峰の x 座標
は µ で,峰の幅は σ で制御される.この例では,µ = 0,σ 2 = 1 である標準正規分布(standard
normal distribution)を図示している.

るからというよりは,むしろそれぞれの定義域が単純だからであり,つまりすべての状態を列
挙できるような離散変数をモデル化しているからである.連続変数を扱うときは,状態の数
は数え切れないので,少数のパラメータで記述される分布にはいずれも,厳格な制約を課すべ
きである.

3.9.3 ガウス分布

最もよく使われる実数の分布は正規分布(normal distribution)であり,ガウス分布
(Gaussian distribution)とも呼ばれる.

! " #
2 1 1 2
N (x; µ, σ ) = exp − (x − µ) (3.21)
2πσ 2 2σ 2

図3.1に正規分布密度関数のグラフを示す.

2 つのパラメータ µ ∈ R と σ ∈ (0, ∞) が正規分布を決定する.パラメータ µ は中央の峰の
座標を与える.これは分布の平均でもある.すなわち E[x] = µ である.この分布の標準偏差
は σ であり,分散は σ 2 である.

59
第 3. 確率と情報理論

確率密度関数を評価する時,σ を二乗して逆数にする必要がある.複数のパラメータの値で
確率密度関数を頻繁に評価する必要がある場合,分布をパラメータ化するもっと効率的な方
法は,パラメータ β ∈ (0, ∞) を使って分布の精度(precision),または逆分散を制御する
ことである.

! " #
−1 β 1 2
N (x; µ, β )= exp − β(x − µ) (3.22)
2π 2

正規分布は多くの応用において賢明な選択である.選択すべき実数に対する分布の形式に
ついて事前知識がない場合,正規分布は 2 つの大きな理由から,最初の選択としては正しい
ものである.

1 つ目は,モデル化したい分布の多くは,正規分布に本当に近いということである.中心極
限定理(central limit theorem)は,多くの独立な確率変数の和が近似的に正規分布にな
ることを示している.これは実践上,複雑な系の多くでは,たとえその系がより構造化された
振る舞いをする部分に分解できたとしても,正規分布に従う雑音としてうまくモデル化され
ることを意味する.

2 つ目は,同じ分散を持つすべての確率分布の中で,正規分布は実数における不確実性の最
大となる量を符号化するということである.このように,正規分布はモデルに最小限の事前
知識を導入する分布と考えられる.この考えを十分に発展させて正当化するには,さらに数
学的なツールが必要なため,19.4.2節で説明する.

正規分布は Rn に一般化され,その場合は多変量正規分布(multivariate normal dis-
tribution)と呼ばれる.これは正定値対称行列 Σ でパラメータ化できる.
$ " #
1 1 ⊤ −1
N (x; µ, Σ) = exp − (x − µ) Σ (x − µ) (3.23)
(2π)n det(Σ) 2

パラメータ µ は,今はベクトル値であるが,やはり分布の平均となる.パラメータ Σ は分
布の共分散行列である.一変量の場合のように,パラメータの多くの異なる値で何度か確率密
度関数を評価したいときは,Σ の逆行列を求める必要があるため,計算量の観点から,共分散
は分布をパラメータ化する効率的な方法ではない.代わりに精度行列(precision matrix)
β を使うことができる.
$ " #
−1 det(β) 1 ⊤
N (x; µ, β )= exp − (x − µ) β(x − µ) (3.24)
(2π)n 2

60
第 3. 確率と情報理論

この共分散行列を対角行列に限定することが多い.さらに簡潔なものは等方性(isotropic)
ガウス分布で,その共分散行列は単位行列のスカラー倍となる.

3.9.4 指数分布とラプラス分布

深層学習の観点では,x = 0 で尖った部分をもつ確率分布が必要になることが多い.そのた
めに,指数分布(exponential distribution)を使うことができる.

p(x; λ) = λ1x≥0 exp (−λx) (3.25)

指数分布では,指標関数 1x≥0 を使って x の負の値すべてに確率 0 を割り当てる.

任意の点 µ で確率質量の尖った峰を作ることのできる,指数分布に密接に関連した確率分
布はラプラス分布(Laplace distribution)である.
! "
1 |x − µ|
Laplace(x; µ, γ) = exp − (3.26)
2γ γ

3.9.5 ディラック分布と経験分布

確率分布の質量すべてを1点に集中させるように指定したい場合がある.これはディラッ
クのデルタ関数(dirac delta function)δ(x) を使って確率密度関数を定義することで実現
できる.
p(x) = δ(x − µ) (3.27)

ディラックのデルタ関数は,0 以外のところはすべて 0 だが,積分すると 1 になるように定
義される.ディラックのデルタ関数は,x の値それぞれを実数値の出力に結び付けるような,
よくある関数ではない.代わりに,超関数(generalized function)と呼ばれる別種の数学
的な対象であり,積分したときにその性質が定義されるものである.ディラックのデルタ関
数は,0 以外のすべての点において質量を微小にする一連の関数の極限点とみなすことがで
きる.

p(x) を δ が −µ だけ移動したものと定義することで,x = µ で無限に狭く無限に高い確率
質量の峰が得られる.

ディラックのデルタ分布は,経験分布(empirical distribution)の構成要素としてよく
利用される.
m
1 #
p̂(x) = δ(x − x(i) ) (3.28)
m i=1
61
第 3. 確率と情報理論

このとき,データ集合または事例の集合を形成する m 個の点 x(1) , . . . , x(m) それぞれで,確率
1
質量の値が m となっている.ディラックのデルタ分布は,連続変数の経験分布を定義する場
合にだけ必要となる.離散変数に対しては,状況はもっと単純である.経験分布はマルチヌー
イ分布として概念化できる.その場合の確率は,訓練データ中の値の経験的頻度(empirical
frequency)と単純に等しい各入力値と関連付けられている.

訓練事例のデータ集合から形成された経験分布は,このデータ集合でモデルを学習させると
きに,事例を抽出する分布を特定しているとみなすことができる.経験分布に関するもう 1 つ
の重要な観点は,訓練データの尤度を最大化する確率密度だという点である(5.5節を参照).

3.9.6 分布の混合

確率分布を,もっと単純な他の確率分布を組み合わせて定義することもよく行われている.
分布を組み合わせる一般的な方法の 1 つは混合分布(mixture distribution)を構成する
ことである.混合分布は,いくつかの要素分布から構成される.各試行において,事例を生成
する要素分布の選択は,マルチヌーイ分布から要素情報を抽出することで決定される.
!
P (x) = P (c = i)P (x | c = i) (3.29)
i

ここで,P (c) は要素情報のマルチヌーイ分布である.

本書では,すでに混合分布の例を 1 つ挙げている.実数値の変数の経験分布は,訓練事例そ
れぞれにディラックの要素を 1 つ持つ混合分布である.

混合モデルは,確率分布を組み合わせてさらに豊かな分布を作るための単純な戦略の 1 つ
である.16章では,単純な確率分布から複雑な確率分布を構築する手法について,さらに詳
細に説明する.

混合モデルから,潜在変数(latent variable)という概念を少しだけ垣間見ることができ
る.これは,後々非常に重要なものとなってくる.潜在変数は.直接には観測できない確率
変数である.混合モデルの要素情報の変数 c はその一例である.潜在変数は同時分布によっ
て x と関連している場合があり,その場合は P (x, c) = P (x | c)P (c) である.潜在変数にお
ける分布 P (c) と潜在変数を可視変数に関係付ける分布 P (x | c) は,潜在変数を参照せずに分
布 P (x) を記述できる場合でも,P (x) の形状を決定する.潜在変数については16.5節でさら
に詳しく説明する.

混合モデルの中で,非常に強力かつ一般的な種類は,混合ガウス(Gaussian mixture)
モデルであり,その構成要素 p(x | c = i) はガウス分布である.各要素には,別々にパラメー

62
第 3. 確率と情報理論

x2

x1

図 3.2: 混合ガウスモデルからの事例.この例には,三つの要素がある.左から右の順で,一つ目の要素
は等方性の共分散行列を持ち,これは各方向に対する分散が等しいことを意味する.二つ目は対角共分
散行列を持ち,各軸の方向に沿って別々に分散を制御できることを意味する.この例では x1 軸よりも
x2 軸に沿った分散の方が大きい.三つ目の要素はフルランクの共分散行列をもち,任意の基底方向に
沿って別々に分散を制御できる.

タ化された平均 µ(i) と共分散 Σ(i) がある.混合モデルには,さらにいくつかの制約を設ける
ことができる.例えば,共分散は Σ(i) = Σ, ∀i という制約を課して,構成要素間で共有でき
る.ガウス分布が 1 つのときのように,混合ガウスモデルでは,各要素の共分散行列が対角
か等方であるという制約を課す場合もある.

平均と共分散に加えて,混合ガウスモデルのパラメータは各要素 i に対して,事前確率
(prior probability)αi = P (c = i) を規定する.「事前」という単語は,x が観測される前
の,c に関するモデルの信念が表現されていることを示している.これに対して,P (c | x) は
x が観測された後に計算されるため,事後確率(posterior probability)となる.十分な数
の要素を持つ混合ガウスモデルを使えば,どんな平滑密度も,任意の誤差量で近似できるとい
う意味では,混合ガウスモデルは密度の万能近似器(universal approximator)である.

図3.2に混合ガウスモデルの事例を示す.

3.10 一般的な関数の有用な性質
確率分布を扱っているとき,特に深層学習モデルで使われる確率分布を取り扱うときに,よ
く目にするいくつかの関数がある.

63
第 3. 確率と情報理論

そのような関数の一つに,ロジスティックシグモイド(logistic sigmoid)がある.

1
σ(x) = (3.30)
1 + exp(−x)
ロジスティックシグモイドは,その値域が (0, 1) で,φ パラメータの有効な値域内にあるた
め,ベルヌーイ分布の φ パラメータを生成する際によく使われる.図3.3にシグモイド関数の
グラフを示す.シグモイド関数は,引数の値が正で大きいか,または負で大きいときに,関数
の値は飽和する(saturate)が,これは入力の小さな変化に対してグラフが非常に平らにな
り、あまり変化がないことを意味する.

1.0

0.8

0.6
(x)

0.4

0.2

0.0

10 5 0 5 10
x
図 3.3: ロジスティックシグモイド関数

もう 1 つ,よく見かける関数はソフトプラス(softplus)関数 (Dugas et al., 2001) である.

ζ(x) = log (1 + exp(x)) (3.31)

ソフトプラス関数は,その値域が (0, ∞) なので,正規分布のパラメータ β や σ を生成する場
合に有用である.これは,シグモイドを含んだ表現を変形させるときにもよく現れる.ソフ
トプラス関数の名前は,以下の式を平滑化した,あるいは「柔らかくした」形であるという事
実からきている.
x+ = max(0, x) (3.32)

図3.4にソフトプラス関数のグラフを示す.

以下の性質はすべて有用であり,読者は暗記しておいてもいいだろう.

exp(x)
σ(x) = (3.33)
exp(x) + exp(0)
64
第 3. 確率と情報理論

10

8

6
⇣(x)

4

2

0
10 5 0 5 10
x
図 3.4: ソフトプラス関数.

d
σ(x) = σ(x)(1 − σ(x)) (3.34)
dx
1 − σ(x) = σ(−x) (3.35)
log σ(x) = −ζ(−x) (3.36)
d
ζ(x) = σ(x) (3.37)
dx
! "
−1 x
∀x ∈ (0, 1), σ (x) = log (3.38)
1−x
∀x > 0, ζ −1 (x) = log (exp(x) − 1) (3.39)
# x
ζ(x) = σ(y)dy (3.40)
−∞

ζ(x) − ζ(−x) = x. (3.41)

関数 σ −1 (x) は統計学でロジット(logit)と呼ばれているが,この単語が機械学習で使われ
るのは非常に稀である.

式3.41は「ソフトプラス」という名前をさらに相応しくしている.ソフトプラス関数は,正
の部の関数(positive part function)x+ = max{0, x} の平滑化を意図したものである.
正の部の関数は,負の部の関数(negative part function)x− = max{0, −x} と相対する
ものである.負の部分に類似している滑らかな関数を得るために,ζ(−x) を使うことができ
る.ちょうど x が,恒等式 x+ − x− = x を使って正の部分と負の部分から元の値に戻せるよ
うに,ζ(x) と ζ(−x) の間の同じ関係性を使って x の値を元に戻すことも可能である.これを
式3.41に示す.
65
第 3. 確率と情報理論

3.11 ベイズ則
P (y | x) が分かっていて,P (x | y) を知る必要のある場合は多い.幸運にも,もし P (x) が
分かっていれば,ベイズ則(Bayes’ rule)を使って,求めたい量を算出できる.

P (x)P (y | x)
P (x | y) = . (3.42)
P (y)
!
P (y) が数式の中に現れるが,通常 P (y) = x P (y | x)P (x) で計算できるので,P (y) を知
ることから始める必要はないことに注意されたい.

ベイズ則を条件付き確率の定義から導くのは簡単だが,たくさんの教材において名前で言及
されるため,この数式の名前を知っていることは有用である.この名前は Reverend Thomas
Bayes にちなんで名付けられた.彼はこの数式の特殊な場合を最初に発見した.ここで説明
する一般化された数式は,Pierre-Simon Laplace が独自に発見した.

3.12 連続変数の技術的詳細
連続確率変数と確率密度関数を形式として正しく理解するためには,測度論(measure
theory)と呼ばれる,数学分野で発展している確率論が必要である.測度論は本書の対象と
する範囲を超えるが,測度論を使って解決する課題の幾つかを簡潔に説明することはできる.

3.3.2節では,集合 S に含まれる連続ベクトル値 x の確率が,集合 S における p(x) の積分
で得られることを説明した.集合 S の選択によっては,矛盾が生じる場合がある.例えば,
p(x ∈ S1 ) + p(x ∈ S2 ) > 1 だが S1 ∩ S2 = ∅ であるような 2 つの集合 S1 と S2 を構成するこ
とは可能である.一般的にこのような集合は,実数値の無限の精度を十分に活用して構成さ
れる.これは例えば,フラクタルの形をした集合や有理数の集合を変換して定義される集合
を作ることで構成される*2 .測度論の重要な貢献の 1 つは,矛盾を避けながら,確率を計算す
ることができる集合族を特徴づけている点である.本書では,比較的簡潔に記述できる集合
に関してのみ積分するので,この測度論の観点は該当する懸念事項になることはない.

本書の目的において,測度論は,Rn のほとんどの点に適用されるが,幾つかの端点では適用
されない定理を説明する場合にはさらに有用である.測度論から,点の集合が無視できるくら
い小さいということを説明する厳密な方法が得られる.そのような集合は測度零(measure

*2 バナッハ・タルスキー定理は,そのような集合の面白い例を提示する.

66
第 3. 確率と情報理論

zero)を持つと言われる.本書ではこの概念を形式的に定義していない.本書の目的におい
て,測度零の集合は,測定している空間でまったく領域を占めていないと直感的に理解するだ
けで十分である.例えば,R2 の中で直線は測度零である一方,面である多角形は測度が正に
なる.同様に,個々の点は測度零である.測度零の集合が多数あるとき,それらを可算個統合
した和集合はどれも測度零になる(そのため,例えば全ての有理数の集合は測度零である).

測度論でもう 1 つ便利な単語は,ほとんど至るところで(almost everywhere)である.
ほとんど至るところで見られる性質は,測度零の集合を除いた全空間で見られる.例外が占
める空間は無視できるため,多くの応用で,それを無視しても問題ない.いくつかの確率論に
おける重要な結果は,離散値ではどこでも成り立つが,連続値については「ほとんど至るとこ
ろで」しか成り立たない.

連続変数の技術的詳細の中には,お互いの決定論的関数となる連続確率変数を扱うことに関
係するものがある.2 つの確率変数 x と y があり,可逆で連続かつ微分可能な変換 g を使っ
て y = g(x) が成り立つとしよう.このとき,py (y) = px (g −1 (y)) が成り立つと考えるかも
しれないが,実際にはそうならない.
x
単純な例として,スカラーの確率変数 x と y があり,y = 2 ,x ∼ U (0, 1) であるとする.
もし規則 py (y) = px (2y) を使うなら,py は区間 [0, 1
2] を除いたすべての領域で 0 になり,こ
の区間内では 1 になる.これによって以下の式が導かれる.
!
1
py (y)dy = (3.43)
2
しかし,この式は確率分布の定義に反する.これはよくある間違いである.この方法の問題
点は,関数 g によって導入される空間の歪みを反映していないことである.体積 δx の限りな
く微小な領域に存在する x の確率は,p(x)δx で求められることを思い出そう.g は空間を拡
大縮小できるので,x の空間における x の周辺の微小な体積は,y の空間では体積が異なる
場合がある.

この問題をどのように修正するのかを説明するために,スカラーの場合に立ち返ってみる.
ここで以下の性質を保持する必要がある.

|py (g(x))dy| = |px (x)dx| (3.44)

これを解くことで,以下が得られる.
" "
" ∂x "
py (y) = px (g −1
(y)) "" "" (3.45)
∂y

67
第 3. 確率と情報理論

または以下のようにも表せる.
! !
! ∂g(x) !
px (x) = py (g(x)) !! ! (3.46)
∂x !
さらに高い次元では,導関数によって,ヤコビ行列(Jacobian matrix)—Ji,j = ∂xi
∂yj とな
る行列の行列式に一般化される.したがって,実数値ベクトル x と y について,以下のよう
に表せる. ! " #!
! ∂g(x) !!
!
px (x) = py (g(x)) !det (3.47)
∂x !

3.13 情報理論
情報理論は応用数学の一分野であり,信号の中に含まれる情報量を数値で表現することを
対象として発展している.情報理論はもともと,無線伝送を使ったコミュニケーションのよ
うに,雑音のあるチャネルにアルファベットの各文字を載せてメッセージを送るという研究
のために生み出された.この背景から,情報理論は,様々な符号化手法を使って最適な符号を
設計し,特定の確率分布から抽出されたメッセージの長さの期待値を計算する方法を教えて
くれる.機械学習の観点からは,このようなメッセージの長さの解釈が当てはまらない連続
変数にも情報理論を適用できる.この分野は,電子工学と計算機科学において数多くの領域
の基礎となっている.本書ではほとんどの場合,情報理論の主要な考えをいくつか活用して,
確率分布を特徴づけ,あるいは確率分布の間の類似性を数量で表している.情報理論につい
てのさらなる詳細はCover and Thomas (2006) とMacKay (2003) を参照されたい.

情報理論における基本的な直観は,起こりそうもない事象が起こったことを学習するのは,
起こりそうな事象が起こったことを学習するよりも,より情報に意味があるということであ
る.「今朝太陽が昇った」というメッセージは,送信する必要がないくらい情報がないが,
「今
朝日食があった」というメッセージは重要な情報と言える.

この直感を定式化することで,情報を量的に表現したい.

• 起こりやすい事象の情報量が少なく,極端な場合,間違いなく起こる事象には,それが
どんなものであれ情報量はない.
• 起こりにくい事象ほど,その情報量は多い.
• 独立な事象は付加情報を持つ.例えば,コインを投げて表が 1 回出るのを見るよりも,
表が 2 回出るのを見る方が,2 倍の情報を伝達する.

この 3 つの性質すべてを満たすために,事象 x = x の自己情報量(self-information)を
68
第 3. 確率と情報理論

以下のように定義する.
I(x) = − log P (x) (3.48)

本書では log を使って,e を底とする自然対数を表す.そのため,I(x) の定義はナット(nats)
の単位で書かれる.1 ナットは確率 1
e の事象を観測したときに得られる情報量である.底が 2
の対数である,ビット(bits)もしくはシャノン(shannons)と呼ばれる単位を使う書籍も
ある.ビットで測った情報は,ナットで測った情報を再スケーリングしているだけである.

x が連続であるとき,類似性から情報の同じ定義を使うが,離散の場合の性質からは失われ
てしまうものがある.例えば単位密度の事象は,起こることが保証されている事象ではない
にもかかわらず,その情報量は 0 である.

自己情報量は 1 つの結果のみを扱う.シャノンエントロピー(Shannon entropy)を使っ
て,確率密度全体の不確実性を量的に表現できる.

H(x) = Ex∼P [I(x)] = −Ex∼P [log P (x)] (3.49)

なお,これは H(P ) とも表記される.言い換えると,分布のシャノンエントロピーは,その分
布から抽出される事象に期待される情報量である.それによって,分布 P から抽出されるシ
ンボルを符号化するために平均的に必要なビット数(対数の底が 2 の場合.それ以外のとき
は単位が異なる)の下限が求められる.(結果がほとんど確実で)ほぼ決定論的な分布のエン
トロピーは低く,一様分布に近い分布のエントロピーは高い.これを図3.5に図示する.x が
連続であるとき,シャノンエントロピーは微分エントロピー(differential entropy)と呼
ばれる.

同じ確率変数 X に対して異なる確率分布 P (x) と Q(x) があるとき,カルバック・ライブ
ラーダイバージェンス(Kullback-Leibler (KL) divergence)を使って,この 2 つの
分布にどれだけの差があるのかを測ることができる.
! "
P (x)
DKL (P ∥Q) = Ex∼P log = Ex∼P [log P (x) − log Q(x)] (3.50)
Q(x)
を用いてどのようにこれら 2 つの分布が異なるのか測ることができる.

離散変数の場合,確率分布 Q から抽出されたメッセージの長さを最短にするように設計さ
れた符号を使うとき,これは確率分布 P から抽出された記号を含むメッセージを送るために
必要な,追加の情報量(底 2 の対数を使うならばビットで測られるが,機械学習では通常,
ナットと自然対数を使う)になる.

KL ダイバージェンスには数多くの有用な性質があり,その中で最も重要なのは非負である
という点である.離散変数において,P と Q が同じ分布である場合に限り,また連続変数に
69
第 3. 確率と情報理論

0.7

0.6

Shannon entropy in nats 0.5

0.4

0.3

0.2

0.1

0.0
0.0 0.2 0.4 0.6 0.8 1.0
p
図 3.5: 二項確率変数のシャノンエントロピー.このグラフでは,決定論的な分布に近い分布のシャノン
エントロピーが低い一方で,一様分布に近い分布のシャノンエントロピーが高い様子を示している.横
軸には,二項確率変数が 1 に等しくなる確率 p を表示する.エントロピーは (p − 1) log(1 − p) − p log p
で得られる.p が 0 に近いとき,確率変数はほとんど常に 0 であるため,分布はほぼ決定論的である.p
が 1 に近いときも,確率変数はほとんど常に 1 であるため,分布はほぼ決定論的である.p = 0.5 のと
きに,エントロピーは最大になる,なぜなら分布は 2 つの結果に対する一様分布だからである.

おいて,それらが「ほとんど至るところで」等しくなる場合に限り,KL ダイバージェンス
は 0 となる.KL ダイバージェンスは非負であり,2 つの分布の違いを測るので,分布間の距
離のようなものを測るものとして概念化されることが多い.これは非対称である.すなわち,
ある P と Q について,DKL (P ∥Q) ̸= DKL (Q∥P ) であるため,距離尺度としては正しくな
い.この非対称性は,DKL (P ∥Q) または DKL (Q∥P ) を使うかどうかの選択に重大な影響を
及ぼすことを意味する.さらに詳細を図3.6に示す.

KL ダイバージェンスと密接に関係している量は交差エントロピー(cross-entropy)
H(P, Q) = H(P ) + DKL (P ∥Q) である.交差エントロピーは,KL ダイバージェンスに似て
いるが,左側の項が削除されている.すなわち,

H(P, Q) = −Ex∼P log Q(x) (3.51)

Q は取り除かれた項に関与しないため,Q に関して交差エントロピーを最小化することは KL
ダイバージェンスを最小化することと等しい.

数多くのこういった量を計算するとき,0 log 0 の形の表現をよく見かける.情報理論の世
界では慣習的に,この表現を limx→0 x log x = 0 として扱う.

70
第 3. 確率と情報理論

q ⇤ = argminq DKL (pkq) q ⇤ = argminq DKL (qkp)

p(x) p(x)
Probability Density

Probability Density

q (x) q ⇤ (x)

x x

図 3.6: KL ダイバージェンスは非対称である.分布 p(x) があり,それを他の分布 q(x) で近似したいと
する.このとき,DKL (p∥q) または DKL (q∥p) のどちらを最小化するかは選択できる.p に 2 つのガウ
ス分布の混合を使い,q に 1 つのガウス分布を使って,この選択の影響を図示している.KL ダイバー
ジェンスのどの方向を使うかは,課題に応じて選択する.真の分布の高確率のところは通常どこでも高
確率にする近似が必要となる応用もあれば,真の分布の低確率のところはどこでも稀に高確率とする近
似が必要な応用もある.KL ダイバージェンスの方向の選択には,応用ごとにこれらの考え方のどれを
優先するかが反映される.(左)DKL (p∥q) の最小化の効果.この場合,p の確率が高い部分に高い確率
を持つ q を選択する.p に複数のモードがあるとき,全体的に高い確率質量とするため,そのモード全
体をぼかすように q を選択する.(右)DKL (q∥p) の最小化の効果.この場合,p の確率が低い部分に
低い確率を持つ q を選択する.図のように,p が十分に広がって分離している複数のモードを持つとき,
p のモード間の低確率の領域に確率質量が置かれることを避けるため,KL ダイバージェンスは 1 つの
モードのを選択することで最小化される.ここでは,左のモードが強調されるように q が選択された結
果を図示する.右のモードを選択しても,同じ値の KL ダイバージェンスが得られる.十分に確率の低
い領域でモードが分離していない場合でも,この KL ダイバージェンスの方向を選択して,モードをぼ
かすことができる.

3.14 構造化確率モデル
機械学習のアルゴリズムには,非常に多くの確率変数における確率分布が関与する場合が
多い.このような確率分布には,相対的に少ない変数の間に直接的な関係性があることが多
い.1 つの関数で同時確率分布の全体を記述することは(計算量的にも統計学的にも)非常に
効率が悪い.

1 つの関数で確率分布を表現する代わりに,掛け合わせが可能なたくさんの因子に確率分布
を分割できる.例えば,3 つの確率変数 a,b,c があるとする.a は b の値に影響を与え,b は

71
第 3. 確率と情報理論

c の値に影響を与えるが,b が与えられた下で a と c は独立だとする.この 3 変数すべてにお
ける確率分布を,2 変数における確率分布の積で表すことができる.

p(a, b, c) = p(a)p(b | a)p(c | b). (3.52)

このような因数分解によって,分布の記述に必要なパラメータの数を大きく削減できる.各
因子は.その因子の中にある変数の数のべき乗に相当する数のパラメータを使う.これはす
なわち,より変数の少ない分布に因数分解できるなら,分布を表現するコストを大きく削減で
きるということになる.

グラフを使ってこのような因数分解を表現できる.ここでは,
「グラフ」という単語はグラフ
理論の意味で使われていて,辺で相互に繋がっている頂点の集合を意味している.グラフで確
率分布の因数分解を表現するときは,これを構造化確率モデル(structured probabilistic
model),あるいはグラフィカルモデル(graphical model)と呼ぶ.

構造化確率モデルには,主に有向と無向の 2 種類がある.いずれのグラフィカルモデルも
グラフ G を使うが,このグラフでは,各ノードが確率変数に対応していて,2 つの確率変数を
結んでいる辺は,確率分布がこの 2 つの確率変数の間の直接的な関係を表現できることを意
味している.

有向(Directed)モデルは向きのある辺を使ったグラフで,上記の例にあるように,条件
付き確率分布への因数分解で表現する.特に,有向モデルは分布の中のどの確率変数 xi につ
いても 1 つの因子を持ち,その因子は P aG (xi ) で表される xi の親が与えられた下での,xi の
条件付き分布で構成される.
!
p(x) = p (xi | P aG (xi )) . (3.53)
i

図3.7に有向グラフと,それが表す確率分布の因数分解の例を示す.

無向(Undirected)モデルは向きがない辺を使ったグラフで,関数の集合への因数分解で
表現する.これは,有向の場合とは違い,通常これらの関数はいかなる確率分布でもない.G
で相互に繋がっているノードのあらゆる集合は,いずれもクリークと呼ばれる.無向モデル
のクリーク C (i) は,それぞれ因子 φ(i) (C (i) ) に関連付けられている.これらの因子は単に関数
であり,確率分布ではない.各因子の出力は非負でなければならないが,因子の総和や積分が
1 でなければならないといった,確率分布のような制約はない.
ある確率変数の状態の確率は,これらの全因子の積に比例(proportional)する.つまり,
大きな値の因子が割り当てられる可能性がより高くなりやすい.もちろん,この積の総和が 1
になる保証はない.そのため,φ 関数の積の全状態の総和か積分で定義される正規化定数 Z
72
第 3. 確率と情報理論

a b

c d

e

図 3.7: 確率変数 a,b,c,d,e の有向グラフィカルモデル.このグラフは以下の形に分解できる確率分布に
対応している.
p(a, b, c, d, e) = p(a)p(b | a)p(c | a, b)p(d | b)p(e | c) (3.54)

このグラフィカルモデルから,分布の性質のいくつかがすぐに理解できる.例えば,a と c は直接関連
しているが,a と e は c を介して間接的にのみ関連している.

a b

c d

e

図 3.8: 確率変数 a,b,c,d,e の無向グラフィカルモデル.このグラフは以下の形に分解できる確率分布に
対応している.
1 (1)
p(a, b, c, d, e) = φ (a, b, c)φ(2) (b, d)φ(3) (c, e) (3.56)
Z
このグラフィカルモデルから.分布の性質のいくつかをすぐに理解できる.例えば,a と c は直接関係
しているが,a と e は c を介して間接的にのみ関係している.

で割って,正規化した確率分布が得られる.

1 ! (i) " (i) #
p(x) = φ C . (3.55)
Z i

図3.8に,無向グラフとそれが表す確率分布の因数分解の例を示す.

73
第 3. 確率と情報理論

このような因数分解のグラフでの表現は,確率分布を記述するための表現手段であるとい
うことを留意されたい.これらは相互排反な確率分布族ではない.有向か無向かは確率分布
の性質ではなく,確率分布の説明(description)の性質であり,どんな確率分布も両方の方
法で記述できる.

本書のI部と??部 part:practical では,構造化確率モデルを,単に異なる機械学習アルゴリ
ズムがどのような直接的な確率的関係性を表すかを記述する言語として使用する.

III部では,構造化確率モデルについてさらに詳しく説明するが,その研究トピックの議論
までは,これ以上の構造化確率モデルの理解は必要ない.

本章では,深層学習に最も関連の深い,確率論の基本的な概念を概説した.基本となる数学
的ツールがあと 1 つ残っている.それは数値法である.

74

Sign up to vote on this title
UsefulNot useful