Null

第8章概率论基础
7 基础微积分
7 线性代数
8 概率论
9 随机微积分 10 鞅
11 偏微分方程 11 数值方法
本章的学习目标
理解概率的古典和测度定义以及相关的性质；
理解随机变量的测度定义以及它的分布函数和密度函数；
了解随机变量的收敛方式和重要的收敛定理；
掌握数学期望的测度定义和性质；
明确条件概率、理解数学期望的测度定义；
掌握条件数学期望的重要性质、明确独立性的定义；
掌握随机变量的重要数值特征，例如方差、协方差、矩母函数和特征函数；
了解线性概率空间的概念和它同一般线性空间的联系；
熟悉几种重要分布的定义、数值特征以及它们在构造金融模型时的应用；
了解大数定理和中心极限定理。
（微观）金融理论研究涉及的核心问题有两个，一个是不确定性，另一个是时间或者
说动态过程。而概率理论正是构造不确定环境下金融模型的基本工具，而且它还是第 9 章
随机过程理论的基础，因此它在金融分析和金融分析工具中的重要性是不言而喻的。
我们这样安排本章内容：首先简要的回顾初等概率论中的概率和随机变量定义，然后
用严格的测度语言重新表述一次。接下来考察在随机分析中非常重要的数学期望和条件数
学期望的概念和性质。对于有经验的读者，建议在学习完以上内容后，直接进入与之紧密
联系的第 10 章——鞅。
然后我们进一步考察随机变量的主要数值特征。借助这些数值特征，我们描述几个在
微观金融学及其数学基础
研究金融资产价格运动时必须牢固把握的概率分布 ① ，最后则是对极限定理的一个简要
探讨。
8.1 概率公理和随机变量
8.1.1 初等情形
最早对于概率行为的研究兴趣可能是从赌博开始的。例如，早期的研究者很认真地探
讨在抛硬币猜正反的赌博中，连续开 20 次“花”的机会有多少？这里的概率一词可以做多
种理解：
1．首先，它可以被解释为基于某种实际测量的相对频率（frequency）。例如，掷一枚
质地均匀的硬币，出现某一面朝上的频率最终会稳定下来。用 N 表示试验总次数，用 n 表
示某种情形发生的次数，则概率就可以定义为
n
P= （8-1）
N
显然，这个相对频率只有趋于稳定，该种概率定义才有意义。历史上有一些著名的例
子可以作为这种解释的脚注，如表 8-1 所示的掷硬币试验。
表 8-1 作为频率意义上的概率
实验者掷币总次数出现正面次数频率

蒲丰 4040 2048 0.5068
皮尔逊 12000 6018 0.5016
皮尔逊 24000 12012 0.5005
尽管这种定义相当直观，并且在工程中广泛应用，但是怎样才算是所谓“大量”或者“稳
定”呢？这类词汇是无法严格定义的，因此，这种概率定义不符合严格的数学表述规范。
2．古典（classical）定义。概率的古典定义可以视为给定前提下的一个先验的推理体
系。我们知道，在掷硬币的试验中：
（1）出现的结果将不止一个，但是所有可能发生的结果在事前都是可知的（非字即花，
①
按照我们国家现有的教学体系，大多数理工科的读者对于密度函数、条件期望等初等概率论中的内容相当熟悉，但是考虑到
后续课程是随机过程，则这些准备还远远不够。如何自然地向读者阐述滤波、鞅、测度变换这些重要的概念和方法，是我们
面临的挑战。众所周知，现代概率论以测度论（measure theory）为基础，但是完全掌握测度理论也并非必要。因此在复习
和学习概率论时采用什么样的方法，我们仍然有一些疑问。如果从测度论着手研究，尽管会对以后深入学习随机过程的一般
理论有明显的好处，但对于初学者来说，则显得负担太重；而从基本的初等概率开始，又会妨碍我们透彻地理解概率和随机
过程理论中的一些深层次问题。因而我们只能进行一些必要的折衷作为一种尝试，希望能在这个过程中和读者一起找到最适
当的方法。
・392・
只有两种可能）；
（2）在掷下去前，不知道哪一种结果会发生；
（3）可以重复地掷。
有着类似特征的行为，被称为随机试验（stochastic experiment）。只要再加上一点，即
每种结果发生的可能性都相等，它就构造出所谓“古典”的概率模型。古典概型可以明确
地计算随机试验中获得某些结果的概率。例如，掷一枚质地均匀的骰子，掷出奇数点的概
率是 1/6+1/6+1/6=1/2。但是古典概型的前提是很严格的，它要求试验结果发生的等概率
性，这就限制了它的应用范围。
3．公理化定义。这需要先引入一些基本概念。上述随机试验的每一个结果（outcome），
称为样本点（sample point），记为 ω ；所有样本点的总和被称为样本空间Ω（sample space）
；
称包含若干样本点的集合为事件（event），每一个样本点又可以称为基本事件（basic event）
。
称空间Ω为必然事件（sure event），称不包含任何样本点的空集 ∅ 为不可能事件（impossible
event）。
定义 8.1.1 概率就是对于任一个事件 A 指定的一个数 P( A) ，它满足：
（1） P( A) ≥ 0 ，即非负性；
（2） ∑ P( A) = 1 ，即规范性①；
（3）如果事件 A 和事件 B 的交集是空集 ∅ ，则 P( A + B ) = P( A) + P( B ) ，即（可列）可
加性。
则称 P(A) 为事件 A 发生的概率。
第一个条件意味概率必须大于或者等于 0；第二个条件则表明所有事件发生的概率的
和为 1，第三个条件则说明对于互不相关的事件发生的概率，等于它们各自发生概率之和。
与其他所有严谨的科学理论类似，这几条公理就演绎出整个概率理论体系。
在初等概率课程中，我们已经掌握了这些知识，但是因为由柯尔莫格罗夫开创的现代
概率公理体系以测度论作为基础②，而要学习后续的随机过程课程又必须使用这种方法，因
而我们必须进一步学习用测度的语言去表述这些概念，会发现它并没有想象中那么困难。
8.1.2 概率公理
注意到概率论中的事件可以用集合的语言，即集合及其运算关系来进行描述，其中一
些对等关系见表 8-2 所示。我们已经在第 7 章中建立过集族和代数的概念，因而可以用它
们来严格地表述概率的公理定义。
我们分成 5 个步骤来完成这一工作：
1．描述样本空间。所有可能发生的结果构成样本空间，在掷骰子的例子中，样本空间
①
或者称正则性。
②
与现代的由柯尔莫格罗夫（1933）开创的基于集合概念的概率公理体系相比较，古典概率理论侧重获得某种具体结果的数值
大小，而后者不明显计算事件发生的概率大小，它更关心事件发生概率之间的关系。
・393・
Ω等于 {1,2,3,4,5,6} 。
表 8-2 概率论与集合论之间的对等关系
集合论初等概率论
空间样本空间、必然事件
空集不可能事件
元素基本事件
集合 A 事件 A
A∪B 事件 A、B 至少出现一个
AB 事件 A、B 同时出现
AC 事件 A 不出现
∞
2．描述事件。如果Ω的子集两两不相交，即 Ci C j = ∅, ∀i ≠ j ，并且 U Ci = Ω，则称这
i =1
样一族集合 {C i , i = 1,2,L} 为Ω的一个分割（decomposition）或者划分（partition）。

比如说{ C1 = 掷骰子掷出偶数点}；{ C 2 = 掷骰子掷出奇数点}是 Ω 的子集，由于
C1 = {1,3,5} 和 C 2 = {2,4,6} ，因此 C1C 2 = ∅ ，C1∪C2=Ω，所以它们是Ω的一个分割。显然 {1} ，
{2} ，{3} ，{4} ，{5} ，{6} 也是对状态空间的一种分割，而且这种分割比前面一种分割更为
精细（finer），实际上由基本事件或者样本点构成的分割是最精细的分割。
所谓事件就是由某一种分割（基本事件是分割的一种）通过不断的集合基本运算，即
交、并、补构造出来的。比如说“掷出大于 3 点”这一事件就是 {4} ，{5} ，{6} 三个基本分
割的并，它也可以是 {1} ， {2} ， {3} 三个基本事件（分割）并的补。由此可见，同样的事件
可以由（基本）分割的不同集合运算来构造。又比如说“掷出小于 1 点”这一事件，是由 {1} ，
{2} ，{3} ，{4} ，{5} ， {6} 六个基本事件并的补构成，很明显它是一个空集，即 ∅ ，称它为
不可能事件；而“掷出大于 1 点”这一事件则由所有基本分割的并构成，即Ω，称它为确
定事件。
3．定义事件的集合—— F 。由状态空间的某种分割通过几种集合的基本运算，可以
构成一系列的事件，把它们放在一起成为一个大集合，这些以事件为元素构成的集合称为
集族，记为 F ，我们要求它满足以下要求：
（1）它包含 Ω 自身；
（2）它对于补运算封闭，即如果 A ∈ F ，则 A C ∈ F ；
∞
（3）它对于可列并运算封闭，即 C i ∈ F , i = 1,2, L ，有 U Ci ∈ F 。
i =1
记得吗？这就是我们在第 7 章中定义过的 σ 代数。为明了起见，我们使用一个简单的

分割，来形象地构造一个由分割产生的 σ 代数。
例 8.1.1 在掷骰子中，定义{ C1 = 掷骰子掷出 1-2 点}；{ C 2 = 掷骰子掷出 8-4 点}，
{ C 3 = 掷骰子掷出 5-6 点}这一分割，通过交、并、补，得到 σ 代数包含 8 个元素，它们是：
・394・
Ω = {C1 , C 2 , C3 } ， {∅} ， {C 1 } ， {C 2 } ， {C 3 } ， {C1 , C 2 } ， {C1 , C 3 } ， {C 2 , C 3 }

如果使用由基本分割产生的基本事件，可能发生的事件（组合）
，包括空集在内一共是
64 种，这样，最大的 F 由 64 个元素构成。
一般的，如果可能发生的结果有 N 种，最大的 σ 代数由这些结果通过集合运算而形成
的所有可能的幂集构成，它一共包含 2 N 个元素。很明显，最小的 σ 代数就是{Ω, ∅ }。因
而想要了解分割的精细程度，又可以通过比较它们生成的 σ 代数所包含的集合数量的多少
来确定，我们说一种分割比另一种分割更为精细，当且仅当前者生成的 σ -代数包含后者生
成的 σ 代数①。
{Ω , F }写在一起，通常被称为可测空间（measurable space）。 F 的元素（集合）称为
可测集（measurable set）。
4．定义一种函数关系，即可测空间{Ω , F }上存在的一个从 F 到 [0, ∞) 的映射，记为
P = {P} 。它实际上是一种从 σ 代数 F 的元素—事件（定义域）到正实数（值域）上的映射
关系 P : F → R + ，它满足 3 个条件：
（1），即指定给空集的实数是 0；
（2） P( A) ≥ 0, ∀A ∈ F ，即给 σ 代数的任一元素指定的实数必须大于或者等于 0；
（ 3 ）对于 F 中任意可数集合 C i , i = 1,2,L ，如果 Ci ∩ C j = ∅, ∀i ≠ j ，有
∞ ∞
P (U C i ) = ∑ P (C i ) ，即指定给任何两两不相交的集合的并的实数，等于为它们各自指定的
i =1 i =1
实数的和，称之为可数可加性（countable additivity）。
这样定义的函数关系就是所谓测度（measure）②。三位一体的{Ω, F , P }称为测度空
间（measure space）
。需要注意的是第 3 个条件，它是测度最鲜明的特征，直观上理解，它
认为空间中互不相连的长度、体积和质量是可加的。
例 8.1.2 （1）假设Ω = R ， F = B ，测度论断言存在一个惟一的测度 L ，对任意开
区间的测度与它的长度相等：即如果 A = ( a, b) ，则 L( A) = b − a 。这种测度一般称为勒
贝格测度（Lebesgue measure）。
（2）假设Ω = R ， F = B ， f 是单调连续函数，测度论断言存在一个惟一的测度 L f ，
如果 A = (a, b) ，则 L f ( A) = f (b) − f (a) 。这种测度一般称为勒贝格 - 斯第尔切斯测度
（Lebesgue-Stieltjes measure）
。
5．我们在上面 3 个条件的基础上再加一个正则性要求，即 P(Ω)=1，则我们构造了一
种函数关系 P : F → [0,1] ，称 P 为概率测度（ probability measure ）或者简称为概率
（probability）；而{Ω, F , P }就是所谓概率空间（probability space）了。
这里还得补充一点，假定 N 是一个概率测度空间{Ω, F , P }上的子集，它属于集合 A ，
即 N ⊂ A ，而 A ∈ F 且 P( A) = 0 ，称 N 是可忽略（negligible）集合。容易知道对每个 A ∈ F
且 P( A) = 0 ，一般说来，对于它的任意子集 N ( N ⊂ A )，不一定有 N ∈ F 成立，即在这个
①
这将被用来在第 10 章中刻画（金融）信息的传递过程（information transfer process）。
②
这种以集合为定义域的函数有时被称为集函数。
・395・
概率空间中，概率为零的集合的子集不一定是可测的。为了简化分析，我们通常会排除这
种情况，因此又有如下定义。
定义 8.1.2 如果对于任何 A ∈ F 且 P( A) = 0 ，对一切 N ⊂ A 都有 N ∈ F 成立①，则称 F
对概率 P 是完备的（complete），这时称{Ω, F , P }为完备概率空间（complete probability
space）②。
在同一个概率空间上存在的概率测度可能不止一个，这时我们把它们统一记为 P̂ ，则
相应的概率空间就是{Ω, F , P }。考虑在该概率空间上的两个概率测度 P 和 Q = {Q} ，如
果对于 P 为任何可能事件 A 指定的概率都严格为正的情形，Q 为它指定的概率也为严格为
正（尽管通常是不同的）
，而且反过来也成立，即
P( A) > 0 ⇔ Q( A) > 0 ∀A ∈ F （8-2）
称这种情况为两种概率测度有共同的 0 概率（测度）（null set）集，有着同样 0 概率集的

概率测度称为等概率测度（equivalent probability measure）③。也就是说，尽管 P 与 Q 对于
同一事件发生的可能大小有不同的概率评价，但是对它是否会发生则观点一致④。
为了加深理解，表 8-3 总结了概率论与测度论之间的一些对等关系：
表 8-3 概率与测度之间的对等关系
概率论测度论
概率空间规范的测度空间{Ω, F , P }
不可能事件空集 ∅
基本事件 Ω中的点
事件 A 可测集 A ， A ∈ F
概率为 1（w.p.1）
；几乎总是（a.s.）几乎处处（a.e.）
随机变量 {Ω, F }到 {R , B( R )}上的可测函数
分布函数勒贝格-斯第尔切斯测度⑤
数学期望可测函数的勒贝格积分⑥
根据上述的概率公理我们有一些简单的推论：
①
我们经常会看到这一类技术性的要求，它是保证数学上严密性的需要，在经济分析中则往往找不到合适的对应物。幸运的是，
经济分析中大多数问题具有良好的性质。
②
在数学文献中，总是会看到诸如 a.s.和 a.e.的简记法。a.s.是 almost surely 的简写，即“几乎必然”。在概率空间{Ω, F , P }
中，一个关于Ω的元素 ω 的命题除了在有些 ω ∈ N ， N ∈ F ， P ( N ) = 0 ，即 0 测度集以外总是成立的，它就被理解为几
乎必然成立，或者被理解为“以概率 1”成立（with probability 1，简记为 w.p.1）；如果不是概率测度 P 而是任意其他测度，
则称它是“几乎处处”成立，即 a.e.（almost everywhere）。
③
也称 Q 是对 P 绝对连续的（absolutely continuous）。
④
经济上理解，之所以强调这一点是因为如果不同投资者对于某种事件发生概率是否为 0 评价不一致，则他们就不会对某些特
定的项目进行投资，这样均衡就无法保证。这在使用鞅数学解决无套利均衡这一问题中起重要作用。
⑤
见 8.2.1 节。
⑥
在 8.2.1 节中就明确了。
・396・
（1）可减性。如果 A, B ∈ F ，A ⊂ B ，则有 P( B − A) = P( B) − P( A) ；如果 A ∈ F ，
特别地有，
则有 P( A C ) = 1 − P( A) 。
（2）不降性。如果 A, B ∈ F ， A ⊂ B ，则有 P( A) ≤ P ( B ) 。
（3）加法公式。如果 A, B ∈ F ，则有 P(A∪B) = P ( A) + P ( B ) − P ( AB) 。
∞
（4）连续性。如果 {C n } ∈ F ，C n ↑ C ，则有 P(U C n ) = lim P (C n ) ，也即 P(C n ) → P(C ) ；
n →∞
n =1
∞
如果 {C n } ∈ F ， C n ↓ C ，则有 P (I C n ) = lim P (C n ) ，也即 P(C n ) → P(C ) 。
n →∞
n =1
∞ ∞
（5）布尔不等式（Boole's inequality）。如果 {C n } ∈ F ，则有 P(U C i ) ≤ ∑ P(C i ) 。
i =1 i =1
金融相关点 8-1 不确定性和风险
弗兰克.奈特（Knight F.）在他 1921 年的名著《风险、不确定性和利润》中准确地识别

了这个世界的三种形态——确定的（certainty）、风险的（risk）和不确定的（uncertainty）。
确定性排除了任何随机事件发生的可能，它是哲学意义上因果必然关系的体现。例如
水在一个标准大气压、摄氏 100 度下必然会沸腾。存在风险意味着：我们对于未来可能发
生的所有事件以及它们发生的概率有准确的认识，但是对于究竟哪一种事件发生却一无所
知。换句话说，我们知晓未来的概率分布，这种概率分布也许是来自于经验（类似于概率
的频率定义）或者客观事物本身的规律（类似于概率的古典定义）
，在更多的情况下它只是
一种主观的猜测。对于风险的形象理解就是：我们在做一个符合上面提到条件的随机试验。
注意到这与我们在日常生活中赋予风险这个词的负面意义是有所区别的。不确定性则意味
着即便是我们能够知道未来世界的所有可能发生的结果，它们发生的概率大小则仍然是不
清楚的，但是如果引入主观概率（subjective probability or probability belief），即人为地为每
一种状态分配一个概率，则风险与不确定性的界限就变得模糊起来。因此在金融经济学文
献中有时会不加区别地交替使用这两个词。
在经济分析中，萨维奇（Savage，1866）首先使用世界状态（state of world or state of
nature）这一术语来描绘不确定性。什么是世界状态呢？用上面的数学语言来表述，它就是
对世界历史进化的样本空间的某种形式的分割。根据要考察的经济现象的不同性质，可以
划分不同的世界状态，比如说如果考察某种农作物如小麦的收成，那么天气状况如大雨、
晴朗就是 2 种世界状态，不同的世界状态导致粮食产量这一经济变量的不同结果。根据分
割的定义，对于某一特定问题，这些世界状态必须是穷尽的和互斥的。
明天的气温也可以视为世界状态，我们可以很精确地描述“明天气温高达 80 摄氏度”
，
尽管这是令人吃惊的小概率事件，它确实是按照气温划分的世界状态之一。这也反映了世
界状态表述方法的一个重要特征，即它不明显包含某种状态出现的概率大小方面的信息，
・397・
或者说概率分布信息，它仅仅关注某种状态是否出现或者发生①。
明天会发生什么呢？图 8-1 中的事件树（event tree）给了我们形象的理解。
世界状态
ω1
ω2
ω3
……
ωs
ωS
t0 t1 时间
图 8-1 用事件树来表示世界状态和信息结构
需要指出的是：它会随着时间无限演化下去。这种过程的性质以及它是如何体现在金
融分析中的，在第 9 章的随机过程中会有更详细的介绍。
8.1.3 随机变量及其分布
我们已经有了一系列的公理概念，为了增强计算能力，现在要引入随机变量（random
variable）这一重要的概念，可以说随机变量就是沟通集合公理和可运算数学技术（如微积
分）之间联系的一座桥梁。
在初等概率理论中，直观地理解随机变量就是赋予随机事件的任意数值。比如说，掷
硬币掷出正面向上这一结果可以令它为 1；掷出反面向上则令它为 0，表面上看似乎有很大
的随意性。这也就是随机变量这一术语由来的直观背景。不过现在我们可以用测度语言给
出更准确的描述。
令{Ω, F }和 {R , B} 为两个可测空间，存在一个从Ω到 R 的函数关系 X ，即 X:Ω → R 。
这个函数与通常数学分析中的函数的相同之处在于值域是某一数集，不同之处在于它的定
义域不一定是数集，而是样本空间中的事件集合。
如果对于任何 A ∈ B(
(R ) ，它的反函数 X −1 ( A) 都在 F 中，则称这种函数关系 X 是 F 可
测的。也就是说，对于值域空间 R 中的任何一个值，在定义域空间总存在有意义的事件作
为对应物，而这又进一步要求这些事件属于适当的 σ 代数 F ，因而一个 F 可测的实值函数
①
集合公理适合无套利的研究，因为它不特别关心某一特定事件发生的大小，它只关心某一状态是否可能发生。这使得它在一
般理论研究上非常合适，但是只有量化分布才能便于计算。分布与状态的研究在金融学中是齐头并进的，可以回头去看一下
第 1、3 章。
・398・
就是随机变量。
直观上理解，我们给 F 的每一个元素（事件）安排一个实数，注意这并不是为它们指
定的概率，而相当于给它们贴上一个标签。这样，原始概率空间{Ω, F , P }被引导到一个
新的概率空间 {R, B, P} 之上①，有时称后者为状态空间（state space）。
显然，如果 X 、Y 是随机变量，则它们的函数 f ( X , Y ) 也是随机变量，因此 X + Y 、XY 、
max( X , Y ) 等也都是随机变量。
令 A ∈ F ，定义 A 的示性函数（indicator function）为
1, ω ∈ A
1 A (ω ) = 
0, ω ∉ A
很清楚，它也是一个随机变量。如果 { Ai } 是 F 的一个可数分割，则
n
χ (ω ) = ∑ α i 1 A (ω ),
i
αi ∈ R （8-3）
i =1
它也是一个随机变量，称之为简单（simple）随机变量。显然示性函数和简单随机变量都
是可测函数。
通常可以根据随机变量的取值情况，把它们分为离散型（discrete）随机变量和连续
（continuous）随机变量两种。如果随机变量可以取可数个数值，则称它为离散型随机变量；
如果它能取任何数值的话，就称它为连续型随机变量。
容易知道：一个离散型随机变量 X 取到某一特定数值是一个随机事件。更一般些，连
续型随机变量 X 取区间 [ x1 , x 2 ) 内的值也是随机事件，它可以表示为 {x1 ≤ X < x 2 } 。由于随
机变量同原来概率空间上的随机事件存在映射关系，因此随机事件 {x1 ≤ X < x 2 } 同随机事件
{ Ak | x1 ≤ X ( Ak ) < x 2 } 发生的机会是一样。而且 {x1 ≤ X < x 2 } 显然是 { X < x 2 } 和 { X < x1 } 之差，
因此我们只需要考虑 { X < x} （ x 是任意实数）这种一般情形就可以了。因为对于任何实数
来说，使得 X 取值小于 x 的一切基本事件所形成的集合应属于 F ，即
{ Ak | X ( Ak ) < x} ∈ F,
, x ∈ R ，这样我们可以对 { X < x} 这样的事件赋予概率，这就有了与随机
变量密切相关的另一个概念——分布函数②（probability distribution function）。连续随机变
量 X 的分布函数 D 定义为
D( x) = P{ X ≤ x}
由分布函数的定义可知，它是右连续的非减函数。当 x → −∞ 时 D( x) → 0 ；当 x → ∞ 时
D( x) → 1 。可以想象分布函数必然采取图 8-2 中的这种形式。
随机变量 X 任意取值 x1 ，对于在它的附近的一个微小区间 x1 ± ∆ 内，有
1 1
P( x1 − ∆ < x1 < x1 + ∆) = dP( x1 ) = dD ( x1 )
2 2
①
注意这里的 P 是勒贝格测度。
②
概率论中有很强的结论说明给定概率分布，总可以构造出适当的概率空间和随机变量，这也就是在初等概率论中我们不明显
引入概率空间的原因。证明见 Billingsley（1968）。
・399・
P
1
x1 + ∆
dP x1
D(x) x1 − ∆
图 8-2 分布函数的一般形式
这里的 dp 是概率分布（函数）的微小增量的微分形式，从图 8-2 中可以知道所有概率

增量的总和必定为 1，采用普通微积分的记法，在对分布函数的积分和对概率测度的积分
之间必定存在以下关系①：
+∞
∫ −∞ dD( x) = ∫ΩdP = 1 （8-4）
如果连续随机变量的分布函数是光滑的并在每一点可导，则还可以把该分布函数的
导数
dD ( x) dP( x) x
d ( x) = = = ∫ d ( s ) ds
dx dx − ∞
定义为连续随机变量的密度函数（density function）。因此式（8-4）又可以记为
+∞ +∞
∫ −∞ dD( x) = ∫ −∞ d ( x)dx = 1 （8-5）
8.1.4 随机序列的收敛
本节中我们介绍随机变量序列的几种收敛方式——几乎必然收敛（almost surely）（或
者以概率 1 收敛）（with probability 1）、概率收敛和分布收敛等概念和它们之间的关系。
而随机变量序列的几乎必然收敛、概率收敛分别是一般测度空间上可测函数序列的几乎处
处收敛（almost everywhere）和测度收敛的特殊情形。
（1） { X n }n ≥1 是一组定义在概率空间{Ω, F , P }上的随机变量序列， X 是定义在同一
空间上的随机变量。如果有 N ∈ F ，且 P( N ) = 0 ，则对于所有 ω ∉ N ，随机变量序列 { X n (ω )}
在一般意义上收敛于 X (ω ) ，即
P{ω : lim X n (ω ) = X (ω )} = 1
n→∞
a .s.
则称 { X n } 几乎必然或者以概率 1 收敛于 X ，记为： X n → X 或者 X n → X w.p.1
①
对概率测度的积分是我们还没有接触到的，它是 8.2 节的主题。
・400・

空间上的随机变量。如果对于任何 ε > 0 ，有
lim P(| X n − X |> ε ) = 0
n →∞
P
则称 { X n } 依概率收敛于 X ，记为： X n → X 。它表明随机变量 X n 与 X 发生任意确定的正
偏差的概率随着 n 的无限增大而趋近于 0。
（3） { X n }n ≥1 是一组定义在概率空间{Ω, F , P }上的随机变量序列，设 { X n } 的分布函
数是 D n , n = 1,2, L ， X 的分布函数是 D 。如果对 D 的每一连续点 x 来说，都有
lim D n ( x) = D ( x)
n→∞
D
则称 { X n } 依分布收敛于 X ①，记为： X n → X 。
空间上的随机变量，如果
lim E ( X n − X ) r = 0
n→∞
则称 X n 依 r 阶矩（moment）②收敛于 X 。特别地，当 r = 1 时称为平均收敛； r = 2 时称为在

均方意义上收敛（mean square convergence）。
从新的收敛方式可以看到，极限的概念也得到了进一步的扩展，极限在此被理解为一
种计算过程中数值上的近似，这也是第 9 章中理解伊藤积分和伊藤定理的关键。
注意上述这几种收敛方式有这样一些关系：
（1）意味着；
（2）成立；
（2）又蕴涵着（3）
，
一个比一个弱。这可以用图 8-3 表示。
r ' 阶矩平均收敛
r 阶矩平均收敛( r < r ' ) 以概率 1 收敛
平均收敛概率依概率收敛
依分布收敛
图 8-3 4 种收敛方式之间的关系
8.1.5 多维情形
在实际工作中常常会要求同时处理 2 个以上的随机变量，这就是说对于同一个随机事
①
依分布收敛也称为弱收敛（weak convergence）。
②
记得在《新帕尔格雷夫经济学大辞典》中译本的某些词条中，一阶矩和二阶矩被可笑地翻译为第一时刻和第二时刻。
・401・
件，可以指定多个指标去描述它，我们可以把这个指标理解为 n 个单一随机变量的集合。
这在金融实际工作中经常会遇到。例如，描绘股票运动需要有几个从不同状态空间中采取
的随机变量，如价格、成交量、换手率等。因此，需要把以上讨论从一维向多维情形推广，
我们把重点放在 2 维情形上，维数再高不会对主要结论有实质影响。
考虑两个随机变量，我们知道 { X ≤ x} 和 {Y ≤ y} 都是随机事件，分别有概率和分布
函数：
P{ X ≤ x} = D X ( x)
P{Y ≤ y} = D Y ( y )
显然上述两个事件的积
{ X ≤ x}{Y ≤ y} = { X ≤ x, Y ≤ y}
也是一个随机事件，它由所有使得 X (ς ) ≤ x 和 Y (ς ) ≤ y 的结果 ς 组成。这个事件的概率是 x

和 y 的一个函数，称为随机变量 X、Y 的（二维）联合分布函数。记为
D XY ( x, y ) = P{ X ≤ x, Y ≤ y} （8-6）
容易知道它也满足概率公理的基本要求：
（1） D(−∞,−∞) = D( x,−∞) = D(−∞, y ) = 0 ；
（2） D(∞, ∞) = 1 。
如果联合分布函数有二阶导数，则称
∂ 2 D XY ( x, y )
d XY ( x, y ) = ≥0
∂x∂y
为随机变量 X 和 Y 联合密度函数。在研究多个随机变量的时候，常把每个随机变量的分布
称为边际分布，即称
D X ( x ) = P ( X ≤ x ) = P ( X ≤ x, y < ∞, ) = D ( x, ∞ )
为 X 的边际分布函数，相应地称
∞
d X ( x) = ∫ d XY ( x, y )dy
−∞
为 X 的边际密度函数。一般说来，由 D X ( x) 和 D Y ( y ) 是不能确定出 D XY ( x, y ) 的，但是它与

这些函数之间是有密切联系的，例如有
D XY ( x, ∞ ) = D X ( x)
这是因为事实上 y ≤ ∞ 是必然事件，因此 { X ≤ x, Y ≤ ∞} = { X ≤ x} ；类似地有
D XY (∞, y ) = D Y ( y )
・402・
8.2 数学期望
8.1.3 节中我们形式上接触了对于概率测度 P 的积分问题，接下来我们要通过考察数学

期望来彻底澄清这一概念。而完成对数学期望的深入理解，就掌握了测度型概率理论的
本质。
8.2.1 数学期望和积分
在初等情形中我们把数学期望（或者均值）定义为：用随机变量的不同取值乘以获得
这些取值的概率的总和。例如，假定掷一颗质地不均匀的骰子，每一种结果用与它们数值
大小一样的随机变量来代表，在下表所示的分布情况下：
随机变量 1 2 3 4 5 6
概率分布 1/6 1/6 1/6 1/12 1/12 1/3
该离散型随机变量的数学期望是：
1 1 1 1 1 1
E( X ) = 1× + 2× + 3× + 4× + 5× + 6×
6 6 6 12 12 3
n
更一般化一些，任何非负的简单随机变量 χ (ω ) = ∑ α i 1 A (ω ) 的数学期望均可以定义为： i
i =1
n
E ( χ ) = ∑ α i P( Ai ) （8-7）
i =1
我们知道随机变量 X 是给定概率空间{Ω, F , P }上的可测函数，如果 X 是有限的，则

它必定可以表示成这个概率空间上某一简单随机变量序列 { X n } 的极限（单调收敛），我们
认为它的平均值应当是当序列 { X n } 趋近于无穷时的数学期望，即
E ( X ) = lim E ( X n )
n →∞
为了证明这样的 E ( X ) 的确表示 X 的平均值，我们用一个具体的简单随机变量序列来

加以说明，以 X 为非负的随机变量为例①，取
①
本例见钟开莱（1989），p41。
・403・
k k k + 1
 n , ω ∈  n ≤ X (ω ) < n , k = 0,1,L , n2 − 1
n
X n (ω ) =  2 2 2 
n, ω ∈ {X (ω ) ≥ n}

1
显然 X n (ω ) 是简单随机变量序列，而且有 X n (ω ) ≤ X n +1 (ω ) 和 0 ≤ X (ω ) − X n (ω ) ≤ ，因
2n
此有 lim X n = X 。把它的数学期望写出来就是：
n→∞
n 2 n −1
k  k k +1
E( X n ) = ∑ P ≤ X < n  + nP( X ≥ n ) （8-8）
k =0 2n  2n 2 
从这种计算过程中我们看到了类似于黎曼积分分割梯形求面积的方法。我们把 X 所取
k k +1
的值分成若干小区间，将 X 取在同一区间的值算作是相同的。例如，当 n
≤ X < n 时，
2 2
k
算作 X = , k = 0,1, L , n2 n − 1 ；而当 X ≥ n 时，算作 X = n 。通过把随机变量序列中的每一
2n
个值乘上它们各自的概率，于是就可以得到 X 的平均值的一个近似值，它正好就是 E ( X n ) ，
而且随着 n 的增大，它也越来越精确，所以我们定义 E ( X ) = lim E ( X n ) 是有道理的。
n→∞
n
k
这里的 n （或者 n ）就类似于第 7 章中的黎曼积分和 ∑ f (ξ i )∆xi 中的 f (ξ i ) ，而
2 i =1
 k k + 
P n ≤ X < n  或者 P( X ≥ n ) 就相当于 ∆xi 。但它们之间原则性的区别在于：在黎曼积分
1
2 2 
中，我们是将函数的定义域划分为小区间，而这里则是将函数的值域（概率测度 P ）划分
为小区间。
我们已经知道黎曼积分只有在充分小的区间上，函数值的改变也非常小的时候才可能
取到极限，因此黎曼积分基本上是设计给连续光滑函数的。但是我们现在涉及的函数是随
机变量，它的定义域是事件的集合 F ，因此按定义域划分的原则就很难采用。这是因为首
先将 F 划分为可测集的和，再让这些集的概率测度趋向于 0，这种划分方法未必存在；其
次即使这种划分是可能的，也只适用于那些在概率测度充分小的集上 X 的取值改变很小的
特殊情形。
因此，要建立数学期望的概念并深入探讨它的性质，只利用普通数学分析工具就显得
不够了。我们将采用把函数值域划分为小区间，并进行加总的勒贝格积分方法。这样一来，
随机变量的数学期望概念等同于在概率空间{Ω, F , P }上以概率测度 P 为积分算子，以随
机变量 X 为被积函数的勒贝格积分概念①。
定义 8.2.1 X 是给定概率空间{Ω, F , P }上非负的随机变量，如果 X 关于概率测度 P
的勒贝格积分存在，即 ∫ X (ω )dP(ω ) < ∞ ，则称
Ω
E ( X ) = ∫ X (ω )dP(ω ) = ∫ X (ω ) P(dω ), ω ∈ Ω （8-9）

Ω Ω
①
黎曼积分同 L 积分之间的差异可以参考任何一本实变函数教科书，如胡适耕（1999）。
・404・
为随机变量 X 的数学期望。
实际上注意到任意随机变量 X 都可以记为
X = X+ −X−
X + 代表 X 的正的部分，定义为
 X (ω ), 如果0 ≤ X (ω ) ≤ ∞
X + (ω ) = 
0, 其他
X − 代表 X 的负的部分：
− X (ω ), 如果 − ∞ ≤ X (ω ) ≤ 0
X − (ω ) = 
0, 其他
因为 X + 、X − 都是非负可测的随机变量，所以它们的期望可以被良好地定义，因此（8-9）
式适合于它们，这样任意随机变量的积分就定义为
∫ΩXdP = ∫ΩX dP − ∫ X − dP
+
Ω
或者
E ( X ) = E[ X + ] − E[ X − ]
注意到这种积分也可以发生在任意集合 A ∈ F 上，定义：
E[1 A X ] = ∫ 1 A (ω ) X (ω )dP(ω ) = ∫ X (ω )dP(ω ) = ∫ X (ω ) P(dω ) （8-10）

Ω A A
并称之为“ X 在 A 上对 P 的积分或者数学期望”。
了解到数学期望实质是一种新的积分，不妨回头再看一下分布函数的概念。根据数学
期望、分布函数和密度函数的定义（
（8-3）~（8-5）式），就有
+∞ +∞
E ( X ) = ∫ X (ω )dP(ω ) = ∫ xdD ( x) = ∫ xd( x)dx （8-11）
Ω −∞ −∞
这样，勒贝格积分变成了黎曼-斯第尔切斯积分，最后又变成了普通黎曼积分①。
8.2.2 数学期望的性质
这样定义的数学期望有下面这些性质②：
1．线性（linearity）
（1） ∫ ( X + Y )dP = ∫ XdP + ∫ YdP ；
Ω Ω Ω
①
这里涉及一个积分变换的过程，详细讨论见严士健等（1997），p193。
②
详细证明可以参见严士健等（1997）。
・405・
（2） ∫ aXdP = a ∫ XdP ，其中 a 是任意常数。上面两个性质可以合并起来写成我们熟

Ω Ω
悉的形式：
E (aX + bY ) = aE ( X ) + bE (Y )
（3）如果 A∩ B = ∅ ，则 ∫ XdP = ∫ XdP + ∫ XdP 。这称为对集合的可加性，这个性

A+ B A B
质可以扩充为可数可加性，即：
∫∪XBdP = ∑n ∫B XdP
n n n
2．单调性（monotonicity）
（1）如果 X ≤ Y ≤ Z ，则 ∫ XdP ≤ ∫ YdP ≤ ∫ ZdP ；
A A A
（2）如果 X ≥ 0 ，则 ∫ XdP ≥ 0 ；
A
（3）如果 X ≥ 0 ，则 ∫ XdP = 0 的充要条件是 X = 0 ；

Ω
（4） | ∫ XdP |≤ ∫ | X | dP ，称为模不等式（modulus inequality）；

A A
（5）如果 f 是凸函数，则 f ( ∫ XdP ) ≤ ∫ f ( X )dP 。如果 f 是严格凸的，则上面严格不

Ω Ω
等式成立，这被称为杰森不等式（Jensen's inequality）。该性质也可以记为较为熟悉的形式：
f ( E[ X ]) ≤ E[ f ( X )]
3．绝对可积性（absolute integrability）
（1）如果 ∫ | X | dP < ∞ ，则 ∫ XdP 是可积的；
A A
（2） | X |≤ Y ， Y 可积，则 X 可积。
4．随机变量函数的数学期望。假定 X 是{Ω, F , P }上的随机变量，它的分布函数为
D ( x) ，令 g (x) 为 X 的函数，则 g ( x) 的数学期望存在的充要条件是 g ( x) 关于 D ( x) 的积分存
在，并有
+∞ +∞
E[ g ( x)] = ∫ g ( x ) dD ( x ) = ∫ g ( x)d ( x)dx （8-12）
−∞ −∞
这被称为是“模糊”的定理，许多研究者下意识地使用这个结论。幸运的是这是正确
的，它使得我们可以简化计算。
上述性质中使用积分形式虽然表面上把事情复杂化了，但这种从测度定义出发的方法，
会给我们在以后理解有关收敛的一系列重要定理时带来很大帮助。接下来我们便考察关于
数学期望（勒贝格积分）的几个收敛定理。
・406・
8.2.3 收敛定理
本节中我们要介绍勒贝格积分号下的极限运算，下面 3 个关于随机变量序列的数学期
望收敛定理在概率理论中起着重要作用。我们要求的仅仅是记住它们。
定理 8.2.1 （列维单调收敛）（Levi’s monotone convergence theorem）令 { X n } 为一定义
在概率空间{Ω, F , P }上的非负可积的随机变量序列。如果 X n 以概率 1 收敛于 X ，则
lim ∫ X n dP = ∫ XdP
n →∞
这条定理来自于数学期望的单调性质，它意味着极限和期望运算可以交换顺序，即
lim E ( X n ) = E ( lim X n )
n →∞ n →∞
定理 8.2.2（法图定理）（Fatou lemma）假定 Y，Z 是实值可积函数， { X n } 为非负

可积的随机变量序列，则
（1）如果对一切 n ≥ 1 ， Y ≤ X n ，则有①
∫ nlim
→∞
X n dP ≤ lim ∫ X n dP
n→∞
（2）如果对一切 n ≥ 1 ， X n ≤ Z ，则有
∫ nlim
→∞
X n dP ≤ lim ∫ X n dP
n→∞
（3）如果 Y ≤ X n ↑ X 或对一切 n ≥ 1 和 Y ≤ X n ≤ Z ， X n → X ，则有
∫ X n dP →∫ XdP
定理 8.2.3（勒贝格控制收敛定理）（Lebesgue’s dominated convergence theorem）令
Y 是一可积随机变量， | X n |≤ Y 。如果 X n 以概率 1 收敛于 X ，则 X n 、 X 是可积的，并有
∫Ω X n dP → ∫ΩXdP
8.3 条件概率和条件期望
实践中通常会接触到这样的问题：A 和 B 都是指定概率空间中的随机事件，而需要知
道的是在事件 B 发生的前提下事件 A 发生的概率。这个概率记为 P( A | B) ，它就是条件概
①
lim 和 lim 的定义见 7.1.1 节。
n→∞ n→∞
・407・
率（conditional probability）。一开始接触条件概率时，总会觉得这个概念有些不自然，但
是它确实是很重要的。考虑一个金融市场上的信息传递问题，假定中央银行宣布减息，股
票价格必然会发生波动，我们关心在随机事件减息这一信息到达市场后，股票涨落的概率，
而这就要用到条件概率。
8.3.1 初等情形
在初等概率论中，我们采用频率的方法来直观地定义过概率，类似的方法也适应于定
义条件期望。这时事件 A 发生的条件概率 P( A | B) ，就是在重复地试验中，观察到事件 B
发生时 A 也同时发生的频率。如果我们直观地把事件 B 发生的频率看作事件 B 发生的概率
P( B) ，把事件 A、B 同时发生的频率看作事件 AB 发生的概率 P( AB) ，则事件 A 在给定事
件 B 下的条件概率 P( A | B) 就定义为
P ( AB)
P( A | B ) = , P( B) > 0 （8-13）
P( B)
注意，如果 P( B) = 0 则 P( AB) = 0 ，于是 P( A | B) 无意义。容易知道 P( A | B) 作为 A 的集

函数，它具有下列基本性质：
（1）P(Ω|B)=1；
（2） P( A | B ) ≥ 0, A ∈ F ；
 ∞  ∞
（3） P ∑ Ai | B  = ∑ P ( Ai | B ), Ai A j = ∅, ∀i ≠ j 。
 i =1  i =1
由此可见， P(. | B) 确实是可测空间{Ω, F }上的一个概率测度，我们把新的概率空间
记为{Ω， F , P B }。在初等情形中，条件概率还有以下重要性质：
（1）乘法公式（multiplication rule）。如果 A, B ∈ F ，且 P( A) > 0 和 P( B) > 0 ，由条件
概率定义式（8-13）可知
P( AB) = P ( B ) P ( A | B) = P ( A) P( B | A)
推广一下，假设有 n 个事件 Ai ∈ F , i ∈ n ，乘法公式为

n n −1
P (I Ai ) = P ( A1 ) P ( A2 | A1 ) P ( A3 | A1 ∩A2)… P ( An | I Ai )
i =1 i =1
（2）全概率（total probability）公式。如果 A ∈ F 且 P( A) > 0 ， {Bi } 是 F 中有限个或
可数个两两不相交且具有正概率的事件， A ⊂ ∑ Bi ，则
i
P( A) = ∑ P{Bi }P( A | Bi )
i =1
（3）贝叶斯公式（Bayes's formula）。如果 A ∈ F 且 P( A) > 0 ， {Bi } 是 F 中有限个或

・408・
可数个两两不相交并具有正概率的事件， A ⊂ ∑ Bi ，则对每一 Bi ，有
i =1
P( A | Bi ) P( Bi )
P( Bi | A) = n
∑ P( A | B
j =1
j ) P( A j )
8.3.2 条件期望
由于{Ω, F , P B }是一个概率空间，就可以考虑任意随机变量 X 对于概率测度 P B 的积

分，如果该积分存在，则称此积分为已知事件 B 发生条件下 X 的条件期望（conditional
，记为
expectation）
E ( X | B ) = ∫ XdPB = ∫ X (ω ) P (dω | B ) （8-14）

Ω Ω
因为 P(. | B) 在 { AB C , A ∈ F}}} 上为 0，因此上式右方等于（可数可加性）

：
∫ B X (ω ) P(dω | B)
但对于 A ⊂ B ， A ∈ F 时，则有
P ( AB) P( A)
P( A | B ) = =
P( B) P( B )
所以（8-14）式中的积分又等于：
1
P( B) ∫ B
E ( X | B) = X (ω ) P (dω ) （8-15）
由此可见，在已知事件 B 发生条件下，X 的条件数学期望由下式给出：
P ( B ) E ( X | B ) = ∫ X ( w) P(dw)=E(X1B) （8-16）
B
其中
1, ω ∈ B
1B (ω ) = 
0, ω ∉ B
如果 P( B) > 0 ，E ( X | B ) 有意义；如果 P( B) = 0 ，E ( X | B ) 无意义。特别的，当取 X = 1 A ，
A ∈ F 时，由上式可以得到
P( B) E (1 A | B ) = P( AB) （8-17）
即
P( A | B) = E (1 A | B )
・409・
容易知道，条件概率实际上是条件期望的特殊形式。这样，我们可以着重于条件期望
的性质研究，而把条件概率作为特殊情形推导出来。
但是，仅限于孤立地讨论单个事件下的条件期望还不够，例如，同时考虑 E ( X | B ) 和
E ( X | B C ) 时，我们不能把它们看成孤立的两个数，而必须把它们理解为一个函数，在 ω ∈ B
时，取 X 在其上的平均值 E ( X | B ) ；而在 ω ∉ B 时取 B C 上的平均值 E ( X | B C ) 。因此，只有
把条件期望作为一个 ω 函数去了解才能看出它的全部意义。
不妨假定 G 为集合 B 和 B C 上的最小子 σ 代数，我们将一个 ω 的函数 E ( X | G)(ω ) （简
记为 E ( X | G ) ）定义如下：
 E ( X | B), ω ∈ B
E ( X | G)(ω ) = 
 E ( X | B ), ω ∉ B
C
通过这样定义的 ω 函数，我们就把给定事件 B 发生条件下，X 的条件期望理解为函数

E ( X | G ) 的一个可能值。更一般化一些，假定可测集 {Bn , n = 1,2,L} 是 Ω 的一个可数分割，
G = σ ( Bn , n = 1,2, L) 为 {Bn } 生成的最小子 σ 代数，
假设 E (X ) 存在，且 P( Bn ) ≥ 0, ∀n = 1,2,L 。
我们定义 ω 的一个函数如下：
n
E ( X | G)(ω ) = ∑ E ( X | Bi )1Bi (ω ) （8-18）
i =1
在式（8-18）中，如果对某个 i ， P( Bi ) = 0 ，则 E ( X | Bi ) 无意义，所以 E ( X | G ) 只在 G 中的
0 概集上无意义。换句话说，它在 0 概集上以外都有意义。通过这个函数，我们就把给定 Bn
时 X 的条件期望理解为函数 E ( X | G) 的一可能值，这就得到条件期望的构造性定义。
定义 8.3.1 假定随机变量 X 的积分存在，按等价意义所定义的下列 G 可测函数
n
 1  n
E ( X | G) = ∑  ∫ Bi X (ω ) P ( dω )  1 B (ω ) = ∑ E ( X | Bi )1Bi （8-19）
i =1  P ( Bi )
i
 i =1
称为在已给子 σ 代数 G 时 X 的条件期望。
注意，这里所谓“按等价意义”就是指可以在 G 的 0 概集上不计①；这里说“已给子 σ
代数 G 时”而不说“已给可测分割 {Bn , n = 1,2,L} 时”的条件期望，是因为 E ( X | G ) 不只可
以定出已给事件 Bn 时 X 的条件期望，而且可以定出已给任意 G 可测事件 B 时 X 的条件期
望 E ( X | B) 。
实际上，如果 B ∈ G ，则 B 必然是 {Bn , n = 1,2,L} 中某些集的不交并，例如 B = ∑ 'Bi ，
于是由（8-16）式有
①
特别的，如果令随机变量 X = 1 A ，则按等价意义所定义的 G 可测函数 E (1 A | G ) = P ( A | G ) 为在已给子 σ 代数 G 时 X
的条件概率。
・410・
P( B) E ( X | B) = ∫ XP(dω ) =∑ '∫ XP(dω )

B Bi
= ∑ 'P( Bi ) E ( X | Bi ) （8-20）
= ∫ E ( X | G ) P(dω )
B
即
1
P( B) ∫ B
E ( X | B) = E ( X | G ) dP
由上式可知 E ( X | B ) 可以由 E ( X | G ) 算出，不仅如此，它还可以用来作为条件期望

E ( X | G ) 的描述性定义。
定义 8.3.2 假定随机变量 X 的积分存在，{Bn } ∈ F 是Ω的一个可数分割，G = σ ( Bn ) ，
称满足下式的 G 可测函数 E ( X | G) 为在已给子 σ 代数 G 下 X 的条件期望：
∫ B XdP = ∫ B E ( X | G)dP, B∈G （8-21）
但是，在一般情况下，我们不能要求 F 的子 σ 代数 G 是由Ω的可数分割生成的最小 σ
代数，这样构造性定义就不能用了，但是描述性定义仍然可用，这主要是由于有拉登-尼科
迪姆定理（Radon-Nikodym theorem）作为工具。
定理 8.3.1 （拉登-尼科迪姆）令 {Ω , F } 为一可测空间，假设 P 和 Q 是定义在该空
间上的两个 σ 有限测度①，并且 P 控制 Q ，则存在一个非负可测函数 ξ ，使得下式成立：
Q( A) = ∫ ξ (ω )dP(ω ) , ∀A ∈ F （8-22）
A
函数 ξ 被称为测度 Q 对于测度 P 的拉登-尼科迪姆导数（Radon-Nikodym derivative），

记为②：
dQ
ξ=
dP
由于不定积分
ϕ ( B) = ∫ XdP, B∈G
B
在 G 上是 σ 可加的， P 连续的集函数，因此根据拉登-尼科迪姆定理可知满足（8-21）式的
G 可测函数的存在，而且在等价意义上是惟一的，即
dϕ
E ( X | G) =
dP
①
如果对于每一个 A ∈ F ，P（A）=0 也意味着 Q（A）=0，我们称测度 Q 对于测度 P 来说是绝对连续的（absolutely continuous）
或者说 Q 被 P 控制（dominated），在前面我们称它们为等价的；如果Ω是 F 中无限可数集族的并，每一个都有有限测度，
则测度 P 称为是 σ 有限的（ σ -finite）。
②
如果给定概率测度 P ，通过拉登-尼科迪姆定理可以很容易地找到它的等价概率测度 Q 。该定理的证明涉及到测度论中较深
的知识，有兴趣的读者可以参考 Billingsley（1986）。
・411・

Null

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Null

Uploaded by

Copyright:

Available Formats

第8章 概率论基础

实验者 掷币总次数 出现正面次数 频率

样一族集合 {C i , i = 1,2,L} 为Ω的一个分割（decomposition）或者划分（partition）。

记得吗？这就是我们在第 7 章中定义过的 σ 代数。为明了起见，我们使用一个简单的

Ω = {C1 , C 2 , C3 } ， {∅} ， {C 1 } ， {C 2 } ， {C 3 } ， {C1 , C 2 } ， {C1 , C 3 } ， {C 2 , C 3 }

称这种情况为两种概率测度有共同的 0 概率（测度）（null set）集，有着同样 0 概率集的

随机变量 {Ω, F }到 {R , B( R )}上的可测函数

金融相关点 8-1 不确定性和风险

弗兰克.奈特（Knight F.）在他 1921 年的名著《风险、不确定性和利润》中准确地识别

这里的 dp 是概率分布（函数）的微小增量的微分形式，从图 8-2 中可以知道所有概率

（2） { X n }n ≥1 是一组定义在概率空间{Ω, F , P }上的随机变量序列， X 是定义在同一

则称 X n 依 r 阶矩（moment）②收敛于 X 。特别地，当 r = 1 时称为平均收敛； r = 2 时称为在

r 阶矩平均收敛( r < r ' ) 以概率 1 收敛

也是一个随机事件，它由所有使得 X (ς ) ≤ x 和 Y (ς ) ≤ y 的结果 ς 组成。这个事件的概率是 x

为 X 的边际密度函数。一般说来，由 D X ( x) 和 D Y ( y ) 是不能确定出 D XY ( x, y ) 的，但是它与

这是因为事实上 y ≤ ∞ 是必然事件，因此 { X ≤ x, Y ≤ ∞} = { X ≤ x} ；类似地有

8.1.3 节中我们形式上接触了对于概率测度 P 的积分问题，接下来我们要通过考察数学

概率分布 1/6 1/6 1/6 1/12 1/12 1/3

我们知道随机变量 X 是给定概率空间{Ω, F , P }上的可测函数，如果 X 是有限的，则

为了证明这样的 E ( X ) 的确表示 X 的平均值，我们用一个具体的简单随机变量序列来

E ( X ) = ∫ X (ω )dP(ω ) = ∫ X (ω ) P(dω ), ω ∈ Ω （8-9）

E[1 A X ] = ∫ 1 A (ω ) X (ω )dP(ω ) = ∫ X (ω )dP(ω ) = ∫ X (ω ) P(dω ) （8-10）

（2） ∫ aXdP = a ∫ XdP ，其中 a 是任意常数。上面两个性质可以合并起来写成我们熟

（3）如果 A∩ B = ∅ ，则 ∫ XdP = ∫ XdP + ∫ XdP 。这称为对集合的可加性，这个性

（3）如果 X ≥ 0 ，则 ∫ XdP = 0 的充要条件是 X = 0 ；

（4） | ∫ XdP |≤ ∫ | X | dP ，称为模不等式（modulus inequality）；

（5）如果 f 是凸函数，则 f ( ∫ XdP ) ≤ ∫ f ( X )dP 。如果 f 是严格凸的，则上面严格不

定理 8.2.2（法图定理）（Fatou lemma） 假定 Y，Z 是实值可积函数， { X n } 为非负

（3）如果 Y ≤ X n ↑ X 或对一切 n ≥ 1 和 Y ≤ X n ≤ Z ， X n → X ，则有

注意，如果 P( B) = 0 则 P( AB) = 0 ，于是 P( A | B) 无意义。容易知道 P( A | B) 作为 A 的集

推广一下，假设有 n 个事件 Ai ∈ F , i ∈ n ，乘法公式为

（2）全概率（total probability）公式。如果 A ∈ F 且 P( A) > 0 ， {Bi } 是 F 中有限个或

（3）贝叶斯公式（Bayes's formula）。如果 A ∈ F 且 P( A) > 0 ， {Bi } 是 F 中有限个或

由于{Ω, F , P B }是一个概率空间，就可以考虑任意随机变量 X 对于概率测度 P B 的积

E ( X | B ) = ∫ XdPB = ∫ X (ω ) P (dω | B ) （8-14）

因为 P(. | B) 在 { AB C , A ∈ F}}} 上为 0，因此上式右方等于（可数可加性）

由此可见，在已知事件 B 发生条件下，X 的条件数学期望由下式给出：

通过这样定义的 ω 函数，我们就把给定事件 B 发生条件下，X 的条件期望理解为函数

P( B) E ( X | B) = ∫ XP(dω ) =∑ '∫ XP(dω )

由上式可知 E ( X | B ) 可以由 E ( X | G ) 算出，不仅如此，它还可以用来作为条件期望

∫ B XdP = ∫ B E ( X | G)dP, B∈G （8-21）

函数 ξ 被称为测度 Q 对于测度 P 的拉登-尼科迪姆导数（Radon-Nikodym derivative），

You might also like

第8章概率论基础

实验者掷币总次数出现正面次数频率

定理 8.2.2（法图定理）（Fatou lemma）假定 Y，Z 是实值可积函数， { X n } 为非负