You are on page 1of 98

第四讲

生物信 息学 方法介 绍
( Part 1 )
§4.1

生物信息学 研究方法概 述
4.1.1 生物信息学研究 的三个层面
初级 层面
基于现有的生物信息数据库和资源,利用成熟的生物信
息学工具(专业网站、软件)解决生物信息学问题
—— 生物信息数据库 ( NCBI 、 EBI 等)
—— 基因组序列分析、序列比对软件
( GCG 、 BLAST 、 CLUSTAL 等)

—— 系统发育树构造软件 ( PHYLIP 、 PALM 等)


—— 分子动力学模拟软件 ( GROMACS 、 NAMD 等)
—— 搜集、整理有特色的生物信息学数据集
中级 层面
利用数值计算方法、数理统计方法和相关的工具,研究
生物信息学问题
—— 概率、数理统计基础
—— 科学计算基础
—— 现有的数理统计和科学计算工具
( EXCEL 、 SPSS 、 SAS 、 MATLAB 等)

—— 建立有特色的生物信息学数据库
高级 层面
提出有重要意义的生物信息学问题;自主创新,发展新
型方法,开发新型工具,引领生物信息学领域研究方向

—— 面向生物学领域,带着生物学问题
—— 数学、物理、化学、计算科学等思想和方法
—— 建立模型,发展算法
—— 自行编程,开发软件,建立网页 ( Linux 系统、
C/C++ 、 PERL 、 据 技 )
从事生物信息学研究应具备多方面的科学基础:

( 1 )、一定的计算能力,包括相应的软、硬设备。要
有各种数据库或者能与国际、国内的数据库系统进行有
效的交流。要有发达、稳定的互联网络系统;
( 2 )、强有力的创新算法和软件。没有算法创新,生
物信息学就无法获得持续的发展;
( 3 )、与实验科学,特别是与自动化的大规模高通量
的生物学研究方法与平台技术建立广泛、紧密的联系。
这些技术,既是产生生物信息数据的主要方法,又是验
证生物信息学研究结果的关键手段。

从事生物信息学研究的人员必须具备多学科交叉的知识

4.1.2 生物信息学 的“降龙十 八掌”
第一式 见龙在田
( 1)
生物 信息数 据库 及其查
询搜 索方法
(Database & searching)

—— 对分子生物信息数据库的种类以及某些具体数据库的掌握和了

—— 从现有数据库中熟练获得需要的数据信息(尤其是二级数据库

—— 能熟练地进行数据库查询和数据库搜索(数据库查询系统
Entrez 、 SRS ;搜索工具 BLAST 等)

—— 据 技 、互 技
第二式 飞龙在天
( 2)
生物 信息学 软件 和工具
的应 用
(Software & application)

利用成熟的生物信息学工具(专业网站、软件)解决生物信息学
问题

—— 基因组序列分析、序列比对软件( GCG 、 BLAST 、 CLUSTAL


等)

—— 系统发育树构造软件( PHYLIP 、 PALM 等……)

—— 基因芯片检测分析软件( ……)
第三式 鸿渐于陆
( 3)
概率 论基础
(Probability theory)

—— 随机事件、概率

—— 随机 变 量、概率分布

—— 大数定律、中心极限定理
“Most of the problems in computational sequence
analysis are essentially statistical.”
——“Biological sequence analysis”
第四式 或跃在渊
( 4)
数理 统计基 础
(Statistical methods)

—— 样本和统计量(方差、均值 ……)

—— 参数估计、假设检验

—— 基本的统计分析(方差分析、协方差分析、回归分析)

—— 常用统计软件的运用( SPSS 、 SAS )


第五式 羚羊触藩
( 5)
基于 频率的 组分 分析方
法和 权重矩 阵方 法
(Composition analysis &
weight matrix method)
—— 词汇频率反映具有生物学意义的序列特征

—— 核酸组分、氨基酸组分、密码子使用频率

——k-tuples 、 k-mers 频率分析

—— 权重矩阵分析
权重矩 阵分 析方法 概要
—— 针对序列(核酸、氨基酸等)信号,计算每一位点所使用的词
汇( k-mers )频 率,频 率的偏倚性反映信号 的序列特征( sequence
pattern )。

—— 权重矩阵:词汇的频率表 S(x, w)
k=1 : weight matrix ; k>1 : weight array

例:人类基因 供体位点 受体位点


内 含 子 / 外显子
剪接位点的序 R = A or G
列特征分析 Y = C or U
N = A, G, C or U
供体位点( donor site )权 重矩阵 :

-3 -2 -1 1 2 3 4 5 6
A 34.0 60.4 9.2 0.0 0.0 52.6 71.3 7.1 16.0
C 36.3 12.9 3.3 0.0 0.0 2.8 7.6 5.5 16.5
G 18.3 12.5 80.3 100 0.0 41.9 11.8 81.4 20.9
U 11.4 14.2 7.3 0.0 100 2.5 9.3 5.9 46.2

受体位点( acceptor site )权 重矩阵 :

-14 -13 -12 -11 -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 1


A 9.0 8.4 7.5 6.8 7.6 8.0 9.7 9.2 7.6 7.8 23.7 4.2 100 0.0 23.9
C 31.0 31.0 30.7 29.3 32.6 33.0 37.3 38.5 41.0 35.2 30.9 70.8 0.0 0.0 13.8
G 12.5 11.5 10.6 10.4 11.0 11.3 11.3 8.5 6.6 6.4 21.2 0.3 0.0 100 52.0
U 42.3 44.0 47.0 49.4 49.4 46.3 40.8 42.9 44.5 50.4 24.0 24.6 0.0 0.0 10.4
Bayesian 打分函数用于剪接位点预测
The likelihood that a property value v (of a new structure) is drawn from
the splicing site is:
P (υ | site) P ( site)
P ( site | υ) =
P (υ | site) P ( site) + P (υ | nonsite) P ( nonsite)'
Score for the overall likelihood of the query sequence being a site is:
 P( site | υ ) 
∑ log 
properties at  P ( site) 
associated volumes

Say we have a sequence S= S1S2…Sn. Then one need to calculate


P(S|splice site)
P(S|background)
So to look for a donor site in the sequence, we might calculate
第六式 潜龙勿用
( 6)
信息 论方法
(Information method)

—— 信息符号、状态空间( ACGT 四种符号,及其所有可能的排列



—— 信息的度量是信息符号出现何种状态的一种不确定性程度,信
息的获得要对不确定性进行否定。
—— 信息熵( Shannon , 1948 )
H    pi log pi
i
—— 信息熵 H 刻画了由 {pi} 表示的随机试验结果的先验不确定性,
或观察到输出时所获得的信息量。
Sequence logo :刻画生物序列中的信号保守性
( Schneider,1990 )

E. coli 基因起始位点上游区 P. aby 基因


起始位点上游区
第七式 利涉大川
( 7)
期望 最大化 ( EM )方 法
(Expectation Maximization)

——EM 算法是一种在不完全数据情况下计算极大似然估计或者后验分
布的迭代算法。在 每 一迭代循 环过 程中交替 执 行两个 步骤 : E
( Expectation step ),在给 定完全数 据和前一次迭代所得到的参数估计 的
情况下计算完全数据对应的对数似然函数的条件期望; M
( Maximization step ),用极 大化对数 似然函数 以确 定参数 的值 ,并 用于
下步的迭代。算法在 E 步 和 M 步 之 间 不 断 迭 代 直 至 收 敛 。 该 方 法 可 能
会陷入局部极值,收敛速度也不是很快,并且计算很复杂。
—— 适用于具有隐变量的模型和问题,如神经网络模型中的隐节点、
HMM 模型中的隐状态
—— 如 Motif 识别的 MEME 方法、 HMM 中的 Baum-Welch 算法
第八式 神龙摆尾
( 8)
动态 规划方 法
(Dynamic Programming)

—— 一种常用的多阶段决策的寻优算法

—— 基本思想:在状态空间中,根据目标函数,通过递推,求出一
条从状态起点到状态终点的最优路径(代价最小的路径)。其策略是
将一个问题递归分解为两个规模更小的相似子问题。

—— 动态规划在生物信息学研究中用得最多的方面是 DNA 序列或者


蛋白质序列比对,或应用于隐 Markov 模型中寻找最优的隐状态序
列。
最短路径问题:

在 HMM 方 法 中
的应用: C G C G

C+ G+ C+ G+
0.13 0.034 0.012 0.0032

B E
0.12 0.010 0.003 0.0002
C– G– C– G–
第九式 密云不雨
( 9)
迭代 方法
(Iteration)

—— 迭 代 的 目 的 通 常 是 在 状 态 空 间 找 到 目 标 函 数 收 敛 的 稳 定 解

—— 在运用模式识别方法时,对系统参数的学习通常要经过迭代来
实现

—— 迭 代 必 须 能 够 不 断 逼 近 稳 定 解
第十式 突如其来
( 10 )
回归 、拟合 、相 关性分
析、 关联分 析
(Regression, fitting,
correlation & association)
——Regression: the relation between selected values of x and observed
values of y (from which the most probable value of y can be predicted for
any value of x)

—— 主要目的:描述和预测自变量与因变量间的关系
第十一式 双龙取水
( 11 )
判别 分析方 法
(Discriminant analysis)

—— 用于判别样品所属类型的统计分析方法
条件:已知研究对象总体的类别数目及其特征(如:分布规
律,或各 类 的 训练样 本)
目的:判断未知类别的样本的归属类别

—— 多元判别分析、线性判别分析、非线性判别分析

—— 基因识别、医学诊断、人类考古学
第十二式 鱼跃于渊
( 12 )
聚类 分析方 法
(Clustering method)

—— 聚类分析(群分析)是实用多元统计分析的一个新分支,正处
于发 展阶 段。理论 上尚 未完善,但应 用十分广 泛。实质 上是一种 分类
问题,目的是建立一种分类方法,将一批数据按照特征的亲疏、
相似程度进行分类。
—— 条件:研究对象总体的类别数目未知,也不知总体样本的具体分类
情况
—— 目的:通过分析,选定描述个体相似程度的统计量、确定总体
分类数目、建立分类方法;对研究对象给出合理的分类。 (“ 物以
类聚 ”是聚类分析的基本出发点 )
—— 定性、 经验 的分 类 的局限
分类较粗、数据量小、凭借经验

—— 谱系聚类法(系统聚类法)、动态聚类法、模糊聚类法

—— 生物信息学中的聚类分析问题:
根据 DNA 芯片获得的基因表达数据进行基因聚类(数据量
庞大)
蛋白质相互作用网络的分类
根据不同物种的大分子序列进行相似性比较并构建系统发育
树 Gibbon X(1)
Symphalangus X(2)

Human X(3)
Gorilla X(4)

Chimpanzee X(5)
第十三式 震惊百里
( 13 )
Markov 模型的 应用
(Markov model)

——Markov 过 程 : 从 一 种 状 态转 移 到 另 一 种 状 态时 , 过 程 仅 取 决 于
前面 n 种状态,是一种有序 n 模型。 n 是影响下一个状态选择的状
态数。

—— 最简单的 Markov 过 程 是 一 阶过 程 , 状 态 的 选择 完 全 取 决 于 前 一
状态,这种选择是依照概率来选择的。

—— 状态的选择是概率的,而非确定的。故 Markov 过 程 本 质 上 是 一
种随机过程。
( 1 )天气状态 0.125 阴


0.625
阴 0.25
0.375 0.375

0.25
0.5 0.375
晴 0.125

某地天气状态的
今天的天气
一阶转移概率矩
晴 阴 雨

( 2 )状态转移 晴 0.5 0.25 0.25
昨天的
矩阵: 阴 0.375 0.125 0.375

雨 0.125 0.625 0.375
第十四式 损则有孚
( 14 )
隐 Markov 模型 方法
(HMM method)

—— 将核苷酸序列看成一个随机序列, DNA 序列的编码部分与非编


码部分在核苷酸的选用频率上对应着不同的 Markov 模型。由于这
模型的统计规律是未
些 Markov
C G C G
知的,而 HMM 能够自
动寻找出它们隐藏的
统计规律。对于高等 C+ G+ C+ G+
生物这样复杂的 DNA 0.13 0.034 0.012 0.0032
序列, HMM 必 须 学 B E
习不同的基因结构的 0.12 0.010 0.003 0.0002
信号。 C– G– C– G–
语音 识别
隐 Markov 模型 (Speech recognition)
(HMM)
光字符 识别
(Optical character
recognition)
生物序 列分 析
(Biological sequence 生物特征 识别
analysis) (Biometrics)

( 1 )序列比较与搜寻(尤其是多序列比对)
( 2 )基因及信号的识别、预测 ( DNA 编码与非编码区的
识别、真核基因剪接位点信号识别、非编码区的转录调控信号识别
、信号肽识别 ……)
( 3 )蛋白质二级结构、家族、超家族预测、分类等 ……
第十五式 时乘六龙
( 15 )
感知 器与人 工神 经网络
方法
(Perceptron & ANN
method)
——A collection of mathematical models that emulate some of
the observed properties of biological nervous systems and
draw on the analogies of adaptive biological learning.
——The key element of the artificial neural network (ANN)
model is the structure of the information processing system. It
is composed of many highly interconnected processing
elements that are analogous to neurons and are tied together
with weighted connections that are analogous to synapses.
—— 人工神经网络是对大脑神经网络的模拟,这种模拟既是在功能
上的,也是在结构上,这与传统的串行计算机有着本质的区别。
神经网络计算不仅计算速度快,重要的是它更具有智能。人工神
经网络最重要的特征之一就是可以通过样本进行学习。

——ANN 方法源于模拟大脑神经元的信息处理和学习过程,但今天
作为一种算法, ANN 方法使用的神经元与真实的生物神经元已经
有很大的区别。

—— 复杂的人工神经网络是由随时间变化、交互联结的神经元组成
的网络。

—— 在生物信息学研究中,无论是基因识别还是蛋白质结构预测,
神经网络都取得了比其它方法更为准确的结果。
第十六式 龙战于野
( 16 )
决策 树、支 持向 量机及
其它 模式识 别方 法
(Decision tree & SVM
method)
—— 模式识别是在输入样本中寻找特征并识别对象的一种方法。

—— 模式识别主要有两种方法,一种是根据统计特征进行识别,另
一种是根据对象的结构特征进行识别,而后者常用的方法为句法
识别。

—— 在基因识别中,对于 DNA 序列上的功能位点和特征信号的识别


都需要用到模式识别。
第十七式 履霜冰至
( 17 )
微分 方程的 数值 方法
(Numerical methods)

—— 分子动力学模拟:研究生物大分子的构象,主要还是用基于半
经验势函数的分子动力学方法,而量子力学则在确定势函数的参
数 和研 究局部性质时 起作用。对 蛋白质进 行动 力学研 究是利用计 算机
进行模拟实验的基础。

—— 分子动力学得到一组动力学微分方程,要求得到初值问题的解

—— 微分方程的数值求解:有限差分法、有限元法
十七式合一 亢龙有
( 18 ) 悔

最终 要诀: 各类 方法综
合运 用
All in one!

—— 综合运用不同的研究方法

—— 始终面向生物学问题

—— 知识和技能的学习方法

—— 文献的查阅和阅读方法

—— 中、英文论文的写作方法
§4.2

生物信息 学的
多元统计分析方 法
4.2.1 多元统计方 法概述
生命现象
多样性
生命科 学 重复性
复杂性
随机性

统计 分析 方法

多元统计 分析 方法

多元回归 分析 方法
多元判别 分析 方法
聚类分 析方 法
主成分 分析方 法
相关性 分析方 法
……
随机 现 象的多 变 量、多因素
战争的胜负
经济的衰退与复苏
医学病症诊断
生态环境
生物的进化
……

运用数理统计方法研究多变量、多因素问题
多元统计分析理论和方法

多元统计分析
研究多元变量的统计规律性,是一元统计学的推广,同
时又有多元随机变量特有的问题。
多元 统计 分析的 主要 研究内 容和 方法
1928 年, Wishart 《多元正态总体样本协方差阵的精
确分布》

1 、降维问题(简化数据结构)

( 1 ) 将某些较复杂的数据结构通过变量变换等
方法使相互依赖的变量变成互不相关的变量
( 2 ) 把高维空间的数据投影到低维空间,使问
题得到简化同时损失的信息不太多。

主成分分析
因子分析
对应分析
2 、归类问题

对所考察的观测样本(或变量)按照相似程度进行
分类、归类

聚类分析
判别分析
3 、变量间的相互联系

( 1 ) 相互依赖关系:分析一个或几个变量的变
化是否依赖于另一些变量的变化。建立变量间的定量关
系,并用于预测或控制

回归分析

( 2 ) 变量间的相互关系:分析两组变量间的相
互关系

典型相关性分析
4 、多元数据的统计推断

参数估计
假设检验

5 、多元统计分析的数学理论基础

多维随机向量
多维正态随机向量
多元统计量
4.2.2 统计方法的基本 概念
A) 随机 变量 、概率 分布
随机变 量 X (random variable)
在自然界中,有些变量在每次观察前,不可能事先确定其取值;经
过 大 量 反 复观 察 , 其 取 值 又 有 一 定 的 规 律 , 这种变 量 称 为 随机 量
X。

例 (1). 掷骰子出现某点数的概率为 1/6 ,若掷 100 次,则 出现该 点


数 的次数 X 是随机变量 ;
(2). 332 路公车每 10 分钟发一趟车,某人在随机的时间到达车站
等车 ,则 等车时间 X 是随机变量。

离散型随机 变量
X 的所有可能取值是有限个或可列个。
•连续型随机变量
最常见的一类非离散型随机变量。
概率密 度函数 (PDF, probability density function)

对连续型随机变量,考察事件 {a<X<b} 的概率。若存在非


负的可积函数 p(x) ,使得:对任意的 a, b(a<b) ,都有

P{ a < X < b} = ∫ p ( x)dx


b

则称 p(x) 为随机变量 X 的 概率密度函数。


对所有随机变量 X ,可以定义以下的概率分布函数 F(x):

F ( x ) = P{ X ≤ x} = ∫ p (t )dt p ( x) = F ′( x )
x

−∞

p( x) ≥ 0
p(x) 的性质: +∞

−∞
p ( x) dx = 1
常用的 离散 型分布

二项分 布( binomial distribution )

Bernoulli 试验:连续
试验 n 次独 立地重复 一个试验 ,每次试验结 果只有两
个 不 同 的 结 果 A 和 B ,它们出现的概率分别是 p 和 q ,且 p+q=1 。

设 n 重 Bernoulli 试验中事件 A 出现的次数为 X ,显然 X


为离散型随机变量。则 X 的概率分布为:

P{ X = k } = Cnk p k q n −k k = 0,1,2,..., n
称 X 服从参数为 n, p 的二项分布,记为
的二项分布 X~B(n, p) 。

P{ X = k } ≥ 0 k = 0,1,2,..., n
n

∑n =( p +q ) =1
k k n −k n
C p q
k =0
Poisson 分布 ( Poisson distribution )

设 X 为离散型随机变量, X 的概率分布为:

e −λ λk
P{ X = k } = , λ > 0为常数,k = 0,1,2,...
k!

称 X 服从参数为 的 Poisson 分布,记为


分布 X~Π(λ ) 。
常用的连 续型 分布

均匀分 布( uniform distribution )

设 X 为连续型随机变量, X 的概率密度为:

 1
 a ≤x ≤b
p ( x ) =b −a

0 其它值

称 X 在区间 [a, b] 上服从均匀分布,记为


上服从均匀分布 X~U(a, b) 。

显然有:
x2 − x1
P{ x1 ≤ X ≤ x2 } = ∫
x2
p ( x)dx =
x1 b−a
其中 x1, x2∈[a, b], x1<x2 。
指数分 布( exponential distribution )

设 X 为连续型随机变量, X 的概率密度为:

λe −λx x >0


p( x ) =  其中λ > 0为常数
0 x ≤0

称 X 服从参数为 的指数分布。
的指数分布
分布( distribution )

设 X 为连续型随机变量, X 的概率密度为:

 βα α−1 −βx
 x e x >0
p ( x ) = Γ(α) α > 0, β > 0

 0 x ≤0

其中 , 均为常数,称 X 服从参数为 , 的 分布,记为


分布 X~ Γ(α,
β) 。
+∞
Γ(α ) = ∫ t α −1e −t dt
0

正态分布( normal/Gaussion distribution )

(见后 )
B) 随机变 量的数 字特 征
均值 (mean) 或 数学 期望 (mathematical expectation)

离散型 随机变量的均 值

设离散型随机变量 X 的分布律为:

P ( X = xi ) = pi , i =1,2,3,...


+∞
E ( X ) = ∑xi pi
i =1

收 敛 , 则 称 E(X) 为随机变量 X 的 均值或


均值 数学 期望。

xi: 质点 i 的坐标; pi: 质点 i 的质量


→E(X): 质心坐标
连续型随 机变量的均 值

设 X 为连续型随机变量,它的概率密度函数为 p(x) ,若

+∞
E ( X ) = ∫ xp ( x )dx
−∞

收 敛 , 则 称 E(X) 为随机变量 X 的 均值或


均值 数学 期望。
均值的性 质

设 C 为常数,有:
E(C)=C

设 C 为常数, X 为随机变量,有:
E(CX)=CE(X)

设 X, Y 为任意随机变量,有:
E(X+Y)=E(X)+E(Y)

设 X, Y 为相互独立随机变量,有:
E(X • Y)=E(X)•E(Y)

小结:

E(X) 反映随机变量 X 的统计平均性质,代表随机变量取值的一般水


平或集中的位置,略去了随机变量概率分布规律的具体细节。
方差 (variance)

设随机变量 X 的均值为 E(X) ,则:

X的方差:D( X ) = E ( X − E ( X ) )
2

X的标准差或均方差: D( X )

对于离散型随机变量 X ,其方差为:

D ( X ) = ∑( xi − E ( X ) ) pi
2

i =1

对于连续型随机变量 X ,其方差为:

+∞
D( X ) = ∫ ( x − E( X )) p ( x ) dx
2
−∞
计算 D(X) 的简单公式:

(
D( X ) = E X 2
) −( E( X )) 2

小结:

D(X) 反映随机变量 X 的相对于均值 E(X) 的偏离程度,代表随机变量


取 值 的 分 散 性 , 也 是 统计 平 均 的 性 质 。
方差的 性质

设 C 为常数,有:
D(C)=0

设 C 为常数, X 为随机变量,有:
D(CX)=C2D(X)

设 X, Y 为相互独立随机变量,有:
D(X+Y)=D(X)+D(Y)

D(X)=0 ⇔ P( X=E(X) )=1


常用 随机 变量的 均值 和方差
C) 总体和 样本

•总体 X (population)
研究对象的某种特征值的全体组成的集合。用 X 表示。

•样本 X1, X2, …, Xn (sample)


在总体中选取部分有代表性的子集称为(随机)样本。
一个样本是来自总体 X 的一组相互独立、同 X 分布的随机变
量。

•样本值 x1, x2, …, xn


从总体 X 随机抽取的一 组观测值 ,常用 x1, x2, …, xn 来表示样本
或样本值。
D) 统计 量及其 参数 估计

•统计量 (statistical quantity)


设 X1, X2, …, Xn 为总体 X 的一个样本, g(x1, x2, …, xn) 为连续函数
,则称 g(x1, x2, …, xn) 为一个统计量。
显然,统计量 g(x1, x2, …, xn) 也是一个随机变量。

•总体 X 的数字 特征— —参 数


总体均值 :刻划总体的平均取值
总体方差 2 :刻划总体取值的分散(涨落)程度
根据 样本 值推断 总体 性质— —参 数估计

样本均值 x :
1 n
x = ∑ xi
n i =1
样本方差 s :

s =
2 1 n

n −1 i =1
(xi − x ) 2 2 1 n
(
n i =1
)
或 s = ∑ xi − x ( 当 n 较大时 )
2

显然,样本均值、样本方差都属于统计量。

通常用样本均值、样本方差作为总体均值、总体方差的无偏估计量

无偏估计:当 n 取 得 充 分 大 , 样 本 均 值 、 样 本 方 差 分 别 逼 近 总 体 均
值和总体方差。
E) 统计 推断的 两类 问题— —
参数估 计和假 设检 验

•参数估 计问题
假定总体 X 的分布函数形式已知,对其中的某些参数进行估计

估计方法:矩估计法、最小二乘法、最大似然法, ……

•假设检 验问题
从样本值出发,判断关于总体分布的某种假设是否成立。

假设 检验 问题举 例
为验证一硬币是否匀称(即正反两面出现的概率是否相等),
做投掷试验。假定试验结果有以下两个:
( 1 )正面 55 次,反面 45 次;
( 2 )正面 40 次,反面 60 次。
如何判断该硬币是否匀称?
1 、提出原假设 (或称 零假设 )和备选 假设 (或称对 立假设 )
原假设 :硬币匀称 ;备选 假设 :硬币 不匀称

2 、指定显 著性水平 (一般取 = 0.05, 0.01, … )


值用以衡量(或拒绝)原假设成立所需证据的指标。
值越小,否定原假设的条件越高,不容易否定原假设;
值越大,否定原假设的条件越低,比较容易否定原假设。

3 、构 造检验统计 量 W
Xi: 第 i 次试验 的结 果, Xi =1 表示出现正面, Xi =0 表示出现反面
100
Y = ∑Xi (100次试验中出现正面的次数)
i =1

Z = 100 − Y (100次试验中出现反面的次数)

W = Y −Z (100次试验中出现正反面之差的绝对值)
4 、进 行统计试验 ——收集数 据、计 算检验统计 量及显 著性概 率值 p
假定已知检验统计量 W 的概率分布性质,如:

{ }
p = P W ≥ 10 硬币匀称 = 0.27
p = P{W ≥ 20 硬币匀称} = 0.04

5 、根据显 著性水平 值进行判断


对于第一个试验结果, p=0.27> α(=0.05) ,故硬币匀称假设
成立;
对于第二个试验结果, p=0.04< α(=0.05) ,故硬币匀称假设
不成立;
F) 正态分 布 (Normal distribution)
设随机变量 X 的概率密度为:
( x −µ) 2
1 −
p( x) = e 2σ2
−∞< x < +∞
σ 2π
其中 -∞<µ<+ ∞ , >0 均为常数。称 X 服从参数为 , 的正态分布,
的正态分布
记作 X~N(µ , 2).
:均值; :方差

遵从正态分布的随机变量 X ,其正态分布函数为:
( t −µ) 2
1 x −
P( X < x) =
σ 2π ∫e−∞
2σ2
dt −∞< x < +∞

µ=0 ; 2
=1 时,称为标准正态分布,记为 X~N(0 , 1) 。
正态分布是一种很重要的连续型随机变量
的概率分布。生物现象中有许多变量是服
从或近似服从正态分布的。许多统计分析
方法都是以正态分布为基础的。此外,还
有不少随机变量的概率分布在一定条件下
以正态分布为其极限分布。因此在统计学
中,正态分布无论在理论研究上还是实际
应用中 , 均占有重要的地位。
正态分 布的 若干性 质

•正态分布完全由其均值 和方差 2
决定;

•正态分布的概率密度函数曲线呈对称的 “钟形 ”;

•经验规则( 3 σ 准则):

P{ x −µ ≤σ} =0.6826
P{ x −µ ≤2σ} =0.9545
P{ x −µ ≤3σ} =0.9973
p(x)
1
σ 2π

68 %

95 %
99 %
µ
- 3σ - 2σ - + + 2σ + 3σ x
4.2.3 多元统计数 据的图表示

散点图

2
7
6
4 8
9
10
1
3
轮廓图
雷达图

1.0

1.0 1.0

1.0 1.0
调和曲线图
x1
f X (t ) = +x2 sin t +x3 cos t +x4 sin 2t +x5 cos 2t +...
2
§4.3

回归分析 方法
(Regression analysis)
生命 活动 和过程 中不 同现象 之间 的关系

函数关系
变量与变 量的关 系:
U=IR
确定性关 系
v=gt

……
变量与变 量的关 系:
非确定 性关 系 统计相关
(具有统计规 律)
Y=f(x1, x2, …, xn)+ε

回归分析 方法
回归分 析的 基本问 题
• Regression: the relation between selected values of x and
observed values of y (from which the most probable value of y can
be predicted for any value of x)
• 寻求表达量 Y 与 x1, x2, …, xn 的相关关系的 经验回归
方程,简称
方程 回归方程;
回归方程
• 利用回归方程,在一定可靠度的要求下,预估当自
变 量 x1, x2, …, xn 取确定值时,随机变量 Y 的取值,称为
预测问题;
预测问题
• 为使 Y 在给定的范围内取值,利用回归方程,控制
自变量 x1, x2, …, xn 的取值范围,称为 控制问题。
控制问题
• 一元回归问题、多元回归问题
• 多因变量回归问题

4.3.1 一元线性回 归问题

x :可控制或可精确观测得到的数据的变
量;
Y :与 x 具有相关关系的随机变量。

环 境 湿 度 —— xi (i=1, 2, …, n)
细菌生长数量 —— yi (i=1, 2, …, n)
数 据对 (样 本值 ): (xi, yi) i=1, 2, …, n
散点图 (Scatter Graph) (xi, yi)

不妨假定Y
Y与=x a +bx +
具有线性相关关系: ε
其中, 是数学期望为 0 的随机变量,假
设 满足正态分布,于是:

E (Y ) =a +bx
根据数据对(样本值) (xi, yi), i=1, 2, …, n 对系数 a 、 b 作
出估计,并求得 E(Y) 的估计值:
回归系
回归值
ˆ +bˆx
ˆ =a
y 数

称 为 一元线性回归方程。
一元线性回归方程

回归直线 回归直
回归值
回归系数
线

求回归方程的两个基本步骤:
2. 求 a 、 b 的估计值,从而
求出线性回归方程;
3. 作线性相关性检验。
1. a 、 b 的最小二 乘法 估计

平面直线 L : y=a+bx
样本点 (xi, yi), i=1, 2, …, n

定 义 离差平方和 为 :
n n
Q ( a, b ) = ∑δ = ∑[ yi −( a +bxi )]
2 2
i
i =1 i =1

Q(a, b) 表示点 (xi, yi), i=1, 2, …, n 与直线 L 的偏离程度。

满足:

(

)
Q a , bˆ = min Q ( a, b )

的aˆ , bˆ 称为 a, b 的 最小二乘估计值。
最小二乘估计值
根据多元函数达到极值的条件,令:
∂ Q n

 =−2∑ [ yi −(a +bxi )] =0


 ∂a i=1
∂Q n


=−2∑ [ yi −(a +bxi )]xi =0
∂b i=1

化为 方程组 :
 na +nx b =ny


nx a +
n
 n

 ∑
 i =1
xi b =∑
2


xi yi
 i =1

其中:
1 n 1 n
x = ∑ xi y = ∑ yi
n i =1 n i =1
可以证明(略),当 xi 不全相同时,上述方程组有且存在唯一解。
解得:
aˆ = y −bˆx
bˆ =S xy S xx

1 n 1 n
x = ∑ xi y = ∑ yi
n i =1 n i =1
n
S xy =∑( xi −x )( yi − y )
i =1
n
S xx =∑( xi −x )
2

i =1

aˆ , bˆ
可以证明(略), 是 a, b 的最小方差无偏估计。

线性回归方程可改写为:

yˆ = y +bˆ( x − x )
2. 线性 相关性 检验
运用方差分析。考虑 样本离差平方和(总和):
样本离差平方和(总和)
n n
S yy    yi  y      yi  yˆˆi    yi  y  
2 2

i 1 i 1
n n n
   yi  yˆˆˆˆ
i     yi  y   2  yi  yi   yi  y 
2 2

i 1 i 1 i 1

S yy =U +Q
yˆ = y +bˆ( x − x )
()
2
n S xy
U =∑( yˆ i −y ) = bˆ 2 2
S xx =
i=1 S xx
n
Q =∑( yi −yˆ i ) 2

i=1

U :回归值的离差平方和,由 n 个 xi 的离散性通过 x 对 Y 的相关


关系造成
称 为 回归平方和(回归和)
Q : x 对 Y 的非线性影响以及试验的随机误差造成
称 为 剩余平方和(余和)
( 1) . r 检验法
考虑回归和 U 相对于总和 Syy 的比:
2
U S xy
= ≤1
S yy S xx S yy

定义:
定义
S xy
r =
S xx S yy

称 为 相关系数。
相关系数

相关系数 r : |r|≤1
|r| 越大,线性相关关系越显著;
r=0 , Y 与 x 不存在线性相关关系;
|r|=1 , Y 与 x 完全线性相关(完全正 / 负相关)
采用相关系数 r 为统计量,当:

r >rα(n −2 )
数 据点数 目
时,认为在显著性水平 下,线性回归显著。

相关系数 临界 值 r α (n-2) 表
n-2 α 0.10 0.05 0.02 0.01 0.001
1 0.98769 0.99692 0.999507 0.999877 0.9999988

7 0.5822 0.6664 0.7498 0.7977 0.8982
8 0.5494 0.6319 0.7155 0.7646 0.8721

100 0.1638 0.1946 0.2301 0.2540 0.3211
( 2) . F 检验法
计算 F 值:
U
F =
Q (n −2 )
数 据点数 目
显然, F 值越大, U 在总和中所占比例越大,回归性也越显著

F >F1−α(1, n −2 )
当:

时,认为在显著性水平 下,线性回归显著。

查表: F 分布表(略)
3. 例子
xi 0 4 10 15 21 29 36 51 68

yi 66.7 71.0 76.3 80.6 85.7 92.9 99.4 113.6 125.1

根据散点图,确定回归方程形

ˆ =aˆ +bˆx
y
计算得到:
x = 26.0 y = 90.1
S xy = 3534.8 S xx = 4060
S yy = 3084
bˆ = 0.8706 aˆ = 67.5078

yˆ = 67.5078 + 0.8706 x
线性相关性检验:

S xy
r = =0.99896
S xx S yy

查表得:

r0.01 (7) =0.7977 r0.001 (7) =0.8982

显然,在显著性水平 =0.001 下, Y 与 x 的线性相关关系高度显著。


4.3.2 可线性化的 曲线回归
方法:变量替换

1. 双曲线 型
b
y =a+
x
1
令 u = , 得到
x
y =a+bu

1 b
=a +
y x
1 1
令 u = ,v = 得到
x y
v =a +bu
2. 指数曲 线型

y = ae bx

若 a>0 ,则令 v=lny ,得到:

v = ln a + bx
若 a<0 ,则令 v=ln(-y ),得到:

v = ln(− a ) + bx
3. 幂函数 型

y = ax b
x>0
若 a>0 ,则令 v=lny , u=lnx ,得到( a<0 情况类推):

v = ln a + bu
4. 对数曲 线型
y = a + b log x
令 u=logx ,得到:
y = a + bu

log y = a + bx
令 v=logy ,得到:

v = a + bx

log y = a + b log x
令 u=logx , v=logy ,得到:

v = a + bu
5. S 曲线 型

1
y= −x
a + be
令:

u = e− x v =1 y
得到:

v = a + bu
4.3.3 多元线性回归 问题
x1, x2, …, xr : r 个 可 控 制 或 可 精 确 观测 得 到 的 数 据 的 变 量 ;
Y :与 x1, x2, …, xr 具有相关关系的随机变量。

不妨假定 Y 与 x1, x2, …, xr 具有线性相关关系:

Y =b0 +b1 x1 +b2 x2 +... +br xr +ε


其中, 是数学期望为 0 的随机误差,且满足正态分布。
对于 n 组样本观察值( n>r ):
xi1, xi2, …, xir (i=1, 2, …, n)
yi (i=1, 2, …, n)

多元线性回归模型为:
yi =b0 +b1 xi1 +b2 xi 2 +... +br xir +εi
E (εi ) =0 i =1,2,..., n
其中, i 互不相关 。

y1  ε 1  b0 

Y =
 y
 2

ε =
ε

2

b =
b
1 

 ...  ...  ... 
     
y
n ε
n  bn 
1 x11 ... x1r 
1 x .. x 
X = 21 2r 

... ... ... 


 
1 x n1 ... x nr 

多元线性回归模型可写成:

Y =Xb +ε

 E (ε ) =0
1. 回归系 数 b 的最小 二乘估 计
定 义 离差平方和:
n
Q( b ) = ∑[ yi − ( b0 + b1 xi1 + b2 xi 2 + ... + br xir ) ]
2

i =1

定义:在多元线性回归模型中,若存在
定义 b̂
b 的估计值 ,则对于任
意一组实数 b0, b1, …, br 构成的向量,都成立不等式

ˆ ) ≤ Q( b )
Q (b
称 b̂ 是 b 的最小二乘估计。

定理:在多元线性回归模型中,设矩阵
定理 X 列线性无关,则唯一存在

b 的最小二乘估计

ˆ =( X′X) −1 X′Y
b
2. 计算回 归系数b̂
∂Q
令 = 0, j = 0,1,2,..., r ,得
∂b j
到方程组:
n n n
b0 n + b1 ∑xi1 + ... + br ∑xir = ∑ yi
i =1 i =1 i =1
n n n n
b0 ∑xij + b1 ∑xij xi1 + ... + br ∑xij xir = ∑xij yi
i =1 i =1 i =1 i =1

j = 1,2,..., r

问题:求解上述方程组。
r
ˆ =y −
b0 ∑ ˆ
x jb j
j=1

1
bˆ   l11 l12 ... l1r  l1 y 
1
ˆ    
b2   l 21 l 22 ... l2 r 

l
2 y 
=
...  ... ... ...  ... 
     
bˆ   lr1 lr 2 ... l rr  lry 
 
 r 

其中:

1 n 1 n
y = ∑ yi x j = ∑xij j = 1,2,..., r
n i =1 n i =1
n
lij = ∑( xki − xi )( xkj − x j )
k =1
n
liy = ∑( xki − xi )( yk − y )
k =1
3. 显著性 检验
Syy : 样本离差平方和
U : 回归平方和(回归和)
Q : 剩余平方和(余和)
n
S yy =∑( yi −y ) 2 =U +Q
i=1
n
U =∑( yˆ i −y )2
i=1

Q =S yy −U

U
r =
S yy

U /r
F =
Q /( n −r −1)
4.3.4 逐步回 归问题

理想 的多 元回归 效果

• 选取对 Y 有显著关联的自变量 x1, x2, …, xk 进行回


归,剔除关联较小的自变量;

• 对于相互关联很强的自变量 xi, xj, …, xk ,只要从中


选取一个对 Y 有显著关联的自变量进行回归;

逐步 回归
基于逐步 筛选 法的逐 步回 归

逐个引入自变量,每次引入对 Y 影响最显著的自
变 量,并 对 原有 变 量逐个 进 行 检验 (如 F 检验),把变
为影响不显著的自变量逐个剔除。最终得到的回归方程
既不漏掉对 Y 影响显著的自变量,又不包含对 Y 影响不
显著的变量。
引入自 变量 的显著 性水 平 1
剔除自 变量 的显著 性水 平 2

逐步回 归的
基本步 骤
对不 在方程 中的 否
自变量 能否 引入?


引入自变 量 筛选 结束

否 对已 在方程 中的
自变量 能否 剔除?


剔除自变 量

You might also like