4 BioinformaticsMethods - 1

第四讲
生物信息学方法介绍
（ Part 1 ）
§4.1
生物信息学研究方法概述
4.1.1 生物信息学研究的三个层面
初级层面
基于现有的生物信息数据库和资源，利用成熟的生物信
息学工具（专业网站、软件）解决生物信息学问题
—— 生物信息数据库（ NCBI 、 EBI 等）
—— 基因组序列分析、序列比对软件
（ GCG 、 BLAST 、 CLUSTAL 等）
—— 系统发育树构造软件（ PHYLIP 、 PALM 等）

—— 分子动力学模拟软件（ GROMACS 、 NAMD 等）
—— 搜集、整理有特色的生物信息学数据集
中级层面
利用数值计算方法、数理统计方法和相关的工具，研究
生物信息学问题
—— 概率、数理统计基础
—— 科学计算基础
—— 现有的数理统计和科学计算工具
（ EXCEL 、 SPSS 、 SAS 、 MATLAB 等）
—— 建立有特色的生物信息学数据库
高级层面
提出有重要意义的生物信息学问题；自主创新，发展新
型方法，开发新型工具，引领生物信息学领域研究方向
。
—— 面向生物学领域，带着生物学问题
—— 数学、物理、化学、计算科学等思想和方法
—— 建立模型，发展算法
—— 自行编程，开发软件，建立网页（ Linux 系统、
C/C++ 、 PERL 、据技）
从事生物信息学研究应具备多方面的科学基础：
（ 1 ）、一定的计算能力，包括相应的软、硬设备。要
有各种数据库或者能与国际、国内的数据库系统进行有
效的交流。要有发达、稳定的互联网络系统；
（ 2 ）、强有力的创新算法和软件。没有算法创新，生
物信息学就无法获得持续的发展；
（ 3 ）、与实验科学，特别是与自动化的大规模高通量
的生物学研究方法与平台技术建立广泛、紧密的联系。
这些技术，既是产生生物信息数据的主要方法，又是验
证生物信息学研究结果的关键手段。
从事生物信息学研究的人员必须具备多学科交叉的知识
。
4.1.2 生物信息学的“降龙十八掌”
第一式见龙在田
（ 1）
生物信息数据库及其查
询搜索方法
(Database & searching)
—— 对分子生物信息数据库的种类以及某些具体数据库的掌握和了
解
—— 从现有数据库中熟练获得需要的数据信息（尤其是二级数据库
）
—— 能熟练地进行数据库查询和数据库搜索（数据库查询系统
Entrez 、 SRS ；搜索工具 BLAST 等）
—— 据技、互技
第二式飞龙在天
（ 2）
生物信息学软件和工具
的应用
(Software & application)
利用成熟的生物信息学工具（专业网站、软件）解决生物信息学
问题
—— 基因组序列分析、序列比对软件（ GCG 、 BLAST 、 CLUSTAL

等）
—— 系统发育树构造软件（ PHYLIP 、 PALM 等……）
—— 基因芯片检测分析软件（ ……）
第三式鸿渐于陆
（ 3）
概率论基础
(Probability theory)
—— 随机事件、概率
—— 随机变量、概率分布
—— 大数定律、中心极限定理
“Most of the problems in computational sequence
analysis are essentially statistical.”
——“Biological sequence analysis”
第四式或跃在渊
（ 4）
数理统计基础
(Statistical methods)
—— 样本和统计量（方差、均值 ……）
—— 参数估计、假设检验
—— 基本的统计分析（方差分析、协方差分析、回归分析）
—— 常用统计软件的运用（ SPSS 、 SAS ）

第五式羚羊触藩
（ 5）
基于频率的组分分析方
法和权重矩阵方法
(Composition analysis &
weight matrix method)
—— 词汇频率反映具有生物学意义的序列特征
—— 核酸组分、氨基酸组分、密码子使用频率
——k-tuples 、 k-mers 频率分析
—— 权重矩阵分析
权重矩阵分析方法概要
—— 针对序列（核酸、氨基酸等）信号，计算每一位点所使用的词
汇（ k-mers ）频率，频率的偏倚性反映信号的序列特征（ sequence
pattern ）。
—— 权重矩阵：词汇的频率表 S(x, w)
k=1 ： weight matrix ； k>1 ： weight array
例：人类基因供体位点受体位点

内含子 / 外显子
剪接位点的序 R = A or G
列特征分析 Y = C or U
N = A, G, C or U
供体位点（ donor site ）权重矩阵：
-3 -2 -1 1 2 3 4 5 6
A 34.0 60.4 9.2 0.0 0.0 52.6 71.3 7.1 16.0
C 36.3 12.9 3.3 0.0 0.0 2.8 7.6 5.5 16.5
G 18.3 12.5 80.3 100 0.0 41.9 11.8 81.4 20.9
U 11.4 14.2 7.3 0.0 100 2.5 9.3 5.9 46.2
受体位点（ acceptor site ）权重矩阵：
-14 -13 -12 -11 -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 1

A 9.0 8.4 7.5 6.8 7.6 8.0 9.7 9.2 7.6 7.8 23.7 4.2 100 0.0 23.9
C 31.0 31.0 30.7 29.3 32.6 33.0 37.3 38.5 41.0 35.2 30.9 70.8 0.0 0.0 13.8
G 12.5 11.5 10.6 10.4 11.0 11.3 11.3 8.5 6.6 6.4 21.2 0.3 0.0 100 52.0
U 42.3 44.0 47.0 49.4 49.4 46.3 40.8 42.9 44.5 50.4 24.0 24.6 0.0 0.0 10.4
Bayesian 打分函数用于剪接位点预测
The likelihood that a property value v (of a new structure) is drawn from
the splicing site is:
P (υ | site) P ( site)
P ( site | υ) =
P (υ | site) P ( site) + P (υ | nonsite) P ( nonsite)'
Score for the overall likelihood of the query sequence being a site is:
 P( site | υ ) 
∑ log 
properties at  P ( site) 
associated volumes
Say we have a sequence S= S1S2…Sn. Then one need to calculate

P(S|splice site)
P(S|background)
So to look for a donor site in the sequence, we might calculate
第六式潜龙勿用
（ 6）
信息论方法
(Information method)
—— 信息符号、状态空间（ ACGT 四种符号，及其所有可能的排列

）
—— 信息的度量是信息符号出现何种状态的一种不确定性程度，信
息的获得要对不确定性进行否定。
—— 信息熵（ Shannon ， 1948 ）
H    pi log pi
i
—— 信息熵 H 刻画了由 {pi} 表示的随机试验结果的先验不确定性，
或观察到输出时所获得的信息量。
Sequence logo ：刻画生物序列中的信号保守性
（ Schneider,1990 ）
E. coli 基因起始位点上游区 P. aby 基因

起始位点上游区
第七式利涉大川
（ 7）
期望最大化（ EM ）方法
(Expectation Maximization)
——EM 算法是一种在不完全数据情况下计算极大似然估计或者后验分
布的迭代算法。在每一迭代循环过程中交替执行两个步骤： E
（ Expectation step ），在给定完全数据和前一次迭代所得到的参数估计的
情况下计算完全数据对应的对数似然函数的条件期望； M
（ Maximization step ），用极大化对数似然函数以确定参数的值，并用于
下步的迭代。算法在 E 步和 M 步之间不断迭代直至收敛。该方法可能
会陷入局部极值，收敛速度也不是很快，并且计算很复杂。
—— 适用于具有隐变量的模型和问题，如神经网络模型中的隐节点、
HMM 模型中的隐状态
—— 如 Motif 识别的 MEME 方法、 HMM 中的 Baum-Welch 算法
第八式神龙摆尾
（ 8）
动态规划方法
(Dynamic Programming)
—— 一种常用的多阶段决策的寻优算法
—— 基本思想：在状态空间中，根据目标函数，通过递推，求出一
条从状态起点到状态终点的最优路径（代价最小的路径）。其策略是
将一个问题递归分解为两个规模更小的相似子问题。
—— 动态规划在生物信息学研究中用得最多的方面是 DNA 序列或者

蛋白质序列比对，或应用于隐 Markov 模型中寻找最优的隐状态序
列。
最短路径问题：
在 HMM 方法中
的应用： C G C G
C+ G+ C+ G+
0.13 0.034 0.012 0.0032
B E
0.12 0.010 0.003 0.0002
C– G– C– G–
第九式密云不雨
（ 9）
迭代方法
(Iteration)
—— 迭代的目的通常是在状态空间找到目标函数收敛的稳定解
—— 在运用模式识别方法时，对系统参数的学习通常要经过迭代来
实现
—— 迭代必须能够不断逼近稳定解
第十式突如其来
（ 10 ）
回归、拟合、相关性分
析、关联分析
(Regression, fitting,
correlation & association)
——Regression: the relation between selected values of x and observed
values of y (from which the most probable value of y can be predicted for
any value of x)
—— 主要目的：描述和预测自变量与因变量间的关系
第十一式双龙取水
（ 11 ）
判别分析方法
(Discriminant analysis)
—— 用于判别样品所属类型的统计分析方法
条件：已知研究对象总体的类别数目及其特征（如：分布规
律，或各类的训练样本）
目的：判断未知类别的样本的归属类别
—— 多元判别分析、线性判别分析、非线性判别分析
—— 基因识别、医学诊断、人类考古学
第十二式鱼跃于渊
（ 12 ）
聚类分析方法
(Clustering method)
—— 聚类分析（群分析）是实用多元统计分析的一个新分支，正处
于发展阶段。理论上尚未完善，但应用十分广泛。实质上是一种分类
问题，目的是建立一种分类方法，将一批数据按照特征的亲疏、
相似程度进行分类。
—— 条件：研究对象总体的类别数目未知，也不知总体样本的具体分类
情况
—— 目的：通过分析，选定描述个体相似程度的统计量、确定总体
分类数目、建立分类方法；对研究对象给出合理的分类。 (“ 物以
类聚 ”是聚类分析的基本出发点 )
—— 定性、经验的分类的局限
分类较粗、数据量小、凭借经验
—— 谱系聚类法（系统聚类法）、动态聚类法、模糊聚类法
—— 生物信息学中的聚类分析问题：
根据 DNA 芯片获得的基因表达数据进行基因聚类（数据量
庞大）
蛋白质相互作用网络的分类
根据不同物种的大分子序列进行相似性比较并构建系统发育
树 Gibbon X(1)
Symphalangus X(2)
Human X(3)
Gorilla X(4)
Chimpanzee X(5)
第十三式震惊百里
（ 13 ）
Markov 模型的应用
(Markov model)
——Markov 过程：从一种状态转移到另一种状态时，过程仅取决于
前面 n 种状态，是一种有序 n 模型。 n 是影响下一个状态选择的状
态数。
—— 最简单的 Markov 过程是一阶过程，状态的选择完全取决于前一
状态，这种选择是依照概率来选择的。
—— 状态的选择是概率的，而非确定的。故 Markov 过程本质上是一
种随机过程。
（ 1 ）天气状态 0.125 阴
：
晴
0.625
阴 0.25
0.375 0.375
雨
0.25
0.5 0.375
晴 0.125
雨
某地天气状态的
今天的天气
一阶转移概率矩
晴阴雨
阵
（ 2 ）状态转移晴 0.5 0.25 0.25
昨天的
矩阵：阴 0.375 0.125 0.375
天
雨 0.125 0.625 0.375
第十四式损则有孚
（ 14 ）
隐 Markov 模型方法
(HMM method)
—— 将核苷酸序列看成一个随机序列， DNA 序列的编码部分与非编

码部分在核苷酸的选用频率上对应着不同的 Markov 模型。由于这
模型的统计规律是未
些 Markov
C G C G
知的，而 HMM 能够自
动寻找出它们隐藏的
统计规律。对于高等 C+ G+ C+ G+
生物这样复杂的 DNA 0.13 0.034 0.012 0.0032
序列， HMM 必须学 B E
习不同的基因结构的 0.12 0.010 0.003 0.0002
信号。 C– G– C– G–
语音识别
隐 Markov 模型 (Speech recognition)
(HMM)
光字符识别
(Optical character
recognition)
生物序列分析
(Biological sequence 生物特征识别
analysis) (Biometrics)
（ 1 ）序列比较与搜寻（尤其是多序列比对）
（ 2 ）基因及信号的识别、预测（ DNA 编码与非编码区的
识别、真核基因剪接位点信号识别、非编码区的转录调控信号识别
、信号肽识别 ……）
（ 3 ）蛋白质二级结构、家族、超家族预测、分类等 ……
第十五式时乘六龙
（ 15 ）
感知器与人工神经网络
方法
(Perceptron & ANN
method)
——A collection of mathematical models that emulate some of
the observed properties of biological nervous systems and
draw on the analogies of adaptive biological learning.
——The key element of the artificial neural network (ANN)
model is the structure of the information processing system. It
is composed of many highly interconnected processing
elements that are analogous to neurons and are tied together
with weighted connections that are analogous to synapses.
—— 人工神经网络是对大脑神经网络的模拟，这种模拟既是在功能
上的，也是在结构上，这与传统的串行计算机有着本质的区别。
神经网络计算不仅计算速度快，重要的是它更具有智能。人工神
经网络最重要的特征之一就是可以通过样本进行学习。
——ANN 方法源于模拟大脑神经元的信息处理和学习过程，但今天
作为一种算法， ANN 方法使用的神经元与真实的生物神经元已经
有很大的区别。
—— 复杂的人工神经网络是由随时间变化、交互联结的神经元组成
的网络。
—— 在生物信息学研究中，无论是基因识别还是蛋白质结构预测，
神经网络都取得了比其它方法更为准确的结果。
第十六式龙战于野
（ 16 ）
决策树、支持向量机及
其它模式识别方法
(Decision tree & SVM
method)
—— 模式识别是在输入样本中寻找特征并识别对象的一种方法。
—— 模式识别主要有两种方法，一种是根据统计特征进行识别，另
一种是根据对象的结构特征进行识别，而后者常用的方法为句法
识别。
—— 在基因识别中，对于 DNA 序列上的功能位点和特征信号的识别

都需要用到模式识别。
第十七式履霜冰至
（ 17 ）
微分方程的数值方法
(Numerical methods)
—— 分子动力学模拟：研究生物大分子的构象，主要还是用基于半
经验势函数的分子动力学方法，而量子力学则在确定势函数的参
数和研究局部性质时起作用。对蛋白质进行动力学研究是利用计算机
进行模拟实验的基础。
—— 分子动力学得到一组动力学微分方程，要求得到初值问题的解
。
—— 微分方程的数值求解：有限差分法、有限元法
十七式合一亢龙有
（ 18 ）悔
最终要诀：各类方法综
合运用
All in one!
—— 综合运用不同的研究方法
—— 始终面向生物学问题
—— 知识和技能的学习方法
—— 文献的查阅和阅读方法
—— 中、英文论文的写作方法
§4.2
生物信息学的
多元统计分析方法
4.2.1 多元统计方法概述
生命现象
多样性
生命科学重复性
复杂性
随机性
统计分析方法
多元统计分析方法
多元回归分析方法
多元判别分析方法
聚类分析方法
主成分分析方法
相关性分析方法
……
随机现象的多变量、多因素
战争的胜负
经济的衰退与复苏
医学病症诊断
生态环境
生物的进化
……
运用数理统计方法研究多变量、多因素问题
多元统计分析理论和方法
多元统计分析
研究多元变量的统计规律性，是一元统计学的推广，同
时又有多元随机变量特有的问题。
多元统计分析的主要研究内容和方法
1928 年， Wishart 《多元正态总体样本协方差阵的精
确分布》
1 、降维问题（简化数据结构）
（ 1 ）将某些较复杂的数据结构通过变量变换等
方法使相互依赖的变量变成互不相关的变量
（ 2 ）把高维空间的数据投影到低维空间，使问
题得到简化同时损失的信息不太多。
主成分分析
因子分析
对应分析
2 、归类问题
对所考察的观测样本（或变量）按照相似程度进行
分类、归类
聚类分析
判别分析
3 、变量间的相互联系
（ 1 ）相互依赖关系：分析一个或几个变量的变
化是否依赖于另一些变量的变化。建立变量间的定量关
系，并用于预测或控制
回归分析
（ 2 ）变量间的相互关系：分析两组变量间的相
互关系
典型相关性分析
4 、多元数据的统计推断
参数估计
假设检验
5 、多元统计分析的数学理论基础
多维随机向量
多维正态随机向量
多元统计量
4.2.2 统计方法的基本概念
A) 随机变量、概率分布
随机变量 X (random variable)
在自然界中，有些变量在每次观察前，不可能事先确定其取值；经
过大量反复观察，其取值又有一定的规律，这种变量称为随机量
X。
例 (1). 掷骰子出现某点数的概率为 1/6 ，若掷 100 次，则出现该点

数的次数 X 是随机变量 ;
(2). 332 路公车每 10 分钟发一趟车，某人在随机的时间到达车站
等车，则等车时间 X 是随机变量。
离散型随机变量
X 的所有可能取值是有限个或可列个。
•连续型随机变量
最常见的一类非离散型随机变量。
概率密度函数 (PDF, probability density function)
对连续型随机变量，考察事件 {a<X<b} 的概率。若存在非

负的可积函数 p(x) ，使得：对任意的 a, b(a<b) ，都有
P{ a < X < b} = ∫ p ( x)dx

b
则称 p(x) 为随机变量 X 的概率密度函数。

对所有随机变量 X ，可以定义以下的概率分布函数 F(x):
F ( x ) = P{ X ≤ x} = ∫ p (t )dt p ( x) = F ′( x )
x
−∞
p( x) ≥ 0
p(x) 的性质： +∞
∫
−∞
p ( x) dx = 1
常用的离散型分布
二项分布（ binomial distribution ）
Bernoulli 试验：连续
试验 n 次独立地重复一个试验，每次试验结果只有两
个不同的结果 A 和 B ，它们出现的概率分别是 p 和 q ，且 p+q=1 。
设 n 重 Bernoulli 试验中事件 A 出现的次数为 X ，显然 X

为离散型随机变量。则 X 的概率分布为：
P{ X = k } = Cnk p k q n −k k = 0,1,2,..., n
称 X 服从参数为 n, p 的二项分布，记为
的二项分布 X~B(n, p) 。
P{ X = k } ≥ 0 k = 0,1,2,..., n
n
∑n =( p +q ) =1
k k n −k n
C p q
k =0
Poisson 分布（ Poisson distribution ）
设 X 为离散型随机变量， X 的概率分布为：
e −λ λk
P{ X = k } = , λ > 0为常数，k = 0,1,2,...
k!
称 X 服从参数为的 Poisson 分布，记为

分布 X~Π(λ ) 。
常用的连续型分布
均匀分布（ uniform distribution ）
设 X 为连续型随机变量， X 的概率密度为：
 1
 a ≤x ≤b
p ( x ) =b −a

0 其它值
称 X 在区间 [a, b] 上服从均匀分布，记为

上服从均匀分布 X~U(a, b) 。
显然有：
x2 − x1
P{ x1 ≤ X ≤ x2 } = ∫
x2
p ( x)dx =
x1 b−a
其中 x1, x2∈[a, b], x1<x2 。
指数分布（ exponential distribution ）
λe −λx x >0

p( x ) =  其中λ > 0为常数
0 x ≤0
称 X 服从参数为的指数分布。
的指数分布
分布（ distribution ）
 βα α−1 −βx
 x e x >0
p ( x ) = Γ(α) α > 0, β > 0

 0 x ≤0
其中，均为常数，称 X 服从参数为，的分布，记为

分布 X~ Γ(α,
β) 。
+∞
Γ(α ) = ∫ t α −1e −t dt
0
正态分布（ normal/Gaussion distribution ）
（见后）
B) 随机变量的数字特征
均值 (mean) 或数学期望 (mathematical expectation)
离散型随机变量的均值
设离散型随机变量 X 的分布律为：
P ( X = xi ) = pi , i =1,2,3,...
若
+∞
E ( X ) = ∑xi pi
i =1
收敛，则称 E(X) 为随机变量 X 的均值或

均值数学期望。
xi: 质点 i 的坐标； pi: 质点 i 的质量

→E(X): 质心坐标
连续型随机变量的均值
设 X 为连续型随机变量，它的概率密度函数为 p(x) ，若
+∞
E ( X ) = ∫ xp ( x )dx
−∞
收敛，则称 E(X) 为随机变量 X 的均值或

均值数学期望。
均值的性质
设 C 为常数，有：
E(C)=C
设 C 为常数， X 为随机变量，有：
E(CX)=CE(X)
设 X, Y 为任意随机变量，有：
E(X+Y)=E(X)+E(Y)
设 X, Y 为相互独立随机变量，有：
E(X • Y)=E(X)•E(Y)
小结：
E(X) 反映随机变量 X 的统计平均性质，代表随机变量取值的一般水

平或集中的位置，略去了随机变量概率分布规律的具体细节。
方差 (variance)
设随机变量 X 的均值为 E(X) ，则：
X的方差：D( X ) = E ( X − E ( X ) )
2
X的标准差或均方差： D( X )
对于离散型随机变量 X ，其方差为：
∞
D ( X ) = ∑( xi − E ( X ) ) pi
2
i =1
对于连续型随机变量 X ，其方差为：
+∞
D( X ) = ∫ ( x − E( X )) p ( x ) dx
2
−∞
计算 D(X) 的简单公式：
(
D( X ) = E X 2
) −( E( X )) 2
小结：
D(X) 反映随机变量 X 的相对于均值 E(X) 的偏离程度，代表随机变量

取值的分散性，也是统计平均的性质。
方差的性质
设 C 为常数，有：
D(C)=0
设 C 为常数， X 为随机变量，有：
D(CX)=C2D(X)
设 X, Y 为相互独立随机变量，有：
D(X+Y)=D(X)+D(Y)
D(X)=0 ⇔ P( X=E(X) )=1

常用随机变量的均值和方差
C) 总体和样本
•总体 X (population)
研究对象的某种特征值的全体组成的集合。用 X 表示。
•样本 X1, X2, …, Xn (sample)

在总体中选取部分有代表性的子集称为（随机）样本。
一个样本是来自总体 X 的一组相互独立、同 X 分布的随机变
量。
•样本值 x1, x2, …, xn

从总体 X 随机抽取的一组观测值，常用 x1, x2, …, xn 来表示样本
或样本值。
D) 统计量及其参数估计
•统计量 (statistical quantity)

设 X1, X2, …, Xn 为总体 X 的一个样本， g(x1, x2, …, xn) 为连续函数
，则称 g(x1, x2, …, xn) 为一个统计量。
显然，统计量 g(x1, x2, …, xn) 也是一个随机变量。
•总体 X 的数字特征— —参数

总体均值：刻划总体的平均取值
总体方差 2 ：刻划总体取值的分散（涨落）程度
根据样本值推断总体性质— —参数估计
样本均值 x ：
1 n
x = ∑ xi
n i =1
样本方差 s ：
s =
2 1 n
∑
n −1 i =1
(xi − x ) 2 2 1 n
(
n i =1
)
或 s = ∑ xi − x ( 当 n 较大时 )
2
显然，样本均值、样本方差都属于统计量。
通常用样本均值、样本方差作为总体均值、总体方差的无偏估计量
。
无偏估计：当 n 取得充分大，样本均值、样本方差分别逼近总体均
值和总体方差。
E) 统计推断的两类问题— —
参数估计和假设检验
•参数估计问题
假定总体 X 的分布函数形式已知，对其中的某些参数进行估计
。
估计方法：矩估计法、最小二乘法、最大似然法， ……
•假设检验问题
从样本值出发，判断关于总体分布的某种假设是否成立。
假设检验问题举例
为验证一硬币是否匀称（即正反两面出现的概率是否相等），
做投掷试验。假定试验结果有以下两个：
（ 1 ）正面 55 次，反面 45 次；
（ 2 ）正面 40 次，反面 60 次。
如何判断该硬币是否匀称？
1 、提出原假设（或称零假设）和备选假设（或称对立假设）
原假设：硬币匀称；备选假设：硬币不匀称
2 、指定显著性水平（一般取＝ 0.05, 0.01, … ）

值用以衡量（或拒绝）原假设成立所需证据的指标。
值越小，否定原假设的条件越高，不容易否定原假设；
值越大，否定原假设的条件越低，比较容易否定原假设。
3 、构造检验统计量 W
Xi: 第 i 次试验的结果， Xi =1 表示出现正面， Xi =0 表示出现反面
100
Y = ∑Xi (100次试验中出现正面的次数)
i =1
Z = 100 − Y (100次试验中出现反面的次数)
W = Y −Z (100次试验中出现正反面之差的绝对值)
4 、进行统计试验 ——收集数据、计算检验统计量及显著性概率值 p
假定已知检验统计量 W 的概率分布性质，如：
{ }
p = P W ≥ 10 硬币匀称 = 0.27
p = P{W ≥ 20 硬币匀称} = 0.04
5 、根据显著性水平值进行判断

对于第一个试验结果， p=0.27> α(=0.05) ，故硬币匀称假设
成立；
对于第二个试验结果， p=0.04< α(=0.05) ，故硬币匀称假设
不成立；
F) 正态分布 (Normal distribution)
设随机变量 X 的概率密度为：
( x −µ) 2
1 −
p( x) = e 2σ2
−∞< x < +∞
σ 2π
其中 -∞<µ<+ ∞ ， >0 均为常数。称 X 服从参数为，的正态分布，
的正态分布
记作 X~N(µ ， 2).
：均值；：方差
遵从正态分布的随机变量 X ，其正态分布函数为：
( t −µ) 2
1 x −
P( X < x) =
σ 2π ∫e−∞
2σ2
dt −∞< x < +∞
µ=0 ； 2
=1 时，称为标准正态分布，记为 X~N(0 ， 1) 。
正态分布是一种很重要的连续型随机变量
的概率分布。生物现象中有许多变量是服
从或近似服从正态分布的。许多统计分析
方法都是以正态分布为基础的。此外，还
有不少随机变量的概率分布在一定条件下
以正态分布为其极限分布。因此在统计学
中，正态分布无论在理论研究上还是实际
应用中，均占有重要的地位。
正态分布的若干性质
•正态分布完全由其均值和方差 2
决定；
•正态分布的概率密度函数曲线呈对称的 “钟形 ”；
•经验规则（ 3 σ 准则）：
P{ x −µ ≤σ} =0.6826
P{ x −µ ≤2σ} =0.9545
P{ x −µ ≤3σ} =0.9973
p(x)
1
σ 2π
68 ％
95 ％
99 ％
µ
－ 3σ － 2σ －＋＋ 2σ ＋ 3σ x
4.2.3 多元统计数据的图表示
法
散点图
2
7
6
4 8
9
10
1
3
轮廓图
雷达图
1.0
1.0 1.0
1.0 1.0
调和曲线图
x1
f X (t ) = +x2 sin t +x3 cos t +x4 sin 2t +x5 cos 2t +...
2
§4.3
回归分析方法
(Regression analysis)
生命活动和过程中不同现象之间的关系
函数关系
变量与变量的关系：
U=IR
确定性关系
v=gt
……
变量与变量的关系：
非确定性关系统计相关
（具有统计规律）
Y=f(x1, x2, …, xn)+ε
回归分析方法
回归分析的基本问题
• Regression: the relation between selected values of x and
observed values of y (from which the most probable value of y can
be predicted for any value of x)
• 寻求表达量 Y 与 x1, x2, …, xn 的相关关系的经验回归
方程，简称
方程回归方程；
回归方程
• 利用回归方程，在一定可靠度的要求下，预估当自
变量 x1, x2, …, xn 取确定值时，随机变量 Y 的取值，称为
预测问题；
预测问题
• 为使 Y 在给定的范围内取值，利用回归方程，控制
自变量 x1, x2, …, xn 的取值范围，称为控制问题。
控制问题
• 一元回归问题、多元回归问题
• 多因变量回归问题
•
4.3.1 一元线性回归问题
x ：可控制或可精确观测得到的数据的变
量；
Y ：与 x 具有相关关系的随机变量。
环境湿度 —— xi (i=1, 2, …, n)
细菌生长数量 —— yi (i=1, 2, …, n)
数据对（样本值）： (xi, yi) i=1, 2, …, n
散点图 (Scatter Graph) (xi, yi)
不妨假定Y
Y与=x a +bx +
具有线性相关关系： ε
其中，是数学期望为 0 的随机变量，假
设满足正态分布，于是：
E (Y ) =a +bx
根据数据对（样本值） (xi, yi), i=1, 2, …, n 对系数 a 、 b 作
出估计，并求得 E(Y) 的估计值：
回归系
回归值
ˆ +bˆx
ˆ =a
y 数
称为一元线性回归方程。
一元线性回归方程
回归直线回归直
回归值
回归系数
线
求回归方程的两个基本步骤：
2. 求 a 、 b 的估计值，从而
求出线性回归方程；
3. 作线性相关性检验。
1. a 、 b 的最小二乘法估计
平面直线 L ： y=a+bx
样本点 (xi, yi), i=1, 2, …, n
定义离差平方和为：
n n
Q ( a, b ) = ∑δ = ∑[ yi −( a +bxi )]
2 2
i
i =1 i =1
Q(a, b) 表示点 (xi, yi), i=1, 2, …, n 与直线 L 的偏离程度。
满足：
(

)
Q a , bˆ = min Q ( a, b )
的aˆ , bˆ 称为 a, b 的最小二乘估计值。
最小二乘估计值
根据多元函数达到极值的条件，令：
∂ Q n
 =−2∑ [ yi −(a +bxi )] =0

 ∂a i=1
∂Q n


=−2∑ [ yi −(a +bxi )]xi =0
∂b i=1
化为方程组：
 na +nx b =ny


nx a +
n
 n
 ∑
 i =1
xi b =∑
2

xi yi
 i =1
其中：
1 n 1 n
x = ∑ xi y = ∑ yi
n i =1 n i =1
可以证明（略），当 xi 不全相同时，上述方程组有且存在唯一解。
解得：
aˆ = y −bˆx
bˆ =S xy S xx
1 n 1 n
x = ∑ xi y = ∑ yi
n i =1 n i =1
n
S xy =∑( xi −x )( yi − y )
i =1
n
S xx =∑( xi −x )
2
i =1
aˆ , bˆ
可以证明（略），是 a, b 的最小方差无偏估计。
线性回归方程可改写为：
yˆ = y +bˆ( x − x )
2. 线性相关性检验
运用方差分析。考虑样本离差平方和（总和）：
样本离差平方和（总和）
n n
S yy    yi  y      yi  yˆˆi    yi  y  
2 2
i 1 i 1
n n n
   yi  yˆˆˆˆ
i     yi  y   2  yi  yi   yi  y 
2 2
i 1 i 1 i 1
S yy =U +Q
yˆ = y +bˆ( x − x )
()
2
n S xy
U =∑( yˆ i −y ) = bˆ 2 2
S xx =
i=1 S xx
n
Q =∑( yi −yˆ i ) 2
i=1
U ：回归值的离差平方和，由 n 个 xi 的离散性通过 x 对 Y 的相关

关系造成
称为回归平方和（回归和）
Q ： x 对 Y 的非线性影响以及试验的随机误差造成
称为剩余平方和（余和）
（ 1） . r 检验法
考虑回归和 U 相对于总和 Syy 的比：
2
U S xy
= ≤1
S yy S xx S yy
定义：
定义
S xy
r =
S xx S yy
称为相关系数。
相关系数
相关系数 r ： |r|≤1
|r| 越大，线性相关关系越显著；
r=0 ， Y 与 x 不存在线性相关关系；
|r|=1 ， Y 与 x 完全线性相关（完全正 / 负相关）
采用相关系数 r 为统计量，当：
r >rα(n −2 )
数据点数目
时，认为在显著性水平下，线性回归显著。
相关系数临界值 r α (n-2) 表
n-2 α 0.10 0.05 0.02 0.01 0.001
1 0.98769 0.99692 0.999507 0.999877 0.9999988
…
7 0.5822 0.6664 0.7498 0.7977 0.8982
8 0.5494 0.6319 0.7155 0.7646 0.8721
…
100 0.1638 0.1946 0.2301 0.2540 0.3211
（ 2） . F 检验法
计算 F 值：
U
F =
Q (n −2 )
数据点数目
显然， F 值越大， U 在总和中所占比例越大，回归性也越显著
。
F >F1−α(1, n −2 )
当：
时，认为在显著性水平下，线性回归显著。
查表： F 分布表（略）
3. 例子
xi 0 4 10 15 21 29 36 51 68
yi 66.7 71.0 76.3 80.6 85.7 92.9 99.4 113.6 125.1
根据散点图，确定回归方程形
式
ˆ =aˆ +bˆx
y
计算得到：
x = 26.0 y = 90.1
S xy = 3534.8 S xx = 4060
S yy = 3084
bˆ = 0.8706 aˆ = 67.5078
yˆ = 67.5078 + 0.8706 x
线性相关性检验：
S xy
r = =0.99896
S xx S yy
查表得：
r0.01 (7) =0.7977 r0.001 (7) =0.8982
显然，在显著性水平 =0.001 下， Y 与 x 的线性相关关系高度显著。

4.3.2 可线性化的曲线回归
方法：变量替换
1. 双曲线型
b
y =a+
x
1
令 u = , 得到
x
y =a+bu
1 b
=a +
y x
1 1
令 u = ,v = 得到
x y
v =a +bu
2. 指数曲线型
y = ae bx
若 a>0 ，则令 v=lny ，得到：
v = ln a + bx
若 a<0 ，则令 v=ln(-y ），得到：
v = ln(− a ) + bx
3. 幂函数型
y = ax b
x>0
若 a>0 ，则令 v=lny ， u=lnx ，得到（ a<0 情况类推）：
v = ln a + bu
4. 对数曲线型
y = a + b log x
令 u=logx ，得到：
y = a + bu
log y = a + bx
令 v=logy ，得到：
v = a + bx
log y = a + b log x
令 u=logx ， v=logy ，得到：
v = a + bu
5. S 曲线型
1
y= −x
a + be
令：
u = e− x v =1 y
得到：
v = a + bu
4.3.3 多元线性回归问题
x1, x2, …, xr ： r 个可控制或可精确观测得到的数据的变量；
Y ：与 x1, x2, …, xr 具有相关关系的随机变量。
不妨假定 Y 与 x1, x2, …, xr 具有线性相关关系：
Y =b0 +b1 x1 +b2 x2 +... +br xr +ε

其中，是数学期望为 0 的随机误差，且满足正态分布。
对于 n 组样本观察值（ n>r ）：
xi1, xi2, …, xir (i=1, 2, …, n)
yi (i=1, 2, …, n)
多元线性回归模型为：
yi =b0 +b1 xi1 +b2 xi 2 +... +br xir +εi
E (εi ) =0 i =1,2,..., n
其中， i 互不相关。
记
y1  ε 1  b0 
Y =
 y
 2

ε =
ε

2

b =
b
1 

 ...  ...  ... 
     
y
n ε
n  bn 
1 x11 ... x1r 
1 x .. x 
X = 21 2r 
... ... ... 

 
1 x n1 ... x nr 
多元线性回归模型可写成：
Y =Xb +ε

 E (ε ) =0
1. 回归系数 b 的最小二乘估计
定义离差平方和：
n
Q( b ) = ∑[ yi − ( b0 + b1 xi1 + b2 xi 2 + ... + br xir ) ]
2
i =1
定义：在多元线性回归模型中，若存在
定义 b̂
b 的估计值，则对于任
意一组实数 b0, b1, …, br 构成的向量，都成立不等式
ˆ ) ≤ Q( b )
Q (b
称 b̂ 是 b 的最小二乘估计。
定理：在多元线性回归模型中，设矩阵
定理 X 列线性无关，则唯一存在
b̂
b 的最小二乘估计
ˆ =( X′X) −1 X′Y
b
2. 计算回归系数b̂
∂Q
令 = 0, j = 0,1,2,..., r ，得
∂b j
到方程组：
n n n
b0 n + b1 ∑xi1 + ... + br ∑xir = ∑ yi
i =1 i =1 i =1
n n n n
b0 ∑xij + b1 ∑xij xi1 + ... + br ∑xij xir = ∑xij yi
i =1 i =1 i =1 i =1
j = 1,2,..., r
问题：求解上述方程组。
r
ˆ =y −
b0 ∑ ˆ
x jb j
j=1
−
1
bˆ   l11 l12 ... l1r  l1 y 
1
ˆ    
b2   l 21 l 22 ... l2 r 

l
2 y 
=
...  ... ... ...  ... 
     
bˆ   lr1 lr 2 ... l rr  lry 
 
 r 
其中：
1 n 1 n
y = ∑ yi x j = ∑xij j = 1,2,..., r
n i =1 n i =1
n
lij = ∑( xki − xi )( xkj − x j )
k =1
n
liy = ∑( xki − xi )( yk − y )
k =1
3. 显著性检验
Syy ：样本离差平方和
U ：回归平方和（回归和）
Q ：剩余平方和（余和）
n
S yy =∑( yi −y ) 2 =U +Q
i=1
n
U =∑( yˆ i −y )2
i=1
Q =S yy −U
U
r =
S yy
U /r
F =
Q /( n −r −1)
4.3.4 逐步回归问题
理想的多元回归效果
• 选取对 Y 有显著关联的自变量 x1, x2, …, xk 进行回

归，剔除关联较小的自变量；
• 对于相互关联很强的自变量 xi, xj, …, xk ，只要从中

选取一个对 Y 有显著关联的自变量进行回归；
逐步回归
基于逐步筛选法的逐步回归
逐个引入自变量，每次引入对 Y 影响最显著的自
变量，并对原有变量逐个进行检验（如 F 检验），把变
为影响不显著的自变量逐个剔除。最终得到的回归方程
既不漏掉对 Y 影响显著的自变量，又不包含对 Y 影响不
显著的变量。
引入自变量的显著性水平 1
剔除自变量的显著性水平 2
逐步回归的
基本步骤
对不在方程中的否
自变量能否引入？
能
引入自变量筛选结束
否对已在方程中的
自变量能否剔除？
能
剔除自变量

4 BioinformaticsMethods - 1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

4 BioinformaticsMethods - 1

Uploaded by

Copyright:

Available Formats

第四讲

—— 系统发育树构造软件 （ PHYLIP 、 PALM 等）

—— 基因组序列分析、序列比对软件（ GCG 、 BLAST 、 CLUSTAL

—— 系统发育树构造软件（ PHYLIP 、 PALM 等……）

—— 常用统计软件的运用（ SPSS 、 SAS ）

——k-tuples 、 k-mers 频率分析

例：人类基因 供体位点 受体位点

受体位点（ acceptor site ）权 重矩阵 ：

-14 -13 -12 -11 -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 1

Say we have a sequence S= S1S2…Sn. Then one need to calculate

—— 信息符号、状态空间（ ACGT 四种符号，及其所有可能的排列

E. coli 基因起始位点上游区 P. aby 基因

—— 动态规划在生物信息学研究中用得最多的方面是 DNA 序列或者

—— 将核苷酸序列看成一个随机序列， DNA 序列的编码部分与非编

—— 在基因识别中，对于 DNA 序列上的功能位点和特征信号的识别

例 (1). 掷骰子出现某点数的概率为 1/6 ，若掷 100 次，则 出现该 点

对连续型随机变量，考察事件 {a<X<b} 的概率。若存在非

P{ a < X < b} = ∫ p ( x)dx

则称 p(x) 为随机变量 X 的 概率密度函数。

二项分 布（ binomial distribution ）

设 n 重 Bernoulli 试验中事件 A 出现的次数为 X ，显然 X

称 X 服从参数为 的 Poisson 分布，记为

均匀分 布（ uniform distribution ）

称 X 在区间 [a, b] 上服从均匀分布，记为

λe −λx x >0

其中 ， 均为常数，称 X 服从参数为 ， 的 分布，记为

正态分布（ normal/Gaussion distribution ）

收 敛 ， 则 称 E(X) 为随机变量 X 的 均值或

xi: 质点 i 的坐标； pi: 质点 i 的质量

收 敛 ， 则 称 E(X) 为随机变量 X 的 均值或

E(X) 反映随机变量 X 的统计平均性质，代表随机变量取值的一般水

设随机变量 X 的均值为 E(X) ，则：

D(X) 反映随机变量 X 的相对于均值 E(X) 的偏离程度，代表随机变量

D(X)=0 ⇔ P( X=E(X) )=1

•样本 X1, X2, …, Xn (sample)

•样本值 x1, x2, …, xn

•统计量 (statistical quantity)

•总体 X 的数字 特征— —参 数

2 、指定显 著性水平 （一般取 ＝ 0.05, 0.01, … ）

5 、根据显 著性水平 值进行判断

Q(a, b) 表示点 (xi, yi), i=1, 2, …, n 与直线 L 的偏离程度。

 =−2∑ [ yi −(a +bxi )] =0

U ：回归值的离差平方和，由 n 个 xi 的离散性通过 x 对 Y 的相关

yi 66.7 71.0 76.3 80.6 85.7 92.9 99.4 113.6 125.1

r0.01 (7) =0.7977 r0.001 (7) =0.8982

显然，在显著性水平 =0.001 下， Y 与 x 的线性相关关系高度显著。

若 a>0 ，则令 v=lny ，得到：

不妨假定 Y 与 x1, x2, …, xr 具有线性相关关系：

Y =b0 +b1 x1 +b2 x2 +... +br xr +ε

... ... ... 

• 选取对 Y 有显著关联的自变量 x1, x2, …, xk 进行回

• 对于相互关联很强的自变量 xi, xj, …, xk ，只要从中

You might also like

—— 系统发育树构造软件（ PHYLIP 、 PALM 等）

例：人类基因供体位点受体位点

受体位点（ acceptor site ）权重矩阵：

例 (1). 掷骰子出现某点数的概率为 1/6 ，若掷 100 次，则出现该点

则称 p(x) 为随机变量 X 的概率密度函数。

二项分布（ binomial distribution ）

称 X 服从参数为的 Poisson 分布，记为

均匀分布（ uniform distribution ）

其中，均为常数，称 X 服从参数为，的分布，记为

收敛，则称 E(X) 为随机变量 X 的均值或

收敛，则称 E(X) 为随机变量 X 的均值或

•总体 X 的数字特征— —参数

2 、指定显著性水平（一般取＝ 0.05, 0.01, … ）

5 、根据显著性水平值进行判断