Professional Documents
Culture Documents
生物信 息学 方法介 绍
( Part 1 )
§4.1
生物信息学 研究方法概 述
4.1.1 生物信息学研究 的三个层面
初级 层面
基于现有的生物信息数据库和资源,利用成熟的生物信
息学工具(专业网站、软件)解决生物信息学问题
—— 生物信息数据库 ( NCBI 、 EBI 等)
—— 基因组序列分析、序列比对软件
( GCG 、 BLAST 、 CLUSTAL 等)
—— 建立有特色的生物信息学数据库
高级 层面
提出有重要意义的生物信息学问题;自主创新,发展新
型方法,开发新型工具,引领生物信息学领域研究方向
。
—— 面向生物学领域,带着生物学问题
—— 数学、物理、化学、计算科学等思想和方法
—— 建立模型,发展算法
—— 自行编程,开发软件,建立网页 ( Linux 系统、
C/C++ 、 PERL 、 据 技 )
从事生物信息学研究应具备多方面的科学基础:
( 1 )、一定的计算能力,包括相应的软、硬设备。要
有各种数据库或者能与国际、国内的数据库系统进行有
效的交流。要有发达、稳定的互联网络系统;
( 2 )、强有力的创新算法和软件。没有算法创新,生
物信息学就无法获得持续的发展;
( 3 )、与实验科学,特别是与自动化的大规模高通量
的生物学研究方法与平台技术建立广泛、紧密的联系。
这些技术,既是产生生物信息数据的主要方法,又是验
证生物信息学研究结果的关键手段。
从事生物信息学研究的人员必须具备多学科交叉的知识
。
4.1.2 生物信息学 的“降龙十 八掌”
第一式 见龙在田
( 1)
生物 信息数 据库 及其查
询搜 索方法
(Database & searching)
—— 对分子生物信息数据库的种类以及某些具体数据库的掌握和了
解
—— 从现有数据库中熟练获得需要的数据信息(尤其是二级数据库
)
—— 能熟练地进行数据库查询和数据库搜索(数据库查询系统
Entrez 、 SRS ;搜索工具 BLAST 等)
—— 据 技 、互 技
第二式 飞龙在天
( 2)
生物 信息学 软件 和工具
的应 用
(Software & application)
利用成熟的生物信息学工具(专业网站、软件)解决生物信息学
问题
—— 基因芯片检测分析软件( ……)
第三式 鸿渐于陆
( 3)
概率 论基础
(Probability theory)
—— 随机事件、概率
—— 随机 变 量、概率分布
—— 大数定律、中心极限定理
“Most of the problems in computational sequence
analysis are essentially statistical.”
——“Biological sequence analysis”
第四式 或跃在渊
( 4)
数理 统计基 础
(Statistical methods)
—— 样本和统计量(方差、均值 ……)
—— 参数估计、假设检验
—— 基本的统计分析(方差分析、协方差分析、回归分析)
—— 核酸组分、氨基酸组分、密码子使用频率
—— 权重矩阵分析
权重矩 阵分 析方法 概要
—— 针对序列(核酸、氨基酸等)信号,计算每一位点所使用的词
汇( k-mers )频 率,频 率的偏倚性反映信号 的序列特征( sequence
pattern )。
—— 权重矩阵:词汇的频率表 S(x, w)
k=1 : weight matrix ; k>1 : weight array
-3 -2 -1 1 2 3 4 5 6
A 34.0 60.4 9.2 0.0 0.0 52.6 71.3 7.1 16.0
C 36.3 12.9 3.3 0.0 0.0 2.8 7.6 5.5 16.5
G 18.3 12.5 80.3 100 0.0 41.9 11.8 81.4 20.9
U 11.4 14.2 7.3 0.0 100 2.5 9.3 5.9 46.2
——EM 算法是一种在不完全数据情况下计算极大似然估计或者后验分
布的迭代算法。在 每 一迭代循 环过 程中交替 执 行两个 步骤 : E
( Expectation step ),在给 定完全数 据和前一次迭代所得到的参数估计 的
情况下计算完全数据对应的对数似然函数的条件期望; M
( Maximization step ),用极 大化对数 似然函数 以确 定参数 的值 ,并 用于
下步的迭代。算法在 E 步 和 M 步 之 间 不 断 迭 代 直 至 收 敛 。 该 方 法 可 能
会陷入局部极值,收敛速度也不是很快,并且计算很复杂。
—— 适用于具有隐变量的模型和问题,如神经网络模型中的隐节点、
HMM 模型中的隐状态
—— 如 Motif 识别的 MEME 方法、 HMM 中的 Baum-Welch 算法
第八式 神龙摆尾
( 8)
动态 规划方 法
(Dynamic Programming)
—— 一种常用的多阶段决策的寻优算法
—— 基本思想:在状态空间中,根据目标函数,通过递推,求出一
条从状态起点到状态终点的最优路径(代价最小的路径)。其策略是
将一个问题递归分解为两个规模更小的相似子问题。
在 HMM 方 法 中
的应用: C G C G
C+ G+ C+ G+
0.13 0.034 0.012 0.0032
B E
0.12 0.010 0.003 0.0002
C– G– C– G–
第九式 密云不雨
( 9)
迭代 方法
(Iteration)
—— 迭 代 的 目 的 通 常 是 在 状 态 空 间 找 到 目 标 函 数 收 敛 的 稳 定 解
—— 在运用模式识别方法时,对系统参数的学习通常要经过迭代来
实现
—— 迭 代 必 须 能 够 不 断 逼 近 稳 定 解
第十式 突如其来
( 10 )
回归 、拟合 、相 关性分
析、 关联分 析
(Regression, fitting,
correlation & association)
——Regression: the relation between selected values of x and observed
values of y (from which the most probable value of y can be predicted for
any value of x)
—— 主要目的:描述和预测自变量与因变量间的关系
第十一式 双龙取水
( 11 )
判别 分析方 法
(Discriminant analysis)
—— 用于判别样品所属类型的统计分析方法
条件:已知研究对象总体的类别数目及其特征(如:分布规
律,或各 类 的 训练样 本)
目的:判断未知类别的样本的归属类别
—— 多元判别分析、线性判别分析、非线性判别分析
—— 基因识别、医学诊断、人类考古学
第十二式 鱼跃于渊
( 12 )
聚类 分析方 法
(Clustering method)
—— 聚类分析(群分析)是实用多元统计分析的一个新分支,正处
于发 展阶 段。理论 上尚 未完善,但应 用十分广 泛。实质 上是一种 分类
问题,目的是建立一种分类方法,将一批数据按照特征的亲疏、
相似程度进行分类。
—— 条件:研究对象总体的类别数目未知,也不知总体样本的具体分类
情况
—— 目的:通过分析,选定描述个体相似程度的统计量、确定总体
分类数目、建立分类方法;对研究对象给出合理的分类。 (“ 物以
类聚 ”是聚类分析的基本出发点 )
—— 定性、 经验 的分 类 的局限
分类较粗、数据量小、凭借经验
—— 谱系聚类法(系统聚类法)、动态聚类法、模糊聚类法
—— 生物信息学中的聚类分析问题:
根据 DNA 芯片获得的基因表达数据进行基因聚类(数据量
庞大)
蛋白质相互作用网络的分类
根据不同物种的大分子序列进行相似性比较并构建系统发育
树 Gibbon X(1)
Symphalangus X(2)
Human X(3)
Gorilla X(4)
Chimpanzee X(5)
第十三式 震惊百里
( 13 )
Markov 模型的 应用
(Markov model)
——Markov 过 程 : 从 一 种 状 态转 移 到 另 一 种 状 态时 , 过 程 仅 取 决 于
前面 n 种状态,是一种有序 n 模型。 n 是影响下一个状态选择的状
态数。
—— 最简单的 Markov 过 程 是 一 阶过 程 , 状 态 的 选择 完 全 取 决 于 前 一
状态,这种选择是依照概率来选择的。
—— 状态的选择是概率的,而非确定的。故 Markov 过 程 本 质 上 是 一
种随机过程。
( 1 )天气状态 0.125 阴
:
晴
0.625
阴 0.25
0.375 0.375
雨
0.25
0.5 0.375
晴 0.125
雨
某地天气状态的
今天的天气
一阶转移概率矩
晴 阴 雨
阵
( 2 )状态转移 晴 0.5 0.25 0.25
昨天的
矩阵: 阴 0.375 0.125 0.375
天
雨 0.125 0.625 0.375
第十四式 损则有孚
( 14 )
隐 Markov 模型 方法
(HMM method)
( 1 )序列比较与搜寻(尤其是多序列比对)
( 2 )基因及信号的识别、预测 ( DNA 编码与非编码区的
识别、真核基因剪接位点信号识别、非编码区的转录调控信号识别
、信号肽识别 ……)
( 3 )蛋白质二级结构、家族、超家族预测、分类等 ……
第十五式 时乘六龙
( 15 )
感知 器与人 工神 经网络
方法
(Perceptron & ANN
method)
——A collection of mathematical models that emulate some of
the observed properties of biological nervous systems and
draw on the analogies of adaptive biological learning.
——The key element of the artificial neural network (ANN)
model is the structure of the information processing system. It
is composed of many highly interconnected processing
elements that are analogous to neurons and are tied together
with weighted connections that are analogous to synapses.
—— 人工神经网络是对大脑神经网络的模拟,这种模拟既是在功能
上的,也是在结构上,这与传统的串行计算机有着本质的区别。
神经网络计算不仅计算速度快,重要的是它更具有智能。人工神
经网络最重要的特征之一就是可以通过样本进行学习。
——ANN 方法源于模拟大脑神经元的信息处理和学习过程,但今天
作为一种算法, ANN 方法使用的神经元与真实的生物神经元已经
有很大的区别。
—— 复杂的人工神经网络是由随时间变化、交互联结的神经元组成
的网络。
—— 在生物信息学研究中,无论是基因识别还是蛋白质结构预测,
神经网络都取得了比其它方法更为准确的结果。
第十六式 龙战于野
( 16 )
决策 树、支 持向 量机及
其它 模式识 别方 法
(Decision tree & SVM
method)
—— 模式识别是在输入样本中寻找特征并识别对象的一种方法。
—— 模式识别主要有两种方法,一种是根据统计特征进行识别,另
一种是根据对象的结构特征进行识别,而后者常用的方法为句法
识别。
—— 分子动力学模拟:研究生物大分子的构象,主要还是用基于半
经验势函数的分子动力学方法,而量子力学则在确定势函数的参
数 和研 究局部性质时 起作用。对 蛋白质进 行动 力学研 究是利用计 算机
进行模拟实验的基础。
—— 分子动力学得到一组动力学微分方程,要求得到初值问题的解
。
—— 微分方程的数值求解:有限差分法、有限元法
十七式合一 亢龙有
( 18 ) 悔
最终 要诀: 各类 方法综
合运 用
All in one!
—— 综合运用不同的研究方法
—— 始终面向生物学问题
—— 知识和技能的学习方法
—— 文献的查阅和阅读方法
—— 中、英文论文的写作方法
§4.2
生物信息 学的
多元统计分析方 法
4.2.1 多元统计方 法概述
生命现象
多样性
生命科 学 重复性
复杂性
随机性
统计 分析 方法
多元统计 分析 方法
多元回归 分析 方法
多元判别 分析 方法
聚类分 析方 法
主成分 分析方 法
相关性 分析方 法
……
随机 现 象的多 变 量、多因素
战争的胜负
经济的衰退与复苏
医学病症诊断
生态环境
生物的进化
……
运用数理统计方法研究多变量、多因素问题
多元统计分析理论和方法
多元统计分析
研究多元变量的统计规律性,是一元统计学的推广,同
时又有多元随机变量特有的问题。
多元 统计 分析的 主要 研究内 容和 方法
1928 年, Wishart 《多元正态总体样本协方差阵的精
确分布》
1 、降维问题(简化数据结构)
( 1 ) 将某些较复杂的数据结构通过变量变换等
方法使相互依赖的变量变成互不相关的变量
( 2 ) 把高维空间的数据投影到低维空间,使问
题得到简化同时损失的信息不太多。
主成分分析
因子分析
对应分析
2 、归类问题
对所考察的观测样本(或变量)按照相似程度进行
分类、归类
聚类分析
判别分析
3 、变量间的相互联系
( 1 ) 相互依赖关系:分析一个或几个变量的变
化是否依赖于另一些变量的变化。建立变量间的定量关
系,并用于预测或控制
回归分析
( 2 ) 变量间的相互关系:分析两组变量间的相
互关系
典型相关性分析
4 、多元数据的统计推断
参数估计
假设检验
5 、多元统计分析的数学理论基础
多维随机向量
多维正态随机向量
多元统计量
4.2.2 统计方法的基本 概念
A) 随机 变量 、概率 分布
随机变 量 X (random variable)
在自然界中,有些变量在每次观察前,不可能事先确定其取值;经
过 大 量 反 复观 察 , 其 取 值 又 有 一 定 的 规 律 , 这种变 量 称 为 随机 量
X。
离散型随机 变量
X 的所有可能取值是有限个或可列个。
•连续型随机变量
最常见的一类非离散型随机变量。
概率密 度函数 (PDF, probability density function)
F ( x ) = P{ X ≤ x} = ∫ p (t )dt p ( x) = F ′( x )
x
−∞
p( x) ≥ 0
p(x) 的性质: +∞
∫
−∞
p ( x) dx = 1
常用的 离散 型分布
Bernoulli 试验:连续
试验 n 次独 立地重复 一个试验 ,每次试验结 果只有两
个 不 同 的 结 果 A 和 B ,它们出现的概率分别是 p 和 q ,且 p+q=1 。
P{ X = k } = Cnk p k q n −k k = 0,1,2,..., n
称 X 服从参数为 n, p 的二项分布,记为
的二项分布 X~B(n, p) 。
P{ X = k } ≥ 0 k = 0,1,2,..., n
n
∑n =( p +q ) =1
k k n −k n
C p q
k =0
Poisson 分布 ( Poisson distribution )
设 X 为离散型随机变量, X 的概率分布为:
e −λ λk
P{ X = k } = , λ > 0为常数,k = 0,1,2,...
k!
设 X 为连续型随机变量, X 的概率密度为:
1
a ≤x ≤b
p ( x ) =b −a
0 其它值
显然有:
x2 − x1
P{ x1 ≤ X ≤ x2 } = ∫
x2
p ( x)dx =
x1 b−a
其中 x1, x2∈[a, b], x1<x2 。
指数分 布( exponential distribution )
设 X 为连续型随机变量, X 的概率密度为:
称 X 服从参数为 的指数分布。
的指数分布
分布( distribution )
设 X 为连续型随机变量, X 的概率密度为:
βα α−1 −βx
x e x >0
p ( x ) = Γ(α) α > 0, β > 0
0 x ≤0
(见后 )
B) 随机变 量的数 字特 征
均值 (mean) 或 数学 期望 (mathematical expectation)
离散型 随机变量的均 值
设离散型随机变量 X 的分布律为:
P ( X = xi ) = pi , i =1,2,3,...
若
+∞
E ( X ) = ∑xi pi
i =1
设 X 为连续型随机变量,它的概率密度函数为 p(x) ,若
+∞
E ( X ) = ∫ xp ( x )dx
−∞
设 C 为常数,有:
E(C)=C
设 C 为常数, X 为随机变量,有:
E(CX)=CE(X)
设 X, Y 为任意随机变量,有:
E(X+Y)=E(X)+E(Y)
设 X, Y 为相互独立随机变量,有:
E(X • Y)=E(X)•E(Y)
小结:
X的方差:D( X ) = E ( X − E ( X ) )
2
X的标准差或均方差: D( X )
对于离散型随机变量 X ,其方差为:
∞
D ( X ) = ∑( xi − E ( X ) ) pi
2
i =1
对于连续型随机变量 X ,其方差为:
+∞
D( X ) = ∫ ( x − E( X )) p ( x ) dx
2
−∞
计算 D(X) 的简单公式:
(
D( X ) = E X 2
) −( E( X )) 2
小结:
设 C 为常数,有:
D(C)=0
设 C 为常数, X 为随机变量,有:
D(CX)=C2D(X)
设 X, Y 为相互独立随机变量,有:
D(X+Y)=D(X)+D(Y)
•总体 X (population)
研究对象的某种特征值的全体组成的集合。用 X 表示。
样本均值 x :
1 n
x = ∑ xi
n i =1
样本方差 s :
s =
2 1 n
∑
n −1 i =1
(xi − x ) 2 2 1 n
(
n i =1
)
或 s = ∑ xi − x ( 当 n 较大时 )
2
显然,样本均值、样本方差都属于统计量。
通常用样本均值、样本方差作为总体均值、总体方差的无偏估计量
。
无偏估计:当 n 取 得 充 分 大 , 样 本 均 值 、 样 本 方 差 分 别 逼 近 总 体 均
值和总体方差。
E) 统计 推断的 两类 问题— —
参数估 计和假 设检 验
•参数估 计问题
假定总体 X 的分布函数形式已知,对其中的某些参数进行估计
。
估计方法:矩估计法、最小二乘法、最大似然法, ……
•假设检 验问题
从样本值出发,判断关于总体分布的某种假设是否成立。
假设 检验 问题举 例
为验证一硬币是否匀称(即正反两面出现的概率是否相等),
做投掷试验。假定试验结果有以下两个:
( 1 )正面 55 次,反面 45 次;
( 2 )正面 40 次,反面 60 次。
如何判断该硬币是否匀称?
1 、提出原假设 (或称 零假设 )和备选 假设 (或称对 立假设 )
原假设 :硬币匀称 ;备选 假设 :硬币 不匀称
3 、构 造检验统计 量 W
Xi: 第 i 次试验 的结 果, Xi =1 表示出现正面, Xi =0 表示出现反面
100
Y = ∑Xi (100次试验中出现正面的次数)
i =1
Z = 100 − Y (100次试验中出现反面的次数)
W = Y −Z (100次试验中出现正反面之差的绝对值)
4 、进 行统计试验 ——收集数 据、计 算检验统计 量及显 著性概 率值 p
假定已知检验统计量 W 的概率分布性质,如:
{ }
p = P W ≥ 10 硬币匀称 = 0.27
p = P{W ≥ 20 硬币匀称} = 0.04
遵从正态分布的随机变量 X ,其正态分布函数为:
( t −µ) 2
1 x −
P( X < x) =
σ 2π ∫e−∞
2σ2
dt −∞< x < +∞
µ=0 ; 2
=1 时,称为标准正态分布,记为 X~N(0 , 1) 。
正态分布是一种很重要的连续型随机变量
的概率分布。生物现象中有许多变量是服
从或近似服从正态分布的。许多统计分析
方法都是以正态分布为基础的。此外,还
有不少随机变量的概率分布在一定条件下
以正态分布为其极限分布。因此在统计学
中,正态分布无论在理论研究上还是实际
应用中 , 均占有重要的地位。
正态分 布的 若干性 质
•正态分布完全由其均值 和方差 2
决定;
•正态分布的概率密度函数曲线呈对称的 “钟形 ”;
•经验规则( 3 σ 准则):
P{ x −µ ≤σ} =0.6826
P{ x −µ ≤2σ} =0.9545
P{ x −µ ≤3σ} =0.9973
p(x)
1
σ 2π
68 %
95 %
99 %
µ
- 3σ - 2σ - + + 2σ + 3σ x
4.2.3 多元统计数 据的图表示
法
散点图
2
7
6
4 8
9
10
1
3
轮廓图
雷达图
1.0
1.0 1.0
1.0 1.0
调和曲线图
x1
f X (t ) = +x2 sin t +x3 cos t +x4 sin 2t +x5 cos 2t +...
2
§4.3
回归分析 方法
(Regression analysis)
生命 活动 和过程 中不 同现象 之间 的关系
函数关系
变量与变 量的关 系:
U=IR
确定性关 系
v=gt
……
变量与变 量的关 系:
非确定 性关 系 统计相关
(具有统计规 律)
Y=f(x1, x2, …, xn)+ε
回归分析 方法
回归分 析的 基本问 题
• Regression: the relation between selected values of x and
observed values of y (from which the most probable value of y can
be predicted for any value of x)
• 寻求表达量 Y 与 x1, x2, …, xn 的相关关系的 经验回归
方程,简称
方程 回归方程;
回归方程
• 利用回归方程,在一定可靠度的要求下,预估当自
变 量 x1, x2, …, xn 取确定值时,随机变量 Y 的取值,称为
预测问题;
预测问题
• 为使 Y 在给定的范围内取值,利用回归方程,控制
自变量 x1, x2, …, xn 的取值范围,称为 控制问题。
控制问题
• 一元回归问题、多元回归问题
• 多因变量回归问题
•
4.3.1 一元线性回 归问题
x :可控制或可精确观测得到的数据的变
量;
Y :与 x 具有相关关系的随机变量。
环 境 湿 度 —— xi (i=1, 2, …, n)
细菌生长数量 —— yi (i=1, 2, …, n)
数 据对 (样 本值 ): (xi, yi) i=1, 2, …, n
散点图 (Scatter Graph) (xi, yi)
不妨假定Y
Y与=x a +bx +
具有线性相关关系: ε
其中, 是数学期望为 0 的随机变量,假
设 满足正态分布,于是:
E (Y ) =a +bx
根据数据对(样本值) (xi, yi), i=1, 2, …, n 对系数 a 、 b 作
出估计,并求得 E(Y) 的估计值:
回归系
回归值
ˆ +bˆx
ˆ =a
y 数
称 为 一元线性回归方程。
一元线性回归方程
回归直线 回归直
回归值
回归系数
线
求回归方程的两个基本步骤:
2. 求 a 、 b 的估计值,从而
求出线性回归方程;
3. 作线性相关性检验。
1. a 、 b 的最小二 乘法 估计
平面直线 L : y=a+bx
样本点 (xi, yi), i=1, 2, …, n
定 义 离差平方和 为 :
n n
Q ( a, b ) = ∑δ = ∑[ yi −( a +bxi )]
2 2
i
i =1 i =1
满足:
(
)
Q a , bˆ = min Q ( a, b )
的aˆ , bˆ 称为 a, b 的 最小二乘估计值。
最小二乘估计值
根据多元函数达到极值的条件,令:
∂ Q n
化为 方程组 :
na +nx b =ny
nx a +
n
n
∑
i =1
xi b =∑
2
xi yi
i =1
其中:
1 n 1 n
x = ∑ xi y = ∑ yi
n i =1 n i =1
可以证明(略),当 xi 不全相同时,上述方程组有且存在唯一解。
解得:
aˆ = y −bˆx
bˆ =S xy S xx
1 n 1 n
x = ∑ xi y = ∑ yi
n i =1 n i =1
n
S xy =∑( xi −x )( yi − y )
i =1
n
S xx =∑( xi −x )
2
i =1
aˆ , bˆ
可以证明(略), 是 a, b 的最小方差无偏估计。
线性回归方程可改写为:
yˆ = y +bˆ( x − x )
2. 线性 相关性 检验
运用方差分析。考虑 样本离差平方和(总和):
样本离差平方和(总和)
n n
S yy yi y yi yˆˆi yi y
2 2
i 1 i 1
n n n
yi yˆˆˆˆ
i yi y 2 yi yi yi y
2 2
i 1 i 1 i 1
S yy =U +Q
yˆ = y +bˆ( x − x )
()
2
n S xy
U =∑( yˆ i −y ) = bˆ 2 2
S xx =
i=1 S xx
n
Q =∑( yi −yˆ i ) 2
i=1
定义:
定义
S xy
r =
S xx S yy
称 为 相关系数。
相关系数
相关系数 r : |r|≤1
|r| 越大,线性相关关系越显著;
r=0 , Y 与 x 不存在线性相关关系;
|r|=1 , Y 与 x 完全线性相关(完全正 / 负相关)
采用相关系数 r 为统计量,当:
r >rα(n −2 )
数 据点数 目
时,认为在显著性水平 下,线性回归显著。
相关系数 临界 值 r α (n-2) 表
n-2 α 0.10 0.05 0.02 0.01 0.001
1 0.98769 0.99692 0.999507 0.999877 0.9999988
…
7 0.5822 0.6664 0.7498 0.7977 0.8982
8 0.5494 0.6319 0.7155 0.7646 0.8721
…
100 0.1638 0.1946 0.2301 0.2540 0.3211
( 2) . F 检验法
计算 F 值:
U
F =
Q (n −2 )
数 据点数 目
显然, F 值越大, U 在总和中所占比例越大,回归性也越显著
。
F >F1−α(1, n −2 )
当:
时,认为在显著性水平 下,线性回归显著。
查表: F 分布表(略)
3. 例子
xi 0 4 10 15 21 29 36 51 68
根据散点图,确定回归方程形
式
ˆ =aˆ +bˆx
y
计算得到:
x = 26.0 y = 90.1
S xy = 3534.8 S xx = 4060
S yy = 3084
bˆ = 0.8706 aˆ = 67.5078
yˆ = 67.5078 + 0.8706 x
线性相关性检验:
S xy
r = =0.99896
S xx S yy
查表得:
1. 双曲线 型
b
y =a+
x
1
令 u = , 得到
x
y =a+bu
1 b
=a +
y x
1 1
令 u = ,v = 得到
x y
v =a +bu
2. 指数曲 线型
y = ae bx
v = ln a + bx
若 a<0 ,则令 v=ln(-y ),得到:
v = ln(− a ) + bx
3. 幂函数 型
y = ax b
x>0
若 a>0 ,则令 v=lny , u=lnx ,得到( a<0 情况类推):
v = ln a + bu
4. 对数曲 线型
y = a + b log x
令 u=logx ,得到:
y = a + bu
log y = a + bx
令 v=logy ,得到:
v = a + bx
log y = a + b log x
令 u=logx , v=logy ,得到:
v = a + bu
5. S 曲线 型
1
y= −x
a + be
令:
u = e− x v =1 y
得到:
v = a + bu
4.3.3 多元线性回归 问题
x1, x2, …, xr : r 个 可 控 制 或 可 精 确 观测 得 到 的 数 据 的 变 量 ;
Y :与 x1, x2, …, xr 具有相关关系的随机变量。
多元线性回归模型为:
yi =b0 +b1 xi1 +b2 xi 2 +... +br xir +εi
E (εi ) =0 i =1,2,..., n
其中, i 互不相关 。
记
y1 ε 1 b0
Y =
y
2
ε =
ε
2
b =
b
1
... ... ...
y
n ε
n bn
1 x11 ... x1r
1 x .. x
X = 21 2r
多元线性回归模型可写成:
Y =Xb +ε
E (ε ) =0
1. 回归系 数 b 的最小 二乘估 计
定 义 离差平方和:
n
Q( b ) = ∑[ yi − ( b0 + b1 xi1 + b2 xi 2 + ... + br xir ) ]
2
i =1
定义:在多元线性回归模型中,若存在
定义 b̂
b 的估计值 ,则对于任
意一组实数 b0, b1, …, br 构成的向量,都成立不等式
ˆ ) ≤ Q( b )
Q (b
称 b̂ 是 b 的最小二乘估计。
定理:在多元线性回归模型中,设矩阵
定理 X 列线性无关,则唯一存在
b̂
b 的最小二乘估计
ˆ =( X′X) −1 X′Y
b
2. 计算回 归系数b̂
∂Q
令 = 0, j = 0,1,2,..., r ,得
∂b j
到方程组:
n n n
b0 n + b1 ∑xi1 + ... + br ∑xir = ∑ yi
i =1 i =1 i =1
n n n n
b0 ∑xij + b1 ∑xij xi1 + ... + br ∑xij xir = ∑xij yi
i =1 i =1 i =1 i =1
j = 1,2,..., r
问题:求解上述方程组。
r
ˆ =y −
b0 ∑ ˆ
x jb j
j=1
−
1
bˆ l11 l12 ... l1r l1 y
1
ˆ
b2 l 21 l 22 ... l2 r
l
2 y
=
... ... ... ... ...
bˆ lr1 lr 2 ... l rr lry
r
其中:
1 n 1 n
y = ∑ yi x j = ∑xij j = 1,2,..., r
n i =1 n i =1
n
lij = ∑( xki − xi )( xkj − x j )
k =1
n
liy = ∑( xki − xi )( yk − y )
k =1
3. 显著性 检验
Syy : 样本离差平方和
U : 回归平方和(回归和)
Q : 剩余平方和(余和)
n
S yy =∑( yi −y ) 2 =U +Q
i=1
n
U =∑( yˆ i −y )2
i=1
Q =S yy −U
U
r =
S yy
U /r
F =
Q /( n −r −1)
4.3.4 逐步回 归问题
理想 的多 元回归 效果
逐步 回归
基于逐步 筛选 法的逐 步回 归
逐个引入自变量,每次引入对 Y 影响最显著的自
变 量,并 对 原有 变 量逐个 进 行 检验 (如 F 检验),把变
为影响不显著的自变量逐个剔除。最终得到的回归方程
既不漏掉对 Y 影响显著的自变量,又不包含对 Y 影响不
显著的变量。
引入自 变量 的显著 性水 平 1
剔除自 变量 的显著 性水 平 2
逐步回 归的
基本步 骤
对不 在方程 中的 否
自变量 能否 引入?
能
引入自变 量 筛选 结束
否 对已 在方程 中的
自变量 能否 剔除?
能
剔除自变 量