Professional Documents
Culture Documents
摘要:
基因芯片技术已经广泛的应用于各种模式生物的功能基因组的研究中,应用芯片技术可以高
效,高通量的检测基因表达行为。芯片数据分析中的标准化主要分为芯片内标准化和芯片间
标准化,芯片内标准化根据目的不同可分为消除染色偏差的 Lowess Normalization,消除点
样 针 头 引 起 的 空 间 差 异 的 Print-tip Normalization 。 常 用 的 芯 片 间 标 准 化 有 Quantile
Normalization , Global Normalization 。 芯 片 数 据 分 析 中 常 见 的 聚 类 算 法 有 分 层 聚 类
(Hierarchical clustering)、K 均值聚类(K-means clustering)、自组织图谱 SOM (self organizing
map)、PCA (principle component analysis)等等。所有的聚类方法归结为有监督的学习和无监
督的学习两种方法。
第一部分 基因芯片的数据标准化(Normalization)
对基因芯片数据的标准化处理,主要目的是消除由于实验技术所导致的表达量(Intensity)
的变化,并且使各个样本(sample)和平行实验的数据处于相同的水平,从而使我们可以得到
具有生物学意义的基因表达量的变化。标准化的方法根据芯片的种类、数据处理的阶段和目
的不同而有所差异。这里主要讨论一下双荧光染色(Red and Green Chip)的 cDNA 微列阵
(cDNA microarray)的标准化方法。
一、实验数据的预处理(data transformation)
扫描仪对基因芯片的图像进行扫描,根据每个点的光密度值尝试相对应的绝对表达量
(intensity)。然后图像分析软件通过芯片的背景噪音以及杂交点的光密度分析,对每个点的
intensity 校准,然后取样本基因和参照基因的比值(R/G ratio),作为每个样本基因的相对表
达量(relative intensity)。选择相对表达量,可以在一定程度上减少芯片之间,荧光染色,扫
二、标准化(normalization of Microarray)
1、 数据过滤(data filtering)
通过图像扫描软件,将每个杂交点的光强度转化为表达量时,会产生负的数据值或者 0,
这主要是软件的算法对背景噪音处理时所产生的。由于负数和零是不能对数化的,所以过滤
掉这些脏数据是非常必要的。忽略这些点的信息并不会对整体的分析产生影响,因为这些极
弱的信号不足以为基因表达的差异提供证据。
2、MA plot
MA plot 作图是用来观察芯片数据的分布情况,其中:
M = log 2 R / G
A = log 2 R × G
以 M (log ratio 表达量)为纵坐标,A(log intensity 表达量)为横坐标做出数据的散点分布图。
由于五种组织(seeding、tiller、root、panicle1、panicle2)是分别在五张芯片上作杂交试
验的,所以第一步的标准化是将五张试验芯片的数据调整到同一水平,常用的方法是平均数、
中位数标准化(mean or median normalization)。即:将五组实验的数据的 log ratio 中位数或平
均数调整为 0。
log 2 (Ti′) = log 2 (Ti ) − meana
log 2 (Ti′) = log 2 (Ti ) − mediana
R
Ti =
G
(脚标 a 为每组实验数据)
从以上两图的比较可以看出,中位数标准化,可以将每组数据调整到同一水平。
4、平行实验数据的标准化
一般芯片的杂交实验很容易产生误差,所以经常一个样本要做 3~6 次的重复实验。平行
实验间的数据差异可以通过 Quantile Normalization 去处掉。总平行实验的前提条件是假设 n
次实验的数据具有相同的分布,其算法主要分为三步:
(1)对每张芯片的数据点排序。
(2)求出同一位置的几次重复实验数据的均值,并用该均值代替该位置的基因的表达量。
(3)将每个基因还原到本身的位置上。
如图所示,水稻的一个样本的 6 次重复实验的数据分布用不同颜色的柱状图表示。从标准化
前的分布来看,虽然 6 次实验的数据总体基本一致,但每个基因的表达差异依然存在;做过
quantile normalization 后,6 次重复实验有了完全一致的分布,另外,噪音的分布(次峰)也
显露了出来。
Lowess 回归分析是一种非参数回归方法,也称为平滑方法,在计算两个变量的关系时
采用开放式算法,不套用现成的函数公式,所拟合的曲线可以很好的描述变量之间关系的细
微的变化。比如在分析某一点(x,y)的变量关系时,Lowess 回归的步骤如下:
Step 1、首先确定以 x 为中心的一个区间(Window)内参加局部回归的观察值的个数 q。
q 值设的越高则得到的拟和曲线越平滑,但对变量关系的细微变化越不敏感。
小的 q 值会对细微的变化很敏感,但是得到的拟和曲线变得很粗糙。
Step 2、定义区间内所有点的权数,权数由权数函数来决定,任一点的权数是权数函
数的曲线的高度。
Step 3、对每个区间内的 q 个散点拟和一条直线,拟合曲线描述这个区间内的变量关系。
Step 4、拟合值 y 值就是在 x 点的 y 的拟合值。
依照上面四个步骤,所有的点都计算拟合值,最终得到一组平滑曲线的平滑点,最后
在把这些平滑点用短直线连接起来,就得到了 Lowess 的回归曲线。
(3)、print-order normalization
在芯片试验中,还有很多操作过程是导致产生偏差的因素,比如点样的顺序,杂交的
顺序,用不同的托盘等等,在大部分的实验中,可以通过以上介绍的几种方法对数据进行校
正,但在有些试验中,由于背景噪声过强,还要进行有针对性的数据标准化。例如:print –order
normalization 等。
基因芯片数据的标准化载芯片数据处理过程中占有极其重要的地位,为接下来的聚类分
析、基因表达谱、代谢谱等分析奠定了基础。目前基因芯片数据的标准化问题一直是芯片研
究中的热点问题,现在已经提出很多种标准化的方法。对于芯片间的中位数标准化,和芯片
内的 Lowess 标准化,是芯片数据分析的常规方法。但是经过这两种方法标准化后的数据仍
然存在偏差, 这就需要针对具体的实验操作步骤再设计出具体的标准化方法,例如 plate-order
normalization, print-tips normalization ,print-order normalization 等等。
第二部分 基因芯片数据的聚类(Cluster)分析
1、 分层聚类(Hierarchical clustering)
分层聚类是最早也是最普遍的应用在基因芯片数据分析研究中的聚类算法。步骤如下:
(1) 建立 Gene-experiment 矩阵
每一列是不同的组织,或者在不同条件下的样本,每一行是基因的编号,每个基因
1 X i − X offset Yi − Yoffset
S ( X ,Y ) =
N
∑(
i =1, N ΦX
)(
ΦY
)
Goffset 一般取标准化后的中位数,或平
(Gi − Goffset ) 2
ΦG = ∑
i =1, N N
(4)建立系统发育树(dendrogram)
根据 Gene-Gene 的距离矩阵的分值,首先找到距离最近的两个基因,然后合并,
再找距离相近两组再合并,直到所有的基因合并到一个组中。
(5)建立表达图谱
绘制表达谱图时,log 值为正,用红色表示,越大红色越亮,表示,基因表达的水平越高,
受到的诱导(induced)越强;log 值为负则用绿色表示,越小绿色越亮,基因表达的水平越
低,受到的抑制(depressed)越强。
2、K-均值聚类(K-means cluster)
K – means 聚类与分层聚类有本质的区别,首先要估计出将要分出几个类,然后将全部
的基因按照相似性的距离,归入这几类中。步骤如下:
X,Y 为两个基因
然后,将所有的基因随机的分配到 K 类中,计算出每个类中的基因的均值,
然后,将每个基因分配到均值与它最相近的那个类中。
重复以上两个步骤,直到所有的基因都被分配到类中。
3、自组织映射聚类(SOM)
自组织映射聚类(Self-Organizing Map, SOM),是由 T.Konohen 于 1980 年提出的模型,
属于非监督学习的神经网络聚类,与 K-means 相似,采用 SOM 聚类算法之前,也要首先估
计出想要得到的类的个数。再 SOM 神经网络中,输出层的神经元是以列阵的方式列阵的方
式排列于一维或二维的空间中的。根据当前输入向量与神经元的竞争,利用欧式距离,寻找
最短距离当作最有神经元,以求得调整向量神经元的机会,而其他神经元也可以彼此学习。
而最后的神经元就可以根据输入向量的特征,以拓扑结构展现于输出空间中。