后基因组时代的关键

　
后基因组时代的关键
张荣太（ Young-Tae Chang ）著
王莘亮 (Shenliang Wan
金泳秀 (Young-Soo Kim) 设
纽约大学化学
文库研究
1.4 版 ; Feb 14, 2002 (in Korean,En

最后更新 January 1, 2003
　
1. 基因组计划，及后基因组时代
2. 追溯生物学
3. 化学生物学
4. 文库
5. 免疫系统及抗体
6. 生物文库
7. 化学文库
8. 糖文库
9. 高通量筛选
10. 生物芯片
11. 分子进化
　
　
　
Copyright (c) 2000-2002. Young-Tae Chang, New York University. All rights reserved
Web Master : Young Soo Kim
返回首页
1. 基因组计划 , 及后基因组时代
人类基因组计划的竞争

人类基因组
重复碱基序列
单核苷的多态现象 (SNP)
其他物种的基因组研究
遗传研究的历史
蛋白质组学
功能基因组学
信息生物学
::::人类基因组计划的完成::::
基因组(genome), 由英文 “基因(gene)”和“全部”得来 , 已成为 21 世纪每个人的日常熟语 . 2002
年 2 月 12 日, 历时 10 载耗资 20 亿美元的人类基因组计划最终完成, 并报道了 99% 的人类基因组
序列. 世纪初基本完成的这项工作堪与阿姆斯特朗和奥尔德林乘坐阿波罗 11 号宇宙飞船登月相媲
美 . 从这时起 , 生物学被重新划分为前基因组和后基因组两部分 , 我们正生活在
后基因组时代.
　
DNA 由包含遗传信息的基因组构成 . 四种碱基 A,T, G 和 C 组装成线性高分子 ,
A-T, C-G 配对结合形成螺旋 , 从而构成 DNA 链. 正如计算机系统采用二进制那
样, DNA 采用 4 进制储存信息 . 遗传信息指导蛋白质的合成 , 于是子代遗传了蛋
白质的组成并产生了生理活性 . 因此, 一旦我们已知了一个物种的 DNA 序列, 我
们就可以推断它可以产生的所有蛋白质 , 从而理论推测这个物种的所有生物特征 .
有关蛋白质的遗传信息的单位称作基因, 一个生物的所有基因称作基因组. 由此
创立了一个新兴的学科来研究基因组, 即基因组学(Genomics).
DNA 及染色体结构
U.S. Department of Energy Human Genome Program<http://www.ornl.gov/hgmis>
来自法国，德国，日本，中国等六国的科学家自 1990 年组成了一个多国合作小组开展人类
DNA 测序工作以揭开人类基因组之谜 . 最初他们希望 2005 年前能够获得人类 DNA 序列的图谱 ,
但是到 1997 年, 在耗费了巨额资金和一半预定时间之后，多国合作小组仅完成了 3%的测序工作.
与此同时, 遗传生物学家 Craig Venter 博士, 创立了一个名为“Celera Genomics”的风险投资公司并
宣称他将在无政府投资条件下早于多国合作小组完成人类基因组计划 . 尽管很多科学家表示怀疑,
Celera 采用了如“散弹枪”等一系列新的方法并很快真的追上了多国合作小组 . 看到自己即将失
利, 多国合作小组在 Clinton 总统的撮合下开始与 Celera 合作, 在 2000 年 6 月完成了 90%, 2001 年
初完成了 99%的人类基因组草图 . 有意思的是多国合作小组在英国的自然（Nature)上而 Celera 在
美国的科学（Science)上各自独立的在同一周发表论文, 在 2001 年 2 月 12 日的记者招待会上联合
宣布人类基因组测序工作的完成 . 也许是出于政治原因 ,两大权威科学杂志均在没有 100%检验并
证实结论的情况下刊登了他们的论文 , 而且两个小组由于竞争关于统一课题的成果都没有做足够
的方差检验. 事实上他们的成果中大概有 0.14%(大约 400 万碱基对)序列差异, 还需更完整的检验.
Celera 公司标志和 Craig Venter 博士
<http://www.celera.com>
<http://www.ishipress.com/venter.htm>
参考文献 : http://www.chemmate.com/news/n2.htm
基因组学在线辞典: http://www.genomicglossaries.com/
▲ top
::::人类基因组 ::::
人类基因组大约由 30 亿碱基对构成. 只有百分之一是含有与蛋白质合成相关基因的外显子(exon),

其余的 99%是内含子(intron) 和重复序列(repetitive sequence),具体功能尚待证实. 也就是说，基因
仅占基因组的 1%. 破译一个碱基需要一美元 , 所以破译全基因组耗资 30 亿美元. 含核细胞中含有
人类基因组, 基因片断可以表达蛋白质. 细胞不同以及处于不同发育阶段导致了蛋白质不同 . 换句
话说, 一个人的所有细胞含有相同的基因组 , 但是每个细胞根据环境表达不同的蛋白质 . 骨细胞产
生骨发育有关的基因, 肌肉细胞为肌肉生产蛋白质. 人类基因数量曾被估计为约 100,000, 但现在估
计约为 30,000 ~ 40,000 左右, 不到低等生物如线虫(C. elegans)或果蝇(drosophila)的基因数的两倍.
虽然没有确凿证据证明基因数量和现存生物中生命复杂程度之间的联系 , 一场关于预估基因数的
争论旋风仍然在进行. 因为如果研究者们不断研究已知基因的相似结构从而推断新的基因, 新的结
构很可能被错过 , 我们很可能看不到剩下的基因组的 1%.
研究者们曾一度仅热衷于蛋白质在其上合成的基因. 从全基因组中利用 mRNA 的反合成仅破译基

因的方法被广为使用, 在这一过程中基因表达蛋白质. mRNA 可被用来合成相应的 DNA 链, 我们叫
它 cDNA, 或者 cDNA 文库(library)因为一个细胞中的整个 mRNA 都被逆转录为 cDNA. 一旦一个
cDNA 库渗透到大局杆菌(e.coli)中, 就可以培养含有 cDNA 的大局杆菌, 然后就可以进行测序. 通常
读取首端及末端的几百个碱基序列 , 然后把它们与已有数据库中的序列进行比较从而确定它们是
新的还是已知基因 . 国家卫生研究院 (NIH) 提供名位 Blast 的为此目的广泛使用的软件 .
Blast 软件 : http://www.ncbi.nlm.nih.gov/BLAST/
有时并不是全序列都被转录, 而是仅一些部分被取出以做成表达序列标签(EST). 尽管 EST 是不完

全片断, 它们可以被组合起来描述最初完整序列或者揭示一些基因出现的频率 . 然而, 因为一些基
因非常罕见甚至根本难以见到, 描述完整基因序列仍然是非常重要的. 当我们知道了全序列后我们
同样可以在基因组上定位 EST 发现的基因 . 根据注册的 EST 数量计算 , 人类基因数量超过
100,000*(* 排除重叠结果是 120,000). 如果相同基因仅表现为一些 EST 片断, 计算值将高于真实值.
EST 数据库 (Entrez): http://www.ncbi.nlm.nih.gov/Entrez/index.html
一个人类的基因组约有一米(稍逾 3 英尺). 如果可以把基因组列成一排成批破译, 人类基因组计划

将是非常容易完成的 . 然而解链 DNS 并将其列成一排非常难 , 因为人类 DNA 包含相互折叠的 46
条染色体(chromosomes)-22 对和一对 XY(男性)或 XX(女性)性染色体. 广泛应用的是一种替代方法
即用特定的酶 (enzymes) 把 DNA 切成片断 , 逐个分析然后得到全序列 . DNA 测序反应 (Maxim-
Gilbert, Sanger, 1977), PCR 技术(K. Mullis, 1983), 及荧光自动测序法 (Smith, 1986)是基因组计划的
赖以进行的三种最重要的技术 .
多国合作小组将 30 亿碱基对切成几个细菌人工染色体(BAC)片断, 然后切成更短的片断以便使用

碱基序列分析仪. 普通 BAC 含有约 150,000 碱基对, 这就是说 200,000 个 BAC 就可以足够包含全
人类基因组. 理论上说 200,000 个 BAC 足够了, 但事实上他们使用了 300,000 个 BAC. 因为 DNA 自
动测序仪可一次读取约 500 碱基. 他们随机截取 BAC 克隆体并读取首端和末端各 500 个碱基, 然
后组合得到大于 1000 碱基的全序列. 通过比较重叠的片断, 连接然后重建序列. 多国合作小组通过
分析 5800 万碱基的重叠读取了 230 亿碱基对序列, 这是人类基因组的八倍. 99%草图有 400,000 个
片断 . 其余的 1% 是将这些片断连接以及 24 条染色体 (22 对和 X,Y), 尚待后续工作 .
HGP 实验室 (350)
Whitehead Institute for Biomedical Research: www-genome.wi.mit.edu

Sanger Centre: www.sanger.ac.uk
Washington University St. Luis Genome Center: genome.wustl.edu/gsc
DOE JOINT GENOME INSTITUTE: www.jgi.doe.gov
Bayor College of Medicine human Genome Center: www.hgsc.bcm.tmc.edu
Celera 的进展略有不同. 他没有使用 BAC 克隆体而是将全基因组随机切成几千万片断, 读取每一

片段的序列然后拼接它们. 尽管看上去更直接, 由于要比较几千万个序列信息并找到重叠部分 , 这
项工作需要大量的计算机工作 . 为解决这个问题 Celera 的合作者们发明了高效的生物信息学
(Bioinformatics) 运算法则 , 从而得以短期内赶上多国合作小组的工作 .
两个小组都使用了荧光分析仪来读取 500-1000 个丙烯酰胺硅胶中末端使用了荧光物质的 DNA 片

断, 并通过分子量的不同来分离. A, T, G 和 C. 碱基显示指定的不同的颜色, 这样就测定了 DNA 序
列.
ADAPTED FROM FIGURES PROVIDED BY E. GREEN
NATIONAL HUMAN GENOME RESEARCH INSTITUTE
根据百慕大宣言, 多国合作小组的碱基序列信息可被任何人 24 小时免费使用. 这些网站相互交流
且每日更新 , 每个提供的都是最新信息 .
GeneBank: www.ncbi.nlm.nih.gov/Genbank
EMBL: www.ebi.ac.uk/embl
DDBJ: www.ddbj.nig.ac.jp
但是 Celera 仅允许大学及研究机构在其网站上免费使用 100 万碱基的信息. 如果需要更多或者进

行商业研发 , 你将需要填一份仅供纯研究目的使用的誓词 . 也就是说 , 商业使用需要付费 . 同时
Celera 将对大约 200 个基因申请专利, 这些基因被认为是和疾病相关的 , 尽管绝大部分基因将被公
诸于众 .
▲ top
::::重复碱基序列 ::::
约有人类基因组的 99% 被称作垃圾 DNA, 他们不作为基因表达 . 低等动物(拟南芥 11%, 线虫 7%,

果蝇 3%)的垃圾 DNA 相对较少且在全基因组中平均分布 , 人类基因在广大的垃圾 DNA 中离散为
几个小组. 估计有一个控制基因物理聚集形态的机能, 但迄今为止未被发现.
在重复序列中最常见的是 Alu, 大约占 10%. 通常重复序列含有大量 AT 碱基和相对较少 GC 碱基.

端粒(telomeres)或着丝点(centromeres)中的其他重复序列被认为参与了染色体保护和细胞分裂 . 端
粒在细胞分裂中变短, 相对较短的端粒组织细胞分裂 , 这可能跟衰老有关. 癌细胞有阻止端粒变短
的机能, 所以细胞能无限复制. 世界上第一个成年哺乳动物克隆体多莉(Dolly)的衰老被饶有兴致的
关注, 因为她是从母体细胞克隆而来, 端粒已经变短.
端粒和着丝点
<http://www.esb.utexas.edu/dr325/genweb>
<www.biokurs.de/skripten>
　
▲ top　
::::单核苷的多态现象 (SNP, Single Nucleotide Polymorphism)::::
尽管通过人类基因组计划(HGP)破译了人类基因组序列, 这才只是能够比较个体差异的单核苷多态
现象(SNP)的开始. 已知每 1000 个序列中会有一个 SNP, 这就是说个体遗传信息差异仅约有 0.1%而
其他 99.9%都是相同的. 人类基因组计划估计人类基因组中大约有 140 万 SNP 位点. Celera 估计大
约有 210 万 SNP 位点. 如果碱基序列因 SNP 而存在差异, 相关氨基酸就会不同 , 这会导致蛋白功能
不同 .
如果 SNP 现象是随机的, 将会有大约 2140 万个. 幸运的是人们发现 SNP 位点通常聚集并行成单倍

体基因型, 而且估计这些单倍体基因型约有 10 万对. 所以, 英国的 Sanger Cetre 联合会以及美国的
Whitehead 生物医学研究所正在完成一个实际约 30 万单倍体基因型的计划.
SNP 联合会: http://snp.cshl.org
SNP, 或者单倍体基因型, 是一个有前途且重要的研究个体, 系谱, 和人种特征以及遗传疾病治疗的
线索, 而且它可以用来鉴别一个个体是否患有某种疾病或者同种疾病患者应如何治疗 . 所以, 如果
能够收集 SNP 信息, 个人医药时代将会来临 . 这些研究创立了新领域如比较基因组学 (comparative
genomics) 和药物基因组学(pharmacogenomics). 为了能够使用简单的仪器鉴别个体基因差异, 对中
等价格的高速筛选法的需求被提出 . 近期报道荧光活化细胞分选仪 (FACS, Fluorescence Activated
Cell Sorter)能够高速处理大量样品 (Genomics 2000, 66, 135-143). 另一方面, 比较基因组学的又一个
例子, 如果黑猩猩的全基因组被破译, 有关黑猩猩模型的特定基因研究将成为可能.
▲ top
::::其他物种的基因组研究 ::::
人类基因组序列当然不是第一个被研究的. 基因组远远短于人类的低等动物的研究早已进行, 如大
肠杆菌 Escherichia coli(460 万碱基对 ), 酿酒酵母 (S. cerevisiae)(120 万 ), 线虫 (1000 万 ), and 果蝇
(1400 万). 自从 1995 年报道了微生物的基因组序列 , 截至 2001 已破译了几十种动物的全基因组序
列而且数量还在迅猛增长 . 尽管小鼠 (330 亿碱基对 )或者玉米(50 亿)的基因组都比人类 (30 亿碱基
对)的大, 并不是每种动物的基因数量与其基因组尺寸成正比 . 总体上说高等动物的基因组大 , 基因
排列得也稀疏, 也就是意味着不必要的重复碱基序列和基因内区的比率更大. 所以大的基因组并不
意味着更多的基因 , 甚至高等动物并不一定比低等动物的基因多 . 例如果蝇比较低等的线虫少
5,000 个基因. 而且, 被认为更高等更复杂的裂殖酵母 (fission yeast)和裂变酵母 (S. pombi) 比芽殖酵
母(budding yeast)和酿酒酵母少 20%的基因. 这就是说, 基因功能比基因数量更重要. 所以裂殖酵母
和裂变酵母含有恰好的核心基因和特异性裂殖酵母基因. 也正因此, 如果去掉与原核细胞共有的基
因 , 就可以发现真核细胞独有的决定其特异性的基因 .
一种叫生殖道支原体(Mycoplasma Genitalium)的微生物含有最少的基因(470). 由此事实得出, 理论

上可以制造出仅由 470 个基因联结起来的人造生物 . 事实上 Craig Venter 已宣布他可以制造人造生
物. 如果能制出人造细菌, 就可被用于环境清洁或者药物输送(DDS, Drug Delivery System). 人造生
物将是开启历史新纪元的工作. 在 Craig Venter 的遗传研究所(TIGR)这项研究正在进展之中. 他们
正在寻找能够保持生物活性的基因这一步 , 据他们说生殖道支原体的 470 个基因中有约 300 个是
核心基因. 如果能够清楚的确认核心基因, 就可以将他们联结起来而制造出人造生物 , 从来没有出
现过的生物 .
现在，日本和美国正因日本水稻和美国小麦而拥有植物供给上的国家尊严 . 尽管看上去基因数量
不相上下, 事实上小麦比水稻多出三倍的基因 , 所以美国的负担较重 . 而且, 国家生物工艺信息中心
与 Celera 在人类基因组之后在小鼠基因组计划上又一次形成竞争. 根据 2001 年的最新报道, Celera
正领导这项计划并宣称他们将对小鼠基因组信息收费.(Science, 2001, 292, 822-823): National Center
for Biotechnology Information and http://www.applera.com/press/prccorp042701.html.
生物体基因组比较
<http://biotech-adventure.okstate.edu/low/basics/genetics/genomes/>
小鼠及人类的基因比较
U.S. Department of Energy Human Genome Program<http://www.ornl.gov/hgmis>
由于遗传学的发展和 DNA 序列测定的加速, 大多数高等动物如人类等的遗传信息都将被破译 . 对

各种遗传疾病以及癌症的治疗方法的产生被寄予厚望. 但是也有不利影响. 人类一方面正在面对海
量的信息, 研究目标的数量也在爆炸式的增长 , 传统方法再也处理不了新信息；而与此同时 , 基因
组计划所提供的信息被少数几个国家投资发展并垄断, 因而产生了很多社会问题, 如专利权和患有
遗传疾病的个体的额外医疗保险. 照现有势头发展下去, 如以人种基因来评价个体能力的故事将有
可能成为现实.
种群物种基因组尺寸基因数序列测定
(百万对) 完成时间
原核生物支原体 Mycoplasma 0.58 470 1995
　大肠杆菌4.6 4,300 1997
E. coli k12
　绿脓杆菌 Pseudomonas6.3 5,500 2001
aeruginosa
真核生物酿酒酵母12 6,200 1996
(单细胞) S. cerevisiae
　裂变酵母14 4,900 2001
S. pombi
　幽门螺杆菌1.7 1,500 2001
2,900
Helicobacter pylori
多细胞线虫 C. elegans 100 18,400 1998
　果蝇 drosophila 140 13,600 2000
脊椎动物阵风鱼400 30,000? ?
Fugu rubripes
　人类 3,000 40,000? 2003
　小鼠 3,300 40,000? 2007
植物拟南芥 Arabidopsis 125 25,000 2000
　水稻 560 30,000? 2005
　玉米 5,000 30,000? ?
　小麦 17,000 30,000? ?
种物种的基因组尺寸信息 : http://www.genomesize.com/
基因组信息网 :
NCBI site: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome
Genome Web: http://www.hgmp.mrc.ac.uk/GenomeWeb/
Eukaryotes: http://iubio.bio.indiana.edu:8089/
Animal Genome size database: http://www.genomesize.com/
Mouse Genome: Mouse Genome Informatics, Mouse Genome Sequencing, Mouse RH Map
Rice Genome: Rice Genome Research, Rice-Research
Yeast Genome: Stanford, Proteome
ZebraFish: http://zfin.org/
物种基因可因突变和杂交而改变, 但是细菌的名为质体(lasmid)的基因可以独立扩增或在菌种内或
种间进行交换. 当细菌具有了抗药性后, 这种特性可以通过质体而传播给其他细菌 . 有趣的是多国
合作小组报告中的 113 个基因被推测来源于细菌 . 这些基因不存在于已完成基因组序列分析的酿
酒酵母, 线虫和果蝇中, 而仅存在于细菌中 . 所以这些基因要么自细菌移入脊椎动物 , 要么被那些动
物删除却仍存留于人体中. 无论怎样, 具体功能仍待研究, 但是关于基因平行传递的假说被强烈支
持 .
就狂犬病来说, 为了得到优良血统的子代, 母犬的第一个雄性子代是非常重要的 . 据说如果第一个

雄性子代不良, 尽管其他雄性子代血统优良, 后代却表现出第一个雄性子代的特征 . 是否最初进入
的精子将会遗留雌性体内并影响其和其他雄性所产的后代？这只是一种假说, 但如果这是事实, 这
将是有关处子之身的神话故事的生物学证据.
▲ top　
::::遗传研究的历史 ::::
遗传学始自 19 世纪中叶 Mendel 研究豆类特异性 . 他在研究豆类特异性如形状和颜色的过程中 , 发

现了如显性和隐性等遗传规律, 提出了基因的概念. 1968 年 Johann Fridrich Miesher 发现了 DNA 极
其四碱基. 20 世纪中叶 Erwin Chargaff 发现了 DNA 中 A, T, C, G 四种碱基, 这成为 DNA 以碱基对
形式存在的证据. 1953 年 Watson 和 Crick 首次发现了 DNA 双螺旋结构, 并继而揭示了基因的分子
结构. Rosalind Franklin 的 X 射线衍射技术对此也有贡献 , 但他英年早逝并没有获诺贝尔奖 . 后来
Crick 创立了现代生物学的核心理论, 即遗传信息由 DNA 传到 RNA 并指导合成蛋白质.
Watson, Crick, and Franklin
20 世纪 60 年代发现了限制酶(resteriction enzyme)可以切割 DNA, 以及所有的氨基酸合成密码子 .

70 年代发明了利用限制酶和连接酶(ligase)的 DNA 重组技术, Gilbert 和 Sanger 发展了 DNA 碱基序
列分析技术 . 80 年代 Kary Mullis 发展了 PCR 技术 (polymerase chain reaction) 可以大量扩增 DNA
使研究少量 DNA 成为可能. 1990 年多国合作小组启动了人类基因组计划 , 1998 年 Celera 开始与人
类基因组竞争. 1999 年 12 月和 2000 年 5 月, 染色体 21 和 22 的最短序列被完全破译. 2000 年 6 月
90% 的 , 2001 年 2 月 99% 的全人类基因组序列被破译和报道 .
科学报道 : http://www.sciencemag.org/cgi/content/full/291/5507/1195
▲ top
::::蛋白质组学 ::::
蛋白质组学(Proteomics)是蛋白质的遗传学 . 除了发生突变, 基因组结构保持不变 , 但是蛋白却由于

细胞种类及环境的不同动态表达为不同结构 . 虽然只有部分 DNA 遗传信息通过 mRNA 被转录到
蛋白质合成过程中, 但事实上细胞活动是在蛋白水上进行的. 所以蛋白质组学与基因组学同等重要
甚至更为重要. 尽管重要, 与 DNA 能够识别互补序列而形成双螺旋链并通过 PCR 技术扩增相比,
蛋白质不能由序列选择性合成和被周围环境修正 , 蛋白质组学刚刚起步 . 最终目标将是代谢物组
(matabolome)或生理组(physiolome)的靶物, 用以研究蛋白质的真正意义 , 但是现在研究还仅停留在
观测蛋白质是否被表达的阶段 .
最常使用的分离蛋白质的方法是采用二维凝胶(2D-Gel)(通常 18 x 18 cm, 150µg 蛋白质), 然后使用

质谱法来确定蛋白质种类和表达水平 . 通常一维坐标采用等电聚焦的 pH 值梯度, IEF 垂直方向上
的另一维采用聚丙烯酰胺凝胶电泳后的尺寸分布 (SDS-PGE). 从凝胶中萃取的蛋白质以肽酶 (如胰
岛素)水解, 然后质谱分析, 例如基质辅助激光解吸飞行时间质谱(MALDI-TOF), 从而给出肽片断的
部分序列, 最终通过数据检索给出蛋白质种类的信息. 偏向选用胰岛素的原因是它能切除 C-末端的
氨基酸如赖氨酸和精氨酸从而产生等量正电荷分配 . 等量正电荷有利于正离子的质谱分析并利于
粗略量化肽的数量. 在 MALDI 中矩阵中的有机分子吸收激光将电离能传递给被分析的肽 , 所以温
和的离子化有利于出现整个肽的峰而不是出现碎片峰 . 如果肽样品处于液相色谱的溶液中甚至需
要更温和的离子化方法, 如电喷雾液相色谱质谱(ESI-MS), 但是灵敏度将较 MALDI 降低. 由于多级
MS 离子阱质谱仪或准稳态注入渡越时间 (QTOF)技术使提纯肽后能够观测小的肽碎片 , 序列分析
也成为可能. 像上面看到的, 二维凝胶是非常有用的工具, 但是也有一些局限. 首先, 熟练的分析员
必须得到可重现的数据, 但很多情况下低表达率蛋白质达不到筛选标准. 尤其是蛋白质有强憎水性
时(许多膜的蛋白质包裹引起了药物研究者的极大兴趣 , 但它们在凝胶中不移动 ). 太大或太小的蛋
白质也会产生问题. 为了增大溶解并简化分析, 蛋白质混合物可根据几种理化性质如电荷 ,体积,憎
水性,粘度等预分离, 这是一种很好的解决办法 . 根据细胞内有机物预分离应该有助于细胞分类和
所给蛋白质的定位.
如 DNA 芯片一样, 二维凝胶问题的另一个解决方法 , 抗体或蛋白质序列芯片应运而生 . 多维色谱如
吸收检测多元毛细管电泳, 或 HPLC 也是一种可与二维凝胶竞争的方法, 但是溶解度仍然远低于二
维凝胶, 而且需要强大的数据检索 /分析支持. 有时基因组非预期的蛋白质会奇异般的产生在蛋白
质组中. 这是我们没有完成蛋白质表达控制信息的直接标志. 最近报道“基因捕获法”发现了表达
被遗漏了的新基因. 这种方法使用转位子在基因组中随机加入 b-牛乳糖等标志蛋白然后筛选预期
蛋白质(Nat. Biotechnol. 2002, 20, 58).
二维凝胶
<www.bmskorea.co.kr/new01_39.htm>
蛋白质样品基本上是在两种条件下制备的, 在两块二维凝胶上的差异被用做研究. 因而结果必需可
重现才能用于比较分离二维凝胶, 但这并不容易. 一种解决之道是在不同蛋白质上使用荧光染料或
不同质量的示踪剂. 另一个问题是少量的蛋白质可能由于另一种蛋白质大量存在而被忽略. 这就需
要可比较目标物, 例如常规细胞/癌细胞, 健康细胞/感染细胞, 愉悦的细胞/压力大的细胞, 通常在相
关条件下扮演重要角色的蛋白质表现出不同的表达. 另外, 如果研究了高温沙漠中或高压海底的生
物的蛋白质表达 , 将有可能给出恶劣天气下植物繁殖的线索 .
蛋白质组学的另一个根本局限是与基因数量相对稳定相比, 蛋白质表达不稳定. 一种蛋白质在整个

生命过程中可能只产生一次或者根本不产生 . 所以, 如果有人试图研究所有可产生的蛋白质 , 那将
是长期而艰巨的工作. 但是确实有人在做这项工作. 技术日新月异, 与 10 年前一个科学家用一年时
间发现 2~3 种蛋白质相比 , 现在的蛋白质组学技术可以仅仅使用质谱来推断蛋白序列并使用遗传
信息库鉴别蛋白种类 . 有朝一日人类蛋白质组计划也将如基因组计划一样付诸实施 . Oxford
GlycoScience 和 Large Scale Biology 是现在蛋白质组学研究的领袖 .
reference 蛋白质组学: Nature, 1999, 402, 715-720

蛋白质相互反应如蛋白质表达一样重要. 现今表面等离子体耦合(SPR)是研究蛋白质联接的常规技
术. 当一个蛋白质与芯片相连后它们会在芯片的另一面发光从而可以用来检测散射, 反射角与联结
的蛋白分子量成比例. 所以如果另一种蛋白质与芯片相连 , 反射角是否增大, 可以反映蛋白质联结
紧密程度. 通常在芯片上使用较小的配体而在其上联结大的蛋白质所以角度变化很大 . 另外, 由于
连续加入反应试剂, 可以分析联结速率和脱离速率 . 芯片被植于金上, 使用化学键合法或链酶亲和
素-生物素键合法在其上固定小配体. 现在 Biacore 是唯一的 SPR 经销商.
Bicore 3000
　
蛋白质信息网 : http://pir.georgetown.edu/
▲ top
::::功能基因组学 ::::
人类基因组计划已经破译了基因序列 , 下一步将是由功能基因组学研究已破译基因的功能并控制
它们. 正如千岁基因组公司(Millenium Pharmaceutical)的 Robert Tepper 说的那样, “现在我们知道了
词典里面有什么, 我们需要知道每个词的意思.” 尽管基因序列的 99%已经被破译, 只有 10%的全部
基因的机能是已知的 . 一个方法是通过比较未知和已知基因来类推其机能 . 数据库正在建设之中 .
另一个方法是蛋白质组学 , 但是首先必须能够制得一些溶液 .
在结构基因组学(功能基因组学的一个分支)中, 研究者采用 NMR 和 X 光来分析蛋白质的三维结构,

通过结构比较找出未知蛋白质 , 这与传统的比较碱基序列的方法大相径庭 . 对于一个成功的研究
来说, 构效关系和高效蛋白质结构数据库的构建是关键. 蛋白质结构识别中的蛋白质结晶和数据处
理曾经非常耗费时间和精力 , 现在由于成功的高速筛选结晶法的应用使数据库中结构的数量成几
何级增长 . 截至 2002 年初 , 蛋白质数据库 (PDB,Protein Data Bank) 中已注册约 17,000 个结构 .
使用 DNA 芯片做基因表达模式研究是现今蛋白质组学中一个非常热门的课题 . DNA 芯片技术不

是研究蛋白质本身而是跟踪 mRNA 转录过程, 这一过程是合成蛋白质的中间步骤 , 被称作转录本
组系. DNA 包含储存蛋白质遗传信息的外显子 , 以及现今对其功能不甚了解的内含子 . 外显子和内
含子被转录为 RNA, 然后去除基因内区仅剪接(splicing)外显子从而得到 mRNA. 因此, 研究 mRNA
序列, 可以估计蛋白质翻译率 . 斯坦福大学 Affymetrix 和 Patrick Brown 的 DNA 芯片利用 cDNA 与
mRNA 互补的性质跟踪了活细胞中 mRNA 的定量转化.
Affymetrix's CHIP
Patrick Brown's Pin Array
科学功能生物学网站 : http://www.sciencemag.org/feature/plus/sfg/
▲ top　
　
::::信息生物学 ::::
后基因组研究如基因组序列或功能分析以及基因交互识别等如果没有大量数据处理技术是无法进
展的. 因此, 一个名为信息生物学(Bioinformatics), 藉由联合高性能计算机和高效数据处理运算法则
的新研究领域出现了 .
首先它被用于计算人类基因组计划得出的遗传碱基序列, 从而得出蛋白质功能. 虽然已发现了大多

数基因的碱基序列和氨基酸序列一级结构 , 仅少量蛋白质的功能是已知的 . 因此, 信息生物学通过
使用基因碱基序列数据和比较已知及未知功能的基因, 从而类推未知的基因功能. 他们不仅简单比
较序列, 而且试图根据蛋白质碎片结构模块化的事实通过重组每个模块来推断功能. 虽然只是一个
模拟步骤 , 但有传言说他们已经达到推断 80~90% 基因功能的水平 .
另一方面, DNA 芯片关于全基因组研究的实验数据 , 也需要数据处理技术来解释众多基因表达的

生理意义. 基因表达模式研究将会成为新治疗和诊断的基础知识, 而且它将会提供基因互相影响的
信息. 目前, 他们根据基因的表达速率或形式来建立群 , 而且设想比较靠近的群中的基因物理上或
生理上是相近的 . 市面上已有几个专业的软件用来处理这些 DNA 芯片的实验数据 .
信息生物学也被用于解释蛋白质交互作用的网络. 最终, 可以通过输入从信息生物学得出的蛋白质

功能和表达数据来建立一个虚拟细胞 , 完美地模拟细胞功能. 如果虚拟细胞的研究进一步扩展, 可
以创造虚拟的动物或病人, 这样新药物的研究就可以只需通过计算机(虚拟系统)而无须任何现实的
或者活体的实验. 尽管现在数据不足不能完成所描绘的蓝图, 已经可以建立一些有趣的模型.
▲ top
back to main page
返回首页
2. 追溯生物学
何谓生命 ?
基因和遗传信息
传递遗传信息至子代
从基因到蛋白质
蛋白质合成
聚合酶链反应 (PCR, Polymerase Chain Reaction)
定位突变和 DNA 改组技术
细胞凋亡和坏死
细胞周期
离子浓度
细胞亚显微结构
病毒
　
::::何谓生命 ?::::
给生命体下个定义并非易事 . 普遍认同的生命的特征是可以自我繁殖 , 有能量新陈代谢, 可与周围
环境间进行物质交换. 除此以外, 与热力学第二定律截然相反, 生命体纷繁的结构下掩藏着秩序与
协调, 因而生命必须消耗能量以抵消不断增加的熵(entropy), 从而维持热力学平衡 . 一旦生命终结,
生命体的补偿作用就会结束, 于是尸体按照自发臻于最大混乱度的自然定律重新回到大自然之中 .
从这个意义上说, 能量和熵之间的界限成了判断是否具有生命的判据.
然而特例不可避免. 由母马和公驴杂交产生的骡子和雄狮和雌虎杂交所生的狮虎都没有繁殖能力,
难道我们就漠视它们的存在, 或者说它们虽然看上去像活体, 其实不是生物体? 另外, 一些病毒或
植物种子可以在坚固的表皮中存活几百甚至千年而没有新陈代谢 . 从狭隘的生命观很难判定它们
是否具有生命. 二十世纪 70 年代英国科学家 Lovelock 在其 Gaia 理论中提出岩石, 溪流, 山峦甚至
泥土都应当被看作生命. 事实上许多人支持该理论. 这个理论认为地球有自我再生能力, 因而乐观
地认为地球可以自己解决所有人类产生的污染问题. 如果地球认为人类对其生存构成极大威胁,
大地女神就很可能通过诸如厄尔尼诺, 拉莉娜等气候异常变化和地震来根除这些麻烦制造者以维
持地球健康.
在我们现有的观测范围内我们可以发现一些看似生命却无生命的晶体违背熵原理 , 自身繁殖其特
有构型. 它们通过将周围物质转变为其自身以繁殖 . 这些晶体绝大多数是金属氧化物 , 但是也有一
些含碳的有机物自生长 . 尽管不是先决条件 , 我们可以看到的生物都具有碳架结构的含碳有机物 .
之所以是碳而不是地球上含量较丰的硅是因为碳原子之间的键较硅原子间牢固 , 更易形成稳定结
构.
与含碳的生物体相类似, 计算机病毒被称作“硅生物体”. 它们最初是由程序员编制并传染给计算
机的一些程序, 通过磁盘或网络传播, 自我复制, 甚至可以通过变异来抵抗杀毒软件 . 这与<<圣经>
>中"主造万物, 置地上而后观之. 其自复以繁衍."何其相似. 因而有人戏谑说“拂晓骇客造病毒 , 上
传至网络而观之. 其自复以繁衍." 当然这会引起众多非议 . 计算机病毒仅能在计算机上生存 , 一旦
关机或下网, 复制和传播就不可能实现. 那么生物体呢? 它们一旦脱离了地球还能生存么?
从 70 年代 Vikings 到现在 Pathfinder 号宇宙飞船在探索火星生命, 以及最近关于从火星陨石中发现
生命痕迹的争论都很容易证明对生命的定义是如何困难 . 关于生命的定义在科学和哲学上都有重
要意义, 但我之关于生命定义困难的讨论仅是为了辨析生命特征 . 生命的基本单位是细胞, 细胞的
基本成分是酯类, 蛋白和烃, 它们是由核心元素碳与氧氢氮等元素组成的 . 细菌仅有一个细胞 , 随着
物种等级的提高细胞数逐渐增多. 人类有 1000 亿细胞. 如此复杂的有机体是怎样完全相同的自我
复制的呢?
▲ top
::::基因和遗传信息 ::::
让我们考虑一下子代的繁殖, 这是生命特征之一. 无论生命形式复杂或简单, 从细菌到多细胞生物,
所有的生物体都在基因中包含了他们自己全部的信息 . DNA 分子表达了遗传信息. 正如计算机采
用 0 和 1 的二进制作为存储单位 , DNA 采用 A, T, G, C 的四进制. 神奇之处在于几乎地球上所有的
生物体都将 DNA 作为遗传载体, 其余的采用改性 DNA. 这也就是所我们和植物和病毒在本质上并
没有显著差异.
DNA 分子是一种线形大分子, 由脱氧核糖与作为信息的四种碱基 (腺嘌呤, 鸟嘌呤, 胸腺嘧啶, 胞嘧
啶)联结. 每个含有碳水化合物和碱基的单位与磷酸基相连 . 计算机存储器可有二维或三维结构 , 但
是物种的遗传信息仅选择了一维结构 . 通过 A-T, G-C 配对, DNA 以双链形式存在. 绝大多数情况
下一条链即可储存遗传信息, 另一条链仅是作为互补链用来对遗传信息进行维护和修补. 下一个问
题就是遗传信息如何传递 . 自 Watson 和 Crick 第一次报道 DNA 结构以来, 尽管我们不完全了解每
个细节, 但是关于遗传信息用于指导蛋白质的合成已成定论 . 换句话说, 生物系统内合成的蛋白质
的种类和数量决定了生物体的所有特性, 从我们皮肤的颜色到甚至无意中流露的习惯.
DNA
<SGI, U.S. Department of Energy Human Genome Program>
蛋白质包含 20 种氨基酸, 能够催化多种生化反应的酶和细胞骨架都是蛋白. 我们的体内可以合成

诸如碳水化合物和酯等非蛋白物质, 但那只是酶催化作用的次级产物. 蛋白质基本上是氨基酸一维
联结构成的线形大分子, 当然还可以有一些修饰 . 用来合成一个蛋白质的 DNA 单位称为基因, 包含
一个物种所有遗传信息的集合称作基因组 . 每个基因的两端都包含有蛋白质首端和尾端合成的遗
传信息.
氨基酸
非极性侧链
极性非质子化侧链
极性质子化侧链
身高和肤色等显性基本是不同遗传组合表达的结果 . 问题是遗传的蓝图 , DNA, 采用四进制而蛋白
质采用 20 进制. 为了解决这个问题大自然采用三个 DNA 密码表达一个蛋白质. 因为三位的密码可
以容纳 4×4×4 = 64 条遗传信息, 大大超过容纳 20 个氨基酸所需要的量因而一些氨基酸可以重复对
应. 因此如果可以破解一个物种的全 DNA 序列, 就可以知道其所有合成的蛋白质并从理论上预言
其所有特性. 正因此现今通过测定完整 DNA 序列来破译人类所有遗传信息的工作很活跃, 这被称
作“基因组计划”. 人类 DNA 序列估计约有 30 亿碱基对, 也就是 300,000 基因. 除了红细胞等, 所
有细胞细胞核中都含有遗传信息. 由于细胞种类不同, 用于合成蛋白质的基因估计约占所有基因的
十分之一. 换句话说, 人类细胞能合成 30,000 种蛋白质, 蛋白质种类的不同决定了不同细胞的特性 ,
如神经, 肌肉, 骨细胞等. 由于 DNA 双链的碱基长度约有 3 埃, 人类细胞整条 DNA 长度约有 1 米.
遗传密码子
<http://www.discoverbiology.com>
▲ top
::::从基因到蛋白质 ::::
单细胞生物如细菌通过自身分裂或用芽孢来产生后代 , 在这个过程中染色体复制并传递一个给子
代细胞.所以母体和子代的遗传信息完全相同 . 多细胞生物的体细胞增殖通过有丝分裂 , 遗传信息
同样备份并一分为二. 因此, 就遗传信息传递范畴来说, 体细胞的有丝分裂和细菌的增殖在概念上
是相同的 .
由于 DNA 是高度盘旋的双螺旋结构, 复制 DNA 需要解链, 解螺旋酶以 ATP 为能量做此工作. 然后

每条解开的链作为模板在 DNA 聚合酶和复制酶的帮助下合成互补链. 这两种酶的不同在于 DNA
聚合酶即参与了 DNA 的修补也参与了复制.
DNA 复制
<U.S. Department of Energy Human Genome Program>
另一方面来说, DNA 并不是完全暴露, 而是紧密折叠为螺旋结构. 为形成这种结构, 有些 DNA 被绞
接, 参与这个过程的是结构变异酶(topoisomerase). 仅有一条链临时切断的为 I 型酶, 有两条链切断
的为 II 型酶(II 型酶称作 DNA 促旋酶). 正是由于这些结构变异酶 , 相同的 DNA 序列才可以有不同
的异构体 . 因此 , 在 DNA 的特定区域被复制和表达的时候 , 这些酶解开超螺旋结构 . 在重组
(ecombination)过程中这些酶也有重要作用.
多细胞生物的体内繁殖根本上来说与细菌的增殖是相同的 . 但是有性生殖的生物繁殖机制更为复
杂. 首先, 亲代产生生殖细胞(gamete)如精子和卵子. 一个卵子和精子细胞相遇而形成受精细胞, 其
内含有父系和母系的单拷贝遗传信息, 一个新的生命就这样诞生了. 鸵鸟有西瓜般大的卵子而人类
的卵子非常小, 但是两种卵子中都仅含有一套遗传信息 . 受精卵如癌细胞一般迅速分裂, 一段时间
后, 开始分化出器官. 鸵鸟卵含有很多养料 , 人类卵细胞从母体子宫获得养分 , 但是根本上说它们都
是从 DNA 单拷贝开始发育的 . 也就是说 , 1 米长的链含有了我们整个生命的信息 . 很神奇吧 ?
▲ top
::::从基因到蛋白质 ::::
DNA 上的遗传信息是通过怎样的过程被翻译用以合成蛋白质的 ? 为了表达 DNA 上的一个基因 ,
mRNA 读取 DNA 的遗传信息; 这个过程称作转录 , 转录酶能够催化这个反应 . DNA 上的遗传信息
有内含子和外显子, 所以最初转录的 RNA 分裂以除去内含子. 成熟的 mRNA 是真正的合成蛋白质
的真正模板. RNA 与 DNA 非常类似, 但是在 RNA 的 4 种碱基中使用 U 代替 DNA 中的 T. RNA 中
的糖链 (核糖)较 DNA (脱氧核糖)在 2 位有多余的羟基. 正因这个多余的羟基使 RNA 较 DNA 活泼,
可被用作亲核试剂或酸碱. 这样, 相对较稳定的 DNA 用于信息永久存储, 较不稳定的 RNA 更多用
于合成蛋白质的临时信息存储, 合成后立即被破坏.
转录
<www.accessexcellence.org/ AE/AEPC/NIH/gene03.html>
▲ top
::::蛋白质合成 ::::
核糖体能识别 mRNA 的信息, 这就是蛋白合成的工具. 核糖体由 2 个大 rRNA (核糖 RNA)和许多小
蛋白质构成. 有趣的是核糖体是蛋白质合成的酶, 但其主要组成却不是蛋白质而是 RNA. 蛋白质合
成需要另一种重要的 RNA, 即 tRNA (转运 RNA). tRNA 与氨基酸通过酯键形成芳氨基-tRNA, 这就
可以向增长的肽链上运输氨基酸. 每个不同氨基酸有其自己的配对 tRNA, 但有时一个氨基酸对应
多个 tRNA. tRNA 与氨基酸的键合受芳氨基-tRNA 的催化. 核糖体在 mRNA 上滑动产生了多肽链,
每个核糖体有两个与芳氨基-tRNA 的配合位; 一个用以延长肽链一个用以新氨基酸的导入. 核糖体
对芳氨基-tRNA 的序列识别并不依赖氨基酸结构, 而是 mRNA 上密码子和 tRNA 上反密码子间的
互补作用. 这意味着如果采用非自然的氨基酸来化学修饰芳氨基-tRNA 将会产生化学突变.
蛋白质合成
<http://fairmanstudios.com/als.htm>
▲ top
:::: 聚合酶链反应 (PCR, Polymerase Chain Reaction)::::
由 Michael Smith 和 Kary Mullis 在 80 年代中期发明的 PCR 技术给生物学和医学带来了一场革命 ,
荣获了 1993 年的诺贝尔化学奖 . PCR 可以在短时间内倍增极微量 DNA (理论上说, 仅有一个足够
了 ) 至百万或十亿倍 , 而共作原理却惊人简单 . 这是步骤 :
1) 混合模板 DNA, 四种核糖的三磷酸盐作建筑材料 , 和 DNA 聚合酶. 加入过量 2 种 DNA 引物, 与

模板中需要序列的起始和结束区域键合.
2) 加热反应混合液至 90 °C 以使模板 DNA 的双螺旋分离(变性).
3) 冷却至 50 °C, 引物与模板 DNA 的单链键合.(退火)
4) 升温至 72 °C, DNA 聚合酶催化 DNA 复制以产生全双螺旋(增长). 在这一步, 目标 DNA 数量加
倍.
5) 重复步骤 2-4 至满意为止.
PCR <www.flmnh.ufl.edu/cowries/ amplify.html>
　
这一序列含有高温步骤, 可能会使酶变性. 所以, 自温泉中嗜热细菌体内提取的耐高温的 DNA 聚合
酶是 PCR 的重要部分. 每一个操作循环可以倍增 DNA 数量, 如果有足够的引物和建筑材料, DNA
将成几何级数增长(2#循环数). 仅需几个小时就可足够产生几十亿倍增量 . 由于灵敏度极高, 有时会因
极少量杂质 DNA 的倍增而产生错误结果, 因而必须高度精确操作样品. 一些普通方法耗时且难于
分析的细菌, 可以通过 PCR 技术短时间内鉴别 . 一滴血液或体液甚至一根头发足以被用来鉴别个
体, 因而 PCR 技术在法医学上广泛应用. 在后文中提到的 RNA 催化剂以及分子进化研究都在关键
部分采用了 PCR 技术.
▲ top
::::定位突变和 DNA 改组技术 ::::
DNA 序列的改变称为突变, 这将导致相关蛋白质的序列变化 . DNA 上特定核苷的取代技术称作基
因定位突变法 (site directed mutagenesis). 通过病酶动物将突变的基因导入微生物体内即可产生非
天然蛋白. 这种方法在研究蛋白质中特定氨基酸的功能上极为有价值.
基因定位突变法
<Nobel e-Museum>
与定位突变不同, 在 PCR 中增加 Mg2+离子可产生随机点突变; 高盐度降低了 DNA 聚合酶的再现精
度. 突变频率可由离子浓度控制. 这种方法称作"易错 PCR".
将突变基因重组在加速产生多样性方面较定位突变效率更高 . 这种方法称作 DNA 改组技术
(shuffling).
DNA 改组技术
<The Magazine of the Penn State College Engineering>

▲ top
::::细胞凋亡和坏死 ::::
死亡有两种方式 . 一种是预定的细胞死亡即凋亡 (apoptosis), 另一种是突发细胞死亡称作坏死
(necrosis). 凋亡是自发的生物学过程 , 死亡细胞遵循一系列预定过程 : 细胞体积收缩 , 染色质浓缩 ,
核塌陷. 不必要的结构被分解, 有用的养料被转至相邻细胞 . 非正常的抑制凋亡过程可能导致多种
疾病, 细胞可能转变位癌细胞.
相比较而言坏死可能因温度突变 , 渗透压变化或者毒素等引起, 细胞突发死亡. 如果把凋亡比作寿
终正寝 , 坏死就是交通事故 .
▲ top
::::细胞周期 ::::
如果拥有充足养料和适宜环境, 细菌将分裂生殖. 在包括人类在内的多细胞生物中 , 细胞增殖被高
度控制以保持总体平衡. 当高度调控不起作用时, 细胞将变成无限分裂的癌细胞.
在细胞增殖过程中 DNA 复制和细胞分裂有固定规则可循 ; 例如遗传信息均分到两个子代细胞时 ,
DNA 合成必须早于染色体分裂, 等等. 细胞增殖的整个过程称作细胞周期, 分成 4 步: G1, S, G2, M.
细胞周期
▲ top
::::离子浓度 ::::
从拓扑学角度说, 我们的身体可以分为体内和体表空间. 例如皮肤和消化道表皮都是体表; 正如炸
面包圈一样. 穿透皮肤或胃粘膜就到达体内 . 每个细胞个体都是独立的封闭系统 . 所以细胞也被细
胞膜分成截然不同的内外环境. 通常细胞内 K+浓度高, 细胞外 Na+和 Cl-浓度高. 相对高浓度的单价
离子对保持渗透压和膜两侧势能有很重要的作用 . 二价离子如 Ca2+和 Mg2+在细胞外大量存在, 可以
调节酶的活性. 尤其是被称作第二信使的 Ca2+, 特定信号可以引起其从细胞外, 或细胞内贮 Ca2+细
胞器, 到细胞质的转移. 典型离子浓度总结于下表.
　
离子细胞内 (mM) 细胞外 (mM)
Na+ ~10 145
K+ 140 5
Mg2+ 0.5 ~1.5
Ca2+ 0.0001 ~1.5
H+ 0.00008 0.00004
Cl- ~10 110
▲ top
::::细胞亚显微结构 ::::
在真核细胞中, 细胞核周围有很多不同的袋子. 让我们看看下图.
图的下部是细胞核, 上部是细胞膜. 细胞核外接着就是自我连接的内质网(ER), 然后是高尔基体. 粗

糙的 ER 表面带有很多核糖体, 参与蛋白质的合成. 光滑的 ER 表面与胆固醇代谢, 细胞膜合成, 解
毒, 贮钙有关. 在粗糙 ER 表面合成的蛋白质穿过光滑的 ER 和高尔基体到达目的地. 在传递过程中,
蛋白质经历了磷酸化和糖基化.
溶酶体含有多种水解酶, 利用 ATP 的吸 H+能力维持 pH 值在 5 左右. 溶酶体中的酸性水解酶在 pH
为 5 时有最高活性.
　
过氧物酶体含有解离脂肪酸和氨基酸的酶 . 在酶反应中, 产生过氧化氢, 过氧毒素在催化下被分解

为氧气和水. 电影"Lorenzo oil"中的主人公患有髓鞘合成不足引起的肾上腺脑白质营养不良(ALD).
过氧物酶体就是合成胆固醇和髓鞘的地方.
过氧物酶体 <http://www.peroxisome.org/>
线粒体是我们体内产生 ATP 的主要细胞器. 线粒体数量超过了其他任何细胞器的数量, 在肝和心等

主要耗能器官中每个细胞含有上千个线粒体. 线粒体含有自己的基因组和独特的膜结构, 据信线粒
体很久以前是独立的生物, 与现今的生命共生. 除了产生能量, 线粒体的很多新功能如多种调节作
用正在被揭示.
线粒体以氧化养料产生的活性电子 , 在 F0F1-ATP 合成酶帮助下穿越膜结构形成质子梯度 , 合成
ATP. 我们体内主要在线粒体中耗氧 . 最近发现, 细胞的死亡过程, 无论凋亡还是坏死都与线粒体有
关. 在坏死过程, ATP 水平急剧降低引发细胞死亡 . 在凋亡过程, 细胞色素 C 自线粒体中分泌出来 ,
活化一系列胱天蛋白酶(caspases). 线粒体中的氧化反应似乎与衰老过程相关 , 低养份饮食下生命延
长似乎是由于线粒体中的低氧化水平导致的 . 线粒体氧化产生的自由基由超氧化歧化酶转变为过
氧化氢, 过氧化物如上所述在过氧物酶体中分解 . 线粒体基因组的突变引起了高度关注 , 是由于这
可能引发多种疾病如早衰, 癌症, 糖尿病, 老年痴呆症等, 所以线粒体将是新药的一个主要靶体.
▲ top
::::病毒 ::::
病毒是生命和非生命的分界线, 非常非常微小. 在寄主细胞之外休眠的病毒没有任何生命迹象 , 但
是一旦到达寄主细胞内 , 病毒急剧增殖并表现出强生物活性 . 一些病毒小到足以生活在细菌体内 ,
它们被称作抗菌素(Bacteriophage).
抗菌素网 : http://www.phage.org/
如同其他生物一样, 病毒使用 DNA 或者 RNA 作为遗传信息. 但是它们缺少很多生理功能所必需的

酶, 这让人们很难决定是否将其划为生物 . 它们所具有的基本工具就是进入寄主细胞 , 转换寄主细
胞的功能让它们为该病毒工作. 通常病毒基因组被蛋白质芽孢所包围, 但是当他们进入了寄主细胞
之后, 它们脱掉芽孢裸露出来. 当没有寄主细胞, 它们甚至可以晶体化如无机物一般.
▲ top
back to main page
回到首页
3. 化学生物学
基因表达
化学生物学
正向法化学生物学
逆向法化学生物学
通过蛋白质的研究
　
::::基因表达 ::::
尽管 99%的人类基因组序列已经发现, 还有 1%的工作要做, 下一步最重要的工作却是找出基因的

功能. 从研究基因结构和表达入手来解释物种特征是遗传学的工作. 经典遗传学在研究基因表达
上有两种方法 ; 一种是正向法(forward approach) 另一种是逆向法 (reverse approach). 估计正向法的
命名是由于先锋遗传学家们尝试猜想究竟哪个基因对一个性状产生影响并引用分子遗传学来证实
而逆向法得名于采用不同的方法寻找 DNA 标记点和性状之间的联系, 无需知道疾病起因.
在正向法中从遗传疾病患者或者由 X 光照射引起突变的基因中选择出非正常性状 , 然后寻找基因
和性状之间的联系 . 由于发现 X 光照射能引起突变 , Hermann Joseph Muller 获得了 1946 年诺贝尔
医学及生理学奖.
基因可以通过顶出(Knockout)而删除或者超量表达(Overexpression)而增加. 在逆向法中采用了基因
工程技术, 通过分析改变特定基因而引起的性状改变来发现基因的表达和活动. 然而有时由于一些
基因的活动被其他蛋白质删除后的补偿作用所替代 , 性状改变难以观测甚至被忽略掉 . 同时, 由于
性状改变有可能是由于蛋白质异常活动的第二或第三重影响, 虽然这种性状改变可以观测, 慎重的
确认过程仍是需要的. 改性基因的诱导作用通常不断积累, 证据就是在足够的观察之前胚胎发育并
可能杀死该生物. 如果基因在生长中有不同的作用, 这种基因是不适合研究的.
正向法和逆向法
<哈佛化学及细胞生物学研究所>
因此有时观察特征修饰时特定基因表达被暂时抑制 . 这时, 反义低聚物和能与 mRNA 反应并阻止

蛋白质合成的 RNAi 被成功使用.
反义低聚物是 DNA 和 RNA 的类似物, 而且其对 RNA 的互补序列与 mRNA 偶合并阻止翻译 . 由于
mRNA 序列含有合成蛋白质的信息 , 这被称作'义'序列, 而其互补序列由于具有对义信息的抑制作
用而称为'反义'序列. 一旦反义低聚物与 mRNA 成键形成双螺旋, 双链特异性 RNase H 被活化而破
坏这些信息. 如果 RNase H 不被活化, 对蛋白质合成的抑制可在翻译阶段发生. 这种方法久已研究,
被称作基因疗法, 但是天然 DNA 和 RNA 的负电荷导致了将它们注入细胞的许多问题 . 所以, 使用
了通过改变反义低聚物的结构而消除电荷或者使用聚胺作穿越细胞膜的转运体的方法 . 到目前为
止供研究使用的最成功的反义低聚物是 Morphlino 低聚物.(http://gene-tools.com), 这个领域最先进
的公司是 ISIS 他们有些产品已进入临床实验阶段 . 另一家公司 Welgene 正在发展针对更稳定的反
义分子的环形低聚物
反义低聚物
<Isis Pharmaceuticals, Inc>
RNAi(RNA 介入)是一个双链 RNA, 一链具有与目标 mRNA 相同的序列和强抑制作用. RNAi 最早
于 1995 年在 C-elegans 中的反义低聚物实验时被偶然发现 . 一般发现义和反义混合物较反义本身
表现出对为 mRNA 更强的抑制作用 . 进一步的研究证实不足量的双链足以完全抑制 , 而且表现出
对序列的特定倍增. 也已知它不但抑制蛋白质合成, 而且 mRNA 本身的量也在几小时内减少. 虽然
精确的机理仍然不甚了解, 但是对抗病毒或转位子的天然防御机制是其发生作用的一个模型. 由于
双链 RNA 在我们体内不多 , 一旦被发现就被自我防御机制视为异体 , 比如 RNase H. 这样的 21-
23mer 的碎片被解链酶分为单链 . 单链将与 mRNA 结合, 形成更多的双链, 这就进入了倍增循环. 更
详细介绍请见 Angew. Chem. Int. Ed. 2001, 40(13), 2437-2439.
▲ top　
::::化学生物学 ::::
化学生物学是自 90 年代中期以来的新兴研究领域. 哈佛大学的 Schreiber 博士和 Scripps 研究所的
Schultz 博士分别在东西海岸引领这个领域, 他们的所在地所形成的重心地位甚至在加强. 从源头来
讲, 化学是研究分子的科学, 生物化学, 分子生物学, 还有生物学化学都是一样的. 但是由于科学家
们长期以来的习惯称谓, 我们通常使用生物化学指蛋白质结构和活性的研究, 用分子生物学指基因
表达和控制的研究, 用生物学化学指分子水平上的生物现象的研究 . (如有错误或阁下有不同观点
请不吝赐教)
Schreiber from East Schultz from West
与这些相比, 化学生物学使用小分子作为工具解决生物学的问题或通过干扰/调节正常过程了解蛋
白质的功能.在某种意义上, 使用小分子调节目标蛋白质与制药公司发展新药类似. 但是, 当所有公
司的目标蛋白质到目前为止仅是约 450 种的时候, 人类基因组计划为我们带来了至少几万个目标
蛋白质. 最终的目标是寻找特异性调节素或寻找解开所有蛋白质之谜的钥匙, 但这需要更系统和整
体的方法而并非传统方法 . 化学生物学看起来是有希望的答案 . 系统的化学生物学仅仅诞生于 90
年代中期, 部份是由于基础条件到那时才刚刚完备 . 代表性的技术进步包括机器人工程 , 高通量及
高灵敏度的生物筛选, 信息生物学, 数据采集工具, 组合化学和芯片技术例如 DNA 芯片. 化学生物
学更普遍的被叫做化学遗传学(chemical genetics), 而且它正在扩展到化学基因组学. 和经典遗传学
相比较, 小分子并不是取代或超越基因表达, 而是被用于抑制或活化翻译过程.
Knockout à protein synthesis suppression vs molecular suppressor à protein activity suppression

Overexpression à protein synthesis activation vs molecular activator à protein activation
正如经典遗传研究方法一样, 化学遗传学中的正向法和逆向法都是可行的.
▲ top
:::::正向法化学生物学 ::::
在正向法中, 目标生物学现象第一次被定义, 然后引起被寻找现象的分子选择自许多被应用的分子
被选择的分子能被附到某些蛋白质上而且抑制/活化它们, 引发重要的修饰, 然后与分子相连的蛋
白质被检查并研究 . 下面是使用正向法发现和发展肌基质蛋白的例子 Nat.
Biotechnol. 2000, 18, 304-308.
1. 制得化合物: 首先, 为了获得足量得化合物以引发要得到的现象 , 通过组合化学的

合成方法制得嘌呤文库. 多种化合物可与放射性研究引起的不同变异相比较. 有关文
库合成及应用在其它章节有详述.
2. 定义目标现象 : 已经分化的神经原细胞和肌肉细胞很少被增殖 . 因此, 一旦受伤, 细胞长不好, 恢

复很难. 这项研究的最初目的是为了找到一种化合物来引起改变肌肉细胞分化 , 达到再生目的. 分
化的肌肉组织构成交织的管状结构 . 几百个嘌呤类化合物被在 96 孔圆片上植入潜伏肌肉组织中 ,
找到了能够分离相连接的组织的化合物 . 这种化合物自肌管(myotube) 隔断(severing) 嘌呤(purine)
命名为 myoseverin(肌基质蛋白). 事实上, 肌基质蛋白并不仅切断肌管分离细胞 , 而且洗涤化合物并
添加必需的养分以帮助增殖. 更令人激动的是如果增殖的细胞开始分化, 它们又造出肌管. 换言之,
如果这种化合物被注入组织, 一部分肌肉细胞就可期望再度生长并增殖, 因而产生新的肌肉组织.
药物处理前的肌肉细胞肌基质蛋白处理后的肌肉细胞
3. 检查化合物相连的目标蛋白质 : 虽然发现能够诱导需要的现象的化合物是最重要的前步骤 , 对与
化合物反应的目标蛋白质的细致检查然后理解其活性和角色才是真正的辛苦工作 . 如果需要的现
象定义得好 , 是否存在活性化合物的研究结果可以在短时间内显示 .
在肌基质蛋白的例子中, 当细胞结构迅速改变时, 预计细胞结构的构建蛋白质受到进攻 , 可以使用
带有荧光标记的抗体观察细胞图像 . 然后是染色的肌球蛋白, 它是体细胞的重要组成部分. 绿色的
是肌球蛋白, 蓝色的是核.
药物处理前的肌细胞肌基质蛋白处理后的肌细胞
肌基质蛋白处理前后的差异是显而易见的. 在肌基质蛋白处理之前, 细胞被统一连接, 但是处理后,
可以看到细胞相互分离. 然而, 是否肌球蛋白是目标蛋白质还不能确定 . 一些骨骼蛋白质是染色了
的但是结果是相似的. 可是, 当使用微管蛋白使微管染色的时候, 却得到了有趣的数据. 同样, 绿色
是微管蛋白, 蓝色是核.
药物处理前的肌细胞肌基质蛋白处理后的肌细胞
在被肌基质蛋白处理之前, 与先前的照片类似, 细胞与微管紧密相连, 但是以肌基质蛋白处理过的
细胞表现出破裂的微管. 因此, 一般猜测肌基质蛋白直接的或间接的攻击微管蛋白或微管 . 微管是
个管形结构, 含有 a, b 微管蛋白组合, 它参与了支持细胞结构和染色体运动.
微管蛋白 (Tubulin) 和微管 (Microtubule)
<McGill Medical informatics>
微管蛋白有 GTP 连接位点, 也是制造微管过程中 GTP 水解制得 GDP 的 GTP 酶. 微管含有增长+末
端和消除 - 末端 . 在细胞分裂中 , 染色体转移需要良好控制的微管的形成和破坏 . 天然物质 (vinca
alkaloids, cholchicine), 破坏微管或阻止微管蛋白的合成, 干扰正常细胞的分裂. Cholchicine 是被用
于无核西瓜的物质. 从另一方面来说, 紫杉酚(taxol)过度稳定微管并阻止其动力学变化, 也因其停止
正常细胞的分裂而被用于抗癌药 . 为使微管正常工作, 微管联合蛋白(MAP)也非常重要. 所以, 还不
清楚肌基质蛋白直接在微管蛋白还是其它 MAP 上发生功能 . 为了检验这一点 , 从 Cytoskeleton 中
提取了纯净的微管蛋白, 它在特种溶剂中制造微管. 当微管被插入时, 管形结构明显消失. 所以, 这
证实了肌基质蛋白直接在微管蛋白或微管上发生作用.
药物处理前的微管肌基质蛋白处理后的微管
根据以前的经验已证明微管蛋白在体外被肌基质蛋白进攻 , 但是在体内怎么样呢? 为了寻找具有
,
生物活性的分子与之成键的蛋白质, 普通大小的固相树脂被用于活性分子的亲和力矩阵, 然后蛋白
质被钓出. 肌基质蛋白上被加以连接分子, 然后与固相树脂相连做成钓索. 然后浸入细胞质混合物
一段时间, 蛋白质与树脂相连并被分析 . 然而, 由于肌基质蛋白的活性和蛋白质合成现在被中止 , 这
项工作不容易. 这是化学生物学方法中众所周知的问题.
修饰了亲和性的肌基质蛋白分子
钓出体内微管蛋白(1: 亲和分子, Ms: 肌基质蛋白)
在肌基质蛋白的例子中 , 如果不是使用连接分子与树脂相连 , 叫做链霉抗生素蛋白(Streptavidin)的

生物素与蛋白质强烈成键, 一种强活性官能团的亲核分子 . 这种方法的优点是引入了亲和分子 , 简
单的将其插入活细胞内就可与目标蛋白质成键, 而不是把细胞研碎而混合蛋白质. 如果目标蛋白质
与分子成键, 化学活性基团将以共价键与蛋白质的亲核部分结合, 因而可以通过生物素使链霉抗生
素蛋白体与目标蛋白质成键. 已证明实验后体内微管蛋白与亲和分子成键.
综上所述, 由筛选系统发现的肌基质蛋白使得已分化的肌细胞再生成为可能, 已证明微管蛋白引起

了这种现象. 与经典遗传学相比, 人们可以掌握出现的目标基因并甚至得到控制目标蛋白质活性的
小分子开关. 这种肌基质蛋白, 在经过实验后, 可被用作新的药物候选者.
　
:::::逆向法化学生物学 ::::
在逆向法中, 目标蛋白质受到化学物质进攻 , 首先被分类, 然后可以通过观察插入相关化学物时的
结果作用来分析目标蛋白质的体外功能 . 这里有一个这种方法的实例 : purvalanol 的发展和应用 .
Chem. Biol. 1999, 6, 361-375.
1. 选择目标蛋白质 : 细胞分裂是多种完备功能的蛋白质的和谐演出 . CDK(细胞周期蛋白依赖性激

酶)是每步细胞分裂中的控制开关蛋白质, 其中, CDK2 参与了 G1 到 S 而 CDK 参与了 G2 到 M. 一
些寻找它们特定功能的研究非常活跃 , 正在进展 . 所以 , 在这项研究中我们决定寻找能够抑制
CDK1 或 CDK2 功能的化合物.
细胞周期和 CDK
2. CDK 抑制剂的发展: 以正向法制得的嘌呤文库被用于在纯净的 CDK1 和 CDK2 上筛选酶抑制剂.
之所以使用嘌呤是为了让嘌呤类物质通过辅酶与 ATP 竞争结合位点. 为了加速筛选过程, 通过使用
放射性标记的 ATP 和组蛋白在 96 圆片上使酶活化, 然后测量磷酸基自用硝基纤维素滤纸过滤出的
蛋白质转移到组蛋白这过程中的所有的放射性 . 由 olomocine 起始, 선도물질 (IC50 7mM), 几步重
复之后我们得到约 1000 倍活化的 purvalanol 系列化合物 . 这些化合物同等程度抑制 CDK1 和
CDK2. 这是因为两种酶都是通过非常相似的路线建立起来的, 它们的 ATP 结合位点也相似.
3. Purvalanol 在有丝分裂中的作用: 如果 CDK1 和 2 被抑制, 将有什么发生呢?由于众所周知的事实,
这些酶在有丝分裂的每一步都扮演了重要角色 , 研究的第一步就是观察对易于观测有丝分裂的青
蛙卵提取物的作用. 在这个实验中, 注入激素以诱发更多排卵 , 从卵中提取出必要的物质 . 当植入从
青蛙精子提取的 DNA 时, 卵细胞误识其为受精, 并模仿细胞分裂. 通过控制中期(metaphase)Ca 的
数量可以中止细胞分裂. 卵细胞对这个实验非常有用 , 因为它们含有大量的蛋白质. 为了使图片清
晰, 核 DNA 染成蓝色而微管蛋白染成红色. 在正常阶段, DNA 折叠以形成染色体并排成一行. 然后
微管连到其上将其分到两边 . 但是, 如果在这个阶段加入 purvalanol, DNA 不会完全折叠, 微管就找
不到它们的连接位点. 这应该是进攻了 G2 到 M 的步骤. 可以说, 对 CDK1 的抑制强于 CDK2. 另外,
如果肌基质蛋白同时被加入 , DNA 一点也不折叠, 而且微管结构完全消失 . 这可能是 G2 阶段后紧
随的 M 阶段的微管受到进攻.
正常的中期 purvalanol 处理后肌基质蛋白处理后

4. Purvalanol 与蛋白质成键的确认 : 为了查证哪一种蛋白质与 purvalanol 成键, 使用了琼脂树脂亲
和力柱钓出未知的蛋白质 . 通常, 在亲和力柱中, 由于柱中其它碱性物质的存在 , 甚至一些没有任何
选择性的蛋白质也与目标蛋白质一同获得 . 为了分离这些不要的蛋白 , 使用了以 purvalanol 类无亲
和性物质做成的相对亲和力柱. 培养的卵提取物经柱子处理后过滤, 亲和力柱(Pur-97 矩阵)在应用
purvalanol 前后(A)表现出非常相似的结果, 但是相对亲和力柱出现了正常有丝分裂的步骤(B). 结果
说明亲和力柱仅吸附重要的蛋白质 , 参与正常的有丝分裂 , 在过滤步骤中与卵提取物分离 . 因此, 一
个可行的测试是到重新注入认为已被去处的蛋白质, 检查正常有丝分裂是否再次发生. 由于已发现
purvalanol 抑制 CDK1 或 CDK2, 当每个酶被用于 (A) 情况的时候 , CDK 不显示任何变化 , 但是
CDK1 清楚显示了紊乱有丝分裂步骤. 这个结果明确解释了 CDK1 是(A)状态的不足因素.
C-Matrix P-MatrixAnti-CDK1 blot
C-Matrix P-Matrix
另一方面, (A)和(B)柱吸附的蛋白质被过滤而且以阴离子洗涤剂十二烷基磺酸钠 (SDS)处理, 然后

通过聚丙烯酰胺凝胶电泳分离. 两柱都吸附的蛋白质被忽略 , 考虑到它们在柱子上随机附着 , 或者
通常与嘌呤结构成键 , 只有亲合性柱吸附的蛋白质被证实是 CDK1.
5. 肌基质蛋白和 purvalanol 在其它细胞上的作用 : 为了检查肌基质蛋白和 purvalanol 在卵提取物以

外的其它活细胞上的作用, 也处理了 U937, 一种白血病细胞. 蓝色是染色的 DNA, 绿色是染色的微
管. 小盒子是一个正在分裂的细胞. 在普通的中期, 着丝点分裂到细胞两边, DNA 折叠中的微管在
中间排列. 微管与它们连接然后将它们牵引到细胞的两端. 肌基质蛋白在没分裂的细胞上不产生作
用, 但是通过破坏微管为离散结构而影响分裂的细胞. 同时, 以 purvalanol 处理的细胞表现出未收缩
的 DNA 和已经分裂为两个但没有到达指定位置的着丝点 . 这是在 G2-M 期中止的结果. 另外, 细胞
变得比正常细胞大. 这是因为尽管中止了细胞周期, 细胞仍然进行蛋白质合成和新陈代谢.
正常中期 purvalanol 处理肌基质蛋白处理

▲ top
::::通过蛋白质的研究 ::::
化学生物学使用的大多数协议使用将小分子与天然蛋白质成键然后控制它们的方法. 然而, 当目标
蛋白质在大的官能团中存在的时候 , 选择性的控制每个蛋白质非常困难 . 激酶(Kinase)在体内是一
种使用 ATP 作磷酸化蛋白质及其它底物的辅助因子的酶. 蛋白质磷酸化, 是重要的信号传递系统的
开关, 指导蛋白质结构的修饰. 当生长因子或激素绑到一个细胞表面上的受体时 , 多种激酶逐渐活
化, 信号被传输. 有时, 一种激酶通过磷酸化活化另一种. 因此, 如果我们能将某个激酶磷酸化特定
蛋白质的途径做成谱图 , 这将为解释细胞与细胞表面受体结合后细胞内信号如何传递提供重要线
索. 一个研究方法是在存在以放射性标记磷酸基的 ATP 给出的信号同时, 检测蛋白质与放射性标记
的 P 成的键. 虽然如此, 因为已经知道人体内存在数以千计的激酶, 找出每种激酶的功能并不容易,
因为它们有可能是逐步活化的, 也可能是平行的.
最近加州大学旧金山分校的 Shokat 博士发展了一种新的方法以解决这个问题. 每个激酶包含 ATP
成键位点, 而且它们有非常相似的结构. Shokat 研究组选择了一种激酶, 他们想要研究它的功能, 将
一些体积大的有 ATP 成键位点的氨基酸替换为一些小的氨基酸. 利用基因工程技术, 基本上仅有激
酶本身被改变. 蛋白质有了游离的成键位点 , 而且由于对 ATP 亲合性显著降低, 在磷酸化反应中已
不能作催化剂. 当一个合适的修饰 ATP 分子被连接到游离的的位点时 , 激酶恢复活性. 重要的是其
它数以千计的激酶不使用这个被修饰的 ATP 作酶作用物. 瞧! 如果被修饰的 ATP 带有放射性标记
并被插入细胞内, 所有放射性 P 标记的磷酸化的蛋白质都成为修饰了的激酶的酶作用物.
另一方面, 合成仅与游离的修饰后的 ATP 成键的选择性抑制剂不是很困难, 可以在不影响其它激酶
的条件下研究有关的激酶的抑制. 这证明了从天然的蛋白质的经结构修饰得到的人造蛋白质, 能通
过人造 ATP 维持生物活性. 这种方法代表了一个新的研究方向 , 不仅是蛋白质信号传递研究的 , 而
且是整个生物学化学研究的.
▲ top
back to main page
返回首页
4. 文库
文库初窥
文库的定义
文库和药物工业
只有肽吗 ?
文库策略
　
::::文库初窥 ::::
到公元 2015 年, 人类基因组计划将在 21 世纪初完成,将引发一场生物学的革命 . 几乎所有人类基因
的功能和表达都已被报道, 有多种基因可以导致遗传疾病. 据 SNP 的研究, 每个个体基因的差异都
被存储起来. 这样个体组成的分析将仅通过简单检测一绺头发而实现 . 比如, 你的内科医生说 , "由
于你有 C 型胰腺基因, 从遗传上分析你的胰腺很弱, 你非常可能在 40 岁时患上糖尿病." 根据在线
数据, A 型胰腺是正常的, B 型胰腺约占突变总数的 30%. 对 B 型的治疗大约自 5 年前开始. C 型是
仅占总人口 0.1% 的罕见变异 , 由于刚刚发现 , 现在还无药可救 . 于是一个人致电制造药物的
pharmarnomix 公司, 定购恰当的新药. Pharmarnomix 的科学家有 C 型胰腺的蛋白表达和晶体结构,
于是查找哪种化合物可以通过分子模型仿真恢复 C 型蛋白受损的功能. 他们选择了几百万种前导
分子, 用计算机设计合成路线, 通过自动合成仪合成. 经过高通量筛选, 选出最好的 10 种, 在临床实
验后 , 与你的病最对症的药物最终送到你的门上 .
简直就像是在做梦 . 然而, 人类基因组计划已经测定了几乎所有的人类

基因组序列. 对每个基因功能的研究已经可以进行并加速前进 . 这意味
着化学家可以合成药品来控制致病基因或所表达的蛋白 , 他们的生物
靶分子以等差级数增长 . 用传统方法制备如此之多的药物几乎是不可
能的, 将需要约 10 年时间. 当然是越多越快的方法越是好方法 . 为此发
展新的方法以适用于短时间内制备大量新药 , 高通量筛选检测新药特
性成为必需. 这些研究最重要的核心就是文库 . 几年前科学界提出了文
库的概念. 尽管生物学家自 70 年代已使用基因组库和 cDNA 文库这些
词, 文库的概念被整个科学界如化学和药学所接受仅是最近 10 年的事
情 .
尽管历史很短, 现在文库技术已被应用于自生物活性分子到材料科学中寻找超导体的广阔领域, 并
且还在扩大. 随着很多领域开始使用文库方法, 文库的基本概念也在变化甚至有时被赋予了错误含
义. 90 年代初次登场时就被化学界广为关注 , 现在对整个科学界大为影响, 成为 21 世纪后基因组时
代的先锋概念并有成长为范例之势, 文库 , 到底是什么?
▲ top　
::::文库的定义 ::::
文库可被定义为所有可能组合的集合或者关于集合的研究 . 在组合的概念上可以说文库就是组
合化学 . 组合化学的含义甚广, 但我们仅取其与本章一致的含义. 文库最初的含义是储存文献和艺
术资料以供阅读 , 参考 , 借阅等活动的地方 . 现在很多国家虽在使用这个词却与其本意不同 .
为了更便于理解文库的概念 ,兹举一例. 仅用字母 A 和 B 的组合可以产生多少单词 ? 仅考虑两字母

以内的词时结果是:
A AA B BB AB BA
有六种可能组合. 我们可以称之为含有 A 和 B 的 6 种全部可能组合的集合. 以此拓展至英文词典.
字母表中有 26 个字母, 如果我们假设每个词总是含有 5 个字母, 我们可以计算一本词典含有多少
词汇.
AAAAA
AAAAB
AAAAC
.
.
.
ZZZZX
ZZZZY
ZZZZZ
全部可能组合是 26 x 26 x 26 x 26 x 26 = 11,881,376. 如果亦考虑含有 5 个以内字母的词, 一个字母
的有 26 个词 , 两个的 26 x 26 = 676, 三个的 26 x 26 x 26 = 17,576, 四个的 26 x 26 x 26 x 26 =
456,976. 如果假设全部词汇即是这些, 那将是,
26 (1) + 676 (2) + 17,576 (3) + 456,976 (4) + 11,881,376 (5)
= 12,356,630 个词
我们称这个集合为文库 . 在韦氏英语词典中, 有大约 300,000 词汇, 我们可以发现 1200 万的文库早
已超过了实际使用的英语词汇数 . 然而, 从以上步骤可以看出无论说英语与否 , 每个人都可以编一
本包含全部组合的新英语词典. 当然会有许多诸如 QQQQQ 这样可笑的垃圾词汇, 但是它仍然包含
了全部有用的词汇 . 我们称之为文库词典 . 从没有出现过的词也可以在这本词典中找到 . 多于 5 个
字母的怎么办呢? 很简单. 假设最长的单词含有 40 个字母. 你只需要编一本 40 个字母组合的词典!
26 + 262 + .... + 2639 + 2640…并继续. 你可以肯定的说你编了一本含有全部可能词汇的词典 . 词汇
总量可以通过增加限制而大为缩减 , 比如没有 4 个以上连续相同字母的词. 但这仍然含有很多从没
用过的垃圾词汇 .
现在让我们试着编一本实用的词典. 如果有一些有用的词丢失了怎么办? 没关
系. 可以首先编一本词典 , 然后逐个检查滤出无用词汇 . 有很多检查方法 . 比如
对 100 个英文为母语的人作调查 . 最终的词典可能因他们的种族 , 国籍, 年龄的
不同而有所不同. 英国人和美国人做出来的词典将差异很大 . 我们也可以使用
网络资源或者总结不同的词典 . 经过筛选之后的最终版可能有所不同 , 但至少
可以说没有任何词汇需要添加到最初的词典中 . 精确的说, 如果把全组合库中
的词汇置于特定规则之下 , 至少每个词都有机会通过筛选进入新词典中 . 正如
这个简单的例子一样, 在文库制备和筛选过程中可以应用许多不同的修正方法 .
文库方法的基本概念就是短时间内制造出包含大量候选物的文库并筛选需要
的部分 .
　
▲ top　
::::文库和药物工业 ::::
文库是怎样被实际应用的? 药物工业是文库使用最活跃的领域 , 是一个很好的例子. 自第一个抗生
素青霉素于 1928 年发现以来, 很多药物公司使用从世界各地采集的动植物及土壤来发展新的抗生
素. 几个大的药物公司拥有几百万种样品 . 一旦发现一个新的细菌, 他们即对样品实验并选出未感
染者, 然后从这些样品中寻找新的抗生素. 仅有大的药物公司拥有如此财力人力和精力做这样的实
验. 但是是否这些样品可以检测全部新的细菌 ? 几百万的样品库是否就包含了全部的可能 ? 答案是
“ 绝不是 .” 之所以说样品库不能令人满意 , 不是由于数量不足 , 而是覆盖面不够广 .
( 青霉素 , http://www.latesting.com/body_photo_gallery.html)
再说蛋白. 尽管有所例外 , 绝大多数蛋白值仅包含 20 种氨基酸. 蛋白质由几千个氨基酸组成 , 较短

结构的称作肽. 于是, 加上一个意为 2~10 的前缀“oligo”, oligopeptide 的意思就是含有 10 个以内氨
基酸的肽. 我们体内如荷尔蒙和神经传递素等很多活性分子是 oligopeptide. 尽管蛋白质长达几百氨
基酸 , 事实上仅有 2~4 个氨基酸序列就决定了蛋白质的功能 . 是否可以建立一个肽文库呢 ?
以 20 个氨基酸计, 含有 2 个氨基酸的肽有 20 x 20 = 400, 3 个的 203 = 8,000, 4 个的 204 = 160,000,

5 个的 205 = 3,200,000. 可以看出 5 个氨基酸的组合已经超出了药物公司的样品总数 . 合成 5 氨基
酸的肽非常容易 , 也就是说一个含有 20 种氨基酸总数达 320 万的肽文库可以几天时间内合成 . 我
们仅需从文库内筛选活性分子 . 这样我们就试验了 320 万种可能. 由于肽有于天然蛋白质相同的结
构, 它可以被我们的新陈代谢所消化 , 也可以作为抗原产生不必要的免疫作用 . 所以以肽本身作为
药物非常困难. 因而当发现了一个活性肽之后 , 首要任务就是在其上进一步发展药物分子 . 尽管如
此, 合成蛋白质不是比满世界采集土壤更有意思吗？
肽文库
<http://www.soton.ac.uk/~chemweb/research/profiles/organic/kilburn/kilburn5.htm>
传统方法是药物化学家一次合成一个化合物然后检验其生物活性 . 据说一个突出的化学家可以每
年合成 50~100 种化合物, 每个耗资 7,500 美元. 与之相比, 如果采用文库技术, 每个月合成上千种化
合物而每个仅耗资 10 美元. 为新药寻找目标细菌或蛋白质曾经是非常慢的工作, 但是自更多采用
了青霉素等抗生素之后, 细菌的抗药性不断频繁且迅速产生, 甚至有预言现在的药物发展速度赶不
上新细菌的产生速度, 人类终将灭亡.
▲ top　
::::只有肽吗 ?::::
尽管上面应用的主要是肽, 任何结构单元都可以构建文库, 正如我们可以用希腊字母表代替英文字
母表. 事实上, 早期主要尝试的是核酸文库 , 如 DNA 和 RNA 库. 除了使用 A, C, G, T (或 U)的四字
母表, 其他都与肽文库一样. 如果合成一个 5 元碱基的简单核酸, 其文库有 45 = 1024 种组合. 肽及核
酸都是一维高分子. 例如, A 之后是 C 然后是 G…如此继续. 这样的文库将可能有重复排列的数量.
A-B-B-C-A-D-D-D
如果不是线形而是环形结构呢? 组合数不同所以会产生新型的文库. 糖类较氨基酸或核酸也可以使
用, 合成分子较天然产物也可以使用 . 无需必是线形或环形结构 , 也无需是有机物. 金属氧化物或者
聚合物是否也可以呢? 所以说, 文库的参与单元是没有限制的.
▲ top
::::文库策略 ::::
基本上文库的应用过程是这样的: (1) 选择目标. (2) 定义目标分子的特性. (3) 设计筛选目标分子的
方法. (4) 合成文库. (5) 筛选出前导化合物. (6) 合成前导化合物相似结构的次级文库并再次筛选较
前导化合物性能更好的分子. 重复步骤 (4) 及 (5) 决定最优活性化合物.
选择目标
↓
定义目标分子的特性
↓
设计筛选方法
↓
合成文库
↓
筛选
↓
最终活性分子
　
选择目标分子
尽管文库应用于快速生产大量化合物, 产物本身并不是最终目标. 如果文库的基本目标是发现新的
特性分子, 我们需要决定找寻什么类型的特性 . 既然药物工业是文库使用最多的领域 ,我们就讨论
新药的开发吧. 我们要尝试什么类型的药? 揭开新纪元的抗癌药物? 或者 20 世纪的杀手, 爱滋病?
有许多疾病可以做文库的目标 . 考虑研究费用是否充足 ,当然还有销售潜力也应该被考虑 , 我们可
能需要读各种不同经济的和医学杂志还有那些惊人的好主意 . 由此产生一个最终目标例如治疗谢
顶或汽油替代品 . 尝试无害 , 我们就说想要发现治疗爱滋病的药吧 .
一旦确立研究方向, 我们需要考虑要得到什么样的化合物 . 为得到爱滋病治疗药物, 首先我们需要

了解所有有关爱滋病的知识 . 爱滋病(获得性免疫机能低下综合症 )是 HIV 病毒引起的(对其起因也
有一些其他观点). 衰退了的免疫系统导致病人死于各种各样对常人无效的感染 . 该如何治疗呢 ?
可以提出多种方法. 首先,把 HIV 病毒视为最终敌人,那么方法就是杀死或阻止病毒感染 . 由于大多

数病毒寄生于寄主细胞 , 理想的治疗就是仅杀死病毒而对寄主细胞无害 . 第二种最好办法是杀死
含有 HIV 病毒的寄主细胞以使周围的健康细胞不被感染. 这种情况下, 目标分子必须对人体毒性最
低却能杀死病毒或阻止感染. 可以有很多途径, 如阻断病毒感染过程或选择攻击病毒活动必需的因
素 .
如果应用不同的方式 ,所需要的分子特性将完全不同 . 如果应用不同的方式 , 所需要的分子特性将

完全不同. 是否可以通过增强免疫力而不是攻击病毒, 让病毒被增强的免疫系统自然地扑灭; 抑或
如 Bernard Werber 的帝国中的蚂蚁 , 与病毒和平共栖 ? 尽管目的相同 , 目标分子的特性可能完全不
一致.
设计筛选方法
一旦确定目标分子的某一特性 , 就应设计恰当的筛选方法 . 如果目标分子的特性是对病毒有毒性 ,
就可以培养病毒然后筛选对病毒致命的分子. 因为绝大多数病毒只生长在宿主细胞体内, 必须确认
化合物仅杀死病毒而不影响细胞. 为检查其是否杀死被感染的细胞, 需要测试正常细胞以作为对照
组. 如果要寻找一个增强免疫活性的分子, 就应当采用一个不同的筛选方法. 可以将待测分子注射,
如果可能, 入实验动物或人体内并检查相关的免疫细胞数量是否增加, 或检查免疫细胞的体外活性
甚至仅是检查免疫细胞的活动 , 也可以仅仅使用显微镜数增加细胞的数目 , 或者通过将细胞活动
的生化变化转变为颜色变化而后用分光光度法检测. 即使决定了目标分子的特性, 也可以由各种不
同的感知其特性的筛选方法备选 . 在这一点上, 可能需要相关领域专家的意见. 上述程序与通常的
医学化学研究程序相同 . 让我们看看下一步文库技术是如何应用的 .
文库合成
如果筛选方法也确定了 ,下个步骤就是文库合成 , 这与通常的有机合成方法有根本的不同 . 普通合
成化学经过设计，合成和分析等几步 : (1) 首先, 根据待合成的目标分子用反合成分析法设计高效
的合成路线. 由于分子的体积和复杂性全合成可有几十条路线 , 路线是否高效决定了成功与失败 .
如果起始反应物买不到, 通常的办法是在实验室里经过几个步骤合成 . (设计) (2) 根据设计合成目
标分子. 一般的目标分子仅有几个化合物 . 有时需要几十个, 一般只有大工业才可以 . 通常大多数反
应是在溶剂中进行的. (合成) (3) 合成中每一步的副反应产物通过重结晶 , 萃取, 气相色谱等方法去
除, 产物的结构和纯度通过元素分析 , NMR, 质谱, 或红外紫外光谱等技术分析. (分析) 文库合成过
程类似, 包含设计, 生产和查证等步骤.
文库设计
虽未提及, 在普通方法中已经决定了文库的设计 . 换言之, 有关合成目标的信息已经在设计步骤中
给出了. 这样的活性分子是新药的候选物 , 称作前导化合物. 很多时候如青霉素等 , 前导化合物是从
天然产物中发现的, 也有时可在合成另一个目标的过程中偶然被发现 . 抗生素, 重氮化合物的发现
都曾是在合成染料的时候发现的 , 这是非常好的例证 . 此外, 谷氨酸和多种激素也是前导化合物 , 它
们是生化学家研究神经传递素和激素时发现的. 由于前导化合物可以简化合适分子的修正过程, 它
的存在对通常的研究是必需的. 当对目标物没有任何线索的时候寻找前导化合物显得尤为重要. 大
型药物公司耗费大量时间和精力收集各地土壤等天然物就是为了寻找前导化合物.
在文库设计中前导化合物非常重要. 如果手头没有前导化合物, 就需要构建一个基本文库去搜寻它

如果没有任何目标分子的信息,最广谱的文库就是最适于搜寻的文库. 构建抗体文库寻找新抗原步
骤与免疫反应非常相似. 免疫系统产生的抗体可与几乎所有抗原结合, 因而可以人工构建一个包含
所有结合可能的广谱文库 . 众所周知抗体由蛋白质和含有 3~5 个氨基酸的抗原决定基(epitope)所组
成. 因此, 由 20 种氨基酸做构造单元的文库被广泛用作第一个文库 . 当然, 由于肽有在体内分解等
问题不能直接应用, 也有人尝试构建合成化合物的通用文库 , 考虑了众多因素如电负性 , 亲水性, 亲
脂性等的组合, 但至今还没有一个建成.
然而,除非递送到正确的部位或保持足够的浓度, 即使是对目标蛋白质活性最强的化合物都是无用
的. 这些是药物代谢动力学的问题 , 通常在前导结构的效能最优化之后的阶段考虑 . 这就是, 首先改
良效能, 然后才考虑传递 . 但是,在早期阶段或与效能最优化平行的阶段就考虑这些问题的呼声正
愈演愈烈 . 一个好药主要要考虑的问题就是吸收，分配 , 代谢 , 排泄和毒性 , 这被缩写为 ADME.
1997 年, Lipinski 提出了"5 规则" 用以预言分子吸收性. 如果一个分子有如下性质, 一般吸收较差:
(Adv. Drug Delivery Rev. 1997, 23, 3-25):
1. 多于 5 个氢键给予体
2. 分子量大于 500
3. 分配系数 LogP 大于 5
4. 多于 10 个氢键接受体
当然,被活跃的传送体如葡萄糖传送的分子, 对这些规则例外. 为何这些规则叫做"5 规则"是因为每
条规则都包含 5 或其倍数. 虽然有许多例外, 这些规则在开始真正的合成之前仍然对设计类药分子
非常有用.
文库生产
在文库合成中, 固相反应与液相反应一样广为应用 . 许多多样性合成方法已被报道因而短时合成
大量化合物的方法已经开始蓬勃发展. 但是, 合成产物的净化和提纯步骤也需要越简单越好. 另外,
原料是否可得也需要在设计高效路线之前考虑到因为大量化合物是一次性合成的. 反应物可以购
得且价格便宜是个优点, 可是合成路线还需短而简单 . 因为多数情况下每一步并不能完全提纯 , 考
虑到终产物提纯, 整个反应必须限制在 5 步以内.
文库查证
确认正确合成了化合物是必要的 . 通常文库合成一直进行到最终步骤而不除去副产物或确认反应
终结. 所以, 提出和查证终产物是必须的, 这是文库合成的最大弱点. 多数步骤可以同时平行进行,
但是这最后的一步在大多数时候仍需一个一个链式处理得到的产物. 换言之, 提纯和分析通常需要
大量时间和精力. 文库产物分析中也如普通方法那样经常使用 NMR, 但是色谱技术如 HPLC/GC 更
多用于提纯而质谱用于检验物质结构. 已经做过很多改进和自动化这一步的尝试.
筛选
一旦文库化合物被合成, 就可以使用已设计的筛选方法选择活性分子 . 由于化合物量非常大, 所以
高通量筛选是必需的 . 最终, 第一个前导化合物被发现了 . 如果前导化合物在初期已经发现了 , 这一
步即可省略. 前导化合物一经发现, 下个步骤就是合成与前导化合物结构相似但略有差别的次级文
库. 在这一步与前导化合物的相似性比多样性更重要. 从次级文库中筛选较前导化合物活性更高的
分子是个重复过程 . 关于哪个结构起重要作用的信息是在这一过程中发现的 , 这叫做构效关系
(SAR). 这些重复的文库合成和筛选过程叫做最优化，这与抗体的突变非常相似.
最终候选物
经过如此的最优化过程, 选出最终候选分子, 但是这并不意谓这些化合物能被直接应用于新药研究

举例来说, 即使候选分子能够在体外杀死 HIV 病毒并且优于其他药物 , 在实际应用之前还有很多
工作要做. 很多时候在体外表现非常好的活性分子在体内没有任何效果 . 除此之外, 有效分子时常
表现出无法接受的副作用并且被从候选名单上删除 . 由于这些原因 , 必须进行更切实际二次筛选 .
如果第一次筛选是在体外进行的, 第二次筛选将是在实验动物如小鼠或天竺猪体内. 第二次筛选如
第一次一样, 需要构建一个新的次级文库合成反馈循环. 在经过多年动物和临床实验证明之后 , 一
种新药即可上市. 实际买到的药是从数以千计的前导化合物中选出来的 . 通常, 从发现前导化合物
到临床前的筛选需要 6 年半(包括动物实验), 1 年半的第一阶段临床实验(健康志愿者身上的安全测
试), 2 年的第二阶段临床实验(数百病人身上的活性和副作用筛选 ), 3 年半的第三阶段临床实验(数
千病人身上的活性确认和长期副作用监测 ). 有了这些数据 , 药物公司才可以向食品药物管理局
(FDA)申请批准, 而评估又需要半年. 开发一个新药的总耗时长达 10-15 年! 这一过程每减少一年
就意谓着延长专利权一年, 和早一年造福病人. 当庞大的药物公司正在尝试减少开发投入而且通过
并购增加市场份额的时候, 他们也在尝试多种方法以缩短新药开发周期. 尽管部分由于市场上没有
任何可替代药, Gleevec 利用 Norvatis 开发的抗淋巴瘤药物是较短的开发和批准周期的一个成功范
例.
▲ top
　
back to main page
　
　
返回首页
5. 免疫系统及抗体
自然课
免疫学
免疫学历史概要
催化抗体
　
::::自然课 ::::
是谁最早开始使用文库的? 是大自然. 没有人知道是什么时候和怎样开始的. 但是, 在人类心智开启
甚至在人类种族出现之前, 大自然已经开始使用文库合成, 那是在进化过程中.
免疫系统对抗体的反应是一个很好的例证. 抗体的免疫反应仅在高等脊椎动物中存在. 这是已知的

最精妙复杂的身体抵御外部物质的系统 . 入侵物称作抗原或者免疫原(immunogen). 由于蛋白质和
糖类等任何物质都可以成为抗原 , 抗原的形式是无限的. 抗体是免疫球蛋白的一种, 可与抗原选择
性的反应, 是仅含有 20 个氨基酸的短链蛋白质, 由重链和轻链构成 V 型核心区域. 由于 DNA 中的
遗传信息控制蛋白质合成, 一个生物体有必要包含所有抗体的信息吗? 是否是由几十亿条遗传信息
合成几十亿种抗体来抵抗几十亿种抗原? 人类仅有几万基因, 容不下如此巨大的数量.
抗体
<http://www.sdix.com/tsd/, http://www.accessexcellence.org/AB/GG/Antibody.html>
为解决这个问题, 活的生物体使用文库方法. 在整个抗体结构中, 与各种抗原结合的位点是最重要
的. 结合位点至少包含 5 段随机肽链其中有重链和轻链 . 它们并不是仅由一个基因编码的 . 如果有
10 个片断, 总组合就是 100,000, 于是这个方法就能够形成多样的结构 . 免疫系统实际上仅使用数
百基因即可建立数十亿抗体来对抗外部物质.
抗体攻击
(http://www.gcarlson.com/method_atc.htm, www.biotech.ufl.edu/~hcl/ antibody_apps.htm)
让我们讨论一下文库方法是如何用于抗体合成的. 抗体是一种称为免疫球蛋白(Ig)的蛋白质, 被分
为 G，A，M, E, D 等几类. 最典型的抗体是 IgG, 有 Y 型三维结构, 包含两套重链和轻链, 质量约是
150kD. 抗原结合片断(Fab), 也即识别抗原的位置 , 在抗体的末端, 桥型部分称作晶化片断(Fc). 抗原
结合位含 108 个氨基酸, 有三个片断 , 称作 V 区(可变区), D 区(差异区)和 J 区(连接区). 换句话说,
它是各种不同的 V-D-J 组合 , 一个是 V 区变化 (V1 ,V2,V3...V250), 一个是 D 区变化
(D1,D2,D3...D15), 一个是 J 区变化(J1,J2,J3...J5). 因此, 总组合的个数是 250 x 15 x 5 = 18,750, 但这
只适用于重链. 轻链有 V-J 组合但没有 D 区, 这样就是 250(V) x 4(J) = 1,000 种选择. 所以总的重链
和轻链个数是 18,750 x 1,000 = 18,750,000. 另外, 因为 D-J 和 V-J 之间相连的桥不匹配所导致的选
择拼接可以产生额外的多样性, 约为三倍. 这与文库生产有关.
产生抗体
<http://nongae.gsnu.ac.kr/~sykim/body239.jpg>
根据 V-D-K 遗传信息按照这种组合产生的抗体称为胚系抗体(Germline Antibody). 尽管很多种不同
的抗原入侵, 但仅有几种抗体抗原结合相对紧密. 但是, 18,750,000 x 3 (考虑选择拼接)并不是所有
可能的组合. 还有更多呢! 由于结合位点含有 108 个氨基酸, 每个又可能是 20 种氨基酸中的一种,
理论上说可产生 20108 种抗体 .
大自然在这一点上大自然又耍了个花招 . 在胚系抗体中 B 淋巴细胞 (一种体细胞 )产生一种可与抗

原紧密结合的前导抗体 . B 淋巴细胞通过部分突变不断产生新修饰的抗体群 , 这称为体细胞突变.
体细胞突变可以产生新的多样性, 用以选出优化后的与抗原结合更紧密的抗体. 这一步与文库优化
过程有关 .
关于抗体-抗原和酶-底物键合有两种互为竞争的模型 : 锁钥模型和诱导契合模型. 锁钥模型解释了

结构互补电荷相异的抗原与抗体在特定位置特异性结合的基础 , 诱导契合模型解释了相对较大的
抗体通过改变结合位形状与抗原的几种构象结合. 根据对胚系抗体和体细胞突变最近研究, 胚系抗
体通过改变形状与抗原结合符合诱导契合模型 . 另一方面, 体细胞突变符合锁钥模型 . 这时, 突变的
氨基酸能够协助形成抗体非结合位的特定形状 . 因此, 一旦抗原被识别, 胚系抗体就被选出来柔韧
地抓住抗原, 然后体细胞突变以加强构象, 从而增强对抗原的结合.
<http://www.biology.arizona.edu/immunology/tutorials/immunology/09t.html>
体细胞突变
<http://www.srl.cam.ac.uk/tcrg/stem.html>
▲ top
::::免疫学 ::::
既然已经解释了抗体 , 让我们再谈谈免疫学的一些重要的概念 . "免疫学"起源于拉丁文 "immune",
意为"安全". 当一个活的生物被外部物质攻击的时候, 防御功能立刻反应以抵
抗. 免疫反应是防御功能之一. 第一道防线有皮肤, 胃(胃酸: pH2), 黏膜, 泪液,
唾液(溶菌酶, IgA)等可以抵御病毒 , 细菌和霉. 当第一道防御线被穿越 , 下一
道就是免疫反应 , 有先天免疫和后天免疫之分 . 补体, 巨噬细胞, 溶解酵素, 和
干扰素通过非特异性反应参与先天免疫 . 所以, 溶解酵素和干扰素被称作天
然抗体. 后天免疫是一种细胞防卫, 能够识别几种特定的对身体有害的外部物质 . 这种能识别多种
抗原的强大反应, 得益于三种类型的细胞表面感受器的进化 . 每一类都有很多, 分别是 T 细胞, 抗体
和 MHC 分子. 考虑到它们的蛋白质结构类似, 有人推测他们起源于相同的基因. 由于难以判断一种
外部刺激物是否有害, 我们的身体总是假定未知物为有害的入侵者 . 如果免疫反应成功, 身体复原
并产生特定记忆, 引起后天免疫, 所以它下次能处理相同的物质. 然而, 免疫反应并非总是好事. 极
端免疫反应能引起自身免疫性, 移植物对抗宿主疾病和过敏. 因此, 在自身免疫, 过敏症和移植手术
时必须抑制免疫反应. 尤其是如果一个器官接受者在手术之前已输入了器官捐赠人的血, 移植将引
起敏锐的排斥反应, 因为接受者已被免疫. 作为比照, 家鼠有非常强的免疫系统而叙利亚仓鼠一点
也没有移植排斥反应. 人类与鼠类器官构造几乎相同. 人类的四大杀手是外伤, 传染病, 癌症, 衰老
疾病, 都与免疫反应有关.
抵抗抗原
T, B 细胞, 巨噬细胞(在血液中称为单核细胞), 树突状细胞, Langerhans 细胞, 肥大细胞, 和粒细胞都
是免疫细胞. 在 T 淋巴细胞中有辅助性 T 细胞(包含 CD4 并与 MHC II 成键)和杀伤性 T 细胞(包含
CD8 并与 MHC I 成键), 而 B 细胞与抗原成键并表达抗体. 免疫反应可分为通过抗体的体液免疫和
通过杀伤性 T 细胞的细胞中介免疫 . 主要识别系统是 T 淋巴细胞 B 淋巴细胞和免疫系统中的
MHC, 而且一般据推测 T 细胞免疫发生在第一次产生抗体前 . 在产生 T 细胞受体和抗体的 B 细胞
中, DNA 重组并增加了多样性 . 重组过程包括 DNA 限制, 通过 mRNA 步骤中的附加限制在众多可
能性中仅产生一个受体或抗体 .
免疫学参考资料
Playfair, J. H. L., Immunology at a Glance, 5th ed.(1992)
Travers, J., Immunobiology, 2nd ed. (1996)
Roitt, I. Essential Immunology, 7th ed. (1991)
Kimball, J. W. Introduction to Immunology, 3rd ed. (1990)
▲ top
::::免疫学历史概要 ::::
1798: Jenner 尝试接种法从而开启了遗传学的大门
1881-1885: Pasteur 制出抵御霍乱 , 炭疽病 , 狂犬病的疫苗
1882: Mechnikov 发现了巨噬细胞的噬菌性
1890: Behring 尝试使用被动免疫疗法治疗破伤风
1900: Landsteiner 发现了 ABO 血型 . 红十字会建立
1906: Pirquet 发现了过敏症
1910: Dale 发现了组胺并建立了抗组胺剂工业
1922: Fleming 发现了溶菌酶和青霉素
1944: Medawar 尝试皮肤移植 ( 但排斥反应剧烈 )
1947: Owen 发现了孪生子间相互不产生排斥
1957: Isaacs 和 Lindemann 发现了干扰素
1959: Gowans 发现了淋巴循环
1960: 淋巴细胞修饰
1961: 发现了免疫反应和甲状腺之间的关系
1966: 发现了 T-B 细胞关联反应
1971: 发现了 T 细胞抑制效应
1974: Jerne 推断出免疫控制的整套理论构架
1975: Milstein 及 Kohler 制出单克隆抗体
1980: 官方宣布天花灭绝 , 但是 …
1981: 天花绝了 , 爱滋来了
1984: 发现 T 细胞受体结构
1987: 发现 I 型 MHC 结构
▲ top
　
::::催化抗体 ::::
发展高效和选择性的催化抗体对整个化学反应是非常重要的 . 在自然界最杰出的生物催化剂是酶,
酶被于多种化学反应. 然而，酶基本上仅在生物条件下工作而且仅限于生物有关的反应 . 因此, 作
为超越生物催化限制的方法, Schultz 和 Lerner 在 1986 年用设计人造抗体的方法发展了催化抗体技
术, 能够催化一些反应. 催化抗体可用于多种化学反应类型如水解 , 周环反应, 异构化和氧化还原反
应等.
如果通过降低活化能使过渡态更稳定, 包含起始物过渡态的反应的速率将大大提高. 这个假说和推
论自 60 年代即被提出, 但向活体生物中注射不稳定过渡态的抗原以引发产生抗体看起来几乎是不
可能的. 然而, 通过设计化学稳定的过渡态的类似物(它们有相似的结构和电荷分配), 催化抗体成为
一个非常强大和有价值的武器.
然而, 尽管合成了抗原类似物并通过传送蛋白质注射入活体生物内, 有时抗体并不表现足够的催化

活性甚至根本不产生抗体, 亦或产生的有足够催化活性抗体被不恰当的筛选方法错过. 在这种情况
下, 发现问题是不容易的, 而且最好的解决之道是设计一个新的抗原 . 因此，要发展性能更好的抗
体, 高效抗原设计和高效筛选方法成为必需和焦点所在.
1997 年 , Scripps 研究所的科学家们发明了利用共价键引出高效活性抗体的一种新方法 (Science,
1997, 275, 945). 他们获得了抗体的基因表达位置而后向抗菌素基因组中插入基因的随机文库 . 被
插入的基因被表达成抗菌素的部份表面蛋白质, 在上有为数众多的相同的抗体蛋白质. 他们发明了
一个反应在固相的固定底物上切除糖类异常区域. 当底物被催化剂水解的时候, 人工设计形成高活
性官能团. 反应和共价键同时形成然后参与反应的抗菌素被固定到固相上. 在洗去多余的抗菌素和
反应物之后, 仅得到催化反应的抗体. 尽管一些抗体的结构被共价键所改变 , 可以通过增多抗菌素
的方法得到大量的高纯度抗体 . 这个新的方法使科学家能够使产生的抗体比来自杂交的抗体活性
高 100 倍, 在一些突变循环之后甚至产生更好的抗体 . 这是杰出的应用进步 , 而且研究结果实现了
短期分子进化.
在过去的十年里, 催化抗体已经成为模仿酶催化反应的最有力的候选人 . 然而, 已经有批评反驳是
否催化抗体的催化性质来自特定的键或仅从蛋白质的性质衍生而来 . 举例来说 , 在 1996 年
Hollfelder 和其他人否认白蛋白, 一种普通的蛋白质 , 可被用作催化剂的说法因而抗体不是特别地
需要(Nature, Sep. 5. 1996, 60). 蛋白质的酶活性以前不曾被发现而仅被看作离子运输体 . 并且, 白蛋
白的催化速率几乎与催化抗体无异 . 这个提议重新唤起了关于构造相似的酶催化反应系统是否是
最好办法的争论.
由于特别的性质和提高了百万次的反应速率特别诱人, 已经有许多人尝试复制酶活性, 不仅仅是在
抗体上. 一个典型的例子就是模仿酶分子内反应及底物配合物所作的设计. 尤其酰胺和酯类化合物
的水解反应被用亲核试剂和多种可与普通酸碱反应的官能团研究过 . 这些实验中有二种提高反应
速率的方法. 一是减少反应物运动并且提高反应可能性, 另一个是设计反应官能团的结构以利反应
在某些情况下当反应基团之间的距离和方向被精确控制时 , 反应速率迅速提高一亿倍以上. 但是,
因为催化剂和底物必须以共价键结合 , 这并不是真正的催化反应 . 催化剂在反应之后不再生 .
酶进展到释放它的产品来增加与底物的亲和力 , 就完成了化学反应 , 再进行下一个. Micell 发明了

模仿的人造机器 , 它能利用静电吸引控制反应速率 . 另外, 在 Michaelis-Menten 动力学研究上表现
出强烈性质的聚合体如聚乙烯咪唑是另一个好的例证 . 尽管大多数的这样的体系不可以像环糊精
或大环化合物那样精确复制活性区域 , 它们的反应速率可加速到 100~10,000 被以上 .
酶催化反应的一项基本概念是酶的活化位置选择性降低底物的活化能 . 在催化抗体中, 庚烯(分子

内免疫反应) 是真正近似复制反应物过渡态的三维结构和电荷分布的分子 . 因此, 催化抗体的反应
速率比上面预期的快 100~10,000 倍. 催化加速可以用抗体-底物复合物在 1 千克催化剂下转变的速
率与非催化反应的速率之比来表示. 如果抗体不能表现与酶相似的加速作用, 那是因为没有对过渡
态的模仿不够. 另外一个原因是溶剂对抗体的作用. 通常酶-底物复合物在无溶剂的情况下结合形
成, 但是抗体-抗原反应发生在暴露于溶剂中的蛋白质的表面上 . 抗体不能为反应提供足够的氨基
酸链从而得以拉近反应物基团.
<http://www.scripps.edu/research/skaggs97/>
酶为何如此特别? 上述的解释可能过于集中在稳定反应物过渡态上. 反应物于过渡态的自由能之差
非常重要. 怎样能减少它? 因为底物和酶的极性相差不大, 发现酶过渡态较底物过渡态的亲合力高
十亿倍是很怪异的. 如果有隐藏的线索, 那一定是转化为过渡态之前的底物与较易诱导其转变的周
围环境的组合 . 如此的环境结构然后提供模子给반응참여기 的化学反应组合而且固定了水分子 .
与之相对照, 如果相同的反应发生在溶剂中, 溶剂的组合将会打断它与过渡态间的转变.
▲ top
back to main page
返回首页
6. 生物文库
通过微生物制得肽文库

抗菌素文库
细菌及酵母文库
淘洗 (Biopanning)
DNA, RNA 文库
　
::::通过微生物制得肽文库::::
正如前一章所提到得 , 抗体及免疫细胞受体是典型得生物文库 . 在免疫系统中, 文库设计, 合成以及
优化的整个过程都由生物体自己控制. 只有抗原结构和形成胚胎因子的遗传信息是外部的条件, 其
余均是由内在因素自发控制. 因为免疫系统使用蛋白质结构文库, 它们将氨基酸作为文库的基本因
素.
因为肽或以含氨基酸形成的蛋白质都是通过翻译遗传信息而合成的初产品 , 需要序列的蛋白质能
容易地藉由向微生物如细菌或病毒体内插入修改后的遗传信息来获得 . 微生物文库合成有几大优
点. 可以克隆微生物使每种微生物只制造一种蛋白质, 而且即使只有一个细胞也可以利用细胞增殖
简单克隆出足够数量. 使用生物的最大好处是他们能自我繁殖, 只需给予充足的补给.
这是对使用微生物的蛋白质合成过程的简短描述 . 在合成用于制造目的蛋白质序列的 DNA 链之后,

合成其互补链, 如果需要的话使用酶. 为使合成的 DNA 在微生物中恰当的复制并翻译, 需要用病
媒动物(vector)压缩它然后进入微生物之内. 蛋白质在微生物的表面上被表达, 下一步是寻找目的蛋
白质.
制造文库需要多种遗传信息. 随机 DNA 合成或切片 cDNA 或某种生物全基因组 DNA 都可使用. 制
造特定蛋白质的 DNA 序列片断能被修改以制造突变蛋白质文库. 考虑到体积限制和微生物繁殖
的表达速率, 可以制得 109(十亿)种文库. 与 106 到 107 种合成文库相比, 这可是个大数. 5 单元肽的数
量是 205(320 万)种, 6 单元的是 6400 万, 7 单元肽的数量超过 10 亿. 因此, 如果改变了超过 7 氨基酸
的肽, 就仅能制出没有包含全部可能组合的不完全文库 . 但这并不意谓着我们不能制造超过 7 氨基
酸的蛋白质. 对于长链蛋白质, 7 个不同的氨基酸能被单独选择而且替换 . 当 DNA 随机合成的时候,
可以重复 DNA 密码而指定相同的氨基酸, 并且改变产生的频率. 因此, 为得到所有可能的组合, 需
要更多的克隆体.
　
::::抗菌素文库 ::::
抗菌素文库是最著名的蛋白质文库法之一. 抗菌素寄居宿主体内, 是一种含有衣壳和遗传物质的病
毒. 这种方法在 80 年代中期发明, 在 90 年代开始用于多种领域.
M13 和 Lambda 病毒是最著名的.
M13 和 lambda 病毒
<http://www.cvm.msu.edu/courses/mic569/docs/parasite/>
<http://www.hal.rcast.u-tokyo.ac.jp/genome/Present.htm>
M13 是一种薄长的病毒, 由于它的基因组体积小, 可以容易地制出多种文库. 不同于其他病毒, 它能
到宿主细胞的外面而不损坏它们或抑制它们的生长. 已知 M13 在宿主细胞中增殖其遗传信息并且
以包着衣壳的形式出现 , 它能制造 10 种类型的蛋白质 , 而且通常在 pVIII, pIII 衣壳中合成文库 .
pVIII 蛋白质包围其整个身体, 含有约 50 个氨基酸. 通常每一病毒表达 2700 个. 因为它的氨基端伸

出衣壳, 可以修饰它以在其上表达一个不同的肽 . 通常一个长肽不能够表达 , 但是 6 单位的肽是可
能的 . 由于同时表达大量相同的文库分子 , 尽管相对较短 , 用它于多种配体反应是可以的 .
pIII 蛋白质在病毒末端表达 , 而且通常是含有 406 个氨基酸的 3 到 5 种蛋白质. 它能表达相当大的

蛋白质因而可以将它用在全蛋白质或抗体文库种 . 正常的抗体使用 Fab, 即抗原识别区域, 或者说 Fvs
链. 抗菌素文库和杂种细胞是制造抗体的最著名的方法. M13 是制造随机肽文库的理想材料, 而且
病毒能够足够稳定的被沉淀和浓缩 , 因而在 1-10µL 体积中筛选 109 种文库成为可能 .
不同于 M13, Lambda 病毒在细胞质中包裹着衣壳 , 当有足够数量后穿出衣壳而不是总是戴着衣壳

出现. 换句话说, 如果表达不同的蛋白质, 它将会折叠的形状出现并具有恰当的功能. pV 和 D 蛋白
质普遍用于文库合成 .
如同能在抗菌素表面表达蛋白质一样 , 还有随机肽, 天然蛋白质碎片, 特异性突变蛋白质文库和部

份抗体碎片, 他们可用于色谱材料, 蛋白质-蛋白质反应, 受体结合位搜索和药物发现.
　
::::细菌及酵母文库 ::::
不仅带有衣壳的病毒, 还有带有细胞壁和细胞膜的细菌也能用于文库表达. 革兰氏阳性菌和革兰氏
阴性菌都能用来在细胞表面表达蛋白质 , 还有大肠杆菌 (E. coli), 一种革兰氏阴性菌 , 也普遍使用 .
大肠杆菌是如此有名, 以致于外行如我者也知道两种细菌 : 一是大肠杆菌, 另一种是其余的. 细菌文
库可以找出一种能够与抗体紧密结合的抗原, 然后将其用作疫苗. 细菌文库也可用于表达诊断抗体
或受体文库, 以用于特定材料的分析.
革兰氏阳性菌革兰氏阴性菌
<www.meddean.luc.edu/.../DeptWebs/ microbio/med/gram/tech.htm>
<http://www.hhmi.org>
高等动物的蛋白质被蛋白质合成后的磷化作用或糖加成修饰的功能称为翻译修饰翻译修饰. 但是
细菌作为一种原核生物没有这种功能 , 因而合成了一个蛋白质后要么它由于溶解度低而沉淀 , 要
么失活. 因此, 酿酒酵母, 一种真核细胞就被利用. 尽管酿酒酵母如细菌一般是单细胞, 它有翻译修
饰功能并且能够使合成的蛋白质与原始的极为相似.
酵母
<news.bbc.co.uk/hi/english/health/ newsid_761000/761884.stm>
与病毒不同, 由于它有微米大小的细胞所以可以使用 FACS(萤光活性细胞分类 )技术. 文库中的蛋
白质在细胞表面表达, 然后经过 FACS 机的细管, 这样萤光标记的目标分子就被加到其上. FACS 根
据萤光颜色和活性强度分类每个细胞 . 分类不同颜色的目标分子并分类不同活性和选择性的细胞
是可能的. 另外的优点是液相筛选 , 它不必分离紧密附着的分子 . 分类后的细胞再一次繁殖 , 然后再
筛选.
　
::::淘洗 (Biopanning)::::
下面是一个合成的微生物文库的实例. 它的目的是寻找一种能够跟特定分子紧密连接的酶.
<http://www.hort.purdue.edu/CFPESP/Hasegawa/ha00002.htm>
首先，目标分子平均地被置于检光板上. 制备了的微生物文库被加到板上. 只有与目标分子紧密结
合的微生物能够存留 , 其余的都到了溶液中 . 一段时间后, 除去没有结合的微生物 , 然后以恰当的溶
液洗涤弱结合或偶然结合的微生物. 目标分子结合的紧密程度决定了洗涤过程. 仍然存留的微生物
可通过加入低 pH 或高浓度的目标分子而分离 , 通过繁殖增加数量 . 有时结合程度太强时分离它们
而不致死细菌是困难的 . 如果它是噬菌体, 而不是分离, 那就可以直接感染宿主细胞 . 由于存在偶然
未考虑的微生物种类 , 第一次增殖的微生物直接进行重复筛选－增殖的过程以增加含有活性蛋白
质的克隆体数量. 最后在低浓度下培养后, 每个克隆体得以分离 . 通常选出几十个克隆体用于 DNA
序列分析. 如果从 DNA 信息得到的肽结构是可识别的而且大多数克隆体表现出相同的肽序列 , 那
就意味着成功了. 然而, 因为蛋白质可能对多种克隆体表现出毒性而且 DNA 表达率能改变, 总是
有一种可能性存在, 即克隆体增殖速度和表达效果均好于期望的筛选结果 . 因此, 通过测量肽合成
及键强度的证实步骤是必需的 .
即使在被获得的 DNA 或肽中有重要的药物候选者 , 它们也将在蛋白质激酶的作用下在体内迅速水

解. 因此, 用具有相似肽结构的人造分子取代它们是必需的 , 尽管这个步骤非常困难 . 几年以前麻州
理工学院的 Peter Kim 小组报道了一个有趣的实验 , 他们用 D-氨基酸取代其光学异构体天然 L-氨
基酸以降低水解率. 他们使用人造 D-氨基酸作为靶分子 , 用天然 L-氨基酸筛选发现了高亲合的肽 .
因为真正的受体是由 L-氨基酸构成, 也即其镜像, 于是他们合成了已发现的 L-肽的镜像, 即 D-肽.
当 D-肽被用于天然受体的时候 , 它仍然表现了高活性 . Perter Kim, 过去一直作 HIV 感染途径和治
疗方面的工作, 现在正在 Merk 工作, 他是在 Sung-ho Kim 博士那一代之后最强有力的韩国诺贝尔
奖候选人.
　
::::DNA, RNA 文库 ::::
微生物蛋白质文库技术基本基于活体生物的自我再生能力 . 那就是, 通过放大(饲养)少量已获得的
候选分子来提高纯度和数量 . 蛋白质是活体生物利用遗传信息的产物这一点也非常重要 . 如果用
DNA 或 RNA 而不是蛋白质可以吗 ? PCR(DNA 扩增技术 )的发展, 使得自 90 年代早期以来使用核
酸做文库成为可能 .
因为 DNA 和 RNA 是由 4 种单位构成 , 10 长度的低聚体有 410(约 106=一百万)种, 20 长度的低聚体

文库有约 1012 种. 通过使用自动固相 DNA 合成机, 序列中的 5'端和 3'端被修饰, A, T, C 和 G 随机放
置, 每个约占序列的 25%. 当有了一条链后, 就通过使用酶或 PCR 扩增复制它. 通常约 1014-15 个分子
被合成和使用 , 但是时常存在大约 40 个随机引入位 (1024 种), 有时他们以不完全文库系列开始 . 对
于 DNA 文库 , 基本使用 DNA 本身 , 而对于 RNA 文库 , 需要 T7 RNA 聚合酶转录 .
制备的文库按照与靶分子结合程度筛选;用 PCR 扩增 DNA, 用 RT-PCR 扩增 RNA. 蛋白质, 不同的

核酸, 糖类和小分子都可用作靶分子. 放大了的文库的筛选和扩增过程被重复直到 1014-15 的起始
数量降至几百, 然后分析获得的候选分子的序列, 并且测量每个的亲合强度.
SELEX
<http://web.uvic.ca/sciweb/Courses/B300/B300.Outline.html>
这些已获得的 DNA 和 RNA 叫做智能配体(aptamers), 它们表现出对蛋白质靶分子的强亲合性, 高
1nM Kd. 智能配体抑制靶分子在体内的功能 , 但是它很快地被体内的核酸酶破坏 . 为了解决这个问
题, 文库的一些部份用人造核酸取代以增强对核酸酶的抵抗性 . 在他们之中, 核酶(ribozymes), 一种
可以催化其它化学反应的催化剂, 也被发现而且可以确认 RNA 界假说.
back to main page

　
返回首页
7. 化学文库
文库合成
液相反应及固相反应
文库合成的历史及发展
固相载体
连接分子
编码及解码
文库的前景
文库领域的论文 , 杂志及书籍
　
如果我们不能从天然产物中找到多样性的来源, 我们就只能人工合成化合物文库. 尽管早期药物是
从天然产物或者经修饰的天然产物中得来, 近期药物都是从合成化合物发展而来. 为了易于穿过细
胞膜或进入生物体内, 药物或生物活性分子不能过于亲水或亲油. 据报道, 如果一个分子的分子量
低于 500, 氢键受体少于 10 个, 氢键给体少于 5 个, 而且 clogP 值小于 5, 那就被称为类药物分子. 考
虑到上述文献, 我们设计并合成所要求的分子.
::::文库合成 ::::
从根本上来说的, 文库化合物的合成方法不同于一般的有机合成 . 根本差异在于化合物的数
量. 通常在有机合成中, 首先选择一个合成目标然后通过反合成分析寻找最优的合成路线. 依
据目标化合物的大小和复杂程度 , 整个合成方案可能经过很多合成步骤, 所以高效的合成路
线称为合成目标化合物的最重要因素 . 然而当同时合成很多化合物的时候 , 试剂能否获得比
发展一条高效的合成路线更为重要 . 为防止试剂买不到, 额外的合成步骤是必需 , 这又需要选
择一条高效的合成路线. 较之传统合成方法允许逐步提纯 , 文库方式要么得到无法分离的混
合物, 要么得到纯净的化合物. 有三种制得化合物的方法, 分别是混合和成, 平行合成和组合
合成 .
混合和成
通过使用过量试剂使文库化合物以混合物形式存在 . 现有方法是: (1)随机引入多种官能团到
具有多个活性位置的结构上 , (2)使用这个结构自身进行组合 . 尽管这种方法可以合成大量的
化合物, 它也有一些缺点, 一是混合物的纯度及其相对数量的分析 , 另一个是通过筛选检验识
别生物活性的化合物, 这需要附加工作. 而且即使这个方法有同时筛选大量化合物并且减少筛选步
骤的优点, 在处理筛选数据结果的时候仍然要小心 , 因为每化合物的浓度在这个步骤之后会降低 .
通常, 为获得高质量的文库化合物, 混合物中每个化合物的浓度相同是合理的条件 . 为保持这个浓
度, 加入等量的试剂而且在反应期间保持恰当的温度是必需的. 这个方法可被用于液相反应或固相
反应 .
为了要在混合合成中表现生物活性 , 必须能够从混合物中识别活性成份 . 可以采用这样一些策略 :

(1)通过从最初的文库合成子文库的方法来减少含有活性成份的区域 ,(2)使用省略了文库的一些成
份的省略文库, (3)使用交叉了每个成份的交叉文库. 令人郁闷的是, 即使我们使用了上面的方法, 我
们仍不能从文库中识别哪些是高活性成份 . 因为某些弱活性化合物与高活性的在文库中混合在一
起, 或者因为 2,3 个化合物间的协同作用而产生了活性, 虽然单个化合物不表现任何活性.
交叉文库
　
交叉
　 A1B A2B A3B
AB1 　 A2B1 　
AB2 　　　
AB3 　　　
平行合成
平行合成类似一般的有机合成, 每个反应在分别的反应条件下实现 . 简单来说, 它的不同之处在于
许多反应可在许多反应器中同时进行的观点. 为了能够处理许多反应, 必须每个反应的处理步骤很
容易, 因此更为倾向采用固相反应方法 . 对我们来说, 另一个选择是昂贵的自动合成仪 . 如果不用树
脂作固相载体, 也可以使用通过半导体芯片的照相平版合成的芯片形式的载体.
各种自动仪器
　
组合合成
组合合成仅能用于固相反应. 混合-裂分作为一种通用方法, 与基本的固相载体"单珠单化合物"相联
系. 例如, 如果我们尝试利用单体 A, B 和 C 合成所有可能的低聚物, 全部可能的化合物总数为 27 (3
x 3 x 3). 所有可能的固相载体的数量必将远大于 27 所以混合-裂分过程的统计量是相等的.
让我们开始合成. 当我们引入取代基到固相载体上的 1 位置时, 就将固相载体分为三个部分且每部

分与 A1, A2 和 A3 反应. 如果反应完成, 一个取代基(A1 或 A2 或 A3)就被引入到固相载体上的 1 位
置. 在固相载体充分混合之后, 再将固相载体分为三部分. 事实上, 这个固相载体在 1 位置含有几乎
相等的取代基 (A1 或 A2 或 A3). 然后 , 我们运行反应对固相载体上的 2 位置引入不同取代基
(B1,B2,B3). 分离早先反应的, 取代基(B1 或 B2 或 B3)之一被几乎相等地引入到 2 位置. 重复同一操
作(固相载体充分混合然后将固相载体分为三部分 ), 引入另外的一个取代基 (C1,C2,C3). 最后, 我们
通过 9 个反应得到 27 个化合物. 因为固相载体被当作相同的单位移动 , 固相载体上的化合物被当
作以相同的路径合成来的, 因而由 27 种化合物之一组成. 即使合成的化合物是混合物, 如果我们能
选择有活性的固相载体, 即整合结构相同的固相载体, 那就能仅从一个固相载体上识别活性化合物
为避免识别化合物结构的困难 , 解码在固相载体上同时进行 .
使用相同的方法 , 使用 20 个子单位(20 种氨基酸)可以合成一个五聚物 , 借助这个五聚物可以通过

100 个反应来合成 320 万个化合物. 如果合成了六聚物, 就可能用它借助 120 个反应合成 6400 万个
化合物. 事实上, 可以合成难以置信的数量的化合物 , 但这只是增加筛选困难 . 如果能发展一个新的
方法使筛选固相载体上的合成文库然后选择含有生物活性分子的树脂珠成为可能 , 那将是绝对有
价值的. 在组合合成的早期, 树脂珠上的肽低聚物可以与特定染料受体相作用 , 然后在显微镜或放
大镜下用一对大头针手工选出.
肽文库
<http://www.personal.psu.edu/faculty/n/x/nxp7/bead.html>
▲ top　
::::液相反应及固相反应 ::::
可以通过溶液相和固相合成文库. 据估计固相合成比溶液相合成更有优势, 两种方法都有一些优点
和缺点.
溶液相反应
首先让我们谈谈溶液相合成的优点. 总体来说, 大多数的经典化学反应都是在溶液中进行的. 因此,
(1)在溶液相合成中, 可以使用先前所有的有机合成方法而没有任何的限制 ; (2)反应物均一混合并
且快速移动使得反应机会增加; (3)在加热反应的例子中, 热能通过溶液中的分子分散而被均匀转移;
(4)大量反应可以通过控制反应釜的大小和反应物的数量而实现 ; (5)可以在每个步骤提纯并且分析
反应化合物 .
但是, 也有一些缺点, (1)在反应完成之后, 需要的化合物和副产物都一起在反应混合物中, 需要溶液

化学中的分离步骤 . (2)如果使用过量试剂以获得高产量 , 需要提纯试剂. (3)如果起始物质或副产物
(或需要的化合物)易挥发或沉淀, 那就容易多了, 可是, 如果这些不发生, 就需要一个比较困难的后
处理工作-萃取或色谱. 因此, 后处理过程通常需要更多的时间和精力胜于反应过程. (4)自动化溶液
相合成由于提纯程序的复杂化而非常困难, 因而难以实现.
为与合成类型相符合, 溶液相文库被分为平行合成和混合合成. 溶液相合成中的平行合成与一般的
有机合成几乎相同除了许多反应是在反应釜中进行 . 在本例中, 在反应完成后后处理应该很简单 .
如果反应是通过控制混合材料, 压力和温度而完成的, 后处理只需蒸发而没有任何其他的如萃取或
色谱等提纯过程, 这是理想的反应. 除此之外, 如果过量试剂或副产物是挥发性的或者沉淀 , 就可能
仅用蒸发而除去它们. 虽然可以使用酸-碱萃取或短柱色谱 , 我们仍需要考虑所有的可能 . 如果上面
的选择是可行的, 就有获得大量纯净的化合物的优点 . 另一方面, 目标化合物的基本结构被在溶液
中合成然后目标化合物在固相树脂珠上合成各种不同的官能团 , 这种方法也被分类为溶液相文库
合成. 在本例中, 使用了过量的固相树脂珠然后被过滤而去除而产物仍留在溶液中.
固相反应
考虑到溶液相合成的问题 , 固相合成的有的有 (1)起始材料在固相载体上被修饰, 而且反应在固相
载体上通过增加溶液来进行 , 在反应完成后 , 不想要的化合物和过量试剂被恰当的洗涤过程提纯 .
(2)有时过量试剂可用来获得没有附加提纯程序的高产量 . (3)即使分子内的环化反应或多反应位点
的选择性加成或选择性取代通过溶液相合成中的溶剂稀释来反应 , 这些反应类型在固相合成中可
被无特定条件的进行 , 因为固相载体的反应位点保持假溶解的条件 (保存适当的距离彼此 ). (4)即使
在固相载体上的起始材料非常有毒, 我们也能安全地处理固相载体直到反应完成. (5)自动化固相合
成容易实现, 因为简单而且易于重复反应和提纯过程.
但是, 也有一些缺点 (1)通常固相反应速率不快, 因为系统是处于固相和溶液之间的异相系统 . (2)
为构造反应条件, 需要较溶液相反应更多的精力和时间 , 而后者已经发展了很多反应 . (3)在反应物
被附到树脂珠上后, 需要额外的树脂切割反应步骤. (4)由于载体和连接分子的原因, 反应受到限制.
(5)识别反应中间体有些困难. (6)通常, 固相合成是不适于获得大量化合物的. (7)如果副产物被附到
了树脂上, 副产物只能在最后一个步骤被去除.
固相反应最大的优点是过程容易. 通过将试剂与溶剂在树脂上混合而使反应进行, 反应之后树脂以
恰当的溶剂过滤和洗涤 , 构成一个循环步骤 . 反应经过几步完成, 最终产物附到树脂上 , 然后通过树
脂切割反应而获得. 根据对化合物纯度的需要, 需要额外的提纯过程.
固相合成中最常用的载体是直径为数十或数百 μ m 的树脂珠(1000 μm = 1 mm). 树脂是无定形有机
聚合物的通常名字, 举例来说, 松树树脂是一个天然的树脂 , 而合成树脂在固相合成中应用 . 如此体
积(数十或数百 μm)的树脂不能被透过多孔的过滤板, 这样就可以除去试剂和溶剂. 具有微米单位直
径的树脂珠有时难以转移, 因为树脂上产生了静电而被黏附于反应釜的内部. 固相反应因此在有多
孔过滤板的反应装置中进行, 这有利于完成过滤和洗涤等后处理. 玻璃器具或化学惰性材料如聚丙
烯被用来做反应釜. 下图表示了一个固相合成仪器, 可以完全手工进行反应而不需自动化仪器的帮
助.
由于不同的溶剂和树脂的密度, 树脂或者沉在液面以下或者浮在其上 , 这会引起反应速率变慢. 为

了避免这样, 反应釜的顶端和底部都加了个盖而且震动良好 . 通常, 因为树脂不能经受剧烈的机械
震动, 不推荐使用磁子或者其他材料来搅拌反应混合物, 而是改为轻度摇动或从反应釜底部通入空
气. 摇动仪器可以根据方向(垂直, 水平, 圆型或摆型)或速率分类为几种类型. 如果使用轻重量的聚
丙烯反应釜, 就可以的同时处理许多反应釜 , 而且还能看到反应釜的内部 . 然而, 聚丙烯反应釜不能
够受热, 如果需要加热, 就得用玻璃的或钛福隆(PTFE: 聚四氟乙烯)的反应釜.
在反应完成之后, 打开底部的盖子并自顶端吹入空气或氮气, 也可从底部抽真空以便除去溶剂和试
剂. 通常, 在这个过程中加入纯溶剂并重复洗涤树脂, 因此要根据树脂和试剂的类型慎重选择溶剂.
举例来说, 甲醇是一般有机合成中的好的溶剂 , 但在固相合成中, 树脂在甲醇中不能有效洗涤 , 于是
改用二氯甲烷. 如果树脂要存放较长时间 , 最后就以低沸点的溶剂洗涤树脂 , 在真空下干燥, 然后就
可以存放了. 如果树脂干燥得不好, 树脂就会从空气中吸潮, 所以要小心. 的确, 如果树脂吸潮就很
难除去潮气. 另一个干燥树脂的方法是持续通入空气或氮气.
　
即使可以在普通有机反应容器中进行大量反应以外的固相合成, 但为了反应过程简单, 最好还是构

建最优的反应条件或通过平行反应同时合成多种化合物 . 尽管需要合理安排实验计划并处理数据
以同时进行多个反应 , 已经有现成的成果可用于短时间获得大量结果 .
Merrifield 是固相合成领域的先驱, 他在 1963 年第一次发表了固相肽合成的方法 , 现在这种方法经

过改进后被视为自动肽合成和核苷合成的标准方法 . 固相合成是文库概念复兴的核心技术 .
平行合成和组合合成使用的混合 -裂分方法广泛用于固相合成 . 混合合成的优点是容易实现自动化

因而应用于肽或核苷等聚合物合成中. 平行合成的固相载体比溶液相合成更加多样化. 在溶液相合
成中, 化合物经由定位每个反应釜的地址而被识别 , 同样的方法被用于固相合成 . 这时, 我们利用了
固相合成的产量高和仅通过过滤和洗涤就可提纯反应等优点 . 根据固相载体的类型而分为多针型
和树脂型, 如果采用树脂, 那么就可以使用多种类型的过滤容器.
液相反应
与固相合成有第一个问题是反应在不同的系统中进行导致低产率或慢的反应速率而在溶液相反应
中就容易实现. 一个新的方法尝试解决这个问题然而仍保有固相合成的优点, 这就是使用能够在典
型溶剂中完全溶解的固相载体 , 然后制造一种同种的反应媒介 . 乙烯乙二醇聚合体 , 在 Scripps 被
Kim Janda 发展, 在使用的极性溶剂中同种溶解 . 这个反应, 也就是说, 在极性溶剂中完成, 在反应完
成后, 加入非极溶剂以沉淀固相载体 , 然后固相载体被过滤并洗涤 . 这个方法, 有能够实现所有的可
能反应而且容易提纯的优点. 因为乙烯乙二醇聚合体不能经受强烈的机械震动, 不能有强烈的搅拌
而且并不是所有的固相载体都沉淀了, 过滤时存在一些固相载体的损失.
溶液相反应和固相反应的结合
反应中使用固相承载试剂(solid supported reagents)有一些策略, 这将结合溶液相和固相合成的优点 .
很早以前就使用了固相承载的试剂但是在溶剂相合成中很难除去 . 一个经典的例子是用离子交换
树脂除去酸和碱. 在文库中使用固相承载试剂的策略是使用大于普通固相反应量的试剂. 固相承载
反应适用于没产生不需要产物的反应 . 当反应被完成时, 试剂在溶液中溶解然后转变为产物 . 未反
应的固相承载试剂仍留在反应瓶中. 过滤掉固相承载试剂后得到提纯了的产物.
相似的方法是在溶液相反应后使用固相反应物以清除残留的试剂或副产物 . 这种树脂试剂被称为
清道夫树脂.
　
使用氟化物的文库合成
氟-碳键表现出非常独特的性质, 因为 C-F 是强极性键却仍由于氟的高电荷密度而保持着较低的极
化率. 换言之, 高氟烃(取代氢)保持内部极性键, 但是作为分子整体却表现出非极性的性质 , 因而即
不溶于水或醇等极性溶剂也不溶于烃等非极性溶剂 , 而是产生第三层. 应用这种特性, 氟标记的文
库化合物可以被萃取到氟溶剂中而剩下其他的副产物和反应物在水相或有机相中 . 这种方法的优
点是可以享受溶液相化学的优点, 但是如果氟试剂和溶剂的在萃取过程中的复原率不高, 由于氟材
料的高价格这将是不经济的方法 . 使用这种氟文库的先驱是 University of Pittsburgh 的 Dennis P.
Curran 教授.
▲ top　
::::文库合成的历史及发展 ::::
The Merrifield 的固相肽合成始于 1960 年代 , 在 1980 年代中期在多种平行固相合成中得到复兴 .
Geysen 发展了一种利用多针和标准 96 孔圆片一次合成 96 种肽的方法 , Houghten 引入了茶袋法.
1990 年代早期 , 提出了单珠单化合物概念 , 合成了一个高度混合文库结合了子文库和重叠合法
(deconvolution). 另一方面, 被用作半导体工业中的标准方法的照相平版技术也被应用于文库合成.
多针法
96 个聚乙烯针排列于标准 96 孔圆片上, 每个针的末端赋以反应用的官能团. 每个孔包含活化的氨
基酸溶液, 针被浸于溶液中以进行肽偶联反应; 每个反应孔将产生不同的肽产物. 这种方法大约能
产生 0.05-2 mmol 的肽.
微量滴定圆片多针
<http://www.krict.re.kr/~shhwang/combimd.html>
　
茶袋法
带有小孔的聚乙烯袋, 与实际的茶袋非常相似, 里面填充树脂珠且每个袋子置于不同的反应器皿中
以完成氨基酸偶联反应. 反应后, 收集所有的袋子一齐做去保护基反应并洗去树脂珠以节省时间 .
在本方法中, 袋子起到了滤纸的作用并防止了不同反应间树脂珠的混和 , 而且通过标记袋子, 合成
的肽结构可被识别. 大约有 500mmol 的 100 种不同的肽可用此法合成, 这是平行合成的实际方法证
明, 尽管合成的肽种类不是很多.
茶袋法
<http://www.krict.re.kr/~shhwang/combimd.html>
　
重叠合法 (Deconvolution)
有几种不同的方法可被用于重叠合法 , 一个例子如下. 如果用 20 种氨基酸制得 5-mer 的肽文库(全
部可能组合数为 205 = 3,200,000), 第一个氨基酸以及其余 4 个都将会从 20 种氨基酸中随机抽取. 在
这些 20 套肽混合物(每个包含 204 = 160,000 种肽)中, 最具活性的混合物将通过筛选而得到 . 在第二
轮中, 肽的 1 位将赋为第一轮筛选出的最具活性的 , 2 位将从 20 种氨基酸中选择 , 其余 3 个位置随
机选择. 这些 20 肽混合物将包含 203 = 8,000 种肽, 第二轮筛选将决定 2 位最具活性的氨基酸 . 按照
类似的过程, 重复 3 遍后找到最有活性的分子. 这种方法将使筛选 100 个反应(20 每轮 x 5 轮)制得
的 300 万余种化合物成为可能. 尽管这种方法对于液相及固相化学都可行 , 因为自动化所带来的易
处使得固相肽合成及从载体上切割下来然后筛选的技术更为广泛应用 . 由于溶液中的分子是自由
的, 可供选择的筛选方式较固相载体束缚的肽更为宽泛 . 虽然如此, 筛选的最初阶段所给出的混合
物(例如 160,000)中含有太多种分子, 因而活性组分的浓度太低而不易与噪声相区别 . 一个改进的方
法是固定以 20 种氨基酸固定一个位置并令其他 4 个位置随机然后筛选 ; 所有的子文库将包含
160,000 种肽混合物 . 经过 5 轮筛选 , 给出最优的选择 .
随机合成肽混合物的一个重要方面是在一个位置上引入相同量的 20 种氨基酸. 如果不是这样, 产

生的文库的相对量将会随不同氨基酸的反应活性而改变 , 最后干扰正常的筛选 . 依靠侧链的性质 ,
氨基酸的反应活性可被单独测量, 而且一个互惠(对反应活性而言)量的氨基酸应该被混合以产生等
量的混合物.
照相平版
照相平版术包括光敏保护基和石版印刷术, 在半导体工业中是一个标准的工具, 在平行合成中有所
应用. 在这个方法中, 每个文库化合物被放置在一枚芯片上, 而且反应历程(因此最后的产品结构)将
会依空间的地址识别. 随着半导体技术的进步, 清晰度令人惊异的增加从而在一枚小芯片上提供数
百乃至数千化合物. 现在, 芯片技术被用于肽或核苷低聚物的合成 , 后者发展以至进入 DNA 芯片和
基因芯片.
这里举肽合成为例. 芯片的玻璃表面用化学方法修饰而产生用光敏基团保护的氨基. 预先设计的掩
膜覆盖到芯片上, 然后使光射到需要反应的位置上而除掉保护基从而暴露出氨基. 整个芯片置于反
应釜中然后吸附氨基酸 A 到暴露的区域. 使用不同的掩膜, 暴露光到第二区域, 使氨基酸 B 在那里
偶联. 如被引入的氨基酸也被光敏基团保护 , 在完成第一层合成后, 上层合成可被重复以达到目标
大小.
萤光标记的抗体或受体将会被加在这枚合成物质芯片表面 , 然后依据键能, 得到萤光图案. 读取萤

光位置的芯片地址将会识别出标记蛋白的键合双方的结构. 分辨率越高, 识别萤光信号并比较强度
就越需要自动化完成.
▲ top　
::::固相载体 ::::
恰当的选择固相载体和连接分子是固相反应的重要组成部分 . 固相载体和连接分子都应该在多种
遗传反应过程期间是保持稳定, 而且产品的切除应该是在温和的条件下实现. 本章将介绍各种不同
的载体和连接分子.
如果反应后可以用过滤的方法去除 , 从理论上讲 , 任何材料都可用作固相载体 . 聚乙烯, 聚苯乙烯-
外涂聚乙烯薄层 , 平滑的纸或棉花等都可以 . 最常用的载体是 : 聚苯乙烯 (PS), 聚乙二醇 (PEG),
Tentagel (TG), 和 PEGA ( 聚乙二醇 - 聚丙烯酰胺 ).
　
聚苯乙烯 (PS)
在各种载体中, 最早使用的是聚苯乙烯. 通常 1%或 2%的二乙烯基苯和苯乙烯混合物可以发生自由
基聚合而生成交联聚合物. 这里二乙烯基苯成为线形聚苯乙烯相交联的桥.
聚苯乙烯
<http://www.elmhurst.edu/~chm/onlcourse/chm110/outlines/topic5q.html>
PS 价格便宜且吸附量高 (0.5-1.5mmol/g). 其对物理震动的抵御性能使得 PS 用于搅拌或涡流混合条
件. PS 载体上合成的分子没有实际的体积限制, 可以合成多于 100-mer 的肽. 如果需要诸如高温或
有机金属试剂等剧烈条件 , 更硬一些的 2%的交联 PS 性能优于 1%PS. 通常使用的树脂为大约 200-
400 目(73-37 um)或 100-200 目(150-75 um), 而且 99%的反应位点是含于树脂珠内的 , 而仅有 1%的
吸附于树脂珠表面. 所以, 对于高效反应来说, 恰当的膨胀是非常重要的. PS 的憎水性使得它在非
极性溶剂中令人满意的膨胀 , 而又在极性溶剂如醇类等中收缩. 尤其是, 当反应发生在水中或极性
官能团出现在 PS 树脂珠表面时, 树脂珠完全塌陷而使反应停止.
另一方面, 高于 20%交联的 PS 有大孔型(MP)结构, 性质与普通 PS 有着截然差异 . 由于高度交联 ,
MP 有高刚性的不受溶剂影响的结构. 所以, 在 PS 中不能使用的多种溶剂都可以用于 MP 树脂珠上
的反应. 虽然 MP 树脂珠在高压下坚固, 它们很容易因机械震动而破碎; 所以推荐流体穿越方式而
不是搅拌方式. 由于树脂珠内部坚硬, 大分子的合成受到限制; 实践中 8-10 mer 的肽是最大体积. 化
学吸附量相当高(0.5-0.8 mmol/g).
聚乙二醇 (PEG)
为克服 PS 中的溶剂限制, 发展了聚乙二醇(PEG)树脂珠. PEG 可以在包括水在内的极性溶剂中溶解,
反应条件类似液相反应. 反应后, PEG 在非极性溶剂中沉淀 , 通过过滤与其他试剂或副产物分离 .
Scripps 的 Janda 教授及其研究小组发明了这个方法. 缺点是, PEG 在机械震动和反复沉淀-溶解中
产生物料损失 , 这将限制多步自动化的应用 .
　
Tentagel (TG)
为了改善 PS 和 PEG 的缺点却保留它们的优点, 发展了一种复合聚合物 tentagel(TG). TG 通过在氯
苯 PS 上与环氧乙烷反应而制得 , 因而在 PS 骨干上嫁接了 PEF. 通常 PS:PEG 的比例是约 30:70. 由
于 PEG 的作用, TG 即使在水溶液中也能较好的膨胀 , 而且树脂珠体积相差不大 , 所以 TG 是单珠单
文库化合物的理想材料. 除了极佳的溶剂膨胀性能, TG 在高压下不易损, 机械强度高. 由于反应发
生于 PEG 末端而且 PEG 间没有交联, 试剂到达反应位点较 PS 容易, 从而使得 TG 反应速率通常高
于 PS. 反应速率还受树脂珠体积影响; 树脂珠越大反应速率越低. 缺点是吸附量低(0.3 mmol/g)而且
树脂珠有吸水性, 还有价格太高.
PEGA (聚乙二醇 -聚丙烯酰胺 )

PEGA 由 PEG 通过丙稀酰胺交联构成 , 也是为了改善 PEG 而发展的. PEGA 在多种溶剂中膨胀 , 反
应位点多达 35kDa 大分子. 所以, PEGA 是蛋白质或树脂珠上酶的亲和性纯度筛选的理想材料 . 不
同溶剂中的树脂珠的膨胀体积总结如下表.
载体不同溶剂中的树脂体积(ml/g)
DMF THF MeOH 甲苯 H2O CH2Cl2
PS 3 8 2 7 - 7
TG 5 6 4 5 4 5
PEGA 11 13 13 12 16 13
下面的 NovaBiochem 网站提供了一个有用的固相载体选择表.
click!
▲ top　
::::连接分子 ::::
虽然功能性载体可以直接的与基体化合物连接, 为了提高反应效率和剪切的容易程度, 一个连接分
子被插入在载体和基体分子之间. 连接分子应该被定量的装载在载体上, 而且在反应期间直到最后
化合物被切下都是稳定的 . 连接分子可以分类为保护基团型 , 无痕型, 环化型, 安全-捕捉型和光活
化型.
▲ top　
::::编码及解码 ::::
编码或解码听起来好像是间谍片中的术语. 在文库操作中, 编码/解码是非常有用的, 甚至可以说是
核心部分. 最简单的方法是把一个空间地址赋予 96 个表面皿或芯片上的单个化合物. 筛选结果将
会直接的给出位置数据, 然后转换为化合物标记.
混合-裂分方法对于增大文库体积是非常有用的. 在单珠单化合物方法中, 每个树脂珠都携带文库
化合物和编码分子 . 筛选过程将会挑选出要选择的珠子 , 而且读出编码分子进而识别文库化合物 .
肽或核苷由于其序列分析技术几十年来的发展变得较为成熟而首先被引入作为编码分子 . 核苷甚
至可以通过 PCR 技术来扩增. Still 教授发展了一种新的方法采用色谱活性化合物作编码分子, 这些
分子可以通过气相色谱.进行分析.
尽管单珠单化合物方法非常诱人 , 从单个珠子上获得的化合物数量是有限的 (<1 nmol). 为了能够增
加化合物的数量 IRORI Inc.发展了包含树脂和微波芯片的反应罐. 微波芯片包含了所有的反应信息,
这些信息可以用电子阅读器阅读. 所以这种技术可以称为单罐单化合物方法.
IRORI
即使没有化学编码过程, 如果可以监测反应并能识别文库化合物的标记 , 那也将是非常方便的. 尽
管现在发展的还不完善, 已经有几种光谱方法可以应用, 这包括质谱, IR, 和 NMR.
▲ top
::::文库的前景 ::::
最近十年, 文库及固相化学领域有了爆炸式的发展 . 但是, 与拥有几百年历史的液相化学相比 , 固相
化学仍是乳臭未干. 尤其是, 固相载体上副产物的去除极为困难因而绝大多数固相反应要求 99%的
产率. 一些反应在以前的液相反应中有 90%的满意产率, 但为了能在固相反应中应用, 还需要重新
考虑. 不止是反应, 还有新连接方法和树脂上分析技术的发展也是必需的.
文库最活跃的应用在于制药工业 . 但是, 自 90 年代末以来新催化剂以及无机材料的发展初露端倪 ,
而且 DNA 芯片也展现了强大的应用能力 . 文库领域的一个令人失望的转变是研究正倾向于从合成
大型文库(几百万)转变到小型文库(几百至几千), 而且从混合物到单一化合物. 这种倾向将会减少
文库的无穷可能性从而让我们拘泥于简单的自动过程 . 尽管如此, 我仍坚信, 人类的创造性思维必
将超越多功能机器人的手臂.
▲ top
::::文库领域的论文 , 杂志及书籍 ::::
衡量一个领域活跃程度的重要尺度是看其出版的论文和书籍的数量 . 专业杂志的数量是另一关键
标准. 上世纪 90 年在早期之前, 关于文库的论文每年少于 100 篇, 但是这个数量急剧增长为现在每
年多于 1000 篇 . 第一本专论于 1996 年出版而且现今已有 10 余种书籍 . 专业的文库杂志诞生于
1995 年 , 1998 年又有了另外 3 种 . 1999 年 , 美国化学会开始出版 "Journal of Combinatorial
Chemistry."
综述 , 书籍 , 杂志 ( 请点击 !)
▲ top
　
back to main page
回到首页
8. 糖文库
糖
糖聚合物的结构多样性
活细胞中的糖苷
糖聚合物的生物作用
糖与蛋白质的键合
糖分析
糖文库的合成
　
::::糖::::
在体内的高聚物中, 糖是最后一个待发掘的领域. 糖与脂肪和蛋白质并列为三大营养物 , 但是蛋白
质构成酶和骨骼结构 , 脂肪构成细胞膜 , 而糖并没有吸引太多的关注 . 由于其分子式 (CH2O)n 使得
它看起来像是用碳和水做成的 .我们容易注意到它的名字来自 "碳的水和(carbohydrate)". 糖的结构
被发现之前己经有一些混合碳和水以合成糖的尝试 . 葡萄糖, 糖的基本元素之一, 被推测是由光合
作用合成然后以糖原或淀粉形式储存. 然而, 最近发现构成细胞膜的许多脂肪或蛋白质是以糖蛋白
或糖酯类形式存在, 而且糖低聚物在细胞间信号传递中也起了重要的作用 . 另外, 血型抗原也是血
细胞膜表面上的糖. 由于糖在 HIV 或其它致病源与血细胞结合过程中扮演了重要的角色, 它成为免
疫系统控制和癌症治疗的最重要的线索之一 .
然而糖研究中也存在一些问题. 首先, 自天然产物提纯得到纯净的糖聚合物是非常困难的 , 合成也

是. Frederic Sanger 因其在蛋白质结构, 尤其是胰岛素上的工作而获得 1958 年诺贝尔奖, 而且由于
他对核酸碱基序列测定的贡献于 1980 年再次获奖. 除了很少的例外, 基本上蛋白质或核酸是由确
定位置连接而成的线形聚合物. 与之相比, 因为糖包含许多能与单体成键的羟基所以可合成的聚合
物的组合可能远大于蛋白质或核酸的 . 而且, 糖甚至能在其线形聚合物上伸出侧链 , 这让推断纯净
的天然糖结构非常困难. 除此之外, 核酸如 mRNA 等作为遗传表达的蓝图, 蛋白质作为基因表达初
产品, 仅通过复制和翻译过程, 产生的都是相同的聚合物. 因此, 相对等量的聚合物能被分离. 如果
产量不足, 对于核酸以 PCR 法, 对于蛋白质以微生物法倍增和提纯 . 然而, 因为在糖合成中没有如
核酸那样的蓝图因而糖仅是包含由环境不同而产生的多种组分, 保持相似的结构, 很难得到相同结
构的糖, 而且也没有发展倍增技术. 如果我们将核酸或蛋白质比作保持体形统一的动物 , 那么糖就
是植物 , 有不同的枝叶有不同的形状 .
在典型的糖结构分析中, 聚合物被以强酸切割为单体, 只有单体末端的糖以酶或温和的化学反应方

法结晶化, 这需要巨大的时间和精力. Oxford Glycosystem 的 RAAM 2000 是市面上唯一的自动化糖
结构分析仪, 但是它有众多限制且价格昂贵 . 另一方面, 尽管有发展固相合成的尝试 , 不同于蛋白质
或核酸, 目前仍然没能产生标准方法, 而且距与蛋白质或核酸类似的自动化糖结构分析和合成还有
很长的一段路要走. 因此, 这个领域的研究具有诞生新的诺贝尔奖得主的潜力.
▲ top
::::糖聚合物的结构多样性 ::::
如先前提到的, 糖不像蛋白质或核酸那样 , 它包含许多可成键的羟基 . 但是, 不是所有的羟基都能成
键. 糖给体的还原末端 (通常 C1 或 6 碳糖的异构体成键位置 )通过与糖受体的非还原羟基成键而形
成缩醛结构.
给体与受体
举例来说, 每个单体 6 碳糖, 例如葡萄糖, 半乳糖和甘露糖等含有可还原末端和四个非还原羟基 . 因

此, 有四种方法使二个相同的单体聚合 . 另外, 由于糖能形成 a- 和 b- 立体异构, 所以一共有八种不
同方法. 这还不全. 糖还有五原环吡喃糖形式, 所以还有更多的连接方法.
既然如此, 为了方便, 我们还是说说通常的吡喃糖的聚合物 . 核酸有四个单体(A,C,G 和 T(U)) 共有

4x4=16 种可行的二聚体 , 而 20 种氨基酸构成的蛋白质能得出 400(20x20)种二聚体. 虽然有几十种
不同的糖, 我们仅考虑含有还原末端及 4 个非还原羟基的糖的聚合体 . 糖给体如核酸一样有 16 种
二聚体, 但是糖受体给出另外的 4 个氢氧根, 这样总组合数变成 64. 考虑到 a- 及 b- 立体异构, 可有
128 种. 这赶得上 20 种氨基酸构成的蛋白质的数量 . 实际上, 如果是 5er 的组合, 那就比蛋白质多了.
我们跳过了五原环型吡喃糖以及带 4mer 或更多支链的. 因此, 糖能有较蛋白质和核酸等聚合物更
多的多样性.
单体核酸蛋白糖
1 4 20 4
2 16 400 128
3 64 8,000 4,096
4 256 160,000 131,072
　
5 1,024 3,200,000 4,194,304
6 4096 6.40 x 107 1.34 x 108
- - - -
- - - -
10 1.04 x 106 1.28 x 10 1.40 x 1014
13
▲ top
::::活细胞中的糖苷 ::::
淀粉和纤维素是在活的细胞中发现的糖苷, 而且它们是葡萄糖 C1 和 C4 连接的聚合物, 仅在 a- 或
b-立体异构连接的构象上有所不同 . 就由于这点不同 , a-连接的淀粉通常解离成葡萄糖被当作营养
物使用, 但是 b-连接的纤维素是重要的构建植物结构的材料, 可被特种微生物消化. 在草食动物腹
中, 有这种微生物以分解纤维素 . 如果能有方法降解纤维素为葡萄糖 , 那将是对食品不足的巨大帮
助 . 已有一些使用纤维素作为饲料的实验 .
然而, 不仅前才发现糖不但能被用作营养物 , 而且能成为活体生物的构架分子. 随着基因工程学和

蛋白质工程学的发展, 大量获得某种蛋白质成为可能, 这些蛋白质以前我们只能通过向微生物内插
入基因而得到少许. 通常动物蛋白在合成之后与糖形成糖蛋白, 但是原核生物缺乏使用糖处理蛋白
质的功能因而它们的蛋白质没有糖成份 . 虽然重新组合的蛋白质保持了相同的氨基酸序列和原始
的功能, 人们对蛋白质的糖部分的功能仍表现出兴趣 . 与原核生物的没有糖结构的蛋白质相比(除
了细胞壁中的蛋白多糖), 真核细胞的绝大多数的蛋白质除了血清白蛋白以外都有糖 . 对于解释糖
蛋白的功能和生物学应用所做的许多努力开创了一个新的研究领域, 叫做糖苷生物学.
因为糖蛋白中的糖有十种或更多单体, 理论上可能的组合简直就是天文数字. 如果我们必须考虑所

有的可能性 , 对糖功能的研究将是不可能做到的 . 幸运的是 , 人们发现糖结构有很多共同形状 .
糖蛋白的糖进入可被分为 O-多糖和 N-多糖. O-多糖具有 N-乙酰半乳糖胺(GalNAc)的结构, 还原末

端连到丝氨酸或硫代羟基侧链上 , 而 N-多糖具有 N-乙酰氨基葡萄糖(GlcNAc)的结构, 还原末端连
到天冬氨酸侧链上 . 通常知道 N-多糖比 O-多糖长, O-多糖影响蛋白质的物理化学性质 , 而 N-多糖
在细胞表面上被表达并且用作细胞间传递信号的分子 . 每个 N- 多糖有 5er 的 Man1-6(Man1-
3)Man1-4GlcNac1-4GlcNAc. 但是最近发现的 O 连 GlcNAc 的结构非常普通而且有活力 , 因而推测
它就像蛋白质功能中的蛋白质磷酸化作用一样重要.
另外的一个重要的糖蛋白是其 C-末端连到 GPI(糖基磷酸肽肌糖)上的结构, 这将细胞外蛋白质和细
胞膜相连. 通常的 GPI 结构是肌糖通过磷酸基被连到二甘油酯上然后很多糖被连到甘露糖上. 通过
GPI 连接到细胞膜上的蛋白质与穿越细胞膜的蛋白质不同 , 因为它们可被 PI-PLC(磷酸肽肌糖特异
性磷酯酶 C)分离到细胞外的空间 . 与糖蛋白不同, 糖酯类是糖连到酯类上 , 例如鞘氨醇(Sphingosin)
或神经酰胺(Ceramide). 糖蛋白也有相对短些的结构.
<http://www.cchem.berkeley.edu/~crbgrp/>
另一方面, 肽聚糖是与糖蛋白完全相同因为它们的肽或蛋白质都连于糖上, 但是不同的是肽聚糖有
硫酸根等阴离子而且两个糖单体被重复. 肽聚糖中有肝磷脂钠, 软骨素, 透明质酸等.
▲ top
::::糖聚合物的生物作用 ::::
当科学家试着去识别葡萄糖复合物分子的糖结构时, 它们令人惊异的复杂度和多样性被发现. 最近
有一些关于糖分子具有重要的生物学作用的报道, 但是还没有提出一个理论以解释众多现象. 到目
前为止所发现的糖分子的角色和功能有支持细胞和蛋白质的结构角色, 微生物, 毒素还有抗体的连
接位供体或掩体, 调控蛋白质功能, 以及在细胞间相互功能的中介物 . 然而, 每个研究都是以一种多
聚糖或一种功能为基础的 , 还没有报道统一的理论 .
结构作用 : 长期以来已经知道糖分子在生物结构的支持 , 细胞间连接, 多孔性支持等方面扮演了重

要角色. 另一方面, 在细胞表面上, 糖分子覆盖了细胞膜中糖蛋白的表面而且保护它免于受蛋白酶
或抗体的破坏 .
肽稳定作用 : 核糖体合成的蛋白质在 ER(内质网)上或高尔基体内变成糖蛋白, 先前形成的糖分子

帮助蛋白质折叠到现在的形状. 那就是说, 如果糖不与蛋白质成键, 蛋白质将变成错误的形状或者
被分解, 因为它出不了内质网. 然而, 也有一些报道说糖的连合并不影响蛋白质的合成, 折叠, 和到
最后的目的地的传递. 同样, 一些报道说虽然糖的部分被从成熟的蛋白质上切除 , 这几乎不影响蛋
白酶和抗体的功能 .
结构作用 : 细胞外结构包括多种당결합체 , 每种都有与多种糖结合的位点 . 最近发现这些成键位点

有重要作用 .
毒素受体作用 : 一些糖成为特定病毒, 细菌或寄生虫的受体 . 也有一些成为毒素或免疫系统的抗体
的受体 . 在大多数的如此情形中 , 糖表现了对目标的高度特异性 .
毒素抵御及诱饵作用 : 如前所述, 一些糖给了宿主生物不好的作用 , 还有一些糖阻止这样的作用

发生. 有两类防卫方法: 一是抑制细菌或毒素受体位点, 另一个是糖如诱饵一般主动与侵略者结合
而不是让它们与受体结合 .
共生作用 : 一般知道, 和寄生虫或入侵者相反 , 共生伙伴也选择性的绑到宿主细胞表面的糖上 . 例

如一些有用的带根的蠕虫或微生物. 据推测这是由于宿主和寄生虫共同进化的结果. 如果它们不通
过采取共生的方式而持续变异, 宿主将尝试抵御入侵者而入侵者将寻找新的结合位点.
蛋白质功能开关作用 : 一些细胞膜受体通过糖键与生长激素结合. 这个功能好像是帮助抑制生长

因子产生以后所引起的不必要的受体活化 . 这时, 糖键起到的是蛋白质功能开关作用 . 相同的糖开
关适用于与受体结合的激素 . 举例来说, 如果一个非活化的肽激素能与受体结合 , 那就像将一个竞
争者变成了一个对手 .
储存活性分子作用 : 最近的研究报告糖聚合物表现出重要的生物储存作用 . 已知生长因子能利用

肝磷脂等糖载体的亲和色谱提纯 , 所以, 有人提出一个假说, 即一些生长因子与细胞外载体强烈成
键, 等待被活化. 而且这些键对蛋白酶的不加选择的分解生长因子可以起到抑制作用 . 这将长时间
维持活化的生长因子的功能 .
激素作用 : 真正的糖聚合物可能是激素 . 植物激素 Oligosaccharins 表现了很高的独特性 , 是个好例

子 . 椎骨动物体内甘露糖聚合物表现出了高度的抑制作用 .
细胞间传递信号作用 : 由于每个细胞布满高浓度的糖, 有人推测糖会在细胞间相互功能中发挥重

要作用 . 然而 , 除了糖会与 selectin 和 lectin 成键外 , 实际上这种功能还没有清楚的识别 .
参考: Varki, A glycobiology, 1993, 3, 97-130

▲ top
::::糖与蛋白质的键合 ::::
白血球通常快速环流于我们体内, 而且当一个炎症被发现的时候, 他们穿透血管并移动到身体内部
有一种称为选择凝集素 (selectin)的蛋白质, 它连接到糖上而且有如黏合剂一般将白血球固定到受
伤的血管位置上 . 但是整体凝集素 (integrin) 和免疫球蛋白也参与该反应 .
虽然仍不能清楚地识别 , 但是通常已知的功能如下 : 在发炎的血管壁之间的 Selectin 与循环白血球

互相影响以减少白血球的旋转 . 因为 selectin 的旋转是不足以固定白血球 , integrin 参与的功能使白
血球均一地黏到血管壁上 . 然后白血球渗透过松弛的血管 .
有三种 Selectin; E(内皮)-, P(血小板)-和 L(白血球)-selectin. 每个 selectin 都将氨基末端连接到糖上 .
E-selectin 是 95-115 kD 的一个糖蛋白, 是在被 IL-1 和 TNF 或 LPS 等细胞因子(cytokines)刺激的内

皮细胞中发现的. 表达包括新的蛋白质合成 , 在刺激之后 4-6 小时达到峰值, 在 24 个小时后回到最
初状态. 与 E-selectin 结合的糖配体在中性粒细胞 (neotrophiles)或巨噬细胞 (macrophages) 表面上的
糖蛋白或糖脂(glycolipids)中被发现.E-selectin 在白血球在发炎的内皮细胞上旋转的时候起重要作
用 .
P-selectin 是 140 kD 的蛋白质, 位于血小板或内皮细胞的分泌颗粒(secretory granules)中. P- selectin

表达不包括细胞因子, 但是是在内皮细胞被凝血酶或组胺刺激时的几分钟内发生的. P-selectin 用来
将中性粒细胞与内皮细胞或血小板成键 .
L-selectin 是一个在所有的白血球中都表达的糖蛋白 . 它在淋巴球的正常再流通和与비림프조직成

键中起到了非常重要的作用 .
所有三种 selectin 都与 Lewis a (sLea) (NeuNAc-2-3Gal-1-3(Fuc-1-4)GlcNAc) 成键 , 它是 Lewis X

(sLex) (NeuNAc-2-3Gal-1-4(Fuc-1-3)GlcNAc) 的异构体. 它们在活细胞中好像是作为 E-和 P-selectin
的配体, 也可用于其它硫酸化糖, 但是它们的特定结构现在还不能识别.
▲ top
::::糖分析 ::::
为测试糖是否被包含在从活细胞内取出的蛋白质中 , 过去一直使用苯酚-硫酸颜色分析法, 但是它
的低敏感对现在的生物化学研究而言是不合适的 . 现在正在使用的是免疫颜色法 (면역착색법), 通
过切割羟基邻接的糖得到高活性的醛, 或着使用维生素 H-straptavidine(스트랩타비딘) 形成的配合
物和磷酸酯酶的方法 .
为分析糖蛋白类型中糖聚合物的结构必须被首先分离糖和蛋白质, 这需要化学方法和酶方法. 在化
学方法中, 可以通过使用肼迅速分开 O-或 N-连接的糖并控制条件仅分离 O-连接的的糖. 然而, 当
肼被用于反应时, N- 乙酰基在反应中被切割掉于是需要额外的乙酰化步骤 . 如果在一些胺的第一
个位置没有胺上的乙酰基那就没有办法分离. 因为肽结构在肼反应条件下被分解, 还有蛋白质分析
的问题 .
在酶方法中, 用肽 N-糖苷酶 F(PNGase F)分离 N-连接的糖是可能的而且有用的. 可是, 能与 O-连接

的糖广泛反应的酶还未被发现. 当糖被分离的时候, 为便于分析, 通常还原末端被萤光或放射性分
子标记 . 在元素分析之前 , 首先用硅胶色谱测体积 , 用阴离子交换树脂测离子数 . 然后 , 用 HCl 或
TFA 等酸做糖水解以得到单糖, 然后以 GC 或 HPLC 给出相对量. 这个过程与分析蛋白质时的氨基
酸分析类似 .
剩下的工作是决定糖的整个结构 , 包括单糖的种类, 序列, 与羟基连接的位置, 异构体的三维结构,

侧链的结构, 单糖的光学结构, 以及化学分析如磷酸化作用 , 硫酸化作用和甲酸化作用等 . 还没有能
够获得所有数据的简单过程 , 于是就采用了 NMR, 质谱, 酶分析等方法, 但是仍然耗费了大量时间
和精力. 自动化 RAAM(试剂排列分析方法)混合了几种酶, 能选择性分离一些试剂, 并通过与现有
数据库比较得出糖结构. 然而, 由于可得到的酶的限制, 这种方法仅对已知基本结构的 N-连接的糖
有效, 不能用于 O-连接的糖或者全新结构. 这个领域仍然迫切需要划时代的解决办法.
▲ top
::::糖文库的合成 ::::
糖文库开始的时间比蛋白质或核酸文库晚很多. 最初, 一般认为蛋白质控制了活细胞大部分重要的
活动而糖是只是部分参与结构构建和能量储藏. 然而, 最近肌醇等糖系列的信号传递分子被发现而
且糖的多种功能被揭示之后 , 糖变成了新的文库候选人 .
第一个文库由 Daniel Kahne (Science)报道. 他的文库是带有各种取代基的糖结构文库. 也就是说,
虽然它是一个糖文库, 它是一个与天然糖结构不同的小分子型文库.
Kahne 论文中的文库结构
<http://www.princeton.edu/~dkahne/index.html>
天然的糖是各种不同的糖被糖苷键连接而成的低聚物. 糖苷键可被看作醚键, 但是实际上它的水解
比醚更容易. 人们早就知道由于产量和 a, b 立体选择性的问题合成糖苷键的反应不容易 . 除此之外,
用其保护多个羟基也是一个争议 .
Scripps 研究所的 Wong 推进了通过几步快速糖苷反应无需过滤而合成低聚物的研究 . 他研究了糖

苷反应中的几百种糖的反应活性然后建造反应速率数据库 . 他的策略是选择反应活性有显著差异
的糖来做反应. 然后, 高反应活性的糖将会首先反应, 而低反应活性的糖将会在相对高活性的反应
完成之后再反应, 这样就合成了低聚物 . 为获得高纯度, 所选择的糖的反应速率必须有显著差异 . 因
此, 实际上可能的糖苷反应被限制在 3 或 4 种.
Wong 的一罐反应策略
如固相肽合成一样, 在哥伦比亚大学的 Samuel Danishefsky 主要研究糖低聚物的固相合成. 他利用
用烯糖作糖给体的方法的发展提出了可能的合成糖低聚物的自动化系统 . 还有 Seeberger,
Danishefsky 以前的学生, 建造了一个能够做固相糖低聚物合成的自动化合成仪. 尽管由于低产量它
只能合成 10 个或更少的低聚物 , 但它是给这个领域以革命性发展的一个开创新纪元的方法 .
　
自动寡糖合成仪的产物 (Seeberger)
　
Kahns, Wong, Danishefsky, Seeberger
▲ top
back to main page
回到首页
9. 高通量筛选
固相筛选
使用放射性染料筛选
荧光筛选
闪烁接近化验 (SPA, Scintillation Proximity Assay)
酶连接的免疫吸收剂化验 (ELISA, Enzyme Linked ImmunoSorbent Assay)
利用细胞的功能筛选
利用小鼠显型的表型遗传学
最近几年, 组合化学的长足发展使得短时间合成大量化合物成为可能, 而且新的遗传学研究如人类基因

组计划等以几何级数增加了新的靶蛋白的数量. 我们现有的筛选方法处理不了如此多的分子, 因而迫切
需要高通量筛选技术(HTS, High Throughput Screening)的发展. 当前 HTS 技术的发展尝试减少筛选单
位的数量并且自动化重复工作. 同时, 他们也注意简化筛选过程和降低筛选成本. HTS 可以根据待测样
品的合成路线分为液相和固相筛选, 也可以根据筛选目标物分为纯蛋白受体亲合性筛选 , 酶活性筛选,
细胞活性筛选等. 本章将讨论现有的合成方法.
　
::::固相筛选 ::::
如果我们使用混合 -分解方法在每个固体支体上合成一个分子 , 将可以很容易的合成几百万种化合
物. 如果我们可以在这些化合物在固体支体上时就筛选, 选出活性支体, 然后分析活性分子的结构,
这将是一种非常有吸引力的方法 . 唯一的困难是几百万个固体支体混在一起而且要高效筛选的是
其上的仅有 50~200 pmol 的小分子. 过去人们在固相载体上合成肽文库而且使用彩色受体 , 然后逐
个选出染色了的固相载体. 如果受体不能够指示颜色, 也可以染色与它们连接的抗体. 因为可以在
显微镜甚至放大镜下用镊子分离固相载体, 这种方法不仅用于蛋白质受体, 还有筛选成键的配体和
新的金属配体也可以. 这种方法在其本身没有线索条件下搜寻新的前导化合物是有用的, 因为这使
得筛选大量化合物成为可能.
然而, 依据染料强度来决定活性程度的方法是不准确的, 而且大量的固相载体不能逐个处理. 因此,
必须有自动化的 HTS 方法, 因而提出了 FACS( 萤光活化细胞分类仪 )法. 这种机器本来使细胞穿过
毛细管然后据其荧光强度分离细胞 . 相同的方法以固相载体取代了细胞 . 因为它是为细胞设计的 ,
细胞大小的小树脂珠都可以通过 , 但是通常大小的固相载体 (50~200 pmol)需要特殊仪器. 而且, 小
的细胞大小的树脂珠不能够处理足量的化合物 .
另外, 因为整个筛选过程都是在树脂上进行, 如果受体不能接近固相载体上的配体或载体与连接分

子干扰正常的筛选, 那就可能错过活性化合物或者错选了化合物 . 而且, 因为固相载体比细胞大 , 这
个方法不能用于细胞内的反应. 为了解决这个问题, 提出了部分或整体隔离化合物的方法 . 为了要
部份隔离, 使用了控制时间的光解或在不同条件下切割不同的官能团的方法 . 同时, 也可以在软的
琼脂上散布固相载体 , 然后以光解法隔离部分化合物 . 然后将隔离的化合物在固相载体周围展开 ,
于是可同时筛选并分离固相载体.
▲ top　
::::使用放射性染料筛选 ::::
最近几十年来, 生物学家已应用放射性同位素法研究体内新陈代谢 , 少量化合物的结合与分布等 .
1
H, 12C, 31P, 32S, 127I 的放射性同位素 3H, 14C, 32P, 35S, 125I 已在体内应用. 放射性同位素与非放射性的
几乎有相同的化学性质所以很容易替换它们 . 同时由于他们的放射能力较强, 仅需少量即可. 但是
射线是有害的, 放射性同位素的长期储存以及半衰期很短的化合物的实验都是些问题.
通常使用的放射性同位素
　
3 14 32 35 125
H C P S I
半衰期 12.32 yrs 5730 yrs 14.3 yrs 87.4 yrs 60 yrs
射线种类 beta beta beta beta gamma 通
平均能量(KeV) 5.7 49 690 49 32

传播距离 0.6 cm 22 cm 7.2 m 24 cm 2.4 m
常有多种生物及医学的实验样品可供放射性同位素研究使用 , 固定受体在 96 孔圆片上还有蛋白质

过滤法在 HTS 中都是很常用的.
受体固定法
在 96 孔圆片法中, 受体用抗体或化学方法固定在每个孔中, 向每个孔中加入放射性标记的配体然

后成键. 洗涤除去未成键的配体然后定量分析成键的配体或洗掉的配体的放射性, 从而得到标准值
然后, 加入要筛选的目标物以与配体形成成键反应竞争 . 如果化合物对受体的亲合性高于配体的
标准值, 那么大部分放射性配体就不与受体成键而保留在溶液中. 所以, 通过分析成键(或洗去的)放
射性配体的量就很容易的反应出化合物对受体的亲合程度 .
过滤膜法
当受体不能固定到 96 孔圆片上或者配体必须在液相中成键的时候就需要过滤膜法. 换句话说, 溶

液中的配体-受体成键反应结束之后, 如果以硝化纤维素滤纸过滤反应后的溶液, 包括配体在内的
小分子将会穿过滤纸而只留下蛋白质受体. 只有与受体强烈成键的配体会留在滤纸上, 加入的化合
物的相对亲合程度可以通过定量分析标准放射性配体而得到 . 这个方法能也能筛选蛋白质激酶抑
制剂, 它的被酶作用物是蛋白质 . 这种情况下, g-32P-ATP 可被用作磷酸基供应者, 通过检查放射性
标记的蛋白质基体可以分析酶的活性. 不参与反应的放射性 ATP 将被过滤并去除.
▲ top　
::::荧光筛选 ::::
荧光染料是另外一种放射性同位素筛选的溶液 . 特别地, 尽管筛选方法变得更细, 放射性材料仍受
检测的限制而且筛选需要很长时间. 与之相比, 荧光材料在一定条件下每个分子能释放数千个光子
理论上的单一分子水平检测成为可能. 然而, 这个方法也有局限. 荧光化合物不能像放射性同位素
那样取代活性配体的元素, 它们必须连在配体的某些连接位点上, 而且这种修饰不能影响配体的活
性 .
样品荧光标记法
使用萤光化合物的筛选方法被广为应用 . 举例来说, 它可用于受体-配体成键, 使用合适荧光剂的酶

活性法, 还是多种体内生理学变化如 pH 值, 离子浓度, 电压等的荧光指示剂 . 它的缺点是体内条件
下的荧光背景或者散射非常强, 信噪比非常小, 难以区分. 酪氨酸和色氨酸等氨基酸的自我萤光是
背景放射的一个原因 , 为了克服这个缺点 , 人们通常使用紫外吸收波长大于 520nm 的萤光化合物 ,
例如菁 (cyanine).
FRET: 荧光共振能转移
如果使用两种相关的荧光物质替代一种荧光物, 将会发生不产生荧光的能量转移. 当萤光供体的发

射波长与荧光吸收体的吸收波长相近的时候, 供体的激发态能量将传递给吸收体而不是释放荧光,
因而会释放吸收体的发射波长的荧光.
FRET
<http://www.ucalgary.ca/~dcramb/>
<http://www.cci.virginia.edu/workshop_fret.html>
50% FRET 作用的 R0 距离与供体的发射域和吸收体的吸收域的重叠以及吸收体的量子产量还有溶
剂有关. 通常 R0 约为 40~50Å. 40Å 约是分子量为 26,000 Da 的球蛋白的直径. 如果两个荧光分子相
互距离小于 R0, 当供体的吸收光被发射的时候 , 理论上吸收体的荧光将会增强 . 如果其距离大于 R0,
当同样的光被发射时, 将会检测到供体的荧光增强. 所以, 如果将荧光分子连接到如蛋白酶那样可
作激酶的小分子酶上, 很容易检测酶的活性. 事实上, 这个想法已被用于 beta-内酰胺激酶, 而且有可
能应用到新报道的基因上 .
Tsein 作为这个领域的带头人, 证明了不仅小分子, 经过变异的 GFP 也可用于将具有多吸收带和发

射带的蛋白质与 FRET 偶合. 这样, 每个蛋白质可在一个细胞内用改变过的基因表达 , 成为一个整
体的蛋白质. 虽然可以预计使用 FRET 做受体-配体类的分子成键非常困难, 因为 FRET 的 R0 太短,
但是 , 最近报道的经修饰的 GFP 应用于 FRET 的例子又使之重燃希望 .
TRF: 与时间相关的荧光
为了降低荧光背景, 人们发明了与时间相关的荧光技术. 普通荧光分子的激发态的生命周期通常仅

有几微秒, 但是镧系元素的可达几毫秒. TRF 是一种在其他荧光分子释放完荧光后选择性测量镧系
元素荧光的方法. TRF 可与 FRET 联用, 镧系元素作给体或受体.
▲ top　
::::SPA: 闪烁接近化验 ::::
当固定在固相载体或 96 孔圆片上的受体被被放射性标记的材料筛选时 , 需要过滤等额外步骤以定
量分析放射性 . 为简化此步骤 , SPA( 闪烁接近化验 )法被发展. 在这个方法中 , 高产量的荧光分子被
附到带有受体的固体上, 通过放射性配体引起成键化验. 同时, 仍存留于溶液中的未成键的放射性
配体以水分子抑制, 但是与荧光受体成键的配体的放射线被其周围的荧光分子吸收 . 因此, 活性分
子仅以荧光量分析而没有任何额外步骤就被简单的筛选出来.
LS 6500 液闪计数仪
<http://www.beckman.com>
▲ top　
::::酶连接的免疫吸收剂化验 (ELISA, Enzyme Linked ImmunoSorbent Assay)::::
ELISA 普遍用作非放射性同位素的成键化验 . 在这种方法中, 通常标准配体是固定的, 通过加入溶
液相受体或蛋白质来使之成键. 通过加入与受体特异性反应的抗体来定量成键的受体, 而且最初抗
体的量以加入第二种能显色的抗体测量. 第二种抗体能识别抗体的末端, 在其末端的碱性磷酸酯或
过氧化物酶等与酶发生反应, 从而使溶液显色.
<http://ccm.ucdavis.edu/cpl/Tech%20updates/TechUpdates.htm>
▲ top　
::::利用细胞的功能筛选 ::::
与典型的受体-配体成键化验相比, 使用细胞的功能筛选有几个优点 . 它可以识别拮抗肌和主缩肌
的不同成键方式, 这通过测键能是分不开的. 同时, 在多步信号传递中有能筛选大量靶蛋白的优点.
由于有关于细胞的化合物吸收 , 新陈代谢, 排泄, 以及细胞毒素等的信息 , 可以忽略体外筛选后的额
外步骤 .
选择性杀死的策略
Rosetta Inpharmatics 是一家生物信息学公司 , 致力于解释从 DNA 芯片获得的信息 , 以著名的

Rosetta Stone 的名字命名, 他破译了古埃及文字 . 公司与 Agilent Technologies 签署了战略伙伴协议
以进一步发展并产业化 Rosetta Inpharmatics 的 FlexJet™ 微矩阵. Rosetta Inpharmatics 总裁兼 Merck
研究实验室负责基础研究的副总裁 Stephen H. Friend 发明了寻找"选择性杀手化合物"的矩阵法. 首
先, 他们确定活体生物(通常是芽殖酵母)的类型并选出带有癌细胞缺陷的类型. 然后, 他们寻找仅杀
死缺陷类型的而不伤害正常类型的药物. 这种方法目前在化学生物学领域广泛使用, 以寻找能过滤
有毒分子并选择性杀死目标物的分子.
▲ top
::::利用小鼠显型的表型遗传学 ::::
早期遗传学研究的向前法之一是对果蝇照射 X 射线以产生随机变异 , 然后识别导致有趣的显型变
化的基因 . 现在 , 相似的研究正在由几个大的基因组研究所转到小鼠上 . 他们以化学诱变剂如
ENU(N-乙基-N-亚硝基脲)等代替 X 射线处理雄鼠 , 在其精子细胞中引入变异 , 然后产出变异了的
后代. 这些计划的结果将大为进步, 因为小鼠较果蝇与人类更近一些 , 而且具有与人类疾病相似的
显型的小鼠变异类型将对其医疗应用以及新基因功能的发现有重要帮助 . 一个技术上的难题是在
显型表现出来后从整个基因组中寻找变异基因的过程太麻烦 . 基因图谱和部分 SNP 看起来是目前
唯一的方法, 而且能够加速这个过程的高通量筛选法还需要改进.
综述: Trends in Mol. Med. 2001, 7, 502-507.
▲ top
　
back to main page
返回首页
10. 芯片
DNA 芯片
蛋白质芯片
小分子芯片
细胞芯片和组织芯片
芯片上的实验室
　
::::DNA 芯片 ::::
最近, 在后基因组时代纷繁的信息中 , 生物芯片看起来成了最重要的研究工具之一 . 生物芯片与电
子工程学中的硅半导体芯片非常相似 . 高密度小尺寸的 DNA 和蛋白质芯片被用来筛选生物信息 ,
以便于更快更好的研究 .
纳米基因芯片
DNA 芯片是现代芯片技术中最成功的案例 . DNA 技术使用了
DNA 双螺旋链中 A-T 和 G-C 这样的 Watson-Crick 对的的典型的性
质以及对互补序列识别的性质 . 换句话说 , DNA 芯片上的单链被当
作诱饵 , 而当加入 DNA 试样时候 , 只有其互补链与之成键 . DNA
芯片能包含数千到数十万种 DNA 诱饵 , 这样就可以筛选任意数量
的 DNA 样品 . 因此审查的速度是令人惊异的 . 因为在一枚芯片上
的 DNA 诱饵的序列都已知 , 重要的是找出要筛选的 DNA 与哪一
位置结合 . 为检测诱饵 -样品 DNA 成键的数量 , 通常样品 DNA 被涂
以萤光染料然后扫描机读取芯片上的荧光强度 . 强荧光度意味着
样品中有许多互补 DNA 链与诱饵 DNA 链成键 . 现在正在发展高
灵敏度的电子筛选法, 但是还没有制造出来.
有二个方法可以植入 DNA 芯片上的诱饵 : 一是使用化学合成 (照相
平版术 ) 逐步累积单个低聚物 , 另一是在芯片上 ( 多针排列 ) 点现成
的样品 . 现在 , Affimetrix 作为领先的 DNA 芯片公司 , 已使用制造
计算机半导体芯片相同的技术 . 他们使用光敏掩膜和光来选择性
的在硅板上显露反应位点 , 然后附上核酸 . 因为核酸由 A, T, C 和 G
组成 , 需要四套掩膜和四次反应 . 现在可购得的 affiy 芯片包含 25
个核酸, 这需要 100 个掩膜和反应. 一种新的芯片布满光活性罩, 当光选择性的通过掩膜时, 反应物
基团被暴露于光线之下然后与下面的个体反应 . Affimetrix 正在生产酵母, 人, 小鼠和其他的 DNA
芯片, 而且这些被用于一次测量所有的基因表达 . 但是, 普通的基因由数以千计的碱基组成 , 使用只
有 25 个碱基的低聚物有试样是否具有代表性的问题 . 因此, Affimetrix 制造每个基因含 20 碱基的
芯片 ( 每个低聚物是 25-mer), 而且判断相关基因的表达要经过一个统计过程以确保达到足够的
DNA 序列量. 这样, 样品 DNA 需要剪切到与诱饵 DNA 体积相当.
Affiy 芯片
尽管照相平版术是芯片合成的代表性方法, 它对芯片密度和光衍射的限制饱受批评. 1999 年九月期
的 Nature Biotechnology 上, 威斯康辛大学 Madison 分校的 Michael Sussman 博士团队的科学家引入
了一个不要掩膜而使用数码照相处理器的合成方法. 他们使用小的矾土来激发光以代替掩膜, 他们
的方法使本来需要的几周时间缩短到 8 个小时, 大大降低了芯片成本. 新技术当经由威斯康辛校友
研究基金取得专利权, NimbleGen Systems 系统正在购买这项技术.
<http://www.devicelink.com/ivdt/archive/98/09/009.html>
在斯坦福大学的 Patric Brown 发明了多针矩阵方法 . DNA 诱饵探头通过 PCR 等生物技术被合成 ,
然后点到微型玻璃芯片上. 除了对于实验重现性的批评 , 只要有 DNA 诱饵探头, 这种方法就较合成
芯片有更具竞争力的价格. 现在任何人都可以容易地制造芯片 . 因为诱饵 DNA 是生物制得的, 不像
Affy 芯片, DNA 长度没有任何限制 . 甚至数百个碱基的构成的 DNA 也能制得, 这个优点使得较诱
饵-样品成键法有更高的选择性.
多针矩阵
<http://www.bohan.co.kr/html/DNAChip/DNAChip-1.htm>
现在许多芯片正在使用 cDNA 诱饵. 从特定条件下的细胞得来的 mRNA 被取出, 经过几步处理后,
人们研究它们是何种基因, 在给定条件下有多少被表达 .当 mRNA 的量不足的时候, RT-PCR 及体外
传递方法可以用来倍增它. 得到数据和样品较探测蛋白质表达数量要简单 , 这是一大优点, 可是也
有批评指出 mRNA 的量得变化并不精确表明蛋白质数量的变化 . 换句话说, 某蛋白质表达细胞的
尝试能通过 mRNA 的量发现, 但是否真正制得了蛋白质无法核对 . 有道理. 事实上 mRNA 的量和蛋
白质没有很多的相互关系(比 0.5 低). 因为 mRNA 和蛋白质的分解速率不同, 而且蛋白质经过一系
列反应(例如磷酸化作用), 不能说一个 mRNA 制得一个蛋白质. 如果总的 DNA 被称作基因组, 总
的蛋白质称作蛋白质组 , 那么 DNA 芯片的研究就可以被称为转录组 (transriptome), 因为这其中使
用了 mRNA.
除此之外, 因为每个基因的转录 mRNA 量是不同的, 如果没有标准就很难将来自不同细胞或系统

的 mRNA 的量相比较. 因此, 通过控制实验条件的 mRNA 相对量的变化以及真实实验下的量非常
重要. 例如, 可以说,"当对细胞突然加热时 , 与基因 A 相关的 mRNA 增加了 2.5 倍. 所以, 至少需要
两个实验, 控制条件的和真实的 . 对于现在用的 Affiy 芯片, mRNA 被取出, cDNA 被逆转录 , 而且
样品的量由于体外转录制得的 cRNA 而倍增. 在转录步骤中, 因为维生素 H 被加到一些 U 或 T 上,
而且使用萤光 streptavidin 检测, 每个芯片应该单独用于每个试样, 然后比较. 另一方面, 最近有为基
因组, SNP 还有 mRNA 分析而制造的 DNA 芯片.
<http://www.iir.suite.dk/IIR/Genes/geneChipSetup.htm>
<http://www.iir.suite.dk/IIR/Genes/geneChipDK.htm>
然而, 在布朗法中, 试样是用不同荧光染料染色了的 (Cy3 & Cy5), 一起点在一个芯片上, 而且检测
由于 mRNA 表达引起的颜色相对改变 . Cy3 和 Cy5 事实上都是红色染料 , 为了数据分析和表达的
方便 , 它们被当作绿色和红色的 . 举例来说 , 如果控制实验是绿色的而真实实验是红色的 , 没有
mRNA 的基因将会被指定为黄色的, 一种中间色. 另外绿色的基因表示表达的减少, 红色的基因意
味着表达的增加.
<http://www.dkfz-heidelberg.de/kompl_genome/index.html>
因为布朗的方法容易而且便宜, 只用一个点样器和一个检测仪来制造芯片, 许多学校的研究小组正
在使用这种方法. 但是问题集中在重复实验的真实性上. Incyte, 过去一直通过收集来自不同研究小
组的 DNA 诱饵来提供标准 DNA 芯片, 宣布在 2001 年底停止他们的服务 . 这对许多研究小组研究
DNA 的计划来说是一个危机, 据信, 他们正在找寻新的服务供给者(Nature, 2001, 414, 135-136).
▲ top 　
::::蛋白质芯片 ::::
由于利用了 DNA 与互补的 DNA 或 RNA 结合的典型性质, DNA 芯片在短时间内就取得了成功. 然
而, 已经有关于 mRNA 和蛋白质之间数量关系上的争论 , 而且实际上在细胞中参与各种不同反应
的都是蛋白质. 因此, 如果能制造出蛋白质芯片而不是 DNA 芯片, 而且如果蛋白质表达强度和键合
物能被发现, 就有可能把研究拓展到 DNA 芯片鞭长莫及的领域. 然而, 要制造一个蛋白质芯片, 每
个蛋白质都需要提纯, 还有, 将蛋白质以某种形式固定到芯片上的技术还不完善 . 也许植入较常规
蛋白质易于控制的抗体是个替代方案 .
尽管被指出了许多问题 , 2000 年秋天, Schreiber 小组展示了他们可以制造高密度蛋白质芯片并且

保持蛋白质成键能力的技术 (Science, 2000, 289, 1760-1763). 它与布朗技术相同, 除了他们用了蛋白
质而不是 DNA. 以醛基活化光滑的表面, 蛋白质通过共价键与之相连.他们用了几种不同的蛋白质
做芯片能保持活性的例证, 但是不同蛋白质在芯片上能否互不干扰仍是个问题.
<http://www.cgr.harvard.edu/macbeath/index.html>
2001 年 , 覆盖了芽孢酵母大部份基因产物的大约 6,000 种蛋白质 , 被表达并在 N- 末端以 GST-
HisX6(glutoahione S-转移酶-聚组氨酸)标记, 然后植入芯片. 这项工作是耶鲁大学的 Snyder 小组完
成的(Science, 2001, 293, 2101-2105). 通过光滑的玻璃表面上的醛基或 Ni 离子包裹 (与 HisX6 成键)
使蛋白质平滑地附到芯片之上 . 平均分配的点入的蛋白质通过萤光标记的 GST 抗体确认. 对钙调
素(calmodulin) 和磷酸肌醇酯 (phosphoinositol lipid), 两个代表性的蛋白质成键方式 , 进行萤光标记
然后在芯片上筛选, 以此证明蛋白质间的相互成键能力并用其识别新的成键的蛋白质 . 现在, 蛋白
质芯片的检测灵敏度约为 ng/mL.
蛋白质芯片公司 Ciphergen 在芯片表面包裹了各种材料 , 利用这些不同的表面区别不同的蛋白质 .
设计的表面材料有憎水型的 , 亲水型的, 阳离子和阴离子交换型的 , 金属离子和潜活性分子等等 , 但
是好像仅用这些有限数量的表面来识别数以千计的不同蛋白质比较困难 . 与芯片成键的蛋白质采
用 MALDI-TOF 质谱进行分析.
▲ top
::::小分子芯片 ::::
如果是小分子芯片而不是蛋白质芯片那会怎样呢? 那将会是一个非常诱人的方法, 如果药物候选分
子可与蛋白质成键 , 那就可以将其置于高密度芯片之上 . 尤其筛选大量来自文库的化合物的时候 ,
我们现在的筛选需要耗费太多时间和精力 . Schreiber 的小组发明了一项技术 , 可以合成小分子并且
使用分子的酸性基团将它们点到底部活化的芯片上. 但是，仍然缺少实证层面上的论文. 尽管基础
技术的发明层出不穷, 一个具有实际价值的芯片仍然等待人们去开发.
<http://www.cgr.harvard.edu/macbeath/index.html>
2001 年, Schultz 小组通过联合使用 PNA(肽核酸)标记的小分子和 DNA 地址芯片技术而发展了新
的小分子芯片 (Angew. Chem. Int. Ed. Eng. 2001, 40, 3152-3155). 十年前就发展了单珠单分子下的编
码和解码法, 但是给标记合成编码需要额外的化学修正, 而且由于珠子的体积合成化合物的量受到
限制. 在新方法中 , PNA 是编码标记 , 带有标记的文库化合物直接与芯片上对应的 DNA 序列相关
联. 结果是, PNA 和 DNA 形成双螺旋, 小分子文库化合物露在双链的顶端. 通过对芯片上特定地址
解码来识别化合物. 实验使用的例子是 cyctein 蛋白酶抑制剂, 证明了 PNA 标记不干扰抑制剂的活
性. 然而, 这些以 PNA 标记的分子将不能穿透细胞膜, 这对于以细胞为基础的筛选可能不太合适.
许多公司宣称他们具有小分子芯片技术 , 但是他们大部份是为高通量筛选准备的小圆片或薄膜排
列. 一家德国的新诞生的公司, Graffinity, 才是真的用共价键将小分子附到芯片表面, 并以蛋白质键
筛选 . 他们合成含硫末端的小分子然后利用 S 与 Au 间的强键将这些分子连到金的表面 . 利用
Biacore Inc.的 SPR(表面等离子体共振)技术测量蛋白质成键. 当他们不需要用萤光探头标记蛋白质
时由于硫易反应的内在本质, 分子不适合作功能化验.
▲ top
::::细胞芯片和组织芯片 ::::
不只有 DNA 或蛋白质, 还有整个细胞或器官也能布置在玻璃表面上从而制得细胞芯片或组织芯片 .
举例来说, 如果你想要找与细胞膜受体成键的配体 , 你需要布置整个细胞而不是提纯受体并用其
点板. 如果矩阵由不同的细胞组成, 将会容易地辨认出与细胞特异性成键配体 . 这种方法应用将会
很广. 例如, 如果配体与一个特定的癌细胞成键 , 对照试剂或者毒素取代物将会连到配体上 , 然后对
每个做图像分析和处理.
相反, 小分子或基因排列将会在一个芯片上被制备 , 而且细胞应用在它上面. 当细胞连接到芯片上
的每个遗传材料时, 每个基因将会缓慢地释放而且吸收到细胞内 , 正如病媒动物的行为一样. 如果
病媒动物表达细胞表面的受体, 受体序列将会在细胞表面上被构造, 为将来的化验做筛选.
▲ top
::::芯片上的实验室 ::::
大部分芯片实验要求多步样品制备过程, 例如 DNA, RNA 或蛋白质萃取倍增等, 在重复时可能产生
不可预知的人为误差和变化. 举例来说, RNA 样品易于被少量的 RNase 分解, 而 RNase 可能由实验
者的皮肤或有黏液的组织产生. 蛋白质也因环境因素不同程度的改变本性. 为了要减少这些种人为
的误差, 芯片上的整个制备步骤的自动化引发人们极大的兴趣 , 这种方法称作芯片实验室. 芯片实
验室的成功结果将会得带一个测试芯片去任何地点测试生物学的样品, 例如血液, 并进一步实时实
地得到想要的数据成为可能.
小的, 廉价的而且高敏感度的芯片的发展将会在交叉学科研究 MEMS(微电子机械系统 )的帮助下
成为可能, 这是物理学, 化学, 机械和电子工程学的知识的汇合.
▲ top
back to main page
回到首页
11. 分子进化
关于进化的思考
RNA 世界
分子进化
遗传法则
　
::::关于进化的思考 ::::
除了上帝显灵的解释以外, 进化到底是怎样发生的? 什么是进化的主导者? 圣餐? 圣人? 王权? 还是
如达尔文声称的那样, 是基因 ? [Richard Dawkins, "Selfish Gene"( 自私的基因 )]
达尔文理论的主旨是自然选择或适者生存 . 它说, 在所有现存的生物中, 只有适合大部分特定环境

的一些能够生存. 我们不讨论任何别有用心的说法 , 例如最复杂的或者品德好的能生存 , 等等. 也许
我们可以接受适者生存的观念. 这样, 最适合的就可以在相对降低的竞争下再繁殖它们的物种 . 当
另一个非常大的环境变化发生的时候 , 新的最适合环境的物种又被选出 , 生存, 然后繁荣. 在这个重
复中有什么不对的地方吗? 如果这就是进化过程的全部, 那么就是说地球上的物种长期以来一直在
减少, 现在也是, 最终只孤零零的剩下很少的几种 . 从这个观点来看, 最初的时候一定有难以置信的
庞大数量的物种, 而且数量一直在减少 . 很多物种确实是正在灭绝 , 而且物种数量真的在减少 . 我们
情不自禁联想到最初上帝造万物的理论 .
还有一种可能性. 让我们想想化石中的动物. 它们与现在的相同吗? 恐龙从自然选择中灭亡, 那么蜥

蜴或鳄鱼呢? 它们那时候就有吗? 那时候的哺乳动物怎么样呢? 人类呢? 如果从化石记录来看, 人
类的历史也就是几百万年. 那么亚当和夏娃最初是怎么诞生的? 在漫长的历史中尽管有一些物种变
化很小, 绝大多数一直都在改变. 这种变化在物种中广泛存在, 与自然选择一道成为进化论的两根
重要支柱 .
是遗传信息决定了一个活着的生物的形体和它的特征 . 遗传信息主要记录在 DNA 上. 令人惊异的

是 DNA 非常稳定, 能保持而且完好的存在相当长的时间. 这让 DNA 成为了传递遗传信息给后代的
最合适的分子, 给电影"侏罗纪的公园"提供了理论背景. 事实是, 这些遗传信息经过减数分裂或有
丝分裂被复制并储存在新的细胞中 , 并非每个程序都很完美. 换句话说, 错误被控制在 DNA 复制的
一定比例内, 使得新细胞与亲代稍有不同. 有丝分裂中的误差并不传递给后代 , 它们不对后代产生
影响. 虽然那些误差有时是如此致命以致他们能导致细胞凋亡(apoptosis)或癌症, 但它只影响主主
体自己. 当那些误差产生于精子或卵细胞中时 , 那被称作"变异", 然后就开始传递给后代 . 尽管不同
是非常小的, 已足以容纳所有新的特征. 也许那些变化在一两代内不易察觉 , 但是事实上基因的所
有差别都是累计而成的 . 有时变化过于致命 , 子代就会不能出生, 或者夭折. 许多遗传疾病原因就在
于此. 当暴露在如射线等因素下的时候, 致命变异的几率就会增加很多. 来自变异产生的多样性结
果被看作新的遗传信息, 然后一代待遗传下去. 来自相同父母的个体各自含有不同的基因 . 让我们
说说他们突然面对环境变化时候吧 . 在相同物种的个体中, 基因的多样性被足够程度的累积 . 那些
含有对改变了的环境最适应的基因的个体将会生存下来 . 举例来说, 当温度急剧降低时, 体内有厚
的脂肪层的个体将会有较多的机会生存. 如果寒冷继续, 厚脂肪的个人将会成为主要种群并复制它
们自己. 这样物种的普通外形将会改变成这个样子. 自然选择所要求的多样性被变异的形式赋予子
代 .
变异并不是提供多样性的唯一方式 . 经过交配, 异性的动物交换并且结合它们的遗传信息 . 为交配

投入的努力是难以置信的 , 从公海豹相互争斗以赢得母海豹到植物吸引昆虫来授粉 , 不一而足 .
为何它们选择那样的方法, 以至有时甚至看起来对它们自己不安全 ? 用一些植物用的插枝法, 还有

细菌或酵母的分裂法来倍增自己看起来多方便啊 . 然而, 当目的是为物种产生多样性的时候 , 就会
发现雌雄性基因重组的方法值得冒险. 用随机发生变异的方式产生可以注意到的变异非常慢. 当变
异太快
时, 变异倾向于对物种有害. 大多数情形是, 在产生一个特性时, 一个以上的基因发生互补. 即使基
因偶然发生变异而且有利于物种 , 在其它位点同时发生导致同样特征的偶然变异的概率仍然是非
常低的. 但是, 经过交配导致的基因重组却能大大提高单个配偶中独立的有利变异同时出现在子代
中的概率. 如果来自父母的有害变异出现在子孙身上 , 它们的后裔将更有可能在短时间内消除它 .
换句话说 , 基因重组较单独的变异高度提升了自然选择的效率而且增加了基因多样性的机会 .
有些重组只有交配才会发生. 包括人在内的高等动物的 DNA 成对存在, 只有一条传递到再生的细

胞中.染色体中可能的组合数字--假设是人: 既然人有 23 对染色体, 再生细胞的可能组合数达 223. 甚
至在个别的染色体上 , 由于存在交换现象可以产生更多种类 .
顺便一提, 多样性的发展真的必要吗? 让我们假设存在特定的变异而且基因完美复制而不存在任何

误差. DNA 聚合酶用于基因复制, 可以发展超级 DNA 聚合酶而使得误差大为减少. 如果具有这种
超级酶的个体能够在一定环境中存活 , 它将产出同样的后代, 而且后代可以存活. 如果它们尝试仅
在自己的种群内部寻找配偶以保护其高等的遗传, 那将导致减少重组数量而限制了多样性. 这样的
结果就是近亲结婚. 过去在一些欧洲的王室家庭之中肆虐的令人愤怒的血友病, 一种隐性的遗传疾
病, 就是近亲结婚的结果. 近亲结婚的另外一个例子是印度豹 , 它是已知的地球上跑得最快的哺乳
动物. 由于近亲结婚限制了基因的多样性 , 印度豹成功的保持了快速奔跑的优秀基因 , 可是却抵挡
不了持续进化的细菌 , 现在正濒于灭绝 . 我们周围生物学的 , 物理的 , 化学的环境一直不断改变 .
HIV 或流感病毒通过基因的持续变异而使得现有的药物不断失效就是一个绝佳的例证 . 它们在多
样性上表现出的持续发展对于物种的生存和繁衍是必需的. 那些藐视变化的人不能生存? 这对于我
们这些生活在 IMF 时代的人来说听起来很熟悉. 这对于人类社会产生之前的生物同样适用. 如果再
前进一步, 这可能上升到辩证唯物主义 . 物质的存在方式是运动 , 换言之, 存在只能是通过运动和改
变来实现. 从这个观点来看, DNA 聚合酶将其工作的误差控制于一定比例可能也是进化的产物 . 这
意谓着其它大量的产生较少误差的完美酶和产生较多误差的酶都灭绝了 , 只有维持这个比例的酶
最适合现在的环境, 所以被选择生存了. 这种酶仍然随环境的改变而保持着改变.
结论就是, 进化过程使得特定环境中那些含有最适合的品质的物种伴随着物种多样性的稳定发展
和自然选择而存活.
▲ top
::::RNA 世界 ::::
生物系统的进化要求较长时间. 生物自生命第一次出现起就一直在进化. 现存的物种都是几十亿年
来改变和选择的结果, 它们的进化还在继续. 遗传信息基本上包含在 DNA 中. DNA 的四个基本成
份, A, G, T, C 构成了遗传密码. 3 个碱基的组合构成一个密码 , 用于一个特定的氨基酸 . 3 个碱基的
可能组合数是 43, 即 64. 而当为 20 种氨基酸编码的时候, 一些 3 碱基的组合的功能可能有重叠 . 换
句话说, 遗传信息是合成肽的蓝图, 肽由氨基酸组成. 蛋白质是构建活体生物身体结构的基本材料,
而肽则催化了身体内难以胜数的化学反应. 其他的建筑单元例如糖, 脂肪和其他的微量分子可以被
称作蛋白质和酶的二次产物 .
为使蛋白质能从 DNA 合成, 首先, 必须从 DNA 制得 mRNA. RNA 有几乎与 DNA 相同的结构, 但是
它由核糖组成 , 在糖环 2 位碳上多了一个羟基 . 这个额外的羟基使 RNA 更高的化学活性 , 导致了
RNA 参与众多反应 ; 但同样 , 这也降低了它的稳定性 , 使得 RNA 不适合长期储存遗传信息 .
一旦制得 mRNA, rRNA 和蛋白质配合物就能聚集到一起并读取 mRNA 上的遗传信息然后合成相

应的蛋白质. 尽管身体中的大多数反应是蛋白质催化的, 非常有趣的是蛋白质合成(也是一个最基
本的反应)的催化物却是 RNA 分子. 顺便提及, 蛋白质酶也在利用 DNA 制得 RNA 的过程中起作用,
这些酶也是从 DNA 制得的, 因而导致了"鸡生蛋还是蛋生鸡"的争论. 哪一个首先存在, 蛋白质还是
DNA? 假设的答案之一在 RNA 世界中 .
如果现在的生物世界因 DNA 被用作遗传信息的存储介质且其产物蛋白质被用作催化剂而被称

作"DNA 世界", 那么在这之前的世界就可以叫做"RNA 世界", 因为在最初时候 RNA 起的是这两种
功能 .
这个理论 , 正在获得来自许多人的注意 , 始于发现了짚신벌레通过叫做 " 裂分" 的自催化过程而使
mRNA 成熟 .
随着很多 RNA 催化的生物反应被发现或发展 , "RNA 世界假说"正在使人信服. rRNA 和 tRNA 也可
能是支持 RNA 世界的证据.
▲ top
::::分子进化 ::::
在找寻具有新的催化功能的 RNA 分子的过程中, 分子进化的理念被引入 . 这个观念认为生物学进
化是通过基因多样性和自然选择完成的, 已被应用于试管中的反应. 一个不同是自然选择的结果是
通过个体的存活表征的, 然而, 在分子进化方面, 选择是被预先设定的活性测试发现的. 首先, 少量
RNA 分子以混合形式制得 . 这些 RNA 的数量只是真正的可能组合的一小部份 . 举例来说, 如果我
们觉得一个 RNA 分子有 100 个碱基长, 那么 100 个碱基可能的组合就将会是 4100, 超过 1060, 是个
天文数字. 既使我们在混合物中制得数百万或数十亿个 RNA 分子, 当与全部可能的数字相比较时
仍仅是个零头. 无论如何, 由这个混合物开始, 哪怕仅有微弱活性的 RNA 也能通过第一次活性筛选
实验. 至于选择, 我们可以将要得到的 RNA 固定到特殊设计的固相上 , 或者相反仅让活性的 RNA
溶解到溶液中, 很多方法的. 如果产品太少, 没关系. 因为我们可以使用逆转录来从选出的 RNA 合
成 DNA, 然后使用 PCR(聚合酶链反应 )技术倍增它们. 在这个过程中 , 可以在一定程度上故意导入
一些 DNA 复制误差. 这可以通过控制 PCR 中使用的盐溶液的组分的浓度来在统计意义上完成 . 我
们可以将这个过程跟自然中发生的比较一下 . 选择了的分子可被比作最适应的经过自然选择而存
活的个体, 然后部分变异并复制. 在第二次筛选开始之前, 几乎与父母相同但是稍有差异的后代将
会在试管中茁壮成长. 第二次筛选活性 RNA 将会又选出一些, 这些更有可能来自修饰了的 RNA.
可能不止一种 RNA. 我们可以重复上面的过程 , 转换这些 RNA 为 DNA, 重复导入变异的 PCR, 通
过筛选实验选出活性分子. 如果重复几轮这个程序, 将会得到一些活性相当高的 RNA. 试管中的分
子进化只需几天或几个星期 , 而在大自然中需要数十亿年的进化 .
既然这个方法有个缺点, 基因变化的唯一来源是变异, 于是就发明了叫做"DNA 重洗"的 DNA 混合
方法, 与生物世界中的交配一致 . RNA 分子经过第一次筛选实验被选出 , 逆转录到 DNA 上, 这些
DNA 被随机切开, 让它们发生交换. 这个过程由 PCR 完成, 无需溶液中加入引物 . 这种方法与只用
变异-诱导 PCR 的相比在产生基因多样性方面极为高效 , 间接的又一次证明了大自然中交配的功效 .
我们可以预料 2 个个体间有效的交叉将会提高得到高效活性分子的概率.
▲ top
::::遗传法则 ::::
分子进化的概念能被用于从有机分子到基因分子 , DNA 或 RNA 等, 这种方法模仿生物进化, 因而
叫做"遗传基因的运算法则 ". 举例来说, 如果一个有机分子有 4 个独立的取代位点 , 可有 10 个可能
的取代基放到这些位点上, 那么可能的化合物数就是 10,000. 具有自动仪器和机器人的公司并非不
可能合成并识别这个数量的化合物 . 然而, 如果取代基是 100, 总的可能化合物数将会是一亿. 当数
字是这样大的时候, 最要紧的不是数量而是如何设计这些实验 . 如果 DNA 是遗传密码, 那么这些取
代基的组合就如同密码一样 .
这个密码是按我们的判断安排的 . 因为方便的缘故, 让我们把他们看作二进制的数. 如果是 10 个取

代基, 4 位二进制数能表达 16(24=16)种取代类型, 足以安排 10 种取代基, 可能会有一些重叠. 这是
把碱基排列用于氨基酸编码的一样的情形 . (64 个类型的组合决定了 20 种氨基酸 .)
Ex: 0001 0110 0010 1110
1111 0011 0100 1011
然后这些密码就能像遗传密码一样使用. 举例来说, 像上面一样的 20 位二进制的数的组合可以通

过使用二进制随机数表而得到 . 然后我们能识别从它来的每个化合物的结构而且合成他们 . 这 20
个化合物将要去做第一次筛选实验 , 当活性分子被选出后, 识别它们的结构, 然后可以找到它们的
二进制组合编码. 既然我们仍然不知道这些化合物中的哪部分对活性有贡献, 我们以二进制表为蓝
图, 对选出的化合物进行二进制编码的交叉 , 就像自然界中染色体的交叉 . 在交叉的过程中, 为提高
获得更高活性的分子的机率, 我们可以考虑几个因素, 如活性等级, 活性度等. 有趣的是, 正如一个
碱基的改变就能导致一个完全新的氨基酸那样 , 交叉取代基中部而获得的一个改变将导致一个新
的取代基 . 这里是一些例子 .
Ex: 0001 011/0 0010 1110
1111 001/1 0100 1011
Ex: 0001 0111 0100 1011
1111 0010 0010 1110
与遗传学中发生的一样. 最后的步骤要在选择的化合物上以特定的比例产生变异. 简单的在一些位

置上把 0 变为 1 就能做到. 由于这 20 个新产生的蓝图, 我们识别其结构并合成它们, 然后做第二次
筛选实验选出新的活性化合物 . 如果我们重复此过程 10 次, 我们将需要合成 200 个化合物但是这
只是所有的可能组合 (10,000) 的 2%.
▲ top
back to main page

后基因组时代的关键

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

后基因组时代的关键

Uploaded by

Copyright:

Available Formats

1.4 版 ; Feb 14, 2002 (in Korean,En

人类基 因组计 划的竞 争

人类基因组大约由 30 亿碱基对构成. 只有百分之一是含有与蛋白质合成相关基因的外显子(exon),

研究者们曾一度仅热衷于蛋白质在其上合成的基因. 从全基因组中利用 mRNA 的反合成仅破译基

有时并不是全序列都被转录, 而是仅一些部分被取出以做成表达序列标签(EST). 尽管 EST 是不完

一个人类的基因组约有一米(稍逾 3 英尺). 如果可以把基因组列成一排成批破译, 人类基因组计划

多国合作小组将 30 亿碱基对切成几个细菌人工染色体(BAC)片断, 然后切成更短的片断以便使用

Whitehead Institute for Biomedical Research: www-genome.wi.mit.edu

Celera 的进展略有不同. 他没有使用 BAC 克隆体而是将全基因组随机切成几千万片断, 读取每一

两个小组都使用了荧光分析仪来读取 500-1000 个丙烯酰胺硅胶中末端使用了荧光物质的 DNA 片

但是 Celera 仅允许大学及研究机构在其网站上免费使用 100 万碱基的信息. 如果需要更多或者进

约有人类基因组的 99% 被称作垃圾 DNA, 他们不作为基因表达 . 低等动物(拟南芥 11%, 线虫 7%,

在重复序列中最常见的是 Alu, 大约占 10%. 通常重复序列含有大量 AT 碱基和相对较少 GC 碱基.

如果 SNP 现象是随机的, 将会有大约 2140 万个. 幸运的是人们发现 SNP 位点通常聚集并行成单倍

一种叫生殖道支原体(Mycoplasma Genitalium)的微生物含有最少的基因(470). 由此事实得出, 理论

由于遗传学的发展和 DNA 序列测定的加速, 大多数高等动物如人类等的遗传信息都将被破译 . 对

就狂犬病来说, 为了得到优良血统的子代, 母犬的第一个雄性子代是非常重要的 . 据说如果第一个

遗传学始自 19 世纪中叶 Mendel 研究豆类特异性 . 他在研究豆类特异性如形状和颜色的过程中 , 发

20 世纪 60 年代发现了限制酶(resteriction enzyme)可以切割 DNA, 以及所有的氨基酸合成密码子 .

蛋白质组学(Proteomics)是蛋白质的遗传学 . 除了发生突变, 基因组结构保持不变 , 但是蛋白却由于

最常使用的分离蛋白质的方法是采用二维凝胶(2D-Gel)(通常 18 x 18 cm, 150µg 蛋白质), 然后使用

蛋白质组学的另一个根本局限是与基因数量相对稳定相比, 蛋白质表达不稳定. 一种蛋白质在整个

reference 蛋白质组学: Nature, 1999, 402, 715-720

在结构基因组学(功能基因组学的一个分支)中, 研究者采用 NMR 和 X 光来分析蛋白质的三维结构,

使用 DNA 芯片做基因表达模式研究是现今蛋白质组学中一个非常热门的课题 . DNA 芯片技术不

首先它被用于计算人类基因组计划得出的遗传碱基序列, 从而得出蛋白质功能. 虽然已发现了大多

另一方面, DNA 芯片关于全基因组研究的实验数据 , 也需要数据处理技术来解释众多基因表达的

信息生物学也被用于解释蛋白质交互作用的网络. 最终, 可以通过输入从信息生物学得出的蛋白质

back to main page

蛋白质包含 20 种氨基酸, 能够催化多种生化反应的酶和细胞骨架都是蛋白. 我们的体内可以合成

由于 DNA 是高度盘旋的双螺旋结构, 复制 DNA 需要解链, 解螺旋酶以 ATP 为能量做此工作. 然后

1) 混合模板 DNA, 四种核糖的三磷酸盐作建筑材料 , 和 DNA 聚合酶. 加入过量 2 种 DNA 引物, 与

<The Magazine of the Penn State College Engineering>

图的下部是细胞核, 上部是细胞膜. 细胞核外接着就是自我连接的内质网(ER), 然后是高尔基体. 粗

过氧物酶体含有解离脂肪酸和氨基酸的酶 . 在酶反应中, 产生过氧化氢, 过氧毒素在催化下被分解

线粒体是我们体内产生 ATP 的主要细胞器. 线粒体数量超过了其他任何细胞器的数量, 在肝和心等

如同其他生物一样, 病毒使用 DNA 或者 RNA 作为遗传信息. 但是它们缺少很多生理功能所必需的

back to main page

尽管 99%的人类基因组序列已经发现, 还有 1%的工作要做, 下一步最重要的工作却是找出基因的

因此有时观察特征修饰时特定基因表达被暂时抑制 . 这时, 反义低聚物和能与 mRNA 反应并阻止

Knockout à protein synthesis suppression vs molecular suppressor à protein activity suppression

1. 制得化合物: 首先, 为了获得足量得化合物以引发要得到的现象 , 通过组合化学的

2. 定义目标现象 : 已经分化的神经原细胞和肌肉细胞很少被增殖 . 因此, 一旦受伤, 细胞长不好, 恢

钓出体内微管蛋白(1: 亲和分子, Ms: 肌基质蛋白)

在肌基质蛋白的例子中 , 如果不是使用连接分子与树脂相连 , 叫做链霉抗生素蛋白(Streptavidin)的

综上所述, 由筛选系统发现的肌基质蛋白使得已分化的肌细胞再生成为可能, 已证明微管蛋白引起

1. 选择目标蛋白质 : 细胞分裂是多种完备功能的蛋白质的和谐演出 . CDK(细胞周期蛋白依赖性激

正常的中期 purvalanol 处理后 肌基质蛋白处理后

另一方面, (A)和(B)柱吸附的蛋白质被过滤而且以阴离子洗涤剂十二烷基磺酸钠 (SDS)处理, 然后

5. 肌基质蛋白和 purvalanol 在其它细胞上的作用 : 为了检查肌基质蛋白和 purvalanol 在卵提取物以

正常中期 purvalanol 处理 肌基质蛋白处理

back to main page

简直就像是在做梦 . 然而, 人类基因组计划已经测定了几乎所有的人类

为了更便于理解文库的概念 ,兹举一例. 仅用字母 A 和 B 的组合可以产生多少单词 ? 仅考虑两字母

再说蛋白. 尽管有所例外 , 绝大多数蛋白值仅包含 20 种氨基酸. 蛋白质由几千个氨基酸组成 , 较短

以 20 个氨基酸计, 含有 2 个氨基酸的肽有 20 x 20 = 400, 3 个的 203 = 8,000, 4 个的 204 = 160,000,

一旦确立研究方向, 我们需要考虑要得到什么样的化合物 . 为得到爱滋病治疗药物, 首先我们需要

可以提出多种方法. 首先,把 HIV 病毒视为最终敌人,那么方法就是杀死或阻止病毒感染 . 由于大多

如果应用不同的方式 ,所需要的分子特性将完全不同 . 如果应用不同的方式 , 所需要的分子特性将

在文库设计中前导化合物非常重要. 如果手头没有前导化合物, 就需要构建一个基本文库去搜寻它

经过如此的最优化过程, 选出最终候选分子, 但是这并不意谓这些化合物能被直接应用于新药研究

back to main page

免疫系统对抗体的反应是一个很好的例证. 抗体的免疫反应仅在高等脊椎动物中存在. 这是已知的

大自然在这一点上大自然又耍了个花招 . 在胚系抗体中 B 淋巴细胞 (一种体细胞 )产生一种可与抗

人类基因组计划的竞争

正常的中期 purvalanol 处理后肌基质蛋白处理后

正常中期 purvalanol 处理肌基质蛋白处理

1900: Landsteiner 发现了 ABO 血型 . 红十字会建立

1957: Isaacs 和 Lindemann 发现了干扰素

1975: Milstein 及 Kohler 制出单克隆抗体

通过微生物制得肽文库

肽稳定作用 : 核糖体合成的蛋白质在 ER(内质网)上或高尔基体内变成糖蛋白, 先前形成的糖分子

毒素抵御及诱饵作用 : 如前所述, 一些糖给了宿主生物不好的作用 , 还有一些糖阻止这样的作用

蛋白质功能开关作用 : 一些细胞膜受体通过糖键与生长激素结合. 这个功能好像是帮助抑制生长

储存活性分子作用 : 最近的研究报告糖聚合物表现出重要的生物储存作用 . 已知生长因子能利用

激素作用 : 真正的糖聚合物可能是激素 . 植物激素 Oligosaccharins 表现了很高的独特性 , 是个好例

细胞间传递信号作用 : 由于每个细胞布满高浓度的糖, 有人推测糖会在细胞间相互功能中发挥重

所有三种 selectin 都与 Lewis a (sLea) (NeuNAc-2-3Gal-1-3(Fuc-1-4)GlcNAc) 成键 , 它是 Lewis X