泸西县图书馆“U书快借”平台

精彩书摘

第1章绪论：从SAR到QSAR
　　1.1 药物发现方法与QSAR
　　1.1.1 药物发现方法学起源
　　药物发现起源于世界各民族对天然药物的研究，现代药学是从基于动物模型的天然产物筛选发展起来的，称为“基于表型的药物发现”(phenotypic drug discovery，PBDD)或“正向药学”(forward pharmacology)。随着生命科学的发展，人们对药物作用机理的认识逐渐深入，“基于靶标的药物发现”(target-based drug discovery，TBDD)方法成为主流。TBDD的核心思路是：药物分子对特定靶标(一般是蛋白质)分子的调控作用*终可以被转化为疗效，称为反向药学(reverse pharmacology)。
　　一般认为，药物设计方法学萌芽于德国医生兼科学家Paul Ehrlich(1854—1915)发展起来的研究化学、生物学和医学之间关系的方法[1]。早期的药物来自天然产物，但是它们的成药性(主要是药理活性和安全性)经常不够好，需要优化。为了改进天然产物的成药性，需要根据药物分子的结构与活性之间的关系(structure-activity relationship，SAR)修饰药物的分子结构。*初，药物化学家只能定性地研究SAR，以指导药物合成的实验设计。随着计算机技术的进步，SAR的定性分析逐渐演变为定量分析，即定量构效关系(quantitative structure-activity relationship，QSAR)。
　　1.1.2 早期的QSAR方法
　　据德国BASF公司的药物化学家Hugo Kubinyi研究，QSAR可以追溯到1863年A. C. Brown和T. Fraser对生物碱构效关系的研究[2]。QSAR没有明确的历史起点，一般认为，Corwin Hansch在20世纪60年代的工作开启了现代QSAR研究[3]。在药物发现领域，QSAR主要用于化合物分类、先导化合物发现与优化、化合物成药性相关参数的预测等。
　　早期的Hansch分析基于下述假定(图1-1)：
　　图1-1 Hansch分析中的分子骨架与取代基的概念
　　(1)分子的活性由它的分子结构(拓扑结构)决定。
　　(2)分子结构由骨架(scaffold)和骨架结构上的取代基团(substituent)组成。
　　(3)分子骨架，又称优势结构(privileged structure)，是靶标与配体互相识别所需要的主要结构特征[4]。
　　(4)取代基的静电势和立体形状因素(static and steric factors)共同影响药物分子的活性。
　　(5)分子骨架上的每个取代基对活性的贡献有加和性(additivity)。
　　在芳环骨架上的取代基的静电效应(吸电子或推电子能力)用哈米特(Hammett)常数σ表征[5]，不同的取代基对应不同的σ值。如果实验样本的数据足够多，则可以用线性回归[6](linear regression)的方法建立药物活性y与取代基的QSAR模型(函数关系)，如式(1-1)所示。
　　(1-1)
　　式中，活性y是静电效应σ的函数，而σ又是取代基的函数，取代基又是分子结构的函数。因此，式(1-1)是一个多层嵌套的泛函(functional)。
　　上述QSAR的基本假定可以概括为以下两个基本公设：
　　(1)相似的分子结构有相似的活性(或性质)。
　　(2)分子结构上可以有n个(n>1)取代基，它们对活性的贡献有加和性(additivity)。
　　为了计算y，式(1-1)中的molecular_substructure被分子结构描述符取代。结构描述符有很多种，可以从分子结构数据—原子邻接表(atomic connection table)计算出来。因此，分子结构是式(1-1)的*底层的自变量。当然，分子结构*终由量子力学(即**性原理)表征。
　　y*简单的解析式是单变量或多变量的线性函数，其正确性取决于下述条件：
　　(1)用于建模的训练数据是正确的，且阳性与阴性样本数据点基本平衡。
　　(2)从一组分子结构中能总结出正确的骨架结构。
　　(3)骨架上有若干组可变的取代基，并能表示成相应的描述符。
　　(4)当骨架上有多个可变取代基时，它们对活性的贡献有加和性。
　　(5)所选择的描述符与同层函数有相关关系。
　　(6)如果描述符属于离散变量，我们有方法将离散变量变换为连续变量。
　　(7)选择合适的算法建模。
　　(8)有合适的工具评估和选择*终的QSAR模型。
　　(9)模型预测的结果符合化学原理。
　　传统的QSAR建模过程的一般步骤如下：
　　(1)分子结构和实验数据整理与校验。
　　(2)预处理分子结构数据和描述符数据。
　　(3)选择描述符和数学方法。
　　(4)建立和优化预测模型。
　　(5)评价模型的稳健性(robustness)和预测能力(精度和普适性)。
　　(6)用外部实验数据验证QSAR模型的预测结果。
　　关于QSAR建模的综述可以参见文献[7]。
　　1.2 分子结构的表征
　　分子的几何结构是图，不能直接代入回归模型，这就产生了如何从分子结构中导出与活性或性质相关的可计算的参数问题，即分子结构的表征问题。
　　早期SAR需要从完整的分子结构区分出两类子结构：骨架结构和取代基，作为影响分子活性的特征结构元素。随着研究的不断深入，不断改进“与分子活性相关的特征”提取方法，从基于经验的手工枚举演变为基于某种统一数学/物理共识的自动化提取；子结构特征的概念也演化成更广义的特征向量(即分子描述符)。
　　1.2.1 化学子结构的划分
　　为了构建QSAR的模型，先要从一组有生物活性的分子中总结它们的共同骨架(例如，将一组分子叠合起来以发现它们共同的骨架)[8，9]，再确定骨架的特定位置(如芳香环上的邻位、对位或间位)上的取代基。骨架和取代基都是子结构，化学子结构划分的任务就是把这些子结构从活性分子结构的数据中提取出来。
　　分子结构数据一般用化学结构绘图软件(如ChemDraw、JChemPaint)提取，以邻接表的形式将分子的二维(拓扑)或三维结构数据以MOL或SDF格式记录在文本文件中[10]。
　　子结构的划分方法很多，如分子优势骨架导出法[11]、基于图修剪和*大共同子结构搜索的方法等[12-14]。由于分子的骨架因药物的作用靶标不同而变化，人们没有就化学子结构划分的方法达成共识。
　　1. 检索键
　　在化学数据库发展的早期，为了提高化学数据库的检索效率，人们希望有一种普适性的子结构划分方法(称为筛法)。*早的子结构“筛”是分子访问系统检索键(Molecular ACCess System search keys，MACCS)，实际上是根据经验预定义的子结构字典)。MACCS是MDL公司(Molecular Design Limited， Inc.)，Stuart Marson和W. Todd Wipke创建于1978年位于美国加利福尼亚州Hayward的*早的分子设计软件公司。该公司于2007年被Symyx Technologies， Inc.收购，然后与Accelrys合并。2014年，Accelrys被法国Dassault Systèmes公司收购，更名为BIOVIA，仍然是*重要的药物分子设计软件公司，网址：www.3ds.com/ products-services/biovia/)，以基于有机化学家的经验枚举出的一组符合化学原理的子结构片段作为化学数据库的检索键，提高化学数据库的检索效率。早期版本的MACCS有166个，后来拓展到960个[15]。虽然检索键能提高化学数据库检索效率，但是它们与分子的成药性无关，应避免在QSAR研究中被滥用。MACCS没有反映具体化学数据库的子结构特征，也不保证检索键之间互相*立(一个检索键可能是另一个检索键的子结构)。
　　2. 位图与分子指纹
　　MACCS的主要缺陷是不完备且带有经验偏见。为了避免此类缺陷，人们提出基于图论规则的子结构划分方法，即定义一组从分子图上切割子结构片段的规则，从化合物库中系统地提取分子的子结构，如原子中心片段(atom center fragment，ACF)法[16-19]、基于ACF的扩展联接性指纹(extended-connectivity fingerprints，ECFP)法[20]、Daylight公司的分子结构指纹法(www. daylight.com/ dayhtml/doc/theory/theory.finger.html)等。
　　这些方法克服了经验偏见，做到了客观性和普适性。分子结构指纹是指将系统化产生的子结构片段用二进制位图(bit-map)表示，每一个位只有“0”或“1”两种状态，表示对应的子结构存在与否，以此代替子结构字典。系统化的子结构划分方法的缺点是不能保证所产生的子结构片段都有化学意义，很多片段在化学数据库中罕见，因此分子指纹有很多“0”位，是信息稀疏的数组。由于对计算机存储位串进行逻辑运算的速度极高，它作为化学数据库的检索引擎受到普遍欢迎。
　　ACF法和ECFP法都以原子为中心，通过环形切割提取子结构字典(图1-2)。这类子结构在一定程度上反映了片段中心原子的化学环境，可以解释核磁共振波谱的化学位移现象[16]，分子力场的子结构片段也与之类似。
　　图1-2 ACF法和ECFP法产生子结构字典的原理
　　检索键和分子指纹方法的本质都是从分子图中直接截取子图的方法。前者基于化学家的经验枚举，保留了化学直觉，但也承袭了化学偏见；后者按规则从分子图上由计算机算法自动截取子结构，严谨客观，有可重现性，但也失去了化学意义。
　　如果用MACCS-166表征分子，对任意一个分子结构S，可以用长度为166的二进制位组B来存储“166个键是否出现在S中”的检测结果，如果某键出现，则对应位置“1”，否则置零。这样，数据库中的每一个分子结构S，都被表征为B(图1-3)。B被称为子结构位图，是一种表征分子的特征向量。
　　图1-3 分子结构、子结构和位图(分子指纹)
　　如果要检索分子Q是否在化学数据库中存在，只要将Q转化为它的分子指纹BQ，然后比较BQ与数据库中第i个分子的指纹Si，如果BQ ∩ Si = 1，则表示在数据库中找到了查询分子Q。计算机对位图的逻辑“与”运算速度极快，因此，检索效率极高。
　　对一台64位计算机而言，存储一个分子的MACCS-166检索键只需要长度为3的整数数组，MACCS-960需要长度为15的整数数组。Daylight的分子指纹计算规则可以产生很多子结构，所以需要更长(如256或512)的数组。用长数组表示一个分子时，信息稀疏，造成存储浪费，也增加了计算成本。Daylight将位图对折缩短分子指纹数组的长度(如把长度为2048的位图对折为1024的位图)，称为哈希化的指纹(Hashed fingerprint)。这样做降低了计算成本，但位图所代表的子结构信息也丢失了。
　　当把一个分子结构S表征为B时，用B描述S的特征，向量B的每一个分量指向一个子结构，该分量称为描述符(descriptor)。向量B中分量的数目称为维数。用MACCS-166指纹表示一个分子时意味着将一个分子映射到166维广义空间中。用这种表示方法，可以计算分子的整体相似度，或它们在广义空间中的距离。
　　1.2.2 分子结构的线性编码
　　早期，为了将化学结构数据录入计算机存储设备，人们发明了将化学结构图编码成语句(字符串)的技术，即

展开

目录
序一
序二
前言
第1章绪论：从SAR到QSAR 1
1.1 药物发现方法与QSAR 1
1.1.1 药物发现方法学起源 1
1.1.2 早期的QSAR方法 1
1.2 分子结构的表征 3
1.2.1 化学子结构的划分 3
1.2.2 分子结构的线性编码 6
1.2.3 分子描述符 6
1.2.4 分子结构数据的清洗 7
1.2.5 分子描述符的选择与规范化 9
1.2.6 分子描述符的组合与变换 10
1.3 QSAR方法的难题与悖论 13
1.3.1 取代基贡献的加和性 13
1.3.2 活性断崖 19
1.4 小结 22
参考文献 23
第2章信息技术的演化 29
2.1 从CPU、GPU到TPU：硬件的演化 29
2.1.1 从真空管到大规模集成电路 29
2.1.2 冯?诺依曼体系结构 29
2.2 从LISP到Python：软件的演化 31
2.2.1 从指令驱动到过程驱动 31
2.2.2 从面向结构的程序设计到可视化程序组装 32
2.2.3 CPU、GPU与TPU 33
2.2.4 函数、神经元与冯?诺依曼计算机体系结构 34
2.3 从AI到DNN：人工智能理论与技术的演化 35
2.3.1 早期AI的重要概念和成就 35
2.3.2 AI新阶段与ANN 36
2.4 深度学习的底层逻辑 38
2.4.1 数据的结构 38
2.4.2 程序设计与计算机语言 40
2.4.3 AIDD相关的开源工具 42
2.5 DNN的原理和基本框架 44
2.5.1 神经元、神经网络与深度神经网络的基本框架 44
2.5.2 多层感知器 46
2.5.3 RNN与双向长短期记忆机制 46
2.5.4 卷积神经网络与生成对抗网络 46
2.5.5 变换器与注意力机制 50
2.6 小结 50
参考文献 53
第3章药物发现方法的演化 56
3.1 药物发现技术简史 56
3.2 中医药发现方法学的演化 58
3.2.1 中药的四大** 59
3.2.2 中药理论的演化 60
3.2.3 现代中药研究的模式 66
3.3 药物发现范式的演化 73
3.3.1 表型药物发现过程的演化 74
3.3.2 基于靶标的药物发现 77
3.3.3 药物发现中的分子信息学基本问题 90
3.3.4 ADMET相关的重要参数 91
3.3.5 中西药学的互惠与交融 96
3.4 小结 99
参考文献 100
第4章药物设计方法的演化 111
4.1 药物设计的基本原理 111
4.1.1 分子生物学的中心法则 112
4.1.2 药物设计所依据的基本物理模型 116
4.2 小分子模型的演变 118
4.2.1 从化学式到拓扑结构 118
4.2.2 从拓扑结构到几何结构 119
4.2.3 从几何结构到分子构象 122
4.2.4 从化学合成到分子组装 122
4.2.5 从分子组装到分子机器 123
4.3 蛋白质模型的演变 124
4.3.1 蛋白质分子的一级结构 124
4.3.2 蛋白质分子的二级结构 129
4.3.3 蛋白质分子的三级结构 131
4.3.4 蛋白质分子的四级结构 132
4.4 从静态结构到动态结构 135
4.4.1 药物分子对靶标的调控 135
4.4.2 分子的动态识别 137
4.5 小结 140
参考文献 142
第5章大数据与药物发现 147
5.1 药物发现领域的大数据来源 148
5.1.1 高通量科学实验产生的数据 148
5.1.2 高性能计算模拟实验产生的数据 149
5.1.3 科技文献和医药卫生服务信息化产生的数据 151
5.1.4 生物大数据带来的主要机遇与挑战 152
5.1.5 生物大数据分析的工具 156
5.2 精准医疗与大数据 157
5.2.1 常规药物治疗与精准治疗 157
5.2.2 大数据在精准医疗中的应用 160
5.2.3 与精准医学和大数据相关的伦理问题 166
5.3 大数据与虚拟药物筛选 168
5.3.1 早期的虚拟筛选 169
5.3.2 基于共识的虚拟筛选 170
5.3.3 迭代式虚拟筛选 170
5.3.4 虚拟筛选与HTS的整合 170
5.4 小结 171
参考文献 172
第6章人工智能辅助药物发现与设计 179
6.1 AIDD概论 180
6.1.1 AI在化学与药物设计中的应用简史 181
6.1.2 AI在药物靶标发现与确认中的应用 182
6.1.3 AI在先导化合物的发现中的应用 183
6.1.4 AI在先导化合物的优化设计中的应用 183
6.1.5 AI在临床试验设计中的应用 184
6.2 AI与因果关系和统计关系 186
6.2.1 变量之间关系的类型 187
6.2.2 神经网络与信息变换 188
6.2.3 DNN与间接关系 188
6.2.4 RNN与双向关系 189
6.2.5 RNN与递归现象 191
6.2.6 分子结构信息的传递与长短期记忆机制 192
6.2.7 CNN与模式信号增强 193
6.2.8 图神经网络与图卷积网络 195
6.2.9 生成对抗网络与竞争过程的模拟 196
6.2.10 变换器与注意机制 197
6.2.11 从BERT到ChatGPT 198
6.3 AI与蛋白质三维结构的从头预测 202
6.3.1 蛋白质结构预测简史 202
6.3.2 驱动蛋白质折叠的物理因素 203
6.3.3 蛋白质同源性与基于实验数据的结构预测 203
6.3.4 同源建模的一般过程 205
6.3.5 AlphaFold2的成功经验 207
6.3.6 尚未解决的蛋白质结构预测问题 209
6.4 GPT对药物发现与设计思路的颠覆 211
6.4.1 靶标的发现和鉴定 213
6.4.2 药物分子的自动生成与虚拟药物筛选 214
6.4.3 AIDD的任务类型与算法的架构选择 217
6.5 小结 219
参考文献 222
第7章药物治疗学与药物发现学的演化 231
7.1 化学疗法的演化 231
7.1.1 天然药物疗法 231
7.1.2 芳香疗法 234
7.1.3 化学合成药物疗法 239
7.2 生物药疗法的演化 247
7.2.1 传统的生物药 248
7.2.2 基因疗法 249
7.2.3 细胞疗法 252
7.3 个性化医疗 256
7.3.1 药物基因组学与药物遗传学 257
7.3.2 时间医学与药物疗效 258
7.4 小结 260
参考文献 261
第8章总结与展望 266
8.1 药物发现方法学演化的里程碑事件 266
8.2 AI与药物发现方法学：挑战和机遇 269
8.2.1 数据、算法与算力、数据与程序的递归式重构 270
8.2.2 程序自我改进与学科的递归式演化 271
8.3 药物发现过程的终点与终极的科学问题 274
8.3.1 药物发现学的终点问题 276
8.3.2 与药学相关的生命科学终极问题 277
参考文献 278
春风夜雨珠江南—后记 280

展开