第1章 绪论:从SAR到QSAR
1.1 药物发现方法与QSAR
1.1.1 药物发现方法学起源
药物发现起源于世界各民族对天然药物的研究,现代药学是从基于动物模型的天然产物筛选发展起来的,称为“基于表型的药物发现”(phenotypic drug discovery,PBDD)或“正向药学”(forward pharmacology)。随着生命科学的发展,人们对药物作用机理的认识逐渐深入,“基于靶标的药物发现”(target-based drug discovery,TBDD)方法成为主流。TBDD的核心思路是:药物分子对特定靶标(一般是蛋白质)分子的调控作用*终可以被转化为疗效,称为反向药学(reverse pharmacology)。
一般认为,药物设计方法学萌芽于德国医生兼科学家Paul Ehrlich(1854—1915)发展起来的研究化学、生物学和医学之间关系的方法[1]。早期的药物来自天然产物,但是它们的成药性(主要是药理活性和安全性)经常不够好,需要优化。为了改进天然产物的成药性,需要根据药物分子的结构与活性之间的关系(structure-activity relationship,SAR)修饰药物的分子结构。*初,药物化学家只能定性地研究SAR,以指导药物合成的实验设计。随着计算机技术的进步,SAR的定性分析逐渐演变为定量分析,即定量构效关系(quantitative structure-activity relationship,QSAR)。
1.1.2 早期的QSAR方法
据德国BASF公司的药物化学家Hugo Kubinyi研究,QSAR可以追溯到1863年A. C. Brown和T. Fraser对生物碱构效关系的研究[2]。QSAR没有明确的历史起点,一般认为,Corwin Hansch在20世纪60年代的工作开启了现代QSAR研究[3]。在药物发现领域,QSAR主要用于化合物分类、先导化合物发现与优化、化合物成药性相关参数的预测等。
早期的Hansch分析基于下述假定(图1-1):
图1-1 Hansch分析中的分子骨架与取代基的概念
(1)分子的活性由它的分子结构(拓扑结构)决定。
(2)分子结构由骨架(scaffold)和骨架结构上的取代基团(substituent)组成。
(3)分子骨架,又称优势结构(privileged structure),是靶标与配体互相识别所需要的主要结构特征[4]。
(4)取代基的静电势和立体形状因素(static and steric factors)共同影响药物分子的活性。
(5)分子骨架上的每个取代基对活性的贡献有加和性(additivity)。
在芳环骨架上的取代基的静电效应(吸电子或推电子能力)用哈米特(Hammett)常数σ表征[5],不同的取代基对应不同的σ值。如果实验样本的数据足够多,则可以用线性回归[6](linear regression)的方法建立药物活性y与取代基的QSAR模型(函数关系),如式(1-1)所示。
(1-1)
式中,活性y是静电效应σ的函数,而σ又是取代基的函数,取代基又是分子结构的函数。因此,式(1-1)是一个多层嵌套的泛函(functional)。
上述QSAR的基本假定可以概括为以下两个基本公设:
(1)相似的分子结构有相似的活性(或性质)。
(2)分子结构上可以有n个(n>1)取代基,它们对活性的贡献有加和性(additivity)。
为了计算y,式(1-1)中的molecular_substructure被分子结构描述符取代。结构描述符有很多种,可以从分子结构数据—原子邻接表(atomic connection table)计算出来。因此,分子结构是式(1-1)的*底层的自变量。当然,分子结构*终由量子力学(即**性原理)表征。
y*简单的解析式是单变量或多变量的线性函数,其正确性取决于下述条件:
(1)用于建模的训练数据是正确的,且阳性与阴性样本数据点基本平衡。
(2)从一组分子结构中能总结出正确的骨架结构。
(3)骨架上有若干组可变的取代基,并能表示成相应的描述符。
(4)当骨架上有多个可变取代基时,它们对活性的贡献有加和性。
(5)所选择的描述符与同层函数有相关关系。
(6)如果描述符属于离散变量,我们有方法将离散变量变换为连续变量。
(7)选择合适的算法建模。
(8)有合适的工具评估和选择*终的QSAR模型。
(9)模型预测的结果符合化学原理。
传统的QSAR建模过程的一般步骤如下:
(1)分子结构和实验数据整理与校验。
(2)预处理分子结构数据和描述符数据。
(3)选择描述符和数学方法。
(4)建立和优化预测模型。
(5)评价模型的稳健性(robustness)和预测能力(精度和普适性)。
(6)用外部实验数据验证QSAR模型的预测结果。
关于QSAR建模的综述可以参见文献[7]。
1.2 分子结构的表征
分子的几何结构是图,不能直接代入回归模型,这就产生了如何从分子结构中导出与活性或性质相关的可计算的参数问题,即分子结构的表征问题。
早期SAR需要从完整的分子结构区分出两类子结构:骨架结构和取代基,作为影响分子活性的特征结构元素。随着研究的不断深入,不断改进“与分子活性相关的特征”提取方法,从基于经验的手工枚举演变为基于某种统一数学/物理共识的自动化提取;子结构特征的概念也演化成更广义的特征向量(即分子描述符)。
1.2.1 化学子结构的划分
为了构建QSAR的模型,先要从一组有生物活性的分子中总结它们的共同骨架(例如,将一组分子叠合起来以发现它们共同的骨架)[8,9],再确定骨架的特定位置(如芳香环上的邻位、对位或间位)上的取代基。骨架和取代基都是子结构,化学子结构划分的任务就是把这些子结构从活性分子结构的数据中提取出来。
分子结构数据一般用化学结构绘图软件(如ChemDraw、JChemPaint)提取,以邻接表的形式将分子的二维(拓扑)或三维结构数据以MOL或SDF格式记录在文本文件中[10]。
子结构的划分方法很多,如分子优势骨架导出法[11]、基于图修剪和*大共同子结构搜索的方法等[12-14]。由于分子的骨架因药物的作用靶标不同而变化,人们没有就化学子结构划分的方法达成共识。
1. 检索键
在化学数据库发展的早期,为了提高化学数据库的检索效率,人们希望有一种普适性的子结构划分方法(称为筛法)。*早的子结构“筛”是分子访问系统检索键(Molecular ACCess System search keys,MACCS),实际上是根据经验预定义的子结构字典)。MACCS是MDL公司(Molecular Design Limited, Inc.),Stuart Marson和W. Todd Wipke创建于1978年位于美国加利福尼亚州Hayward的*早的分子设计软件公司。该公司于2007年被Symyx Technologies, Inc.收购,然后与Accelrys合并。2014年,Accelrys被法国Dassault Systèmes公司收购,更名为BIOVIA,仍然是*重要的药物分子设计软件公司,网址:www.3ds.com/ products-services/biovia/),以基于有机化学家的经验枚举出的一组符合化学原理的子结构片段作为化学数据库的检索键,提高化学数据库的检索效率。早期版本的MACCS有166个,后来拓展到960个[15]。虽然检索键能提高化学数据库检索效率,但是它们与分子的成药性无关,应避免在QSAR研究中被滥用。MACCS没有反映具体化学数据库的子结构特征,也不保证检索键之间互相*立(一个检索键可能是另一个检索键的子结构)。
2. 位图与分子指纹
MACCS的主要缺陷是不完备且带有经验偏见。为了避免此类缺陷,人们提出基于图论规则的子结构划分方法,即定义一组从分子图上切割子结构片段的规则,从化合物库中系统地提取分子的子结构,如原子中心片段(atom center fragment,ACF)法[16-19]、基于ACF的扩展联接性指纹(extended-connectivity fingerprints,ECFP)法[20]、Daylight公司的分子结构指纹法(www. daylight.com/ dayhtml/doc/theory/theory.finger.html)等。
这些方法克服了经验偏见,做到了客观性和普适性。分子结构指纹是指将系统化产生的子结构片段用二进制位图(bit-map)表示,每一个位只有“0”或“1”两种状态,表示对应的子结构存在与否,以此代替子结构字典。系统化的子结构划分方法的缺点是不能保证所产生的子结构片段都有化学意义,很多片段在化学数据库中罕见,因此分子指纹有很多“0”位,是信息稀疏的数组。由于对计算机存储位串进行逻辑运算的速度极高,它作为化学数据库的检索引擎受到普遍欢迎。
ACF法和ECFP法都以原子为中心,通过环形切割提取子结构字典(图1-2)。这类子结构在一定程度上反映了片段中心原子的化学环境,可以解释核磁共振波谱的化学位移现象[16],分子力场的子结构片段也与之类似。
图1-2 ACF法和ECFP法产生子结构字典的原理
检索键和分子指纹方法的本质都是从分子图中直接截取子图的方法。前者基于化学家的经验枚举,保留了化学直觉,但也承袭了化学偏见;后者按规则从分子图上由计算机算法自动截取子结构,严谨客观,有可重现性,但也失去了化学意义。
如果用MACCS-166表征分子,对任意一个分子结构S,可以用长度为166的二进制位组B来存储“166个键是否出现在S中”的检测结果,如果某键出现,则对应位置“1”,否则置零。这样,数据库中的每一个分子结构S,都被表征为B(图1-3)。B被称为子结构位图,是一种表征分子的特征向量。
图1-3 分子结构、子结构和位图(分子指纹)
如果要检索分子Q是否在化学数据库中存在,只要将Q转化为它的分子指纹BQ,然后比较BQ与数据库中第i个分子的指纹Si,如果BQ ∩ Si = 1,则表示在数据库中找到了查询分子Q。计算机对位图的逻辑“与”运算速度极快,因此,检索效率极高。
对一台64位计算机而言,存储一个分子的MACCS-166检索键只需要长度为3的整数数组,MACCS-960需要长度为15的整数数组。Daylight的分子指纹计算规则可以产生很多子结构,所以需要更长(如256或512)的数组。用长数组表示一个分子时,信息稀疏,造成存储浪费,也增加了计算成本。Daylight将位图对折缩短分子指纹数组的长度(如把长度为2048的位图对折为1024的位图),称为哈希化的指纹(Hashed fingerprint)。这样做降低了计算成本,但位图所代表的子结构信息也丢失了。
当把一个分子结构S表征为B时,用B描述S的特征,向量B的每一个分量指向一个子结构,该分量称为描述符(descriptor)。向量B中分量的数目称为维数。用MACCS-166指纹表示一个分子时意味着将一个分子映射到166维广义空间中。用这种表示方法,可以计算分子的整体相似度,或它们在广义空间中的距离。
1.2.2 分子结构的线性编码
早期,为了将化学结构数据录入计算机存储设备,人们发明了将化学结构图编码成语句(字符串)的技术,即
展开