基于深度学习下的QSAR如何助力医药研发？

数学模型 | 分子结构 | QSAR

机器学习 | CoMFA | Hansch

如今是算力、高性能为先的社会，随着机器学习、深度学习的快速发展，用于生命科学医药研发的QSAR（定量结构-活性关系）也在快速发展。伴随着数据分析、数据挖掘数目的不断增大，传统的风冷散热方式已经不足以满足散热需要，这就需要新兴的液冷散热技术以此满足节能减排、静音高效的需求。

作为国内品牌服务器厂商，蓝海大脑液冷GPU服务器拥有大规模并行处理能力和无与伦比的灵活性。它主要用于为计算密集型应用程序提供足够的处理能力。GPU的优势在于可以由CPU运行应用程序代码，同时图形处理单元(GPU)可以处理大规模并行架构的计算密集型任务。GPU服务器是医疗成像、医药研发、QSAR研究的理想选择。

本文将为大家全面介绍QSAR（定量结构-活性关系）及其研究方法。

什么是QSAR？

定量结构-活性关系(Quantitative Structure-Activity Relationship，QSAR)是目前国内外一个活跃的研究领域。主要基于各种分子描述符和模型算法，建立化合物的结构与其理化性质、生物学活性、毒理学效应、环境行为和归趋等的定性/定量关系。

随着计算机技术迅猛发展，QSAR的学术研究已步入到一个新水平，涉及化学、药物、环境和健康等诸多领域。同时，随着监管机构对其认可度的提高，QASR在工业化学品、农药、消毒剂、化妆品、食品接触材料和添加剂、医药等的研发、风险评估、注册和管理方面发挥着越来越重要的作用。

但QSAR并不是一个只要输入物质结构，甚至CAS号码，就能输出一份报告的简单工具。事实上，QSAR 的应用需要大量的理论和实践基础。只有对模型算法选择、化学信息学、实验方法、毒性/生物活性的作用机制、可靠性验证、法规知识等具备相当深入的研究，才能准确地将之运用相关领域。因此QSAR模型的构建和使用对专业知识要求比较高，这对新接触QSAR的人来说往往会存在一定难度。

QSAR建模过程

QSAR建模过程一般包含数据收集、计算与筛选分子描述符、模型建立、验证与评价四个步骤。

一、数据收集

广义上，在药物设计中，用以建模的化合物数据主要包括以下几类：

1、针对靶标的活性，如酶活性的半数抑制浓度和细胞活性的半数抑制浓度等

2、生物毒性，如口服急性毒性LD50、最小作用剂量MED、突变性和致癌性等

3、理化性质，如溶解性和血脑穿透能力等

4、环境中转化的表征参数，如水生毒性和降解速率等。数据的可靠性是模型有效的前提，只有通过可靠实验数据建立的模型才具有实际应用价值。

二、计算与筛选分子描述符

在QSAR研究领域，人们可根据化合物结构推导出来某种与之对应的数值指标，这些指标就是化合物物理化学性质微观上的描述，将此称作其生物学性质上某一“指纹”的“微观显示”，即分子描述符。

三、模型建立

QSAR模型可分为线性与非线性两类建模方法。其中线性模型中主要应用多元线性回归（MLR）、主成分分析（PCA）和偏最小二乘法（PLS）等方法；遗传算法（GA）、支持向量机（SVM）和人工神经网络（ANN）则能较好地处理非线性关系。

1、遗传算法

GA是根据大自然生物进化规律，模拟生物基因发生改变的现象。探索复杂模型的组合优化问题，通过选择、交叉和变异等过程的模拟组合，得到备选的多组自变量与因变量，通过适应度是否达到阈值或最优个体适应度上升趋势来判断其优劣，直至满足要求，得到最优QSAR模型。

2、主成分分析

在含有多变量的分析中，PCA常被作为简化数据的方法。该方法可以通过正交变换，完成变量线性到非线性的转化，从而简化QSAR建模进程。Bernardo等，通过该方法构建QSAR模型，对多环芳烃致癌毒性的预测得到了较好结果。

3、偏最小二乘法

PLS可以看作是MLR和PCA两种方法的结合，通过最小化误差的平方和筛选最优数据，排除原有信息中线性重迭的分子描述符，并且适合样本容量不足时构建QSAR模型。

4、人工神经网络

ANN是对人脑处理数据时神经元的模拟，将大量节点之间构成联系，建立模型，常用于构建非线性QSAR模型，但存在一定的不稳定性，需要提前筛选描述符才能构建有效模型。

5、支持向量机

SVM是一类监督学习方式，它建立在结构风险最小化原理基础之上，通过寻找最优超平面进行非线性分类，从而将非线性特征问题的分析向线性分析转变，被广泛用于分类问题和回归问题的解决中。

二维QSAR概念模式与研究方法

二维定量构效关系方法是将分子整体的结构性质作为参数，对分子生理活性进行回归分析，建立化学结构与生理活性相关性模型的一种药物设计方法，常见的二维定量构效关系方法有hansch方法、free-wilson方法、分子连接性方法等，最为著名和应用最广泛的是hansch方法。

一、活性参数

活性参数是构成二维定量构效关系的要素之一，人们根据研究的体系选择不同的活性参数，常见的活性参数有：半数有效量、半数有效浓度、半数抑菌浓度、半数致死量、最小抑菌浓度等，所有活性参数均必须采用物质的量作为计量单位，以便消除分子量的影响，从而真实地反映分子水平的生理活性。为了获得较好的数学模型，活性参数在二维定量构效关系中一般取负对数后进行统计分析。

二、结构参数

结构参数是构成定量构效关系的另一大要素，常见的结构参数有：疏水参数、电性参数、立体参数、几何参数、拓扑参数、理化性质参数以及纯粹的结构参数等。

1、疏水参数

药物在体内吸收和分布的过程与其疏水性密切相关，因而疏水性是影响药物生理活性的一个重要性质，在二维定量构效关系中采用的疏水参数最常见的是脂水分配系数，其定义为分子在正辛醇与水中分配的比例，对于分子母环上的取代基，脂水分配系数的对数值具有加和性，可以通过简单的代数计算获得某一取代结构的疏水参数。

2、电性参数

二维定量构效关系中的电性参数直接继承了哈密顿公式和塔夫托公式中的电性参数的定义，用以表征取代基团对分子整体电子分配的影响，其数值对于取代基也具有加和性。

3、立体参数

立体参数可以表征分子内部由于各个基团相互作用对药效构象产生的影响以及对药物和生物大分子结合模式产生的影响，常用的立体参数有塔夫托立体参数、摩尔折射率、范德华半径等。

4、几何参数

几何参数是与分子构象相关的立体参数，因为这类参数常常在定量构效关系中占据一定地位，故而将其与立体参数分割考虑，常见的几何参数有分子表面积、溶剂可及化表面积、分子体积、多维立体参数等。

5、拓扑参数

在分子连接性方法中使用的结构参数，拓扑参数根据分子的拓扑结构将各个原子编码，用形成的代码来表征分子结构。

6、理化性质参数

偶极矩、分子光谱数据、前线轨道能级、酸碱解离常数等理化性质参数有时也用做结构参数参予定量构效关系研究。

7、纯粹的结构参数

在free-wilson方法中，使用纯粹的结构参数，这种参数以某一特定结构的分子为参考标准，依照结构母环上功能基团的有无对分子结构进行编码，进行回归分析，为每一个功能基团计算出回归系数，从而获得定量构效关系模型。

三、数学模型

二维定量构效关系中最常见的数学模型是线性回归分析，Hansch方程和Free-Wilson方法均采用回归分析。

经典的Hansch方程形式为：

其中π为分子的疏水参数，其与分子脂水分配系数Px的关系为：

，σ为哈密顿电性参数，Es为塔夫托立体参数，其中a，b，c，k均为回归系数。

日本学者藤田稔夫对经典的Hansch方程作出一定改进，用抛物线模型描述疏水性与活性的关系：

这一模型拟合效果更好。Hansch方程进一步，以双直线模型描述疏水性与活性的关系：

其中的P为分子的脂水分配系数，a,b,β为回归系数，D代表方程的其他部分。双直线模型的预测能力比抛物线模型进一步加强。

Free-Wilson方法的方程形式为：

其中为结构参数，若结构母环中第i个位置有第j类取代基则结构参数取值为1否则为0，μ为参照分子的活性参数，为回归系数。

除了回归分析，遗传算法、人工神经网络、偏最小二乘分析、模式识别、单纯形方法等统计分析方法也会应用于二维定量构效关系数学模型的建立。

四、发展

二维定量构效关系的研究集中在两个方向：结构数据的改良和统计方法的优化。

传统的二维定量构效关系使用的结构数据常仅能反应分子整体的性质，通过改良结构参数，使得二维结构参数能够在一定程度上反应分子在三维空间内的伸展状况，成为二维定量构效关系的一个发展方向。

引入新的统计方法，如遗传算法、人工神经网络、偏最小二乘回归等，扩展二维定量构效关系能够模拟的数据结构的范围，提高QSAR模型的预测能力是2D-QSAR的主要发展方向。

三维QSAR概念模式与研究方法

由于二维定量构效关系不能精确描述分子三维结构与生理活性之间的关系，随着构效关系理论和统计方法的进一步发展，引入了三维定量构效关系。这种方法间接地反映了药物分子与大分子相互作用过程中的非键相互作用特征，相对于二维定量构效关系有更加明确的物理意义和更丰富的信息量，因此三维定量构效关系逐渐取代了二维定量构效关系的地位，成为基于机理的合理药物设计的主要方法之一。

这是 3D-QSAR 的发展历程，我们可以看出自从 80 年代提出以来，它的发展还是很快的，目前应用最广泛的三维定量构效关系方法是比较分子场方法和比较分子相似性方法。

一、比较分子场分析方法

这种方法通过分析分子在三维空间内的疏水场，静电场和立体场分布，以这些参数为变量对药物活性做回归分析。它的基本原理是：如果一组相似化合物以同样的方式作用于同一一靶点，那么它们的生物活性就取决于每个化合物周围分子场的差别，这种分子场可以反映药物分子和靶点之间的非键相互作用特性。

优势：通过比较同系列分子附近空间各点的疏水性、静电势等理化参数，将这些参数与小分子生理活性建立联系，从而指导新化合物的设计

不足：分子的排列是该模型最关键、最困难的问题，也就是说化合物与受体作用位点结合的方向，任何小误差出现在过程中都将导致计算结果的不精确。

二、比较分子相似因子分析法

与比较分子场分析方法最大的不同就是分子场的能量函数采用了与距离相关的高斯函数的形式，这种方法中共定义五种分子场的特征，包括立体场、静电场、疏水场以及氢键给体场和氢键受体场。

这个方法是人们对比较分子场分析方法做了大量修正和改进得到的更具优势的模型。

优势：采用了与距离相关的高斯函数形式，可以有效地避免在传统比较分子场分析方法中由静电场和立体场的函数形式所引起的

不足：由于分子场能量在格点上的迅速衰退，不需要定义能量的截断值

三、距离几何法

这种方法假定配体分子的活性基团与受体分子间的结合位点之间是相互作用的，它将药物分子划分为若干功能区块定义药物分子活性位点，计算构象时各个活性位点之间的距离，形成距离矩阵；同时定义受体分子的结合位点，获得结合位点的距离矩阵，通过活性位点和结合位点的匹配为每个分子生成结构参数，对生理活性数据进行统计分析。

四、分子形状分析法

研究步骤一般可分为:

- 分析药物分子的构象，得到分子构象库

- 确定分子的活性构象

- 根据分子的活性构象选定参考构象

- 将其他分子构象与参考构象进行重叠

- 根据重叠构象确定公共重叠体积和其他的分子特征

- 最后根据重叠体积和分子特征，建立 QSAR 模型

QSAR的应用

一、微观方面的应用

1、药物设计

近年来，分子生物学和计算机科学的迅速发展，使得计算机辅助药物设计(CADD)在新药物开发中起着非常重要的作用。按照是否已知受体的三维结构，可把这些方法分为两大类，一类是直接药物设计，用于受体靶点三维结构已知的情况下，研究药物与受体的相互作用，根据受体受点的形状和性质设计新的药物，如：对 DHFR 抑制剂、人体免疫缺陷病毒(HIV-1)蛋白酶抑制剂、5-羟色胺(5-HT)受体拮抗剂等的研究;另一类是间接药物设计，当受体的三维结构未知时，采用对一组具有类似活性的化合物建立定量结构-活性关系模型，根据 QSAR 计算结果的指导药物化学家可以更有目的性地对生理活性物质进行结构改造。

CoMFA 和 CoMISA是应用最广泛的合理药物设计方法之一，这种方法认为，药物分子与受体间的相互作用取决于化合物周围分子场的差别，以定量化的分子场参数作为变量，对药物活性进行回归分析便可以反应药物与生物大分子之间的相互作用模式进而有选择地设计新药。

2、模拟污染物对酶、生物作用的动力学过程

3D-QSAR 发展至今，已称为计算机辅助农药设计的基本手段与分析方法。同时，在生物化学、生物医学和生物毒理学方面，3D-QSAR 可用于研究酶的活性、生物体抗病毒能力的强弱、化合物的致癌致畸性等。

具体来说，3D-QSAR 已用来研究多种酶(如水解酶、氧化还原酶、连接酶)的作用物和抑制剂，受体(如 5-HT受体、GHRH 受体等)和运输载体。此外，3D-QSAR 在肿瘤学、抗菌剂、新陈代谢方面也有一些应用。

二、宏观方面的应用

利用 3D-QSAR 解决环境化学问题才刚刚起步。目前，对于一些除草剂，如光系统Ⅱ(PSⅡ)抑制剂、氰基内稀酸酯类化学物、光合作用抑制剂嘧啶硫苯甲酸类化合物等，已研究了其三维定量构效关系。

如何将 3D-QSAR 研究深入，在环境化学中发挥更大作用，是迫切需要解决的问题。3D-QSAR与传统 OSAR 相结合，研究污染物水解、光解、生物降解以及土壤吸附等环境行为，将有助于更加深入的yanjiu研究这些环境行为的作用机理。同时，对于广泛使用污染严重的化合物(如除草剂、杀虫剂、洗涤剂等)，在已有的 2D-QSAR 研究基础上，进行 3D-QSAR 分析，进而了解化合物产生毒性的部位和发挥用途的机制，挑选出高效低毒的化合物，可达到减少污染的目的。使用 3D-QSAR 的方法，还可以了解污染物在与蛋白质和核酸等生物大分子结合、作用(从而导致癌变等病理情况)的过程中其三维结构所扮演的角色，更加深入的研究污染物在生物体内的作用途径，这对揭示人类的衰老、疾病机制，维护人类健康将发挥重要作用。

QSAR模型内部与外部验证方法综述

最近几十年，国内外大量文献报道定量结构-活性/属性相关(QSAR/OSPR)模型，王连生教授作为我国有机污染物定量构效关系研究领域的开创者，为我国的 QSAR 研究做出了突出的贡献。

经济合作与发展组织(OECD)提出 QSAR 模型需遵循5个法则：

1、确定的终点

2、明确的运算方法

3、定义应用范围

4、适当验证模型拟合优度、稳健性和预测能力

5、如果可能,进行机理解释。建立QSAR 模型的目的通常是为了：

- 预测未测定或新化合物的生物活性

- 确定哪些分子结构属性决定化合物的生物活性，例如，在药物学研究中，通过 QSAR 研究可以修改药物分子结构进而提高药效或更进一步理解生物学机理

为此，下面将详细综述 QSAR 模型的内部验证和外部验证方法，为 QSAR 建模者提供指导与帮助。这些内部验证和外部验证可作为 QSAR 的验证方法，以保证回归模型的可靠性和有效性。

一、QSAR模型内部验证方法

严格的 QSAR 模型验证程序应包括内部验证和外部验证.内部验证方法包括留一法(LOO)交叉验证、留多法(leave-manv-out.LMO)或留N法(leave-N-out.LNO)交叉验证、随机化验证和自举法等。

1、LOO 交叉验证

LOO 交叉验证是模型内部验证最简单的方法之一。假设对于含n个样本的数据集，LOO 交叉验证步骤如下:

1）抽出第1个样本作为外部检验样本，余下的n-1 个样本作为训练集建立回归模型，并用这个模型去预测抽出的作为外部检验样本的因变量值。

2）将第1个样本放回原样本数据集，依次抽出第2个样本作为外部检验样本，同样以余下的n-1个样本作为训练集建立回归模型，并预测第2个样本的因变量值。

3）将第2个样本放回原样本数据集。依次按照“抽出1个样本→余下样本建模一预测抽出样本一放回抽出样本”的顺序对原样本集进行操作，直到所有样本均被抽出一次并进行预测为止。

4）完成 LOO 交叉验证后。计算n次抽出样本的因变量 LOO 预测值(γ)与原抽出样本的因变量实验值(r)之间的相关系数( O₂)及 LOO 交叉验证均方根误差(RMSECV)，以评价模型内部预测能力。

2、LMO/LNO 交叉验证

LMO 或 LNO 交叉验证也是检验模型稳健性的另一种方法。LMO 与 LOO 的区别是 LMO 的计算过程每次从数据集中抽出多个样本，用剩余的样本建模并预测被抽出的多个样本，该过程重复多次。

在LOO交叉验证中，对于样本数为n的训练集，需要n次交叉验证，在LMO交叉中，训练集中n个样本的顺序对 LMO 的结果将产生一定的影响。假设取 M =2，即 L20 交叉验证，对于给定顺序的n个样本训练集，需要进行 n/2 次交叉验证并获得 n/2 个模型。然而，该验证仅是所有可能2个样本组合中(n/(n-2))的一种组合。因此，Kiralj 和 Ferreira 建议将数据集中样本随机排序后再进行 LMO 交叉验证。在一些 LMO 交叉验证中，数据集进行多次随机化(如 10 次)，取多个Q…值的平均值和标准偏差作为评价模型的稳健性。在 LMO 交叉验证中，M 的取值目前仍然没有固定的说法。对于大数据集，M可以取较大的数值，只要剩余的样本数足够用于建立一个有意义的模型，对于中度或较小的数据集(n<50)，M的取值不应过大，最好的 LMO 交叉验证是 LMO 30%(M=nx30%，n为数据集样本数）。

3、γ随机化验证

随机化验证是确保模型稳健性常用的方法，其目的是检验因变量和自变量之间的偶然相关。在该验证中，因变量Y被随机排序并使用原始自变量矩阵X建立新的模型，该过程重复多次，例如随机化 10-25 次。可以期望，产生的 QSAR 模型通常应具有低的 R(v随机化相关系数)和低的 LOO 交叉验证O值(v随机化O)如果v随机化得到的所有模型都具有高的R，和O 值那么意味着对于给定的数据集，用当前的建模方法不可能得到一个可接受的 QSAR 模型。

4、自举法

自举法的基本假设是抽出总体样本的代表性数据集，在一个典型的自举法验证中从原始数据集中随机选择K组且每组的样本数都为 m。某些样本可能被多次选取，而其它的一些样本不会被选择。对于m个随机选择样本建立的模型用来预测那些被排除在外样本的活性。在一个典型的模型验证中，重复抽取 10-25 次已足够。自举法验证中获得高的平均相关系数(R₂和Q)，则表明模型具有高的稳健性。

二、QSAR模型外部验证方法

模型外部验证的最好办法是利用具体代表性和足够大的检验集(也称为预测集)来验证，并且该检验集的预测值可以与观测值(实验值)相比较。外部验证通常把整体数据集拆分为训练集(training set)和检验集(test set)用检验集验证训练集模型。Tropsha将整体数据集拆分为训练集、检验集和外部验证集(external validation sets)进而验证模型的预测能力，模型外部预测能力通过不同统计量或方法进行评价，这些统计量包括 Q₂(或R）、Golbraikh和 Tropsha 方法等，不同统计量的数学表达式详细列于下表。

此外，Golbraikh 和Tropshal提出4个条件(简称 Golbraikh和Tropsha方法)评价检验集预测值与观测值之差,对于检验集,他们推荐使用下列统计特征,预测与观测活性之间的相关系数R应接近于1相关系数R和R(预测对观测活性的R和观测对预测的 R₂)至少一个(最好两个)接近于R；通过原点的回归线斜率k和k'应该接近于1。该方法的相关统计量表达式详见表。

三、统计量参考数值

利用上表中的统计量评价 QSAR 模型的内部预测能力和外部预测能力，当统计量的数值满足一定条件时，则认为模型可接受。根据文献中的经验值，统计量的参考数值列于如下：

1、模型样本数和变量数的比值建议大于等于 5 ∶ 1

2、R₂> 0. 6，Q₂大于 0. 5 认为模型好，大于 0. 9 则模型优秀

3、R₂> Q₂，校正均方根误差(RMSEC) < 交叉验证均方根误差(RMSECV)；R₂、Q₂< 0. 3，如果差值大于 0. 3，则模型过拟合和有不相关的自变量或数据有离群值

4、在 y 随机化中, R₂ yrand > Q₂ yrand；原始 Y 与随机化后 Y 的 Pearson 相关系数的绝对值|r|与 R₂yrand 的回归线的截距(aR)小于 0. 3，|r|与 Q₂ yrand 的回归线的截距(aQ)小于 0. 05

5、Roy 的 r₂m 统计参数：Δr₂m < 0. 2 和 r₂m > 0. 5

四、评价 QSAR模型验证方法

一个可接受的 QSAR/ QSPR 模型，其必备条件之一是具有高的估计相关系数(R₂)和低的标准偏差。然而高的 R₂和低的标准偏差对模型的验证是不够的，因为回归模型可能包含很多参数。相关系数可能并不能反映变量间的真实关系，相关系数与样本数和自变量数有关。大量样本，其相关系数较小，但可能很显著。小量样本(例如小于 10)，其相关系数较高，但可能不显著。相同的样本数，自变量数增加，模型 R₂值增加(最大等于 1)。因此，必须验证 QSAR 模型的稳定性和预测能力。

对于一个 QSAR 模型，数据集(包括样本数、自变量和因变量等)应该满足一定条件，才能保证模型具有显著的统计意义和可预测能力。

1、所有化合物的活性值(因变量)分布不能集中一点或两点，活性值应该均匀分布且具有变化较大的特点

2、应该避免使用少量样本建模，少量样本不能满足数据变化较大的特征，可能导致模型存在偶然相关和较低数值的统计量

3、线性回归模型不应包含太多的描述符(自变量)，从而使得模型解释更加复杂。对于多元线性回归模型，一般认为样本数和描述符数的比值至少大于 5 倍(Topliss 比例)

4、对于线性回归模型，描述符之间应没有明显的相关性

LOO 交叉验证是模型内部验证最常用的方法，LMO 和自举法技术也被用于 QSAR 模型内部验证。为了验证模型的稳定性，除了 LOO 或 LMO(LNO)交叉验证与自举法验证，建议使用 y 随机化方法检验模型稳定性，通过统计量是否满足参考数值( |r| 与 R₂ yrand的回归线的截距小于 0. 3，| r | 与 Q₂ yrand的回归线的截距小于 0. 05)判定模型是否存在偶然相关。

研究表明相关系数 R₂与留一法(LOO)交叉验证相关系数(Q₂ LOO )并没有相关性。同样内部预测能力和外部预测能力之间也没有相关性。Q₂ LOO 不能用于评价模型的外部预测能力。QSAR 模型具有高的内部预测能力，但外部预测能力可能很低，反之亦然。因此，QSAR 模型必须通过有效的外部验证，才能保证模型对外部样本的预测能力。

总结

QSAR研究是人类最早的合理药物设计方法之一，具有计算量小，预测能力好等优点。在受体结构未知的情况下，定量构效关系方法是最准确和有效地进行药物设计的方法，根据QSAR计算结果的指导药物化学家可以更有目的性地对生理活性物质进行结构改造。在1980年代计算机技术爆炸式发展之前，QSAR是应用最广泛也几乎是唯一的合理药物设计手段。

但是QSAR方法不能明确给出回归方程的物理意义以及药物-受体间的作用模式，物理意义模糊是对QSAR方法最主要的质疑之一。另外在定量构效关系研究中大量使用了实验数据和统计分析方法，因而QSAR方法的预测能力很大程度上受到试验数据精度的限制，同时时常要面对“统计方法欺诈”的质疑。