专利 基于梯度提升决策树的ERα拮抗剂的生物活性定量预测方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111269051.0 (22)申请日 2021.10.2 9 (71)申请人南通大学地址 226019 江苏省南通市崇川区啬园路9 号 (72)发明人张晓峰　陈哲　欧垚君　丁红　陶秦　施正阳　魏东　 (74)专利代理机构南京经纬专利商标代理有限公司 32200 代理人张俊俊 (51)Int.Cl. G16C 20/30(2019.01) G16C 20/70(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称基于梯度提升决策树的ERα拮抗剂的生物活性定量预测方法 (57)摘要本发明公开了基于梯度提升决策树的ERα 拮抗剂的生物活性定量预测方法，属于生物制药和机器学习技术领域；解决了梯度提升决策树线性和非线性的多元回归模型不能很好的进行拟合的技术问题；其技术方案为：包括以下步骤：步骤一：对影响ERα拮抗剂的生物活性的变量数据进行预处理；步骤二：变量的筛选；步骤三：独立性检验；步骤四：模型建立。本发明的有益效果是：本发明在数据的采集过程中，先对数据进行预处理，删除全为零的列，降低了不良数据对预测模型的影响，也加快了变量的筛选速度；通过传统方法和机器学习方法筛选出特征变量，再通过特征变量建立ERα拮抗剂的生物活性定量预测模型。权利要求书3页说明书8页附图5页 CN 114242178 A 2022.03.25 CN 114242178 A 1.基于梯度提升决策树的ERα拮抗剂的生物活性定量预测方法，其特征在于：包括以下步骤： 1、对影响ERα 拮抗剂的生物活性的变量数据进行预处理：统计各个自变量的所有样本数据全为零的情况，将样本数据全为零的变量进行删除； 2、变量的筛选： (1)皮尔逊(Pearso n)相关系数筛选线性相关变量皮尔逊相关系数是描述两个变量之间线性相关性的度量方法，在区间 ‑1到1之间取值；皮尔逊相关系数的定义为：取两个随机变量X， Y的N个观测值，其中Xi， Yi分别代表变量X， Y的第i个观测值，分别代表两个变量的均值； (2)互信息筛选非线性相关变量：选取与目标变量高度相关的特征，对因变量与自变量求取互信息，选取互信息值比较大的自变量作为目标特征：信息熵：选取一个随机变量X， Xi， i＝{1， 2， 3...， N}，是变量X的一组观测值， p(x)为变量X取值x 时的概率，信息熵如下表示：当H(x)取值越大时，变量X越不确定；条件熵：在选定随机变量X的条件下，定义随机变量Y关于X的条件熵：其中p(x， y)为随机变量X与Y的联合概率密度， p(y/x)为在确定x的条件下变量y的条件概率密度；互信息： I(X； Y)＝H(X) ‑H(X/Y) 在上述基础上，利用算法，依次计算因变量(生物活性)与自变量(分子描述符)的互信息，互信息值越大，两者之间的相关性越强，根据互信息大小进行排序，选取前200个与生物活性相关性强的作为目标特征变量； (3)随机森林筛选随机森林的基本分类器是决策树，它是一种机器算法，结构类似于倒立的树，由根节点，内部节点以及叶子节点组成，每一个非叶子节点都表示一个决策；权　利　要　求　书 1/3 页 2 CN 114242178 A 2特征重要性度量：假设有N个样本数据， M个特征集，从样本数据中有放回地随机抽取n(n＜N)个样本作为训练集，剩下的样本数据作为测试集(袋外样本)，从特征集中有放回地随机抽取m(m＜M)个特征，重复操作k次，选出k棵树组成一个随机森林，选定一棵树，它包含m个特征，对于这棵树中的某个特征，在测试集中，随机改变关于这个特征样本数据，求解前后的测试集误差率的差值作为该特征在这棵树中的重要程度，计算出所有特征在各棵树中的重要程度，得出某个特征在某些树中的重要程度，不能作为该特征在整个森林中的重要程度，从上述分析中可以看出，每个特征在多棵树中重复出现，求取这个特征值在多棵树中的重要程度的平均值作为该特征在森林中的重要程度；特征重要性度量公式：其中nt表示特征mi在森林中出现的次数， errorBt2表示第t1棵树中特征值改变之后的袋外误差， er rorBt1表示第t1棵树中正常值的袋外误差；特征变量选择：特征权值反映了操作变量的重要程度占比，对每一个操作变量的特征权值，计算其特征权值，具体公式为：其中， weight(mi)为特征mi的特征权值， MDm(mi)为特征mi的平均袋外数据误差， m为特征总数； 3、独立性检验： (1)距离相关系数用dcorr(X， Y)衡量变量X和Y之间的独立性，当dcorr(X， Y)为0时，变量X和Y彼此独立；当dcorr(X， Y)值越大，两个变量之间的相关性越强，变量X和Y之间的相关性与系数值呈正比，设(xi， yi)，其中i＝{1， 2， 3， ...， N}是总体(X， Y)之间的观测值， ||xi‑xj||2为xi与xj之间的二范数；其中，权　利　要　求　书 2/3 页 3 CN 114242178 A 3

专利 基于梯度提升决策树的ERα拮抗剂的生物活性定量预测方法

专利基于梯度提升决策树的ERα拮抗剂的生物活性定量预测方法