说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111269051.0 (22)申请日 2021.10.2 9 (71)申请人 南通大学 地址 226019 江苏省南 通市崇川区啬园路9 号 (72)发明人 张晓峰 陈哲 欧垚君 丁红  陶秦 施正阳 魏东  (74)专利代理 机构 南京经纬专利商标代理有限 公司 32200 代理人 张俊俊 (51)Int.Cl. G16C 20/30(2019.01) G16C 20/70(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 基于梯度提升决策树的ERα拮抗剂的生物 活性定量预测方法 (57)摘要 本发明公开了基于梯度提升决策树的ERα 拮抗剂的生物活性定量预测方法, 属于生物制药 和机器学习技术领域; 解决了梯度提升决策树线 性和非线性的多元回归模型不能很好的进行拟 合的技术问题; 其技术方案为: 包括以下步骤: 步 骤一: 对影 响ERα拮抗剂的生物活性的变量数据 进行预处理; 步骤二: 变量的筛选; 步骤三: 独立 性检验; 步骤四: 模型建立。 本发明的有益效果 是: 本发明在数据的采集过程中, 先对数据进行 预处理, 删除全为零的列, 降低了不良数据对预 测模型的影响, 也加快了变量的筛选速度; 通过 传统方法和机器学习方法筛选出特征变量, 再通 过特征变量建立ERα拮抗剂 的生物活性定量预 测模型。 权利要求书3页 说明书8页 附图5页 CN 114242178 A 2022.03.25 CN 114242178 A 1.基于梯度提升决策树的ERα拮抗剂的生物 活性定量预测方法, 其特征在于: 包括以下 步骤: 1、 对影响ERα 拮抗剂的生物活性的变量数据进行 预处理: 统计各个自变量的所有样本数据全为 零的情况, 将 样本数据全为 零的变量进行删除; 2、 变量的筛 选: (1)皮尔逊(Pearso n)相关系数筛 选线性相关变量 皮尔逊相关系数 是描述两个 变量之间线性相关性的度量方法, 在区间 ‑1到1之间取值; 皮尔逊相关系数的定义 为: 取两个随机变量X, Y的N个观测值, 其中Xi, Yi分别代表变量X, Y的第i个观测值, 分 别代表两个变量的均值; (2)互信息 筛选非线性相关变量: 选取与目标变量高度相关的特征, 对因变量与自变量求取互信息, 选取互信息值比较 大的自变量作为目标 特征: 信息熵: 选取一个随机变量X, Xi, i={1, 2, 3..., N}, 是变量X的一组观测值, p(x)为变量X取值x 时的概率, 信息熵如下表示: 当H(x)取值越大时, 变量X越不确定; 条件熵: 在选定随机变量X的条件下, 定义随机变量Y关于X的条件熵: 其中p(x, y)为随机变量X与Y的联合概率密度, p(y/x)为在确定x的条件下变量y的条件 概率密度; 互信息: I(X; Y)=H(X) ‑H(X/Y) 在上述基础上, 利用算法, 依次计算因变量(生物活性)与自变量(分子描述符)的互信 息, 互信息值越 大, 两者之 间的相关性越强, 根据互信息大小进 行排序, 选取前200个与生物 活性相关性强的作为目标 特征变量; (3)随机森林筛 选 随机森林的基本分类器是决策树, 它是一种机器算法, 结构类似于倒立的树, 由根节 点, 内部节点以及叶子节点组成, 每一个非叶子节点都表示 一个决策;权 利 要 求 书 1/3 页 2 CN 114242178 A 2特征重要性度量: 假设有N个样本数据, M个特征集, 从样本数据中有放回地随机抽取n(n<N)个样本作 为 训练集, 剩下的样本数据作为测试集(袋外样 本), 从特征集中有放回地随机抽取m(m<M)个 特征, 重复操作k次, 选出k棵树组成一个随机森林, 选定一棵树, 它包含m个特征, 对于这棵 树中的某个特征, 在测试集中, 随机改变 关于这个特征样 本数据, 求解前后的测试集误差率 的差值作为该特征在这棵树中的重要程度, 计算出所有特征在各棵树中的重要程度, 得出 某个特征在某些树中的重要程度, 不能作为该特征在整个森林中的重要程度, 从上述分析 中可以看出, 每个特征在多棵树中重复出现, 求取这个特征值在多棵树中的重要程度的平 均值作为该 特征在森林中的重要程度; 特征重要性度量公式: 其中nt表示特征mi在森林中出现的次数, errorBt2表示第t1棵树中特征值改变之后的 袋外误差, er rorBt1表示第t1棵树中正常值的袋外误差; 特征变量选择: 特征权值反映了操作变量的重要程度占比, 对每一个操作变量的特征权值, 计算其特 征权值, 具体公式为: 其中, weight(mi)为特征mi的特征权值, MDm(mi)为特征mi的平均袋外数据误差, m为特征 总数; 3、 独立性检验: (1)距离相关系数 用dcorr(X, Y)衡量变量X和Y之间的独立性, 当dcorr(X, Y)为0时, 变量X和Y彼此独立; 当dcorr(X, Y)值越大, 两个变量之间的相关性越强, 变量X和Y之间的相关性与系数值呈正 比, 设(xi, yi), 其中i={1, 2, 3, ..., N}是总体(X, Y)之 间的观测值, ||xi‑xj||2为xi与xj之间 的二范数; 其中, 权 利 要 求 书 2/3 页 3 CN 114242178 A 3

.PDF文档 专利 基于梯度提升决策树的ERα拮抗剂的生物活性定量预测方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于梯度提升决策树的ERα拮抗剂的生物活性定量预测方法 第 1 页 专利 基于梯度提升决策树的ERα拮抗剂的生物活性定量预测方法 第 2 页 专利 基于梯度提升决策树的ERα拮抗剂的生物活性定量预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:02:07上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。