说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111269051.0 (22)申请日 2021.10.2 9 (71)申请人 南通大学 地址 226019 江苏省南 通市崇川区啬园路9 号 (72)发明人 张晓峰 陈哲 欧垚君 丁红 陶秦 施正阳 魏东 (74)专利代理 机构 南京经纬专利商标代理有限 公司 32200 代理人 张俊俊 (51)Int.Cl. G16C 20/30(2019.01) G16C 20/70(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 基于梯度提升决策树的ERα拮抗剂的生物 活性定量预测方法 (57)摘要 本发明公开了基于梯度提升决策树的ERα 拮抗剂的生物活性定量预测方法, 属于生物制药 和机器学习技术领域; 解决了梯度提升决策树线 性和非线性的多元回归模型不能很好的进行拟 合的技术问题; 其技术方案为: 包括以下步骤: 步 骤一: 对影 响ERα拮抗剂的生物活性的变量数据 进行预处理; 步骤二: 变量的筛选; 步骤三: 独立 性检验; 步骤四: 模型建立。 本发明的有益效果 是: 本发明在数据的采集过程中, 先对数据进行 预处理, 删除全为零的列, 降低了不良数据对预 测模型的影响, 也加快了变量的筛选速度; 通过 传统方法和机器学习方法筛选出特征变量, 再通 过特征变量建立ERα拮抗剂 的生物活性定量预 测模型。 权利要求书3页 说明书8页 附图5页 CN 114242178 A 2022.03.25 CN 114242178 A 1.基于梯度提升决策树的ERα拮抗剂的生物 活性定量预测方法, 其特征在于: 包括以下 步骤: 1、 对影响ERα 拮抗剂的生物活性的变量数据进行 预处理: 统计各个自变量的所有样本数据全为 零的情况, 将 样本数据全为 零的变量进行删除; 2、 变量的筛 选: (1)皮尔逊(Pearso n)相关系数筛 选线性相关变量 皮尔逊相关系数 是描述两个 变量之间线性相关性的度量方法, 在区间 ‑1到1之间取值; 皮尔逊相关系数的定义 为: 取两个随机变量X, Y的N个观测值, 其中Xi, Yi分别代表变量X, Y的第i个观测值, 分 别代表两个变量的均值; (2)互信息 筛选非线性相关变量: 选取与目标变量高度相关的特征, 对因变量与自变量求取互信息, 选取互信息值比较 大的自变量作为目标 特征: 信息熵: 选取一个随机变量X, Xi, i={1, 2, 3..., N}, 是变量X的一组观测值, p(x)为变量X取值x 时的概率, 信息熵如下表示: 当H(x)取值越大时, 变量X越不确定; 条件熵: 在选定随机变量X的条件下, 定义随机变量Y关于X的条件熵: 其中p(x, y)为随机变量X与Y的联合概率密度, p(y/x)为在确定x的条件下变量y的条件 概率密度; 互信息: I(X; Y)=H(X) ‑H(X/Y) 在上述基础上, 利用算法, 依次计算因变量(生物活性)与自变量(分子描述符)的互信 息, 互信息值越 大, 两者之 间的相关性越强, 根据互信息大小进 行排序, 选取前200个与生物 活性相关性强的作为目标 特征变量; (3)随机森林筛 选 随机森林的基本分类器是决策树, 它是一种机器算法, 结构类似于倒立的树, 由根节 点, 内部节点以及叶子节点组成, 每一个非叶子节点都表示 一个决策;权 利 要 求 书 1/3 页 2 CN 114242178 A 2特征重要性度量: 假设有N个样本数据, M个特征集, 从样本数据中有放回地随机抽取n(n<N)个样本作 为 训练集, 剩下的样本数据作为测试集(袋外样 本), 从特征集中有放回地随机抽取m(m<M)个 特征, 重复操作k次, 选出k棵树组成一个随机森林, 选定一棵树, 它包含m个特征, 对于这棵 树中的某个特征, 在测试集中, 随机改变 关于这个特征样 本数据, 求解前后的测试集误差率 的差值作为该特征在这棵树中的重要程度, 计算出所有特征在各棵树中的重要程度, 得出 某个特征在某些树中的重要程度, 不能作为该特征在整个森林中的重要程度, 从上述分析 中可以看出, 每个特征在多棵树中重复出现, 求取这个特征值在多棵树中的重要程度的平 均值作为该 特征在森林中的重要程度; 特征重要性度量公式: 其中nt表示特征mi在森林中出现的次数, errorBt2表示第t1棵树中特征值改变之后的 袋外误差, er rorBt1表示第t1棵树中正常值的袋外误差; 特征变量选择: 特征权值反映了操作变量的重要程度占比, 对每一个操作变量的特征权值, 计算其特 征权值, 具体公式为: 其中, weight(mi)为特征mi的特征权值, MDm(mi)为特征mi的平均袋外数据误差, m为特征 总数; 3、 独立性检验: (1)距离相关系数 用dcorr(X, Y)衡量变量X和Y之间的独立性, 当dcorr(X, Y)为0时, 变量X和Y彼此独立; 当dcorr(X, Y)值越大, 两个变量之间的相关性越强, 变量X和Y之间的相关性与系数值呈正 比, 设(xi, yi), 其中i={1, 2, 3, ..., N}是总体(X, Y)之 间的观测值, ||xi‑xj||2为xi与xj之间 的二范数; 其中, 权 利 要 求 书 2/3 页 3 CN 114242178 A 3
专利 基于梯度提升决策树的ERα拮抗剂的生物活性定量预测方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 19:02:07
上传分享
举报
下载
原文档
(1.3 MB)
分享
友情链接
DB52-T 1541.7-2021 政务数据平台 第7部分:运维管理规范 贵州省.pdf
DB34-T 4102-2022 废旧锂离子动力蓄电池贮存安全技术条件 安徽省.pdf
GB-T 20001.10-2014 标准编写规则 第10部分:产品标准.pdf
GB-T 33222-2016 机械产品生命周期管理系统通用技术规范.pdf
SN-T 4062-2014 出口植物性中药材中稀土元素的测定方法.pdf
T-CEC 672—2022 变压器油中溶解气体在线监测装置现场校验器技术条件.pdf
GM-T 0050-2016 密码设备管理 设备管理技术规范.pdf
GM-T 0085-2020 基于SM9标识密码算法的技术体系框架.pdf
法律法规 中华人民共和国技术进出口管理条例2020-11-29.pdf
GB-T 446-2023 全精炼石蜡.pdf
GB-T 27542-2019 蓄电池托盘搬运车.pdf
GB-T 2479-2022 普通磨料 白刚玉.pdf
DB51-T 3121-2023 电子政务外网技术规范 四川省.pdf
GB-T 18135-2008 电气工程CAD制图规则.pdf
成本分析.xls
工业数据分类分级指南(试行).pdf
GB-T 29246-2022 信息安全技术 信息安全管理体系 概述和词汇 征求意见稿.pdf
GB-T 40429-2021 汽车驾驶自动化分级.pdf
GB-T 39600-2021 人造板及其制品甲醛释放量分级.pdf
ISO IEC 27018-2019.pdf
1
/
3
17
评价文档
赞助2.5元 点击下载(1.3 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。