说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111320765.X (22)申请日 2021.11.09 (65)同一申请的已公布的文献号 申请公布号 CN 114049922 A (43)申请公布日 2022.02.15 (73)专利权人 四川大学 地址 610000 四川省成 都市一环路南 一段 24号 (72)发明人 李川 曾严 蒲雪梅 刘江亭  (74)专利代理 机构 四川省成 都市天策商标专利 事务所(有限合 伙) 51213 专利代理师 张秀敏 (51)Int.Cl. G16C 20/50(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (56)对比文件 CN 112071373 A,2020.12.1 1 CN 110534164 A,2019.12.0 3 CN 112270951 A,2021.01.26CN 112382350 A,2021.02.19 CN 112289372 A,2021.01.2 9 CN 112037868 A,2020.12.04 CN 110459274 A,2019.1 1.15 CN 112086146 A,2020.12.15 CN 112233723 A,2021.01.15 US 2021104294 A1,2021.04.08 Oscar Mendez -Lucio等. 《De n ovo generati on of hit-l ike molecules from gene expres sion signatures usi ng artificial i ntelligence》 . 《Nature Communications》 .2020,第10卷第1-10页. 胡振鑫 等. 《基 于Flask的蛋白质网络分析 平台设计》 . 《现代计算机》 .2021,(第07期),第 47-50页. 谭胖 等. 《机 器学习设计新型有机分子 研究 进展》 . 《有机化学》 .2021,第41卷(第07期),第 2666-2675页. (续) 审查员 曾贞 (54)发明名称 基于小规模数据集和生成模型的分子设计 方法 (57)摘要 本发明公开了基于小规模数据集和生成模 型的分子设计方法, 基于初始数据集Do构建扩展 数据集Da; 使用扩展数据集Da训练生成模型以调 整模型参数; 向评分模型引入训练好的生成模型 的信息, 使用初始数据集Do训练评分模型以调整 评分模型参数得到优化后的评分模 型; 使用初始 数据集Do调整训练好的生成模型的参数, 得到最 终的生成模型; 使用最终的生 成模型生成新分子 结构; 使用优化后的评分模型对新分子结构进行 评价和筛选, 得到候选分子。 大数据集由初始数 据集构建出来, 没有引用额外的数据, 不包含大 数据集中不存在的符号, 与使用预先定义好的原子或者片段组成分子的方法相比, 此方法所产生 的分子会拥有更好的性质, 更加自然, 更容易合 成。 [转续页] 权利要求书2页 说明书7页 附图1页 CN 114049922 B 2022.06.03 CN 114049922 B (56)对比文件 Peter Er t等. 《In silico generati on of novel, drug-l ike chemical mat ter using the LSTM neural netw ork》 . 《arXiv》 .2017,第 1-7页.2/2 页 2[接上页] CN 114049922 B1.一种基于小规模数据集和生成模型的分子设计方法, 其特 征在于, 包括: 步骤S100、 基于初始数据 集Do构建扩展数据 集Da, 包括对初始数据 集Do的全部分子拆分 为分子片段, 并聚集全部不重复的分子片段得到分子片段集合, 随机组合分子片段集合中 的分子片段得到分子结构, 从中挑选出通过合理性验证且没有出现在初始数据集Do的分子 结构分子扩展数据集Da; 步骤S200、 初始化 生成模型, 使用扩展数据集Da训练生成模型以调整模型参数; 步骤S300、 初始化评分模型, 并向评分模型引入训练好的生成模型的信息, 使用初始数 据集Do训练评分模型以调整评分模型参数得到优化后的评分模型; 所述生成模型采用语言 模型, 包括3层LSTM和1个全连接层; 所述评分模 型采用回归模 型, 包括2层LSTM和2个全 连接 层, 所述步骤S300具体包括: 步骤S310、 将评分模型的2层LSTM参数设置为生成模型前2层LSTM参数, 使生成模型的 信息引入评分模型; 步骤S320、 随机初始化评分模型除LSTM层以外的其 他参数; 步骤S330、 初始数据集Do中共有n条 数据, 遍历全部数据执 行下面步骤: 步骤S331、 使用独热编码将当前选择的第j个SMILES序列编码为张量Vs×m′, m'为全部数 据中不同符号的种类数目, s为SMILES序列的长度, 记当前选择的第j个SMILES序列对应的 标签为yj; 步骤S332、 以张量Vs×m′作为评分模型的输入, 得到 评分模型输出 步骤S333、 使用均方误差计算评分模型损失lmse: 步骤S334、 使用优化 算法优化评分模型参数以最小化评分模型损失lmse; 步骤S340、 多次重复步骤S3 30, 直到lmse损失lmse达到预设目标; 步骤S400、 使用初始数据集Do调整训练好的生成模型的参数, 得到最终的生成模型; 步骤S500、 使用最终的生成模型生成新分子结构; 步骤S600、 使用优化后的评分模型对新分子结构进行评价和筛 选, 得到候选分子 。 2.根据权利要求1所述的基于小规模数据集和生成模型的分子设计方法, 其特征在于, 所述步骤S100还包括采用枚举SMILES进行数据增强, 基于不同的分子片段中原子的排序, 得到多个不同SMI LES序列, 增 加扩展数据集Da的SMILES序列数目。 3.根据权利要求2所述的基于小规模数据集和生成模型的分子设计方法, 其特征在于, 所述步骤S200具体包括: 步骤S210、 随机初始化 生成模型参数; 步骤S220、 遍历全部扩展数据集Da执行下面步骤: 步骤S221、 对当前选择的SMILES序列添加特殊的符号 ‘BOS’和‘EOS’用于标识SMILES序 列的起始位置和结束位置; 步骤S222、 使用独热编码将SMILES序列编码为张量Vs×m, m指全部数据中不同符号的种 类数目, s为SMI LES序列的长度, 张量Vs×m指代一个分子;权 利 要 求 书 1/2 页 2 CN 114049922 B 3

.PDF文档 专利 基于小规模数据集和生成模型的分子设计方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于小规模数据集和生成模型的分子设计方法 第 1 页 专利 基于小规模数据集和生成模型的分子设计方法 第 2 页 专利 基于小规模数据集和生成模型的分子设计方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:01:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。