(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111320765.X
(22)申请日 2021.11.09
(65)同一申请的已公布的文献号
申请公布号 CN 114049922 A
(43)申请公布日 2022.02.15
(73)专利权人 四川大学
地址 610000 四川省成 都市一环路南 一段
24号
(72)发明人 李川 曾严 蒲雪梅 刘江亭
(74)专利代理 机构 四川省成 都市天策商标专利
事务所(有限合 伙) 51213
专利代理师 张秀敏
(51)Int.Cl.
G16C 20/50(2019.01)
G06K 9/62(2022.01)
G06N 20/00(2019.01)
(56)对比文件
CN 112071373 A,2020.12.1 1
CN 110534164 A,2019.12.0 3
CN 112270951 A,2021.01.26CN 112382350 A,2021.02.19
CN 112289372 A,2021.01.2 9
CN 112037868 A,2020.12.04
CN 110459274 A,2019.1 1.15
CN 112086146 A,2020.12.15
CN 112233723 A,2021.01.15
US 2021104294 A1,2021.04.08
Oscar Mendez -Lucio等. 《De n ovo
generati on of hit-l ike molecules from
gene expres sion signatures usi ng
artificial i ntelligence》 . 《Nature
Communications》 .2020,第10卷第1-10页.
胡振鑫 等. 《基 于Flask的蛋白质网络分析
平台设计》 . 《现代计算机》 .2021,(第07期),第
47-50页.
谭胖 等. 《机 器学习设计新型有机分子 研究
进展》 . 《有机化学》 .2021,第41卷(第07期),第
2666-2675页. (续)
审查员 曾贞
(54)发明名称
基于小规模数据集和生成模型的分子设计
方法
(57)摘要
本发明公开了基于小规模数据集和生成模
型的分子设计方法, 基于初始数据集Do构建扩展
数据集Da; 使用扩展数据集Da训练生成模型以调
整模型参数; 向评分模型引入训练好的生成模型
的信息, 使用初始数据集Do训练评分模型以调整
评分模型参数得到优化后的评分模 型; 使用初始
数据集Do调整训练好的生成模型的参数, 得到最
终的生成模型; 使用最终的生 成模型生成新分子
结构; 使用优化后的评分模型对新分子结构进行
评价和筛选, 得到候选分子。 大数据集由初始数
据集构建出来, 没有引用额外的数据, 不包含大
数据集中不存在的符号, 与使用预先定义好的原子或者片段组成分子的方法相比, 此方法所产生
的分子会拥有更好的性质, 更加自然, 更容易合
成。
[转续页]
权利要求书2页 说明书7页 附图1页
CN 114049922 B
2022.06.03
CN 114049922 B
(56)对比文件
Peter Er t等. 《In silico generati on of
novel, drug-l ike chemical mat ter using the LSTM neural netw ork》 . 《arXiv》 .2017,第
1-7页.2/2 页
2[接上页]
CN 114049922 B1.一种基于小规模数据集和生成模型的分子设计方法, 其特 征在于, 包括:
步骤S100、 基于初始数据 集Do构建扩展数据 集Da, 包括对初始数据 集Do的全部分子拆分
为分子片段, 并聚集全部不重复的分子片段得到分子片段集合, 随机组合分子片段集合中
的分子片段得到分子结构, 从中挑选出通过合理性验证且没有出现在初始数据集Do的分子
结构分子扩展数据集Da;
步骤S200、 初始化 生成模型, 使用扩展数据集Da训练生成模型以调整模型参数;
步骤S300、 初始化评分模型, 并向评分模型引入训练好的生成模型的信息, 使用初始数
据集Do训练评分模型以调整评分模型参数得到优化后的评分模型; 所述生成模型采用语言
模型, 包括3层LSTM和1个全连接层; 所述评分模 型采用回归模 型, 包括2层LSTM和2个全 连接
层, 所述步骤S300具体包括:
步骤S310、 将评分模型的2层LSTM参数设置为生成模型前2层LSTM参数, 使生成模型的
信息引入评分模型;
步骤S320、 随机初始化评分模型除LSTM层以外的其 他参数;
步骤S330、 初始数据集Do中共有n条 数据, 遍历全部数据执 行下面步骤:
步骤S331、 使用独热编码将当前选择的第j个SMILES序列编码为张量Vs×m′, m'为全部数
据中不同符号的种类数目, s为SMILES序列的长度, 记当前选择的第j个SMILES序列对应的
标签为yj;
步骤S332、 以张量Vs×m′作为评分模型的输入, 得到 评分模型输出
步骤S333、 使用均方误差计算评分模型损失lmse:
步骤S334、 使用优化 算法优化评分模型参数以最小化评分模型损失lmse;
步骤S340、 多次重复步骤S3 30, 直到lmse损失lmse达到预设目标;
步骤S400、 使用初始数据集Do调整训练好的生成模型的参数, 得到最终的生成模型;
步骤S500、 使用最终的生成模型生成新分子结构;
步骤S600、 使用优化后的评分模型对新分子结构进行评价和筛 选, 得到候选分子 。
2.根据权利要求1所述的基于小规模数据集和生成模型的分子设计方法, 其特征在于,
所述步骤S100还包括采用枚举SMILES进行数据增强, 基于不同的分子片段中原子的排序,
得到多个不同SMI LES序列, 增 加扩展数据集Da的SMILES序列数目。
3.根据权利要求2所述的基于小规模数据集和生成模型的分子设计方法, 其特征在于,
所述步骤S200具体包括:
步骤S210、 随机初始化 生成模型参数;
步骤S220、 遍历全部扩展数据集Da执行下面步骤:
步骤S221、 对当前选择的SMILES序列添加特殊的符号 ‘BOS’和‘EOS’用于标识SMILES序
列的起始位置和结束位置;
步骤S222、 使用独热编码将SMILES序列编码为张量Vs×m, m指全部数据中不同符号的种
类数目, s为SMI LES序列的长度, 张量Vs×m指代一个分子;权 利 要 求 书 1/2 页
2
CN 114049922 B
3
专利 基于小规模数据集和生成模型的分子设计方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 19:01:50上传分享