专利 抗特发性肺纤维化化合物及其计算机预测筛选方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111359694.4 (22)申请日 2021.11.17 (71)申请人中山大学地址 510275 广东省广州市海珠区新港西路135号 (72)发明人聂怡初　邓文斌　刘焕彬　麦扬　刘赣　徐健　赵景新　谢芫　萧倩　 (74)专利代理机构广州新诺专利商标事务所有限公司 4 4100 专利代理师李海恬 (51)Int.Cl. A61K 31/496(2006.01) A61K 31/4178(2006.01) A61P 11/00(2006.01) G01N 33/50(2006.01)G06K 9/62(2022.01) G06N 20/00(2019.01) G16B 20/30(2019.01) C12N 15/85(2006.01) C12N 15/12(2006.01) C12N 15/53(2006.01) C12Q 1/02(2006.01) (54)发明名称抗特发性肺纤维化化合物及其计算机预测筛选方法 (57)摘要本发明涉及一种抗特发性肺纤维化化合物及其计算机预测筛选方法，属于药物研发技术领域。通过本发明的预测筛选方法，得到具有式I或 II结构特征的抗特发性肺纤维化化合物可有效延缓肺组织中炎症与纤维化的发展进程，达到治疗特发性肺纤维化的效果。权利要求书3页说明书20页序列表14页附图18页 CN 114432311 A 2022.05.06 CN 114432311 A 1.具有式I或II结构特征的化合物或其药用盐、水合物、立体异构体在制备用于治疗和/或预防特发性肺纤维化的药物中的用途： 2.一种用于抗特发性肺纤维化的药物组合物，其特征在于，包括权利要求1所述的化合物或其药学上可接受的盐、水合物、立体异构体，以及药学上可接受的辅料。 3.一种抗特发性肺纤维化化合物的计算机预测筛选方法，其特征在于，包括以下步骤：蛋白模型准备：获取与特发性肺纤维化相关的靶点蛋白的三维结构模型及其序列；配体准备：选取Enamine数据库中分子量为370 ‑960的候选化合物作为配体，构成筛选数据库；分子对接：以Lamarckian genetic algorithm软件程序进行对接，设定蛋白为刚性，配体为柔性，并以ADT工具在配体和蛋白上增加了Koollman charges；同时根据靶点蛋白已知配体设置grid，使grid覆盖整个配体结合区域，并以的grid spacing和介电常数的距离相关函数计算结合自由能，获得ADT对化合物结合能的分析结果，按照结合能大小，由小到大进行排序，备用；选取其中前20％的化合物与机器学习活性预测模型预测结果比对，选取虚拟对接与机器学习模型评分综合性得分最高的化合物进行后续的生物学验证；建立机器学习模型：获取靶点蛋白已知配体的结构文件以及pIC50活性数据，将已知配体的活性数据转换为 ‑l o g ( p I C5 0) ，利用 p y t h o n 中 R D k i t 模块的 MolecularDescriptorCalculator程序对已知配体进行分子特征的提取；利用sklearn模块的StandardScaler对所述分子特征进行标准化处理；再利用sklearn模块进行基于随机森林和RFE的组合特征选择；最后使用pyt hon中Scikit ‑Learn中的S upport Vector Machine， AdaBoost， Random Forrest， Gradient Boosting， K ‑Nearest Neighbor以及Bayesian Ridge算法对已知配体数据进行拟合计算，得出用于活性筛选的机器学习模型；虚拟筛选：按照上述对已知配体的处理方法，对筛选数据库中候选化合物进行分子特征的提取，代入上述机器学习模型中，进行拟合计算，得到各候选化合物的机器学习得分；模型优化：综合各候选化合物的机器学习得分和结合能大小，整合得到虚拟活性值，选取虚拟活性值佳的候选化合物，以PGLuc ‑promCol1A2 ‑A549细胞进行活性筛选，将获得的化合物细胞活性数据反馈到所述机器学习模型中，进行机器学习模型的优化，得优化机器学习模型；权　利　要　求　书 1/3 页 2 CN 114432311 A 2化合物筛选：将筛选数据库中候选化合物进行分子特征的提取，代入上述优化机器学习模型进行分析，得到机器筛选结果，即得预测抗特发性肺纤维化化合物。 4.根据权利要求3所述的计算机预测筛选方法，其特征在于，所述靶点蛋白包括： VEGFR1， VEGFR2， FGFR 1， FGFR2， FGFR3， P DGFRα， TGFβ 1 R， VEGFR3和P DGFRβ 。 5.根据权利要求4所述的计算机预测筛选方法，其特征在于，所述VEGFR3的三维结构模型通过以下方法构建：获取VE GFR3蛋白的氨基酸序列，去除配体结合域以外的序列，保留重点结构相关序列，以VEGFR2三维结构为模板，通过SW ISS‑MODEL完成同源模拟；所述PDGFRβ 的三维结构模型通过以下方法构建：获取PDGFRβ 蛋白的氨基酸序列，去除配体结合域以外的序列，保留重点结构相关序列，以FLT3三维结构为模板，通过SWISS ‑ MODEL完成同源模拟。 6.根据权利要求3所述的计算机预测筛选方法，其特征在于所述标准化处理为：将选用的配体database 进行加氢、设置为PH＝7.4的状态；靶点蛋白文件去除原有的溶剂分子和配体分子、添加氢原子；设定好对接的网格范围及大小。 7.根据权利要求3所述的计算机预测筛选方法，其特征在于，所述虚拟活性值 Consensus score通过以下公式得到：其中： Targets表示指各靶点蛋白； STargets表示各候选化合物针对靶点蛋白，分别根据模型计算得到的机器学习得分和根据该化合物对每个靶点的结合能计算得到的分数；所述STargets按照以下标准评分：所述排名通过以下方法得到：以所述筛选数据库中所有化合物针对每个靶点的结合能由低到高进行排位，机器学习的得分由高到低排列；某候选化合物在所述的排位中的顺序位置，即为该候选化合物的排名。 8.根据权利要求3所述的计算机预测筛选方法，其特征在于，所述pGLuc ‑promCol1A2报告基因A549细胞通过以下方法构建：构建质粒： PCR扩增COL1A2基因序列，将扩增产物与Luc载体分别用NheI/HindIII双酶切，回收酶切产物，加入T4 DNA Ligase酶连接，将连接产物转化至DH5α 感受态细胞， LB培养基培养，取阳性克隆，得COL1A 2‑荧光色素酶质粒，备用；转染：使用Lipofectamine 2000转染试剂， Opti ‑MEM培养基，将上述pGLuc ‑promCol1A2 质粒转染至A549细胞，即得。 9.根据权利要求8所述的计算机预测筛选方法，其特征在于，所述转染步骤之后，还包权　利　要　求　书 2/3 页 3 CN 114432311 A 3

专利 抗特发性肺纤维化化合物及其计算机预测筛选方法

专利抗特发性肺纤维化化合物及其计算机预测筛选方法