广东省微生物研究所利用基于深度学习技术发现高活性抗骨质疏松活性天然产物
广东省微生物研究所谢黎炜研究员团队与中山大学药学院徐峻教授团队联合,在药物化学权威杂志《欧洲药物化学杂志》(European Journal of Medicinal Chemistry)发表了标题为《深度学习能够发现高效抗骨质疏松天然产品》(Deep learning enables discovery of highly potent anti-osteoporosis natural products)的文章,报道了基于深度学习技术从天然产物库中虚拟筛选发现全新的高活性抗骨质疏松活性化合物,虚拟筛选发现的5个天然产物结构新颖,其中体外活性最好的2个化合物分别为32nM和68nM;申请中国发明专利,具有重要的潜在开发和转化价值。
骨质疏松症是一种以骨量低下,骨组织微结构损坏,导致骨脆性增加,易发生骨折为特征的全身性骨病。骨质疏松性骨折作为骨质疏松症的严重并发症,危害巨大,是老年人致残和致死的主要原因之一。我国已成为世界上老年人口绝对数最大的国家,人口老龄化日趋严重。骨质疏松症作为老龄化社会常见疾病,发病率高,是影响老年人生活质量的重要因素,同时长期的治疗与护理带来巨大的家庭和社会负担。目前临床上抗骨质疏松药物主要包括:抗骨吸收药物,如双膦酸盐类、雌激素受体调节剂、RANKL 抑制剂等;促骨形成的药物,如甲状旁腺激素类似物。这些药物虽然能在一定程度上提高骨质疏松患者的骨密度,但存在各种副作用,如双膦酸盐类药物会引起下颌骨坏死,雷洛昔芬会引起静脉栓塞。因此,我们亟需研究更加有效、副作用更小的抗骨质疏松症治疗药物。
基于深度学习的虚拟筛选及实验验证
深度学习的优势在于非监督式学习特征,并在图像、语音、自然语言处理等方面取得巨大成功,然而,在化学领域,化学任务的机器学习方法依然依赖于复杂的特征工程。2017年谷歌提出了消息传递网络(Message Passing Neural Network,MPNN),首次证明MPNN可以直接从分子图中学习到分子的特征并应用于各种分子性质的预测中。本文从文献和数据库中收集基于细胞水平测试的抗破骨细胞活性的表型数据集,使用注意力机制的消息传递神经网络(SA-MPNN)模型在logP数据集(21364个分子)上进行预训练,然后利用抗破骨细胞活性的表型数据集进行迁移学习得到最终模型(P-SAMPNN),同时作为对比,构建了基于ECFP分子指纹的随机森林(RF)和全连接神经网络(DNN)模型,基于SMILES的注意力机制的双向长短期记忆网络(SA-BiLSTM)模型。结果显示,P-SAMPNN模型具有明显优势,模型AUC值为0.92。随后利用该模型对specs天然产物数据库进行预测,选择打分较高的化合物,通过结构分析以及肉眼筛选,从中选择10个天然产物购买并通过体外破骨细胞分化实验测试,发现5个活性天然产物,其中2个纳摩级,3个微摩尔级,其中活性好的2个化合物为异喹啉类生物碱,体外活性均优于目前经典的抗骨质疏松药物阿仑膦酸钠。通过结构相似性分析发现,5个活性天然产物与已报道的化合物相似度低,均为全新骨架化合物,具有良好的后续开发价值。
图1. 基于深度学习的抗破骨细胞活性抑制剂的虚拟筛选流程
图2. 不同模型表现以及基于P-SAMPNN筛选到的5个活性天然产物。
活性天然产物显著抑制破骨细胞相关基因表达及其成药性预测
基于深度学习虚拟筛选发现的2个nM级活性化合物为异喹啉类生物碱,初步机制研究发现,这两个化合物均可以计量性显著降低破骨细胞成熟分化中关键基因Ctsk,Nfatc1,Tracp以及Rank的表达,进一步确证了细胞水平的筛选数据,同时将上述基因比对到KEGG中破骨细胞成熟分化通路图中,可以推测这类活性化合物应该是作用于通路上游基因。为进一步研究这2个化合物抗破骨细胞分化的特异性以及成药性,我们对化合物进行了PAINS(pan-assay interference compounds)检测和ADMET性质预测,结果显示,这5个活性天然产物均不是PAINS分子,不含有任何PAINS片段,同时具有良好的成药性,具有很好的后续开发价值,体内动物活性验证以及进一步的机制研究正在进行中。
图3. 活性好的2个天然产物显著抑制破骨细胞成熟分化中关键基因的表达。
广东省微生物研究所刘志红博士、中山大学药学院博士生黄丹娥和郑双佳是文章并列第一作者,本研究的通讯作者是广东省微生物研究所的谢黎炜研究员、中山大学的徐峻教授和顾琼副教授。本研究得到了国家自然科学基金、广东省科学院发展专项资金、广东省自然科学基金等经费的支持。
附件下载: