生命体系中的蛋白质并非单独发挥作用,往往组合在一起形成特定的功能模块(“蛋白质复合体”或“蛋白质机器”)。了解蛋白质复合物及其功能对于阐明生命过程的机制、疾病诊断与治疗以及药物开发至关重要。然而,目前的实验手段在鉴定蛋白质复合物方面存在诸多挑战和限制。因此,发展高效的计算方法来预测蛋白质复合物就显得极为重要。现有的蛋白质复合物预测算法忽略了蛋白质氨基酸序列对三维结构和生物化学性质的影响,这是影响蛋白质相互结合形成复合物的重要因素。为此,国家蛋白质科学中心(北京)的人工智能研究团队提研发了一种基于超图表示学习预测蛋白质复合体的软件π-HyperGraphComplex,该软件整合了蛋白质序列和蛋白质相互作用网络信息,不需要进行人为的特征提取就可以挖掘蛋白质复合物信息。π-HyperGraphComplex软件于2024年6月8日在Briefings in Bioinformatics期刊(5年IF=10.6)在线发表。
π-HyperGraphComplex通过超图变分自编码器(HGVAE) 系统学习已有蛋白质复合体涉及的蛋白质序列和相互作用知识,获得潜在蛋白质复合物的特征向量表示,再结合深度神经网络DNN推测可能的蛋白质复合物。该算法不依赖特征工程,而是完全由数据驱动。它有望理解蛋白质复合物形成的本质特征,揭示生命过程的分子基础,为疾病诊断和新药研发提供线索和靶点。值得注意的是,π-HyperGraphComplex预测出的高置信度蛋白质复合物,可作为AlphaFold3等复合物结构预测工具的优质输入。π-HyperGraphComplex已开源并上传至GitHub网站(https://github.com/LiDlab/HyperGraphComplex),用户可通过简单命令在本地部署使用。
图1. π-HyperGraphComplex的整体算法框架。
(A) 超图构建:以蛋白质相互作用(PPI)网络为输入,使用Cliques算法提取完全连接的蛋白质子网络作为超边,并将其转换为蛋白质超图。
(B) 蛋白质编码:以蛋白质的原始序列为输入,使用CT方法对蛋白质的氨基酸序列进行编码,获取蛋白质序列特征。
(C) 自监督模块用于获取蛋白质嵌入向量:采用超图变分自编码器(HGVAE),包括超图卷积编码器、注意力模块和点积解码器,基于超图的高阶拓扑属性和蛋白质序列特征生成蛋白质嵌入向量。
(D) 监督模块用于预测蛋白质复合物:给定蛋白质集合的嵌入向量被拼接并输入到一个DNN模块以预测给定蛋白质集合是否能够形成复合物
π-HyperGraphComplex中的π即为π-HuB计划。国家蛋白质科学中心人工智能研究团队已经连续推出了四个π软件,包括π-HelixNovo,π-DDK-Linker, π-TransDSI, 以及π-HyperGraphComplex,这些软件将助力实现π-HuB计划中“数据-信息-知识-智慧”(DIKW)的快速跃迁。国家蛋白质科学中心(北京)李栋研究员和刘源助理研究员为论文共同通讯作者,安徽医科大学硕士研究生夏思敏、中国农业大学博士研究生李点可以及国家蛋白质科学中心硕士研究生邓新茹为论文共同第一作者。该工作得到了人体蛋白质组导航国际大科学计划(π-HuB)、国家蛋白质科学中心(北京)、科技部重点研发计划和国家自然科学基金委的支持。
参考文献:
1. Yang T, Ling T, Sun B, Liang Z, Xu F, Huang X, Xie L, He Y, Li L, He F, Wang Y, Chang C. Introducing π-HelixNovo for practical large-scale de novo peptide sequencing. Brief Bioinform. 2024;25:bbae021
2. Kong X, Diao L, Jiang P, Nie S, Guo S, Li D. DDK-Linker: a network-based strategy identifies disease signals by linking high-throughput omics datasets to disease knowledge. Brief Bioinform. 2024, 25: bbae111.
3. Liu Y, Li D, Zhang X, Xia S, Qu Y, Ling X, Li Y, Kong X, Zhang L, Cui CP, Li D. A protein sequence-based deep transfer learning framework for identifying human proteome-wide deubiquitinase-substrate interactions. Nat Commun. 2024 May 28;15(1):4519.
4. Xia S, Li D, Deng X, Liu Z, Zhu H, Liu Y, Li D, Integration of protein sequence and protein–protein interaction data by hypergraph learning to identify novel protein complexes, Briefings in Bioinformatics. 2024, 25: bbae274.