AI赋能生命科学:中国团队在蛋白质智能计算领域的深度突破

温故智新AIGC实验室

在AI驱动的生物学革命浪潮中,中国海洋大学张树刚副教授团队正通过构建一套全面的蛋白质智能计算体系,突破结构预测、功能注释、交互识别和按需设计等核心瓶颈,有望加速药物研发并实现对复杂生命系统的全尺度理解。

在生命科学研究的漫漫长河中,蛋白质一直扮演着核心角色,它们是生命活动的基本执行者,从催化反应到信号传递,无处不在。然而,传统研究方法,如高昂的结构解析成本、滞后的功能注释以及低效的新型蛋白质设计,长期以来制约着这一领域的深层探索。近年来的发展,特别是2024年诺贝尔化学奖对AI蛋白质结构预测与设计领域的认可,清晰地昭示了人工智能对生命科学带来的革命性影响。中国海洋大学计算机学院的张树刚副教授及其团队,正位于这场变革的前沿,他们构建的蛋白质智能计算体系,正系统性地解决这些传统难题,并为药物发现和生命系统模拟开辟全新路径。

AI重塑蛋白质研究范式:四大核心突破

张树刚团队的工作围绕蛋白质智能计算的四大核心任务展开,每一项都代表着AI技术对生物学研究的颠覆性贡献。

首先,是蛋白质结构预测。长期以来,莱文塔尔悖论——即一个蛋白质理论上存在的巨大构象空间与其实际快速折叠之间的矛盾——一直是生物学界的巨大挑战。AlphaFold系列模型的问世彻底改变了这一局面。从2018年AlphaFold初代在CASP13竞赛中的显著领先,到2021年AlphaFold2实现原子级精度预测,并发布了包含2.14亿个预测结构的庞大数据库,AI已能高效且准确地预测蛋白质的3D结构1。而AlphaFold3在2024年的突破,更是将预测范围扩展到蛋白质与核酸、小分子、离子等几乎所有生命分子的复合物,为理解细胞功能提供了前所未有的工具。这些模型构建了蛋白质智能计算的基石,使后续研究成为可能。

其次,是蛋白质功能自动注释。尽管AlphaFold在结构预测上取得了巨大成功,但全球2.5亿条蛋白质序列中,仅有0.5%完成了精准功能注释,这与结构数据的爆炸式增长形成鲜明对比。张树刚团队将研究重心转向这一瓶颈。他们最具创新性的方法之一是利用AlphaFold2预测的虚拟结构数据进行模型训练,将训练数据从传统电镜提供的数百万级扩充至理论上可达数亿级,如同“数据增强”一般显著提升了模型性能,甚至能发现传统方法未识别的蛋白质新功能2。此外,为充分挖掘蛋白质结构信息,团队提出了基于自监督图注意力的方法,通过编码残基关联信息提升预测精度。针对多模态生物特征(如序列、结构、功能域)难以融合的挑战,他们进一步发展了多模态融合策略,整合了对比学习与多视图分析,成功解决了异构数据融合导致的性能劣化问题,并在多个数据集上取得了最先进(SOTA)的结果3。更引人深思的是,他们的模型在功能预测的可解释性研究中,不仅能识别蛋白质功能,甚至发现了一些模型“错误”但高置信度的预测,实则在现有文献中已有记载,这暗示了AI在挖掘未被充分认识的蛋白质功能方面的巨大潜力。

第三,是蛋白质交互准确识别。在药物研发中,蛋白质作为靶点的精确识别与结合是药效发挥的关键。尽管AlphaFold3在蛋白质复合物预测上迈出一大步,但其免费版本的访问限制和商业授权的难度,促使张树刚团队自主研发高效模型。他们引入孪生学习模式增强蛋白质表征的协同一致性,并构建了具备蛋白交互和任务协同机制的学习框架,实现了蛋白质-核酸、蛋白质-蛋白质、蛋白质-小分子等多类型交互的预测。通过融合NLP领域的Transformer和图神经网络,开发了Convformer、Graphormer等模块,有效进行远程交互建模并强化多模态信息融合。在胰腺癌信号通路预测等实际场景中,模型展现出超过95%的准确率。更值得关注的是,团队引入了最新的几何深度学习,构建了一套完整的三维信息整合范式,解决了传统图模型在二维降维时丢失三维结构信息的弊端,为蛋白质三维建模提供了新思路4。这一系列的理论突破,最终在实际应用中得到了验证:团队对ACSS2蛋白开展实测,筛选出若干亲和力达nM级别的候选化合物,并在与青岛大学医学院的合作湿实验中得到了初步证实,这标志着AI模型从预测走向了现实世界中的药物发现。

最后,是全新蛋白质的按需设计。这被视为蛋白质研究的终极目标,是蛋白质折叠的“逆问题”,同样面临搜索空间爆炸的挑战。张树刚团队引用了诺奖获得者David Baker团队的工作,他们结合ProteinMPNN和RFDiffusion等工具,成功设计出用于中和蛇毒毒素的新型蛋白质,并于2025年年初在《Nature》杂志上发表5。这些进展无疑表明,AI正在帮助科学家们向“造物主”般的目标——按需创造全新蛋白质——迈出坚实步伐,为疫苗、癌症治疗和生物材料开发带来无限可能。

迈向全链条生命系统模拟:从原子到器官

张树刚团队的愿景远不止于单一的蛋白质任务。他们正将目光投向更宏大的目标:构建复杂生命系统的跨尺度计算模型。生命系统是一个从纳观的基因到宏观的细胞、器官,甚至整个有机体的多尺度复杂体系。在英国曼彻斯特大学访问期间,张树刚教授参与了“数字心脏”项目,回国后进一步开展了“数字细胞”研究。与传统的“数值驱动”范式不同,团队提出了“数据驱动”的微观生命活动多尺度建模方法,构建了“表征-状态-尺度”三维微观计算全方法体系,涵盖36个研究点。

在此基础上,团队在魏志强教授的指导下,对微观生命系统进行了四级尺度新定义:纳观(基因)、微观(蛋白质)、介观(信号通路)和宏观(细胞)。这一全链条的生命系统模拟旨在实现从原子到心脏的全尺度耦合,为深入理解生命奥秘、模拟疾病发生发展提供了一个前所未有的计算平台。这种系统级的整合,超越了单个分子层面的研究,预示着未来生物学将能够以前所未有的精度和广度,在计算机中模拟和探索生命的复杂性。

影响与前瞻:AI加速生命科学的未来

张树刚团队的工作,是中国乃至全球在AI驱动生命科学领域蓬勃发展的一个缩影。通过智能计算体系,科学家们不再受限于传统实验的高成本和低效率,能够以前所未有的速度和规模探索蛋白质世界,这无疑将极大地加速新药研发周期,为攻克疑难疾病提供新的希望。从蛋白质结构和功能的精准预测,到与药物分子的有效对接,再到从头设计具有特定功能的蛋白质,AI正在把药物发现从漫长的试错过程转变为高效的智能设计。

然而,随之而来的挑战与伦理考量也不容忽视。当AI赋予人类“设计生命”的能力,如何确保这些新设计的安全性?如何规范其应用以避免潜在风险?这些都将是未来AI生物学发展中需要深思的问题。同时,尽管计算模拟已取得显著进展,但将这些预测在“湿实验”(wet lab)中进行全面验证,并将其转化为实际的治疗方案,仍是需要长期投入和跨学科协作的巨大工程。

尽管如此,张树刚团队的成果,尤其是其自研模型在克服AlphaFold3访问限制方面的努力,以及通过湿实验验证药物亲和力模型的成功,都表明中国在AI生命科学领域正逐步形成自主创新能力,并致力于将前沿技术转化为实际应用。随着数据、算法和算力的持续进步,AI在生命科学领域的“智能计算”正从预测走向创造,为人类理解生命、改造生命,带来无限可能。这不仅是技术的胜利,更是人类智慧与自然奥秘深度融合的开始。

引用