“生物计算已经成为AI发展的下一个明珠。”2022世界人工智能大会期间,在2022上海生物计算论坛上,“AI蛋白质折叠奠基人”、分子之心创始人兼首席科学家许锦波在演讲中表示,近年来,人工智能的深入发展,让蛋白质的结构及功能研究取得了巨大的突破,从传统的物理和统计方法快速走向最新的机器学习乃至深度学习算法,分子生物学界的研究范式也从基于序列的研究转向基于结构的研究,极大提高了蛋白质从头设计的效率。而在产业界,AI蛋白质发现和设计也乘势而起,成为全球瞩目的热门赛道。
由于蛋白质分子的作用机制极其复杂,即便使用新兴的AI方法,也仍然存在很多有待进一步探索和解决的问题。此外,国内也一直没有一个功能完整的AI蛋白质设计和优化平台,为研究界的技术攻关和产业界的工业化落地推进提供助力。
此次世界人工智能大会期间,分子之心打造了业界首个功能完整的AI蛋白质预测和设计平台MoleculeOS。“MoleculeOS 是分子之心正着力构建的AI驱动的蛋白质设计新引擎,我们希望把它打造成中国生物经济时代的基础设施。”许锦波教授表示。
据了解,该平台具备两大重要功能:运用数据驱动的深度学习方法直接设计和生成所需要的蛋白;通过分析蛋白质的表达性、稳定性、成药性等特性,帮助行业专家快速识别和产生最合适的蛋白质,推动实验室研究成果在产业领域的规模化应用。
MoleculeOS具备蛋白质结构及特性预测和蛋白质设计能力,在蛋白质从头设计、蛋白质优化、抗体重设计、蛋白质以及复合物结构预测、蛋白-蛋白对接、蛋白质侧链预测、蛋白质功能预测、蛋白质语言模型等关键算法和模块方面,目前已开发出十余项世界领先的 AI 算法,计算结果远超文献报道及全世界已公开发表的最好结果。
例如,在蛋白质结构预测方面,近年来,DeepMind、Baker 等研究团队相继推出了 AlphaFold2、RoseTTAFold 等 AI 蛋白质结构预测模型,在推动生物行业巨大进步的同时,这些 AI 算法始终存在一个重大局限,即高度依赖 MSA 及其衍生的共同进化信息和序列谱来预测蛋白质结构,无法对孤儿蛋白等缺乏同源进化信息的蛋白质进行高精度结构预测。
在此背景下,“不使用同源序列和共进化信息的 AI 蛋白质预测方法”在近两年成为了业界共同探索的新方向。分子之心团队基于MoleculeOS平台,提出了基于AI 的单序列蛋白质结构预测算法 RaptorX-Single, 可以在不使用 MSA(来自同源蛋白质的多序列比对)的情况下,从其一级序列直接预测蛋白质结构,并实现超越 DeepMind AlphaFold2等方法的性能。同时,RaptorX-Single 所采用的模型更轻量,参数不到 Meta ESMFold 方法的三分之一。该算法进一步扩大了蛋白质结构预测的探索效率和边界。
在蛋白质从头设计方面,分子之心MoleculeOS平台拥有多种领先的能力。比如,其蛋白质序列设计算法在4个大家普遍使用的数据集上表现出了全球最高的NSR;蛋白质主链结构设计算法,全球首次突破复杂结构的蛋白质主链结构从头设计,可以设计出各种各样自然界不存在的、非常复杂的蛋白质构象,比自然界的蛋白质更稳定;并首创无需模板的蛋白质配体生成算法,可以生成自然界不存在的、全新的结合蛋白质。
“过去几年,AI蛋白质结构预测领域取得了巨大的进展,颠覆了蛋白质研究领域的研究范式,挖掘出生物技术的巨大潜力,但蛋白质的研究仍有很多未解的难题。”许锦波表示,比如AI预测蛋白质相互作用的精度,尤其是抗体抗原的相互作用上,远没有达到令人满意程度, 孤儿蛋白的结构预测、蛋白质与其他分子的相互作用预测等问题仍未解决。“我们的目标是设计真正有实用价值的蛋白质,驱动生物产业创新发展,释放生物计算领域新动能。”