遗传发育所高彩霞团队开发基于AI的通用蛋白质工程方法,低成本实现蛋白质高效进化模拟和功能设计
| 来源:【字号:大 中 小】
2025年7月7日,中国科学院遗传与发育生物学研究所高彩霞团队在国际顶尖学术期刊《细胞》上发表题为:Advancing protein evolution with inverse folding models integrating structural and evolutionary constraints的研究论文。
该研究整合了结构与进化约束的通用逆折叠模型,开发了一种新型人工智能蛋白质工程计算模拟方法——AiCE(AI-informed Constraints for protein Engineering)。该方法无需训练专属AI模型,即可实现蛋白质高效进化模拟和功能设计。研究团队利用AiCE对多种基因编辑工具进行进化优化,成功实现了其效率和精度的快速提升。
蛋白质逆折叠是利用AI模型,通过给定三维结构预测可兼容序列的过程。通用的蛋白质逆折叠模型,例如ESM-IF1和ProteinMPNN,通过天然蛋白质结构和序列的训练,可以隐式学习蛋白质骨架的几何和物理特性,捕捉由进化动力学塑造的蛋白质序列的复杂分布模式。
研究团队基于现有通用逆折叠模型开发了AiCEsingle模块,具体来说:基于给定的蛋白质三维结构,对逆折叠模型输出的氨基酸序列开展采样,来提名高频出现的氨基酸类型,进一步通过结构约束对氨基酸频率开展差异筛选,得到最终预测的单个氨基酸替换类型。
研究团队利用60 深度突变扫描数据,测试了AiCEsingle的性能,发现其实现了16%的预测准确率;通过消融实验和逻辑回归分析,证明结构限制在方法中的必要性,相比于无限制方案性能提升了37%;进一步的平行比较分析表明AiCEsingle相比于其它常见AI模型实现了36%-90%以上的性能提升。从蛋白类型来看,AiCEsingle实现了复杂蛋白和蛋白质-核酸复合物诸如CRISPR蛋白、SARS-CoV-2病毒蛋白等的有效进化,具有广泛的通用性。
为了克服突变组合广泛存在的负向上位效应,研究团队进一步假设存在进化耦合的氨基酸位置可能存在功能协同,构建了通过预测进化耦合性来预测突变组合位置的AiCEmulti模块。6个突变文库的分析结果表明,AiCEmulti与蛋白质大模型SaProt预测能力相当,但计算成本极低。研究团队建立的包含两类模块的AiCE方法,可实现单突和组合突变的快速有效预测。该方法利用了现有的通用逆折叠模型而无需重新/迁移训练专有蛋白模型,极大降低了计算成本,只需1.15个CPU时即可识别SpCas9蛋白(>1000个氨基酸)的单突和双突变体。
利用该方法,研究团队进一步在湿实验层面实现了包括脱氨酶、核定位序列、核酸酶和逆转录酶等8种结构和功能多样蛋白质的AiCE功能验证,证明了其简单、高效和通用性。借助于优化的脱氨酶,研究团队深入开发了可用于精准医疗和分子育种的新型碱基编辑器,包括编辑窗口缩小近一半的新型胞嘧啶碱基编辑器enABE8e、保真度提升1.3倍的新型腺嘌呤碱基编辑器enSdd6-CBE,以及活性提升13倍的新型线粒体碱基编辑器enDdd1-DdCBE。
这项研究开发了一种基于人工智能的新型蛋白质工程计算模拟方法——AiCE。与传统蛋白质工程方案相比,该方法在效率、可扩展性和通用性方面均展现出显著优越。通过计算模拟甚至替代湿实验,是当前生命科学领域的重要发展趋势和前沿方向,而该研究在此方面开展的探索具有积极意义。当前,基于AI的蛋白质分析工具往往依赖大量计算资源,这对许多实验室而言难以获取。而这项工作表明,通过开发更高效的生物信息学工具,能够最大限度降低计算负荷,从而让更多生物学家切实享受到AI技术带来的科研便利。