成果发表|Nature Communications 刊登百奥几何AI驱动亲和力成熟新方法

9月6日,百奥几何联合加拿大Mila实验室唐建团队和复旦大学基础医学院应天雷、吴艳玲团队于《Nature Communications》发表论文,报道了预训练几何图神经网络 GearBind 及其在抗体亲和力成熟的应用。实验结果显示,GearBind 不仅在亲和力变化(ΔΔG_bind)的标准数据集和一个独立的验证集上取得了最佳表现,还在抗原不同、形式不同的两个抗体分子上成功实现了 AI 驱动的亲和力成熟,用计算机内的虚拟筛选代替了繁重的湿实验筛选,可望为一些项目节约 70% 的时间和 75% 的湿实验成本,为蛋白-蛋白亲和力优化带来新变革。

蛋白亲和力优化的现状与痛点

蛋白亲和力优化,是指通过改造蛋白配体,提高其对目标受体的结合倾向的过程。由于亲和力是许多生物分子功能的基础,这一任务对于蛋白类药物研发至关重要。

传统亲和力优化流程依赖于对关键氨基酸的识别和突变体筛选。然而,哪怕是只考虑单突变,一个单抗中 60 个 CDR 区的氨基酸也会产生一千余个突变体,如果考虑三突变,可能的突变体个数就会来到惊人的 2.3 亿个。即使采用高通量方法,湿实验合成和验证的时间、金钱、劳力成本依然较大。因此,如何通过计算有效探索突变空间、识别有效突变、降低湿实验负荷,成为蛋白亲和力优化中的关键问题。

AI 驱动的抗体优化新流程

百奥几何对亲和力优化问题的解决方案,主要分为以下三个方面:

  1. 用自研蛋白大模型 GeoFlow 大模型为尚未测定复合物结构的蛋白-蛋白对预测复合物结构。GeoFlow 是百奥几何自研的蛋白大模型,在抗原-抗体预测任务上的成功率比 AlphaFold2 提升了 95%,达到了世界一流水平。在已知表位的情况下,预测准确率还可进一步提高。
  2. 用几何深度学习模型 GearBind 快速、精准地筛选配体的突变体,并进行表达验证。经过大量蛋白结构数据预训练的 GearBind 模型,可以快速学习湿实验得到的少量亲和力结果,在 1-2 轮内大幅提升模型性能。
  3. 通过 AI 驱动的蛋白设计与优化平台 GeoBiologics,将上述功能以方便友好、随时可用的方式提供给用户。

AI 驱动的全新流程,凭借更多的有效计算减轻了湿实验负担,可望加速项目周期、提高交付质量。本篇论文介绍的就是第一版 GearBind 模型的技术实现和应用案例。

GearBind:算法创新带来强劲性能

百奥几何-Mila 实验室团队提出的 GearBind 算法,相比已有的物理方法和深度学习方法,作了如下三个关键创新:

  1. 在图构建阶段,GearBind 在所有结合界面上的重原子之间构建了一张多重关系(multi-relational)图,同时记录了序列临近性和结构临近性信息。
  2. 在特征提取阶段,GearBind 采用多级消息传递(multi-level message-passing),使得模型能从原子、原子对、氨基酸三个尺度建模蛋白-蛋白相互作用,特别是对于蛋白-蛋白结合至关重要的侧链相互作用。
  3. 在模型训练阶段,GearBind 使用了对比学习技术,在大量无监督的蛋白质结构数据上进行了预训练,进一步提升了模型性能,更好掌握了侧链相互作用的规律。
(上)GearBind几何神经网络架构图(下)GearBind预训练流程图

在这三项创新的合力下,基于 GearBind 的集成模型在全部四项指标中均超过了现有模型。而且,预训练后的 GearBind 模型在四项指标上均获得了明显的性能提升。

各模型在SKEMPI数据集上五折交叉验证的表现

AI 模型实战抗体亲和力成熟

为验证方法的有效性,百奥几何联合复旦大学基础医学院,在抗原不同、形式不同的两个抗体分子上使用 AI 对抗体进行了亲和力成熟。

对于与 Omicron 毒株的亲和力明显降低的 CR3022 抗体,第一轮模型推荐的 12 个点突变中,有 9 个亲和力增强,准确率达 75%。将其中表现较好的突变进行组合后,得到的第二轮突变株对于 Delta RBD 的 EC50 降低了 1.8-3.4 倍,对 Omicron Spike 的 EC50 降低了 7.6-17.0 倍。综上,在只表达验证了二十个突变体的条件下,团队成功将 CR3022 抗体针对 Omicron Spike 的 EC50 降低了至多 17 倍,以 BLI 检测的亲和力提升了至多 6.1 倍,达到低 nM 水平。

各 CR3022 突变体对 Omicron Spike 的(左)ELISA(右)BLI 结合实验结果

在另一个项目中,针对抗瘤胚抗原(oncofetal antigen)5T4 的纳米抗体 UdAb,模型推荐的第一轮 12 个点突变中有 2 个亲和力提升,EC50 降低了至多 5.6 倍。值得一提的是,这两个项目的抗原表位在训练集中均未曾出现,体现了模型强大的泛化能力。历时一年的迭代,目前百奥几何的亲和力成熟计算流程已完成进一步升级。新版模型不仅预训练、后训练的数据获得了大幅扩充,还具备基于湿实验数据持续学习的能力,性能更强大、更高效。在最近一个抗体亲和力成熟项目中,模型在一轮调优后快速进化,生成了高活性的组合突变,最终抗体中和活性提升达到 1000 倍。

新版GearBind经两轮实验将某抗体中和活性提升1000倍

轻松使用 GearBind 进行亲和力成熟

目前,升级后的 GearBind 模型已上线一站式抗体发现 AI 平台 GeoBiologics,并已为数十家客户提供 AI 驱动的蛋白-蛋白亲和力成熟计算服务。您只需上传复合物结构(或在平台上使用 GeoFlow 预测复合物结构)、选择需要突变的位点,即可快速完成饱和突变扫描与结果可视化,进而抢先得到更优分子。

GeoBiologics 平台上还搭载了基于 GeoFlow 蛋白大模型的超精准结构预测模块、原创的一站式大分子设计和多目标优化模块等,欢迎大家访问https://geobiologics.biogeom.com了解更多细节及申请试用。