科研动态

2023-层次图学习模型描绘蛋白质-蛋白质相互作用

2023-03-15

蛋白质-蛋白质相互作用(PPI)是生物系统中功能和信号传递的基本手段,预测和理解PPI成为一种日渐趋增的需求。人的认知往往由接收到的宏观和微观信息及其两者的层级关系逐步搭建起来,例如,生物学家就能够从蛋白质组学和交互作用组学两个视角探究PPI的存在。机器智能的核心目标是模拟研究问题的天然形式,并模仿人类对问题的认知方式。受启发于生物学家对PPI问题的研究方式和信息间天然的层次结构,该研究构造了两个图视角实现信息增益并提出HIGH-PPI(Hierarchical Graph Neural Networks for Protein–Protein Interactions)模型实现PPI的端到端学习及高性能预测。

HIGH-PPI使用底部蛋白质内部视图BGNN(Bottom GNN)和顶部蛋白质外部视图TGNN(Top GNN)对结构蛋白质表示进行建模,并具有以下特征:(1)蛋白内视图采用BGNN为蛋白外视图提供蛋白结构-功能表征,为PPI网络的结构学习提供辅助知识。(2)蛋白外视图借助TGNN编码的蛋白活跃度和蛋白社区信息为蛋白内视图中的进一步表征优化提供指导。在无需对残基级别数据进行监督学习的情况下,HIGH-PPI能够通过计算残基重要性推断蛋白质对相互作用的关键功能位点。

image005_proc.jpg

图1 用于端到端学习PPI双视图的HIGH-PPI模型


引入蛋白3D结构信息的对于多种backbone模型的显著提升,在保证输入信息相同的前提下,图结构数据相对循环神经网络(RNN)和卷积神经网络(CNN)具有明显优势。图建模可以在拥有和3D CNN相近表现的同时,获得显著的运行效率提升(~80%)。此外,图结构数据的可解释性能亦具有优势,HIGH-PPI可以编码由在序列中不相邻的残基构成的位点信息。对于不同的相互作用类别,HIGH-PPI可给出残基级别的属性重要性分数。

image007.png

图2  蛋白内视图带来增益。

(a)引入3D信息显著提升预测性能;(b)图结构数据对蛋白结构误差的高容忍度;(c)图结构数据精确识别蛋白中对接位点;(d)残基级别属性对不同类别PPI的重要性。


在监督位点信息缺失条件下,HIGH-PPI可以推理物理对接以及催化作用的功能位点,这表明层次图模型可以获得高质量的可解释蛋白质表征。给定结合类型PPI的蛋白质对,HIGH-PPI有能力预测其大致对接界面,经过二值化后,其交并比(IoU)可达近60%。

image003.png

图3 HIGH-PPI对物理对接界面和催化位点的预测。

(a)物理对接界面预测;(b)催化相互作用中的催化位点预测,标红残基拥有催化功能,标黑残基即误判的催化功能残基


总体来说,层次结构是无处不在的,人类通常倾向于从层次结构中学习知识和认识世界。鉴于AI辅助的药物发现场景中具有丰富的层次信息,文章倡导采用多视图策略加深机器对单一视图的理解。这种对基于不完全可靠域信息的三视图层次模型的开发将可能进一步推进机器对PPI问题的理解。

以上工作由香港科技大学李佳教授/黄湧教授共同指导,香港科技大学高子琪为本文的第一作者,深圳湾实验室坪山中心蒋晨然博士为本文的第二作者,香港科技大学张佳雯,中国科学院大学附属肿瘤医院蒋晓森、杨焕明,腾讯AI实验室李蓝青、赵沛霖均对本研究做出重要贡献。该研究得到了自然科学基金委员会、腾讯AI实验室研究项目、香港科技大学(广州)建设基金的资助。


全文链接:https://www.nature.com/articles/s41467-023-36736-1

黄湧课题组主页:http://www.huangresearch.org/

化学研究部主页:https://chen.szptmc.cn/

化学研究部招聘:https://chen.szptmc.cn/job/91.html