初探AI拼圖模型預(yù)測蛋白質(zhì)復(fù)合物結(jié)構(gòu)
分子表示學(xué)習(xí)在 AI 輔助藥物發(fā)現(xiàn)研究中起著至關(guān)重要的作用。在傳統(tǒng)藥物研發(fā)中,常用的分子對接模型需要進(jìn)行大量的構(gòu)型采樣與優(yōu)化,并篩選出較為穩(wěn)定的結(jié)構(gòu)。這類策略效率較低,難以應(yīng)用于高通量的蛋白質(zhì)對接任務(wù)。本文介紹的基于分子表面黎曼流形的深度學(xué)習(xí)表示方法 (Harmonic Molecular Representation, HMR) 實現(xiàn)了更準(zhǔn)確、高效的蛋白質(zhì)對接模型開發(fā)。HMR 用二維黎曼流形建模分子表面,結(jié)合調(diào)合分析技術(shù)與神經(jīng)網(wǎng)絡(luò)實現(xiàn)流形上幾何、化學(xué)信號的多尺度傳播和兩個蛋白質(zhì)表面之間的匹配度比較,進(jìn)而利用「蛋白質(zhì)拼圖」的邏輯實現(xiàn)蛋白質(zhì)分子剛性對接 (rigid protein docking) 。實驗表明,基于 HMR 的分子對接模型比當(dāng)前深度學(xué)習(xí) SOTA [1] 有更高的準(zhǔn)確性,并且較傳統(tǒng)分子對接方法提速 100 倍以上。相關(guān)論文已被收錄于 ICLR 2023。
蛋白質(zhì)之間的相互作用是實現(xiàn)其生物活性的重要基礎(chǔ),例如人體可以產(chǎn)生抗體蛋白(上圖綠色部分)與入侵的病菌(紫色部分)結(jié)合從而抑制疾病。生物制藥研究通過分析生物分子之間相互作用的物理、化學(xué)機(jī)制,進(jìn)一步設(shè)計出可以與一些特定靶點相結(jié)合的新型藥物分子(如研發(fā)新冠抗體)。在微觀尺度下,蛋白質(zhì)之間的相互結(jié)合主要由分子間作用力決定,例如氫鍵、靜電力、疏水作用等。
在傳統(tǒng)藥物研發(fā)中,分子對接技術(shù) (molecular docking) 通過物理方法建模這些微觀作用來模擬計算真實生物體內(nèi)兩個分子相互作用的穩(wěn)定結(jié)構(gòu)。這些傳統(tǒng)的分子對接模型需要進(jìn)行大量的構(gòu)型采樣及優(yōu)化,并篩選出其中較為穩(wěn)定的結(jié)構(gòu)作為預(yù)測結(jié)果。這種基于采樣和篩選的策略導(dǎo)致傳統(tǒng)方法效率較低,難以應(yīng)用于高通量的蛋白質(zhì)對接任務(wù)(例如從 1 萬個蛋白中篩選出最有可能與病菌表面結(jié)合的 10 個來進(jìn)行濕實驗測試)。研發(fā)準(zhǔn)確且高效的分子對接模型可以幫助快速篩選出適合進(jìn)行濕實驗測試的蛋白質(zhì)分子,從而提高新藥研發(fā)的效率。
為了開發(fā)更加準(zhǔn)確且高效的蛋白質(zhì)對接模型,字節(jié)跳動 ByteDance Research 團(tuán)隊設(shè)計了一套基于分子表面的幾何深度學(xué)習(xí)方案。該方案的核心思想是訓(xùn)練 AI 模型從拼圖的角度去理解蛋白質(zhì)之間的相互作用,并按照拼圖的思路實現(xiàn)蛋白質(zhì)復(fù)合物構(gòu)型預(yù)測。
- 論文地址:https://openreview.net/pdf?id=ySCL-NG_I3
- 代碼地址:https://github.com/GeomMolDesign/HMR
具體來說,如果兩個蛋白質(zhì)可以結(jié)合,那么其結(jié)合區(qū)域必須同時滿足化學(xué)性質(zhì)匹配和幾何結(jié)構(gòu)互補(bǔ)這兩個條件(下圖)。因此直觀上可以將其類比為一個拼圖問題:只要能夠在蛋白質(zhì)表面分別找到兩塊形狀和紋理都能匹配的「拼圖」,那么就可以將這兩個蛋白質(zhì)拼在一起形成穩(wěn)定的蛋白質(zhì)復(fù)合物。
圖:能夠結(jié)合的蛋白質(zhì)分子必須同時滿足化學(xué)性質(zhì)匹配和幾何結(jié)構(gòu)互補(bǔ)這兩個條件,類似于拼圖問題。
基于上述假設(shè),團(tuán)隊提出了一種基于分子表面黎曼流形的深度學(xué)習(xí)表示方法 (Harmonic Molecular Representation, HMR) :用二維黎曼流形建模分子表面,結(jié)合調(diào)合分析技術(shù)與神經(jīng)網(wǎng)絡(luò)實現(xiàn)流形上幾何、化學(xué)信號的多尺度傳播和兩個蛋白質(zhì)表面之間的匹配度比較,進(jìn)而利用「蛋白質(zhì)拼圖」的邏輯實現(xiàn)蛋白質(zhì)分子剛性對接 (rigid protein docking) 。直觀上,神經(jīng)網(wǎng)絡(luò)模型需要從大量蛋白質(zhì)復(fù)合物的結(jié)構(gòu)(訓(xùn)練集)中學(xué)習(xí)這類拼圖的幾何、化學(xué)規(guī)律,從而可以去預(yù)測沒有見過的(測試集)蛋白質(zhì)復(fù)合物結(jié)構(gòu)。
實驗表明,基于 HMR 的分子對接模型比當(dāng)前深度學(xué)習(xí) SOTA [1] 有更高的準(zhǔn)確性,并且較傳統(tǒng)分子對接方法提速 100 倍以上。接下來的 3 個章節(jié)將分別介紹黎曼流形分子表示、分子表面幾何深度學(xué)習(xí)和蛋白質(zhì)拼圖模型的主要思想和技術(shù)概要。
§1 基于黎曼流形的分子表示
圖:抗體蛋白 (PDB ID: 6W41) 表面流形在不同分辨率下的表示。顏色代表分子表面靜電勢能函數(shù),藍(lán)色為負(fù)電荷區(qū)域。
生物分子的表面通常是指該分子在溶液中與溶劑(例如水分子)形成的界面。我們可以將這樣的界面表示為一個三維空間中的二維黎曼流形 (Riemannian manifold)。上圖展示了一個抗體蛋白在不同分辨率下的表面流形結(jié)構(gòu),流形上的顏色對應(yīng)分子表面的靜電勢能函數(shù)分布。換句話說,流形的結(jié)構(gòu)勾勒了分子的形狀,而流形上分布的函數(shù)則可以表示分子表面的化學(xué)性質(zhì)。因此,利用黎曼流形可以統(tǒng)一地表示分子的幾何結(jié)構(gòu)和化學(xué)性質(zhì),從而整合分子信息并幫助 AI 模型更好地學(xué)習(xí)蛋白質(zhì)的結(jié)構(gòu) - 活性關(guān)系。
在黎曼流形的表示下,每個分子都有一套獨特的「形狀基因」(Shape-DNA) 。這些形狀基因被定義為分子表面流形的拉普拉斯-貝爾特拉米算子 (Laplace-Beltrami Operator, LBO) 的本征值的集合 {???},它們提供了一種描述分子形狀的內(nèi)蘊(yùn)方法,不受三維空間中分子的位置和取向影響。
圖:黎曼流形上的拉普拉斯特征方程。Δ 代表拉普拉斯-貝爾特拉米算子,φ?和???分別代表第 i 個本征函數(shù)和對應(yīng)的本征值。不同的分子表面流形有其獨特的特征方程的解。
這些形狀基因所對應(yīng)的 LBO 本征函數(shù) {φ?} 構(gòu)成了分子表面流形上的一組(標(biāo)準(zhǔn)正交的)基函數(shù) (orthonormal basis functions)。我們可以簡單將它們類比為正弦 / 余弦函數(shù)組成的傅立葉基組在黎曼流形上的拓展。因此,這些形狀基因和基函數(shù)可以幫助我們在分子表面進(jìn)行調(diào)和分析 (harmonic analysis),也就是將一個流形上的函數(shù)展開成一系列基函數(shù)的線性組合的形式(下圖)。對于同一個分子表面,不同的化學(xué)性質(zhì)(如疏水性、靜電勢能)可以非常簡潔地表示為一組線性組合系數(shù)(一維數(shù)組 [c?, c?, c?,...])。
圖:分子表面黎曼流形上的調(diào)和分析??梢詫⒘餍紊系暮瘮?shù)展開成一系列基函數(shù)線性組合的形式。僅選擇性展示了 3 個基函數(shù),其實所有的展開項都參與線性組合。
這種黎曼流形的表示是對分子表面的直接建模,得到的形狀基因和 LBO 基函數(shù)受不同離散化建模方式的影響較低(例如分子表面預(yù)處理過程中的離散采樣密度和三角剖分方式 [2]),因此增加了建模的魯棒性。
§2 分子表面幾何深度學(xué)習(xí)
上一章主要介紹了文章如何利用黎曼流形建模分子表面的幾何結(jié)構(gòu)(對應(yīng)拼圖的形狀),這一章我們簡要描述如何訓(xùn)練神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)分子表面的化學(xué)性質(zhì)(對應(yīng)拼圖上的紋理)。
利用分子表面的形狀基因和 LBO 基函數(shù)來建模分子的幾何、化學(xué)性質(zhì)的方法為我們提供了一種新的分子表示學(xué)習(xí)思路?;诒砻娴姆肿咏W⒂趯Ψ肿油獠刻匦缘拿枋?,在一些下游任務(wù)上(比如蛋白質(zhì)相互作用)可能比基于氨基酸或全原子建模的三維圖神經(jīng)網(wǎng)絡(luò) (Euclidean graph neural networks) 更具有優(yōu)勢。「形狀基因」是對分子表面整體進(jìn)行不同頻率(或粒度)信號的建模,不需要提前對表面區(qū)域進(jìn)行預(yù)切割處理 [2],也讓模型適合學(xué)習(xí)不同尺度 (multi-scale) 的分子信息。
基于這套思路,團(tuán)隊設(shè)計了一套幾何深度學(xué)習(xí)的方案用于分子表面上的全局信息傳遞,從而幫助神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到更豐富的分子表面幾何、化學(xué)性質(zhì)表示。文中提出了流形調(diào)和信息傳遞 (manifold harmonic message passing) 的新方法:一種類似于熱擴(kuò)散的流形表面信息傳遞機(jī)制,但建模上更為靈活。熱擴(kuò)散機(jī)制可以看成是對信號進(jìn)行低通濾波操作,因此低頻信號比高頻信號更容易被傳播開 [3];而流形調(diào)和信息傳遞允許對不同頻率的波段進(jìn)行過濾,實現(xiàn)高頻信號的獨立傳播 [4],因此傳播距離更遠(yuǎn),表示粒度更細(xì)。結(jié)合殘差連接等神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),文中提出的方法可以學(xué)習(xí)分子表面不同尺度、不同距離的幾何與化學(xué)信息,從而對分子有更好的建模能力。
圖:利用流形調(diào)和信息傳遞機(jī)制進(jìn)行分子表面的表示學(xué)習(xí)。(a)分子表面的局部特征可以通過不同的信息傳遞機(jī)制在流形上傳遞,實現(xiàn)有效的幾何、化學(xué)性質(zhì)表示。(b)流形上的信息傳遞神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
§3 蛋白質(zhì)拼圖 AI 模型
現(xiàn)在,我們有了(§1)基于黎曼流形的分子幾何表示方法和(§2)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的分子表面化學(xué)性質(zhì)函數(shù)這兩種工具,接下來可以利用它們來解決蛋白質(zhì)復(fù)合物的構(gòu)型預(yù)測問題。
具體而言,給定受體蛋白和配體蛋白的結(jié)構(gòu),我們希望預(yù)測出它們結(jié)合后復(fù)合物的構(gòu)型。這里主要涉及兩個子問題:(1)結(jié)合位點在哪里;(2)受體 - 配體以什么樣的空間姿態(tài)相結(jié)合。文中提出,蛋白質(zhì)之間的結(jié)合位點應(yīng)該具備幾何結(jié)構(gòu)互補(bǔ)和化學(xué)匹配這兩個重要條件,因而蛋白質(zhì)復(fù)合物構(gòu)型預(yù)測可以看成是一種「蛋白質(zhì)拼圖」問題。類似于人類解決拼圖的思路:首先找到兩塊拼圖之間的拼接面(預(yù)測結(jié)合位點),再利用形狀和花紋的相似性旋轉(zhuǎn)其中一塊拼圖放置到正確的位置(分子對接)。
圖:「蛋白質(zhì)拼圖」流程示意圖:模型首先預(yù)測兩個蛋白質(zhì)之間的結(jié)合表面區(qū)域,再利用神經(jīng)網(wǎng)絡(luò)所學(xué)函數(shù)的匹配性實現(xiàn)高選擇性的拼圖。
在具體的模型構(gòu)建上,團(tuán)隊首先利用文中提出的 HMR 模塊進(jìn)行表面位點的預(yù)測 (binding site prediction)。通過流形信息傳遞機(jī)制實現(xiàn)分子表面的特征學(xué)習(xí),并引入交叉注意力機(jī)制 (cross attention) 實現(xiàn)蛋白質(zhì)分子間的信息交流。該模塊最終的輸出是模型對分子表面的某個區(qū)域是否屬于蛋白結(jié)合位點的二元預(yù)測??梢岳斫鉃檫@一步對應(yīng)的是尋找拼圖上缺失的一塊。
接下來進(jìn)入分子對接模塊:預(yù)測得到的蛋白結(jié)合表面上應(yīng)具有一定的函數(shù)對應(yīng)關(guān)系 (functional correspondence),因為分子間相互作用是由匹配的化學(xué)作用(如靜電力和氫鍵)決定的。也就是說能夠匹配的拼圖上所對應(yīng)的紋理也應(yīng)該有一致性。根據(jù)這樣的假設(shè),團(tuán)隊進(jìn)一步利用泛函映射技術(shù) (functional map) 將這種函數(shù)對應(yīng)關(guān)系轉(zhuǎn)化為受體 - 配體結(jié)合位點之間的空間對應(yīng)關(guān)系,并使用 Kabsch 算法將配體分子進(jìn)行空間上的旋轉(zhuǎn)和平移,最終得到對接后的蛋白質(zhì)復(fù)合物結(jié)構(gòu)。
圖:「蛋白質(zhì)拼圖」模型流程圖,主要分為結(jié)合表面預(yù)測(左??)和剛性分子對接(右??)兩個模塊。
文中將這種「蛋白質(zhì)拼圖」方法和三維圖神經(jīng)網(wǎng)絡(luò)的方法 EquiDock [1] 以及基于「采樣 - 篩選」策略的傳統(tǒng)方法(ATTRACT 和 HDOCK)進(jìn)行了比較。在蛋白質(zhì)對接標(biāo)準(zhǔn)測試集 Docking Benchmark 5.5 上,「蛋白質(zhì)拼圖」的方法在各個衡量項目上均比三維圖神經(jīng)網(wǎng)絡(luò)取得了更好的效果,甚至接近于一些傳統(tǒng)方法。而這種基于深度學(xué)習(xí)的方法預(yù)測分子對接的速度比傳統(tǒng)方法提高了 100 倍以上。
圖:「蛋白質(zhì)拼圖」模型(顯示為 ours)和基于三維圖神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型 SOTA (EquiDock) 以及傳統(tǒng)剛性分子對接模型 ATTRACT 和 HDOCK 的比較。Complex RMSD 越小、DockQ 越高說明預(yù)測的蛋白質(zhì)復(fù)合物結(jié)構(gòu)越接近真實結(jié)構(gòu)。
§4 總結(jié)
這項工作提出了一種新的基于分子表面的深度學(xué)習(xí)建模方式,利用黎曼流形和形狀基因?qū)瘜W(xué)、物理以及幾何相關(guān)的性質(zhì)進(jìn)行建模,并在蛋白質(zhì)分子剛性對接的任務(wù)上超越基于三維圖神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法??偨Y(jié)來說:
- - 不同于常見的基于序列或者二維 / 三維圖結(jié)構(gòu)的建模方式,團(tuán)隊采用了基于表面的分子建模方法。這種建模思路既保留了分子整體的三維結(jié)構(gòu),又避免了對于大分子內(nèi)部結(jié)構(gòu)的冗余建模。在和蛋白質(zhì)功能、蛋白質(zhì)相互作用等表面相關(guān)的下游任務(wù)中可能更具優(yōu)勢。
- - 采用黎曼流形直接對分子表面進(jìn)行建模,并用分子形狀基因和對應(yīng)的本征函數(shù)來表示表面的函數(shù)分布。這種建模方法不受表面離散采樣和三角剖分方法的影響,因而具有更好的魯棒性。團(tuán)隊同時展示了基于調(diào)和分析和濾波概念的表面?zhèn)鞑ド疃葘W(xué)習(xí)模塊,以及基于泛函映射的表面對接方法。
- - 文中利用這種表面建模方法和「拼圖」的思想實現(xiàn)了基于深度學(xué)習(xí)模型的蛋白質(zhì)剛性分子對接。相比于目前基于三維圖神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型取得了更好的效果,在速度上相比于傳統(tǒng)方法也有大幅提升。