蛋白質(zhì)側(cè)鏈預(yù)測(cè)新方法DiffPack:擴(kuò)散模型也能精準(zhǔn)預(yù)測(cè)側(cè)鏈構(gòu)象!
蛋白質(zhì)由氨基酸經(jīng)脫水縮合反應(yīng)形成,可折疊為復(fù)雜的 3D 空間結(jié)構(gòu),是生物體內(nèi)執(zhí)行各種功能(催化生物化學(xué)反應(yīng)、傳遞信號(hào))的主要分子,而其中蛋白質(zhì)的側(cè)鏈結(jié)構(gòu)對(duì)其功能至關(guān)重要。側(cè)鏈的化學(xué)性質(zhì)和空間排列決定了蛋白質(zhì)如何折疊,以及蛋白質(zhì)如何與其他分子(包括其他蛋白質(zhì)、DNA、RNA、小分子等)相互作用。這些相互作用可以是氫鍵、離子鍵、疏水相互作用和范德華力等。理解這些相互作用,可以幫助我們更好的尋找藥物與受體的結(jié)合位點(diǎn),設(shè)計(jì)催化效果更強(qiáng)的酶。因此,準(zhǔn)確預(yù)測(cè)蛋白質(zhì)的側(cè)鏈構(gòu)象對(duì)于理解蛋白質(zhì)的功能和設(shè)計(jì)新的藥物至關(guān)重要。
傳統(tǒng)的蛋白質(zhì)側(cè)鏈構(gòu)象預(yù)測(cè)算法(如 RosettaPacker)通常通過在能量函數(shù)定義的概率分布中采樣得到蛋白質(zhì)側(cè)鏈構(gòu)象,此類算法通常依賴于人為設(shè)計(jì)的能量函數(shù),受限于能量函數(shù)設(shè)計(jì)的精準(zhǔn)度。另一方面,盡管以 AlphaFold2 為首的一系列深度學(xué)習(xí)模型在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面取得了比較大的突破,但其對(duì)側(cè)鏈構(gòu)象的預(yù)測(cè)通常依賴于端對(duì)端的學(xué)習(xí),無法捕捉側(cè)鏈構(gòu)象的整體分布,因此準(zhǔn)確度上受到了一定的限制。
近日,來自 Mila 的唐建團(tuán)隊(duì)提出了一種新的側(cè)鏈構(gòu)象預(yù)測(cè)方法 DiffPack。該方法使用扭轉(zhuǎn)角空間中的自回歸擴(kuò)散模型,與目前已知的最優(yōu)方法相比,在 CASP13 和 CASP14 上取得了大幅提升實(shí)現(xiàn)了超過 10% 的提升,且僅需要 1/60 的參數(shù)量。此外,作者進(jìn)一步驗(yàn)證了 DiffPack 能夠給有效改進(jìn) AlphaFold2 的側(cè)鏈預(yù)測(cè)結(jié)果。
圖片
- 論文鏈接:https://arxiv.org/abs/2306.01794
- 代碼鏈接:https://github.com/DeepGraphLearning/DiffPack
方法
過去的 AI 算法以端對(duì)端的方式從原子位置的均方根偏差 (RMSD)定義損失函數(shù)。盡管此類方法存在速度上的優(yōu)勢(shì),但他們通常被端對(duì)端的建模方式所限制,無法捕捉蛋白質(zhì)側(cè)鏈構(gòu)象的整體分布,傾向于生成側(cè)鏈的 「平均構(gòu)象」。DiffPack 基于擴(kuò)散模型提出了一種新穎的側(cè)鏈構(gòu)象預(yù)測(cè)方法。通過對(duì)蛋白質(zhì)側(cè)鏈構(gòu)象加入噪聲并學(xué)習(xí)去噪過程,模型能夠更準(zhǔn)確地學(xué)習(xí)到蛋白質(zhì)側(cè)鏈構(gòu)象的整體概率分布。
蛋白質(zhì)側(cè)鏈的構(gòu)象通常較為復(fù)雜,如果直接使用空間坐標(biāo)的擴(kuò)散過程建模會(huì)引入過多的自由度從而增加問題的復(fù)雜性。同時(shí)由于蛋白質(zhì)的側(cè)鏈構(gòu)象由至多四個(gè)扭轉(zhuǎn)角(χ1, χ2, χ3, χ4)構(gòu)成,研究人員選擇將擴(kuò)散過程定義在四個(gè)扭轉(zhuǎn)角構(gòu)成的扭轉(zhuǎn)空間中,在前向擴(kuò)散過程中引入非歐幾里得噪聲,同時(shí)通過針對(duì)蛋白質(zhì)結(jié)構(gòu)設(shè)計(jì)的圖神經(jīng)網(wǎng)絡(luò) GearNet 學(xué)習(xí)對(duì)四個(gè)扭轉(zhuǎn)角的逆向去噪過程。
圖片
在實(shí)驗(yàn)中,研究人員發(fā)現(xiàn)對(duì)四個(gè)扭轉(zhuǎn)角的聯(lián)合加噪過程會(huì)會(huì)產(chǎn)生偏差累積效應(yīng),從而降低預(yù)測(cè)的準(zhǔn)確度。研究人員由此進(jìn)一步提出了一種新穎的自回歸擴(kuò)散模型,將四個(gè)扭轉(zhuǎn)角的聯(lián)合概率分布分解為一系列條件概率分布,在每一個(gè)概率分布中引入擴(kuò)散模型。通過將擴(kuò)散模型與自回歸過程結(jié)合,DiffPack 能夠以很小的模型規(guī)模實(shí)現(xiàn)高精度的側(cè)鏈構(gòu)象預(yù)測(cè)。
圖片
實(shí)驗(yàn)
研究人員在包括天然主鏈結(jié)構(gòu)和由 AlphaFold2 預(yù)測(cè)得到的非天然主鏈結(jié)構(gòu)上進(jìn)行了實(shí)驗(yàn)。DiffPack 在預(yù)測(cè)蛋白質(zhì)側(cè)鏈構(gòu)象中超越了基于傳統(tǒng)能量函數(shù)的方法和其他端對(duì)端的深度學(xué)習(xí)模型。表 1 總結(jié)了在 CASP13 中的實(shí)驗(yàn)結(jié)果,DiffPack 無論是在內(nèi)部殘基(82.7%)和表面殘基(57.3%)上,都表現(xiàn)出了最高的角度精度。對(duì)于表面殘基,其精度比之前的最先進(jìn)模型 AttnPacker 提高了 20.4%。
圖片
同樣,DiffPack 在 CASP14 數(shù)據(jù)集的表現(xiàn)也優(yōu)于其他方法(表 2),盡管沒有將損失函數(shù)直接定義在原子位置上,DiffPack 在內(nèi)部殘基原子位置的均方根偏差精度上依然相比于之前的 SOTA 提高了 23%。
由于 AlphaFold2 等計(jì)算結(jié)構(gòu)生物學(xué)技術(shù)的發(fā)展,當(dāng)前人們的關(guān)注重心逐漸轉(zhuǎn)移到非天然主鏈結(jié)構(gòu)的應(yīng)用上。因此研究人員將 DiffPack 進(jìn)一步應(yīng)用到有 AlphaFold2 生成的非天然主鏈結(jié)構(gòu),表 3 給出了包括 AlphaFold2 自身的側(cè)鏈預(yù)測(cè)算法在內(nèi)的不同算法在非天然主鏈結(jié)構(gòu)測(cè)試集上的定量結(jié)果。DiffPack 在大多數(shù)指標(biāo)上實(shí)現(xiàn)了最先進(jìn)的水平,這說明了 DiffPack 可以進(jìn)一步優(yōu)化 AlphaFold2 預(yù)測(cè)的潛力。
圖片
DiffPack 除了在對(duì)側(cè)鏈構(gòu)象的準(zhǔn)確度上優(yōu)于其他方法,其模型的總參數(shù)量要顯著(3,043,363)少于此前的 SOTA 模型(208,098,163),這使得 DiffPack 成為預(yù)測(cè)側(cè)鏈構(gòu)象的更具計(jì)算可行性和可擴(kuò)展性的解決方案。
總結(jié)
- 研究人員基于擴(kuò)散模型提出了一種新的針對(duì)蛋白質(zhì)側(cè)鏈構(gòu)象的預(yù)測(cè)算法 DiffPack,DiffPack 將扭轉(zhuǎn)空間中的擴(kuò)散模型與自回歸過程結(jié)合,能夠更好地捕捉蛋白質(zhì)側(cè)鏈構(gòu)象分布。
- DiffPack 在天然主鏈結(jié)構(gòu)與非天然主鏈結(jié)構(gòu)的預(yù)測(cè)上都表現(xiàn)出了一定的優(yōu)勢(shì),同時(shí)其模型規(guī)模要顯著小于其他方法。