自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

填補(bǔ)AlphaFold3空白,字節(jié)跳動提出物理引導(dǎo)的方法讓蛋白質(zhì)動起來

發(fā)布于 2024-5-29 13:24
瀏覽
0收藏

世界是變化的,分子是運(yùn)動的,從預(yù)測靜態(tài)單一結(jié)構(gòu)走向動態(tài)構(gòu)象分布是揭示蛋白質(zhì)等生物分子功能的重要一步。探索蛋白質(zhì)的構(gòu)象分布,能幫助理解蛋白質(zhì)與其他分子相互作用的生物過程;識別蛋白質(zhì)表面下的潛在藥物位點(diǎn),描繪各個亞穩(wěn)態(tài)之間的過渡路徑,有助于研究人員設(shè)計出具有更強(qiáng)特異性和效力的目標(biāo)抑制劑和治療藥物。但傳統(tǒng)的分子動力學(xué)模擬方法昂貴且耗時,難以跨越長的時間尺度,從而觀察到重要的生物過程。


近年來的深度學(xué)習(xí)蛋白質(zhì)結(jié)構(gòu)預(yù)測模型在這個問題上也同樣碰壁,往往只能預(yù)測靜態(tài)單一結(jié)構(gòu),包括最近再次登上 Nature 的 AlphaFold 3,Deepmind 的研究者也承認(rèn)其仍然專注于分子結(jié)構(gòu)的靜態(tài)預(yù)測,對動力學(xué)行為的刻畫還不夠。另一方面,蛋白質(zhì)構(gòu)象并非隨機(jī)分布,而是玻爾茲曼分布,其出現(xiàn)的概率與其自由能量成指數(shù)級的反比。一些研究使用啟發(fā)性采樣或模型加噪去噪的方法,但均不能保證采樣的結(jié)構(gòu)是目標(biāo)蛋白質(zhì)的低能態(tài),也不能保證采樣的分布服從真實(shí)的玻爾茲曼分布。


填補(bǔ)AlphaFold3空白,字節(jié)跳動提出物理引導(dǎo)的方法讓蛋白質(zhì)動起來-AI.x社區(qū)

圖片來源: 《Accurate structure prediction of biomolecular interactions》AlphaFold3:構(gòu)象覆蓋度有限。AlphaFold3對蛋白質(zhì)Cereblon在有/無配體結(jié)合條件下的預(yù)測顯示出局限的構(gòu)象變化?;疑赫鎸?shí)結(jié)構(gòu);藍(lán)色:AlphaFold3預(yù)測結(jié)構(gòu)。


造成現(xiàn)有模型難以預(yù)測動態(tài)構(gòu)象分布的主要原因是,蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)集僅有實(shí)驗(yàn)解析的單一靜態(tài)結(jié)構(gòu)或結(jié)合態(tài)結(jié)構(gòu),結(jié)構(gòu)數(shù)據(jù)集的偏置導(dǎo)致了模型難于預(yù)測真實(shí)的分布。另一方面,物理知識的缺失導(dǎo)致模型無法模擬分子動力學(xué)行為,從而與真實(shí)世界對齊。


在此,來自字節(jié)跳動 ByteDance Research 的研究人員提出了一種物理信息引導(dǎo)的蛋白質(zhì)構(gòu)象生成擴(kuò)散模型 CONFDIFF,通過模型來預(yù)測中間時刻的力場與能量來引導(dǎo)模型生成高質(zhì)量構(gòu)象。論文已被 ICML 2024 錄用。



填補(bǔ)AlphaFold3空白,字節(jié)跳動提出物理引導(dǎo)的方法讓蛋白質(zhì)動起來-AI.x社區(qū)


論文鏈接:???http://arxiv.org/abs/2403.14088??


該模型充分利用了物理知識來引導(dǎo)模型與真實(shí)世界對齊,同時又規(guī)避了實(shí)時的力場和能量的計算,相比傳統(tǒng)方法有巨大的加速。多項實(shí)驗(yàn)表明,力場和能量能夠有效引導(dǎo)模型采樣低能量的構(gòu)象,進(jìn)而產(chǎn)生更加多樣化的樣本,這些樣本分布上也更符合真實(shí)的玻爾茲曼分布。


填補(bǔ)AlphaFold3空白,字節(jié)跳動提出物理引導(dǎo)的方法讓蛋白質(zhì)動起來-AI.x社區(qū)

局部蛋白質(zhì)動態(tài)

填補(bǔ)AlphaFold3空白,字節(jié)跳動提出物理引導(dǎo)的方法讓蛋白質(zhì)動起來-AI.x社區(qū)

蛋白質(zhì)反折疊


能量與力場引導(dǎo)下的蛋白質(zhì)構(gòu)象生成擴(kuò)散模型


CONFDIFF 首先在 SE (3) 空間上構(gòu)建了一個非條件的生成擴(kuò)散模型,通過預(yù)測主鏈原子坐標(biāo)和主鏈朝向來構(gòu)建蛋白質(zhì)構(gòu)象。為了充分利用先驗(yàn)結(jié)構(gòu)和序列信息,CONFDIFF 使用目標(biāo)序列的預(yù)訓(xùn)練表示訓(xùn)練了一個基于序列的條件生成模型來引導(dǎo)上述的非條件模型,使生成構(gòu)象擁有多樣性的同時又能符合相應(yīng)的結(jié)構(gòu)與序列約束。


填補(bǔ)AlphaFold3空白,字節(jié)跳動提出物理引導(dǎo)的方法讓蛋白質(zhì)動起來-AI.x社區(qū)

圖 1:COFFDIFF 算法示意圖


在此基礎(chǔ)上,為使分布符合能量玻爾茲曼分布,研究者提出了能量與力場引導(dǎo)方法,其中最重要的是計算中間時刻的能量梯度(即力場)

填補(bǔ)AlphaFold3空白,字節(jié)跳動提出物理引導(dǎo)的方法讓蛋白質(zhì)動起來-AI.x社區(qū)

。為了規(guī)避昂貴耗時的實(shí)時能量或力場計算,研究者使用神經(jīng)網(wǎng)絡(luò)來預(yù)測這個量,并創(chuàng)新性提出了兩種匹配訓(xùn)練方法并推導(dǎo)了相應(yīng)公式,具體公式細(xì)節(jié)可參見論文。


第一種方法是預(yù)測中間時刻能量,并使用對中間結(jié)構(gòu)進(jìn)行自動求導(dǎo),相應(yīng)的能量匹配的訓(xùn)練公式較為簡單。但是能量可能存在數(shù)值穩(wěn)定問題,而且推理結(jié)構(gòu)需要儲存和回傳梯度,對顯存和算力均存在負(fù)擔(dān)。


第二種更推薦的方法是直接預(yù)測中間時刻能量的梯度(即力場),研究者也推導(dǎo)了相應(yīng)的力場匹配訓(xùn)練公式。后續(xù)的系列實(shí)驗(yàn)也證明力場的方法更優(yōu)。模型預(yù)測的能量和力場繼續(xù)引導(dǎo)上述非條件模型,生成的構(gòu)象進(jìn)一步得到了的物理約束與引導(dǎo),勢能更低且分布更符合玻爾茲曼分布。


生成低能且服從真實(shí)分布的蛋白質(zhì)構(gòu)象


研究者評估了不同引導(dǎo)方法下模型在蛋白質(zhì)構(gòu)象生成任務(wù)上的性能,在快速折疊蛋白質(zhì)(fast-folding proteins)和 牛胰蛋白酶抑制劑(BPTI)兩種包含分子動力學(xué)模擬生成構(gòu)象的蛋白質(zhì)數(shù)據(jù)集上著重考察了生成樣本的是否屬于低能態(tài)、多樣化且服從真實(shí)分布。


1. 快速折疊蛋白質(zhì)(fast-folding proteins)評估


研究者在快速折疊蛋白質(zhì)數(shù)據(jù)集上評估模型預(yù)測構(gòu)象分布的能力。評估了生成樣本和真實(shí)分子動力學(xué)樣本分布之間的 Jensen-Shannon 距離 (JS Distance),以及多樣性的有效性得分和 RMSF,殘基之間預(yù)測接觸率 RMSE。表 1 展示了各模型預(yù)測構(gòu)象的性能,圖 2 中展示了 TIC(time-lagged independent components)投影中的樣本分布。


在預(yù)測樣本分布和預(yù)測殘基接觸的 RMSE 等指標(biāo)方面,CONFDIFF 優(yōu)于已有的 EigenFold 和 Str2Str 等模型。值得注意的是,引入能量和力場引導(dǎo)在保持了構(gòu)象多樣性的同時提高了構(gòu)象的生成有效性,證實(shí)了物理引導(dǎo)方法的優(yōu)勢。力場引導(dǎo)的方法也相對更優(yōu)于能量引導(dǎo)的方法。


填補(bǔ)AlphaFold3空白,字節(jié)跳動提出物理引導(dǎo)的方法讓蛋白質(zhì)動起來-AI.x社區(qū)

表 1:快速折疊蛋白質(zhì)(fast-folding proteins)上各模型預(yù)測構(gòu)象性能


填補(bǔ)AlphaFold3空白,字節(jié)跳動提出物理引導(dǎo)的方法讓蛋白質(zhì)動起來-AI.x社區(qū)

圖 2:快速折疊蛋白質(zhì) TIC 投影樣本分布


2. 牛胰蛋白酶抑制劑(BPTI)亞穩(wěn)態(tài)預(yù)測


研究者評估了模型預(yù)測 5 種 BPTI 原生折疊態(tài)附近亞穩(wěn)態(tài)的質(zhì)量。指標(biāo)為 5 個聚類的最佳 RMSD 平均值(RMSDAVG)和最難采樣的聚類 3 的 RMSD 平均值(RMSDCLS3)。如表 2 所示,CONFDIFF 在預(yù)測不同亞穩(wěn)態(tài)方面有更好的能力,力場引導(dǎo)的模型在這兩個指標(biāo)上都表現(xiàn)最好。通過進(jìn)一步比較不同采樣樣本量下的指標(biāo)來評估模型的采樣效率,如圖 3 所示。CONFDIFF 模型對聚類 3 的采樣效率都很好,同樣地,力場引導(dǎo)的模型也取得了最好效果。


填補(bǔ)AlphaFold3空白,字節(jié)跳動提出物理引導(dǎo)的方法讓蛋白質(zhì)動起來-AI.x社區(qū)

表 2:模型預(yù)測 BPTI 亞穩(wěn)態(tài)質(zhì)量


填補(bǔ)AlphaFold3空白,字節(jié)跳動提出物理引導(dǎo)的方法讓蛋白質(zhì)動起來-AI.x社區(qū)


圖 3:模型采樣 BPTI 效率


填補(bǔ)AlphaFold3空白,字節(jié)跳動提出物理引導(dǎo)的方法讓蛋白質(zhì)動起來-AI.x社區(qū)

圖 4:模型預(yù)測 BPTI 亞穩(wěn)態(tài)蛋白質(zhì)具體例子(真實(shí)結(jié)構(gòu)涂色,采樣結(jié)構(gòu)灰色)


3. 力場引導(dǎo)模型采樣


研究者以快速折疊蛋白中的 WW Domain 蛋白為例,探究了 CONFDIFF 在不同程度的力場引導(dǎo) (η) 和序列條件 (γ) 影響下生成構(gòu)象的效果如圖 5 所示。結(jié)果表明,力場引導(dǎo)的模型可以在不顯著降低多樣性的情況下提高構(gòu)象穩(wěn)定性。研究者同樣探究了不同強(qiáng)度下能量引導(dǎo)的模型采樣結(jié)果,得到了相似結(jié)論,已展示在論文附錄中。


填補(bǔ)AlphaFold3空白,字節(jié)跳動提出物理引導(dǎo)的方法讓蛋白質(zhì)動起來-AI.x社區(qū)

圖 5:在不同的力場引導(dǎo) (η) 和序列條件 (γ) 下,WW Domain 的采樣構(gòu)象的能量 (左) 和多樣性 (右) 


總結(jié):通過物理信息引導(dǎo)向真實(shí)世界邁進(jìn)


現(xiàn)有的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫的構(gòu)象多樣性有限,相應(yīng)的蛋白質(zhì)結(jié)構(gòu)預(yù)測模型及在此基礎(chǔ)上衍生的生成擴(kuò)散模型都往往只能預(yù)測折疊結(jié)構(gòu)而缺乏預(yù)測整個構(gòu)象空間的能力。


字節(jié)跳動 ByteDance Research 的研究者首次將玻爾茲曼先驗(yàn)與生成擴(kuò)散模型結(jié)合,使用模型預(yù)測中間時刻能量與力場并引導(dǎo)模型生成更加低能多樣且服從真實(shí)分布的構(gòu)象。這一研究有助于擴(kuò)展蛋白質(zhì)結(jié)構(gòu)的探索從預(yù)測靜態(tài)單一結(jié)構(gòu)走向預(yù)測動態(tài)構(gòu)象分布,邁向更真實(shí)的物理世界,為準(zhǔn)確的藥效預(yù)測、理解成藥機(jī)理、設(shè)計藥物、發(fā)現(xiàn)新靶點(diǎn)等提供幫助。


揭示蛋白機(jī)理,探索生命本質(zhì)

ByteDance Research AI 制藥團(tuán)隊持續(xù)在 AI for Science 方向發(fā)力


ByteDance Research AI 制藥團(tuán)隊致力于將人工智能技術(shù)應(yīng)用于科學(xué)研究與藥物開發(fā)。團(tuán)隊在生成式蛋白質(zhì)設(shè)計、蛋白質(zhì)構(gòu)象預(yù)測以及冷凍電鏡解析等領(lǐng)域取得了業(yè)界矚目的成果。


在生成式蛋白質(zhì)設(shè)計方面,團(tuán)隊研發(fā)了基于大規(guī)模蛋白質(zhì)語言模型的序列設(shè)計方法 LM-Design,大幅提高了蛋白質(zhì)序列設(shè)計的準(zhǔn)確度與效率;研發(fā)了結(jié)合擴(kuò)散模型與語言模型的新一代蛋白質(zhì)基礎(chǔ)模型 DPLM,首次全面統(tǒng)一了蛋白質(zhì)建模、理解與生成;研發(fā)了基于偏好優(yōu)化的抗體設(shè)計方法 AbDPO,能夠設(shè)計出同時滿足多種性質(zhì)和能量要求的抗體。


在蛋白質(zhì)動態(tài)構(gòu)象預(yù)測方面,團(tuán)隊研發(fā)了 ConfDiff 等模型,準(zhǔn)確預(yù)測了蛋白質(zhì)的構(gòu)象變化,加深了對蛋白質(zhì)生物過程的理解,還為新藥研發(fā)提供了可靠的理論基礎(chǔ)。


冷凍電鏡解析方面,團(tuán)隊研發(fā)了 CryoSTAR 電鏡解析工具,結(jié)合人工智能技術(shù)和高分辨率成像,極大地提升了生物大分子結(jié)構(gòu)解析的速度和精度。這一技術(shù)有助于揭示復(fù)雜生物分子體系的構(gòu)象特征和動態(tài)變化,為藥物靶點(diǎn)的發(fā)現(xiàn)與設(shè)計提供了強(qiáng)有力的支持。


團(tuán)隊的研究成果多次發(fā)表在 ICML、NeurIPS、ICLR 等頂級學(xué)術(shù)會議上,得到學(xué)術(shù)界和業(yè)界的廣泛認(rèn)可。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/5S54REtnqqps9Cq1OQ8hHg??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦