微軟華人領(lǐng)銜AI2BMD登Nature,AI生物分子模擬雙突破!繼AlphaFold后又一里程碑
一個月前,諾貝爾化學(xué)獎頒給了AlphaFold,給全世界帶來了一場認(rèn)知地震。
人們開始意識到,近年來,AI在解析蛋白質(zhì)結(jié)構(gòu)與設(shè)計方面的應(yīng)用進(jìn)展迅速。憑借AlphaFold和其他前沿算法,研究人員能夠以驚人的速度預(yù)測和分析蛋白質(zhì)的三維結(jié)構(gòu),破解了這個長期以來困擾生物學(xué)界的難題。
如今,AI在靜態(tài)晶體蛋白質(zhì)結(jié)構(gòu)的預(yù)測上已達(dá)到實(shí)驗(yàn)精度——這是一個巨大的突破。但它的潛力遠(yuǎn)不止于此??茖W(xué)家們正努力將AI的力量拓展至動態(tài)表征和分子相互作用的模擬領(lǐng)域。
最近,微軟研究院開發(fā)的AI2BMD(AI-based ab initio biomolecular dynamics system,基于AI的從頭算生物分子動力學(xué)系統(tǒng))在Nature上發(fā)表,這一進(jìn)展代表著在分子動力學(xué)模擬領(lǐng)域的顯著突破。
論文地址:https://www.nature.com/articles/s41586-024-08127-z
效率精度兩不誤
生物世界的本質(zhì)在于分子及其相互作用的動態(tài)變化。理解生物分子的動態(tài)和相互作用對于解讀生物過程的機(jī)制以及開發(fā)生物材料和藥物至關(guān)重要。然而,通過實(shí)驗(yàn)捕捉這些真實(shí)的運(yùn)動幾乎是不可能的。
生物分子動力學(xué)(MD)模擬是一種結(jié)合物理定律和數(shù)值模擬的方法,旨在應(yīng)對理解生物分子動態(tài)的挑戰(zhàn),其有效性依賴于模擬的精度和效率。
MD模擬大致可以分為兩類:經(jīng)典MD和量子力學(xué)。
經(jīng)典MD側(cè)重于模擬的效率。經(jīng)典MD采用了對分子系統(tǒng)的簡化表示,能夠在較長時間的構(gòu)象變化上實(shí)現(xiàn)快速模擬。該方法于2013年獲得諾貝爾獎。不過,盡管速度快,經(jīng)典MD的準(zhǔn)確性卻相對較低。
量子力學(xué)則側(cè)重于模擬的精度。量子力學(xué)方法如密度泛函理論(DFT)提供了從基礎(chǔ)原理出發(fā)的精確計算。DFT在1998年獲得諾貝爾獎,但其計算成本過高,難以處理大型生物分子系統(tǒng)。
為此,微軟研究院一直在開發(fā)高效的方法,目標(biāo)是實(shí)現(xiàn)具有從頭算精度的生物分子模擬。經(jīng)過四年的研究,AI2BMD誕生了,它能夠以從頭算精度高效地模擬大型生物分子,真正實(shí)現(xiàn)了效率精度兩不誤。
與標(biāo)準(zhǔn)模擬技術(shù)相比,它在生物分子模擬中實(shí)現(xiàn)了一個此前難以達(dá)到的精度與計算成本的平衡——AI2BMD在精度上超越了經(jīng)典模擬,但其計算成本遠(yuǎn)低于DFT的要求,速度上更是快了幾個數(shù)量級。
這一方法有望為生物分子建模,尤其是在蛋白質(zhì)-藥物相互作用等需要高精度的場景中,提供新的動力。
基于AI的從頭算生物分子動力學(xué)模擬
AI2BMD能夠高效地以從頭算精度模擬各種全原子蛋白質(zhì),并通過極化力場明確模擬溶劑環(huán)境。
AI2BMD的流程圖
AI2BMD采用了一種通用的蛋白質(zhì)分片方法,將蛋白質(zhì)分割為重疊的單元,從而創(chuàng)建了一個包含2000萬快照的數(shù)據(jù)集,這是DFT級別中規(guī)模最大的數(shù)據(jù)庫。
在該研究團(tuán)隊(duì)此前設(shè)計的ViSNet的基礎(chǔ)上,他們使用機(jī)器學(xué)習(xí)訓(xùn)練了AI2BMD的勢能函數(shù)。ViSnet是一種通用分子幾何建?;A(chǔ)模型,已在《Nature Communication》上發(fā)表,并已集成到PyTorch Geometry庫中。
AI2BMD利用基于ViSNet的勢能函數(shù),在每一步模擬中計算蛋白質(zhì)的能量和原子力,達(dá)到從頭算的精度。
通過高效的AI2BMD系統(tǒng),進(jìn)行了幾百納秒的動力學(xué)模擬,展示了其高效探索肽和蛋白質(zhì)構(gòu)象空間的能力。在這一過程中,AI2BMD推導(dǎo)出了與核磁共振實(shí)驗(yàn)一致的精確3J耦合值,并展示了蛋白質(zhì)的折疊和展開過程。
通過對動力學(xué)和熱力學(xué)的綜合分析,AI2BMD在蛋白質(zhì)折疊自由能等方面表現(xiàn)出與實(shí)驗(yàn)數(shù)據(jù)的高度一致性,同時展現(xiàn)了與經(jīng)典MD不同的現(xiàn)象。
蛋白質(zhì)分片方法
蛋白質(zhì)由20種氨基酸構(gòu)成,每種氨基酸都有一個通用的主鏈(由Cα、C、O、N和H組成)和一個不同的側(cè)鏈(稱為R基)。
二肽是指在其N端和C端分別封端了Ace和Nme基團(tuán)的氨基酸。鑒于氨基酸是蛋白質(zhì)的基本單元,這些二肽便被作為分片的基本單元。
二肽的結(jié)構(gòu)
該研究團(tuán)隊(duì)基于二肽設(shè)計了一種通用的蛋白質(zhì)分片方法,并據(jù)此訓(xùn)練了AI2BMD勢能函數(shù),從而確保了對所有蛋白質(zhì)的泛化能力。
在該方法中,采用滑動窗口技術(shù)對多肽鏈進(jìn)行切割,因此Ace-Nme片段充當(dāng)兩個相鄰二肽之間的重疊區(qū)域。
對于多肽鏈的末端Cα原子,會根據(jù)其連接的C-H鍵長和Cα的連接方向,為其添加額外的氫原子。如果第一個或最后一個氨基酸是甘氨酸,則僅根據(jù)C–H鍵長添加一個連接到Cα的氫原子。如果下一個氨基酸是脯氨酸,則還根據(jù)N–H鍵長添加一個連接到N的氫原子,其中該N與Cδ相連。
然后,為了精確調(diào)整氫原子的位置,采用有限記憶Broyden-Fletcher-Goldfarb-Shanno擬牛頓算法來優(yōu)化添加的氫原子的位置。其它部分則保持不變。
通過蛋白質(zhì)分片方法,所有蛋白質(zhì)可以轉(zhuǎn)換為21種蛋白質(zhì)單元(即20種二肽和1個Ace-Nme),這大幅減少了蛋白質(zhì)單元的特定類型數(shù)量,便于數(shù)據(jù)集構(gòu)建和模型訓(xùn)練,幫助探索完整的構(gòu)象空間,避免了勢能面上的空白區(qū)域,從而提升了MD模擬的泛化性、效率和穩(wěn)健性。
蛋白質(zhì)單元數(shù)據(jù)集
AI2BMD蛋白質(zhì)單元數(shù)據(jù)集的生成過程涉及對蛋白質(zhì)的基本結(jié)構(gòu)單元——二肽——進(jìn)行全面的構(gòu)象采樣。
首先,生成了初始的20種二肽和1個Ace-Nme單元,并通過旋轉(zhuǎn)關(guān)鍵化學(xué)鍵(稱為二面角)來捕獲不同的分子形態(tài)。
每一種構(gòu)型經(jīng)過幾何優(yōu)化,確保結(jié)構(gòu)合理后用于后續(xù)的從頭算分子動力學(xué)(AIMD)模擬。
在模擬中,研究人員采集了大量的分子形態(tài),并重新計算每種構(gòu)型的能量和作用力,以用于機(jī)器學(xué)習(xí)模型的訓(xùn)練。
整個數(shù)據(jù)集涵蓋了約2000萬個構(gòu)象,全面捕獲了蛋白質(zhì)單元的構(gòu)象空間,為AI2BMD提供了可靠的數(shù)據(jù)支持,以實(shí)現(xiàn)高效而準(zhǔn)確的分子模擬。
ViSNet作為AI2BMD的勢函數(shù)
ViSNet是一種通用的幾何深度學(xué)習(xí)模型,能夠以原子坐標(biāo)和原子序數(shù)為輸入,預(yù)測勢能、原子力以及多種量子化學(xué)性質(zhì)。
如上圖a中所示,ViSNet模型由一個嵌入塊和多個堆疊的ViSNet塊組成,最后接一個輸出塊。原子序數(shù)和坐標(biāo)輸入嵌入塊,隨后進(jìn)入ViSNet塊以提取和編碼幾何表示。這些幾何表示隨后通過輸出塊用于預(yù)測分子的能量和力。
上圖b中展示了ViSNet塊的結(jié)構(gòu),包括一個消息塊和一個更新塊。這些模塊協(xié)同工作,構(gòu)成了稱為ViS-MP的向量標(biāo)量交互消息傳遞機(jī)制。通過ViS-MP傳遞的豐富幾何信息由運(yùn)行時幾何計算模塊以線性復(fù)雜度提取。
對于每種蛋白質(zhì)單元,ViSNet被訓(xùn)練為一個能量守恒的勢能模型,能夠通過預(yù)測的勢能梯度導(dǎo)出原子間的作用力。
研究人員將蛋白質(zhì)單元數(shù)據(jù)集隨機(jī)分為訓(xùn)練集、驗(yàn)證集和測試集,并在不同類型的蛋白質(zhì)上進(jìn)行了訓(xùn)練和驗(yàn)證。訓(xùn)練時使用了多種優(yōu)化技術(shù)來提高模型的準(zhǔn)確性和穩(wěn)定性,并利用了GPU集群進(jìn)行高效的訓(xùn)練。
AI2BMD模擬程序
為了使用AI2BMD的勢能進(jìn)行模擬,該研究團(tuán)隊(duì)設(shè)計了一個基于原子模擬環(huán)境的AI驅(qū)動MD模擬程序。該模擬程序支持云環(huán)境,可以將計算結(jié)果定期保存到云存儲,以應(yīng)對長時間計算中可能出現(xiàn)的斷點(diǎn)。
程序啟動時,初始蛋白質(zhì)結(jié)構(gòu)被輸入到預(yù)處理模塊,在該模塊中添加溶劑和離子,并對結(jié)構(gòu)進(jìn)行弛豫。
然后,整個模擬系統(tǒng)進(jìn)入MD循環(huán),即程序的核心邏輯組件。在MD循環(huán)的每次迭代中,蛋白質(zhì)首先通過蛋白質(zhì)分片模塊被分解為片段,隨后被分配到不同的計算服務(wù)器上進(jìn)行能量和力的計算。
分片后的蛋白質(zhì)片段會被工作調(diào)度器分配到不同的服務(wù)器上。用戶可以根據(jù)系統(tǒng)規(guī)模和計算需求,調(diào)整調(diào)度策略,以最大化GPU的利用率,或平衡各GPU上的計算負(fù)載。
分片后的蛋白質(zhì)片段和溶劑原子以異步方式發(fā)送到不同進(jìn)程中的計算服務(wù)器。其中,ViSNet服務(wù)器負(fù)責(zé)基于AI的蛋白質(zhì)片段計算,溶劑服務(wù)器負(fù)責(zé)溶劑分子的計算。
各服務(wù)器完成計算后,能量和力的結(jié)果會匯總并用于更新整個系統(tǒng)。
MD模擬的大突破
AI2BMD在分子動力學(xué)(MD)模擬領(lǐng)域?qū)崿F(xiàn)了顯著的突破,具體體現(xiàn)在以下幾個方面:
(1)從頭算精度:AI2BMD引入了一種可推廣的「機(jī)器學(xué)習(xí)力場」,即一個機(jī)器學(xué)習(xí)模型,用于模擬原子和分子間相互作用,實(shí)現(xiàn)了全原子蛋白質(zhì)動態(tài)模擬的從頭算精度。
不同蛋白質(zhì)在AI2BMD與分子力學(xué)(MM)之間能量計算誤差的評估
(2)解決泛化問題:AI2BMD首次解決了機(jī)器學(xué)習(xí)力場在蛋白質(zhì)動態(tài)模擬中的泛化難題,展示了多種蛋白質(zhì)的穩(wěn)健從頭算MD模擬。
(3)通用兼容性:AI2BMD將量子力學(xué)(QM)建模從小的局部區(qū)域擴(kuò)展到整個蛋白質(zhì)結(jié)構(gòu),且無需任何蛋白質(zhì)的先驗(yàn)知識。這一突破消除了QM和MM計算之間的潛在不兼容性,同時加速了QM區(qū)域的計算數(shù)個數(shù)量級,使得全原子蛋白質(zhì)的近似從頭算計算成為可能。因而,AI2BMD為眾多后續(xù)應(yīng)用鋪平了道路,為復(fù)雜生物分子動態(tài)表征提供了全新的視角。
(4)速度優(yōu)勢:AI2BMD比DFT和其他量子力學(xué)方法快了幾個數(shù)量級,支持含有超過一萬個原子的蛋白質(zhì)的從頭算計算,使其成為跨學(xué)科領(lǐng)域中最快的AI驅(qū)動MD模擬程序之一。
AI2BMD、DFT及其他AI驅(qū)動模擬軟件的時間消耗比較
(5)多樣的構(gòu)象空間探索:在AI2BMD和MM進(jìn)行的蛋白質(zhì)折疊與解折模擬中,AI2BMD能夠探索更多MM無法檢測的構(gòu)象空間。因此,AI2BMD在藥物-靶點(diǎn)結(jié)合、酶催化、變構(gòu)調(diào)控、固有無序蛋白等過程中,提供了更多研究蛋白質(zhì)靈活運(yùn)動的機(jī)會。這種能力更貼合濕實(shí)驗(yàn)數(shù)據(jù),并為生物機(jī)制檢測和藥物開發(fā)提供了更全面的解釋和指導(dǎo)。
AI2BMD從展開結(jié)構(gòu)開始折疊Chignolin蛋白,比分子力學(xué)(MM)達(dá)到更小的能量誤差,并探索了MM無法檢測到的更多構(gòu)象區(qū)域
(6)實(shí)驗(yàn)一致性:AI2BMD優(yōu)于QM/MM混合方法,并在包括J耦合、焓、熱容、折疊自由能、熔點(diǎn)溫度和pKa計算在內(nèi)的不同生物應(yīng)用場景中,表現(xiàn)出與濕實(shí)驗(yàn)的高度一致性。
AI2BMD的潛能
AI2BMD提出的框架旨在解決機(jī)器學(xué)習(xí)力場在應(yīng)用中的精度、穩(wěn)健性和泛化局限。
通過考慮蛋白質(zhì)的基本結(jié)構(gòu)——即氨基酸鏈段,AI2BMD在模擬不同蛋白質(zhì)系統(tǒng)時具備高度的通用性、適應(yīng)性和多功能性。這種方法提升了能量和力的計算精度,以及動力學(xué)和熱力學(xué)性質(zhì)的估算精度。
AI2BMD可以在解決科學(xué)難題方面發(fā)揮作用,并在藥物發(fā)現(xiàn)、蛋白質(zhì)設(shè)計和酶工程等生物醫(yī)學(xué)研究領(lǐng)域推動新的發(fā)展。
在2023年首屆全球AI藥物研發(fā)大賽中,AI2BMD成功預(yù)測出一個可與SARS-CoV-2主蛋白酶結(jié)合的化合物。其精準(zhǔn)的預(yù)測超過了所有其他參賽者,奪得冠軍,展示了其在加速現(xiàn)實(shí)世界藥物研發(fā)方面的巨大潛力。
作者介紹
Tong Wang
Tong Wang是微軟研究院AI4Science部門的高級研究員。他獲得清華大學(xué)博士學(xué)位,并在哈佛大學(xué)進(jìn)行過博士訪問研究。
他的研究專注于算法設(shè)計及其在分子動力學(xué)模擬、量子模擬、計算機(jī)輔助藥物發(fā)現(xiàn)和蛋白質(zhì)結(jié)構(gòu)預(yù)測中的應(yīng)用。
在《Nature Machine Intelligence》《Nature Communications》《Cell Research》等高影響力期刊上,Wang作為第一作者和通訊作者發(fā)表了一系列論文,并持有多項(xiàng)中國和美國專利。他同時是Nature系列期刊的審稿人及ACS出版社的榮譽(yù)審稿人。
Wang曾帶領(lǐng)團(tuán)隊(duì)贏得首屆全球AI藥物研發(fā)大賽和NIPS2022 OGB大規(guī)模挑戰(zhàn)賽的冠軍。此外,他還是中國生物信息學(xué)學(xué)會的委員。
Bin Shao
Bin Shao是微軟亞洲研究院的高級首席研究經(jīng)理,領(lǐng)導(dǎo)計算生物學(xué)組。他于2010年7月從復(fù)旦大學(xué)獲得博士學(xué)位后加入微軟。
他的研究興趣包括計算生物學(xué)、計算化學(xué)、分子動力學(xué)、機(jī)器學(xué)習(xí)以及并行圖處理。其研究成果已在頂級會議和期刊上發(fā)表。
由Bin及其團(tuán)隊(duì)開發(fā)的Microsoft Graph Engine,支持著眾多微軟產(chǎn)品和服務(wù)的運(yùn)行,例如Microsoft Satori知識圖譜、必應(yīng)搜索、MSN、Xbox和認(rèn)知服務(wù)。