AI蛋白質(zhì)諾獎后再登Nature,第一性原理級精度,微軟亞研院4年之作
歷時四年,微軟亞研院AI for Science團隊發(fā)布AI驅(qū)動的從頭算(ab initio)生物分子動力學(xué)模擬系統(tǒng)。
直接登上Nature正刊。
系統(tǒng)名為AI2BMD,能夠高效模擬含有10000多個原子的各種蛋白質(zhì),分辨率達到全原子級別,近似達到從頭算(第一性原理)的精確度。
且比量子力學(xué)方法中的密度泛函理論(DFT)能實現(xiàn)的速度快幾個數(shù)量級。
AI2BMD的出現(xiàn),可促進藥物發(fā)現(xiàn)、蛋白質(zhì)設(shè)計和酶工程等領(lǐng)域的新生物醫(yī)學(xué)研究。
微軟研究院院長Peter Lee親自發(fā)帖子為自家研究做宣傳:
網(wǎng)友們紛紛表示這項研究十分令人著迷,可能會對一些領(lǐng)域產(chǎn)生顛覆性的影響:
可能會徹底改變我們對生物學(xué)和藥物發(fā)現(xiàn)的認知。
生物分子動力學(xué)模擬系統(tǒng),AI2BMD
為便于大家理解,作者們還自撰了一篇Blog,量子位在不改變原意的基礎(chǔ)上進行了編譯整理,一起來康康A(chǔ)I2BMD到底長啥樣。
在介紹AI2BMD之前,先來簡單了解一下分子動力學(xué)模擬。
生物世界的本質(zhì)在于其分子及其相互作用的不斷變化。理解生物分子的動態(tài)和相互作用對于破譯生物過程背后的機制以及開發(fā)生物材料和藥物至關(guān)重要。然而通過實驗幾乎不可能捕捉這些現(xiàn)實生活中的運動。
此前,AlphaFold、RoseTTAFold等為代表的深度學(xué)習(xí)方法,已經(jīng)實現(xiàn)了用實驗精度預(yù)測靜態(tài)晶體蛋白結(jié)構(gòu)。
不過精確地在原子分辨率下表征動態(tài)仍然是一項非常具有挑戰(zhàn)性的任務(wù),特別是當(dāng)?shù)鞍踪|(zhì)發(fā)揮作用并與其它生物分子或藥物分子相互作用時。
分子動力學(xué)(MD)模擬方法將物理學(xué)定律與數(shù)值模擬相結(jié)合,用于探索分子運動與其生物功能之間的關(guān)系,已經(jīng)被廣泛使用了幾十年。
分子動力學(xué)模擬大致可以分為兩類:經(jīng)典分子動力學(xué)和量子力學(xué)。
經(jīng)典版本在2013年獲得諾貝爾獎,強調(diào)了其在推動人類理解復(fù)雜生物系統(tǒng)方面的關(guān)鍵作用。
量子力學(xué)方法中的密度泛函理論(DFT)在1998年獲得諾貝爾獎,標志著計算化學(xué)的一個關(guān)鍵時刻。
不過,經(jīng)典分子動力學(xué)采用分子系統(tǒng)的簡化表示,實現(xiàn)長時間構(gòu)象變化的快速模擬速度,但準確性較低。相比之下,像密度泛函理論這樣的量子力學(xué)模型提供了自下而上的計算,但對于大生物分子來說,計算成本過高。
由此,微軟研究院開發(fā)出了基于AI的從頭算生物分子動力學(xué)系統(tǒng)——AI2BMD,這也是團隊四年研究成果的結(jié)晶。
AI2BMD能夠高效地以全原子分辨率模擬包含超過10000個原子的各類蛋白質(zhì),達到近似從頭計算(第一性原理)的精度。
相比標準模擬技術(shù),它在生物分子模擬方面實現(xiàn)了前所未有的權(quán)衡:獲得比經(jīng)典模擬更高的精度,其計算成本雖然高于經(jīng)典模擬,但比密度泛函理論(DFT)快幾個數(shù)量級。
AI2BMD采用專門設(shè)計的通用蛋白質(zhì)分片方法,將蛋白質(zhì)分割成重疊的單元,創(chuàng)建了2000萬個快照的數(shù)據(jù)集,這也是迄今為止DFT層面最大的數(shù)據(jù)集。
基于團隊先前設(shè)計的通用分子幾何建?;A(chǔ)模型ViSNet,團隊用機器學(xué)習(xí)訓(xùn)練了AI2BMD的勢能函數(shù)。然后通過高效的AI2BMD模擬系統(tǒng)進行模擬,在每一步中基于ViSNet的AI2BMD勢能都會以從頭計算的精度計算蛋白質(zhì)的能量和原子力。
通過動力學(xué)和熱力學(xué)的全面分析,AI2BMD與實驗室數(shù)據(jù)表現(xiàn)出更好的一致性,例如在蛋白質(zhì)的折疊自由能和不同現(xiàn)象方面,比經(jīng)典分子動力學(xué)表現(xiàn)更好。
總結(jié)來說,AI2BMD在分子動力學(xué)模擬領(lǐng)域取得了以下幾個方面的重大突破:
- 從頭計算精度:
引入了一種可泛化的“機器學(xué)習(xí)力場”,這是一種學(xué)習(xí)原子與分子間相互作用的模型,用于具有從頭算精度的全原子蛋白質(zhì)動力學(xué)模擬。
- 解決泛化問題:
它是首個解決機器學(xué)習(xí)力場在模擬蛋白質(zhì)動力學(xué)中的泛化挑戰(zhàn)的方法,展示了對多種蛋白質(zhì)進行穩(wěn)健地從頭算分子動力學(xué)模擬。
- 通用兼容性:
AI2BMD將量子力學(xué)建模從小的局部區(qū)域擴展到整個蛋白質(zhì),而且不需要對蛋白質(zhì)有任何先驗知識。這消除了量子力學(xué)與蛋白質(zhì)的分子力學(xué)計算之間可能的不兼容性,并將量子力學(xué)區(qū)域的計算速度提高了幾個數(shù)量級,使全原子蛋白質(zhì)接近從頭算計算成為現(xiàn)實。因此,AI2BMD為眾多下游應(yīng)用鋪平了道路,提供了表征復(fù)雜生物分子動力學(xué)的新視角。
- 速度優(yōu)勢:
AI2BMD比x和其它量子力學(xué)方法快幾個數(shù)量級。支持對超過10000個原子的蛋白質(zhì)進行從頭計算,使其成為跨學(xué)科領(lǐng)域中最快的AI驅(qū)動的分子動力學(xué)模擬程序之一。
- 多樣構(gòu)象空間探索:
對于AI2BMD和蛋白質(zhì)分子力學(xué)模擬的蛋白質(zhì)折疊和解折疊過程,AI2BMD能夠探索更多蛋白質(zhì)分子力學(xué)無法檢測到的可能構(gòu)象空間。
因此,AI2BMD為研究藥物-靶標結(jié)合過程、酶催化、變構(gòu)調(diào)節(jié)、內(nèi)源性無序蛋白等過程中的蛋白質(zhì)柔性運動提供了更多機會,與濕實驗更好地吻合,為生物機制檢測和藥物發(fā)現(xiàn)提供更全面的解釋和指導(dǎo)。
- 實驗一致性:
AI2BMD超越了量子力學(xué)/蛋白質(zhì)分子力學(xué)混合方法,并在不同的生物應(yīng)用場景中展示了與濕實驗室實驗的高度一致性,包括J耦合、焓、熱容、折疊自由能、熔點和pKa計算。
作者簡介
這項研究共同一作有四位Tong Wang、Xinheng He、Mingyu Li、Yatao Li,由Tong Wang、Bin Shao共同指導(dǎo)。
Tong Wang
Tong Wang是微軟研究院AI4Science高級研究員。他在清華大學(xué)獲得博士學(xué)位,并在哈佛大學(xué)有訪問學(xué)者經(jīng)歷。
他的研究重點是分子動力學(xué)模擬、量子模擬、計算機輔助藥物發(fā)現(xiàn)和蛋白質(zhì)結(jié)構(gòu)預(yù)測的算法設(shè)計與應(yīng)用。
Tong Wang博士以第一作者和通訊作者身份發(fā)表了一系列研究,刊登在Nature Machine Intelligence、Nature Communications、Cell Research等期刊上,并擁有多項專利。他還是Nature系列期刊的審稿人以及ACS出版物的榮譽審稿人。
作為團隊負責(zé)人,他在首屆全球AI藥物開發(fā)大賽中獲得冠軍,并在NIPS2022的OGB大規(guī)模挑戰(zhàn)賽中獲勝。
邵斌(Bin Shao)
邵斌是微軟研究院AI4Science資深高級研究經(jīng)理,于2010年7月在復(fù)旦大學(xué)獲得博士學(xué)位后加入微軟。
他的研究興趣包括蛋白質(zhì)動力學(xué)模擬、計算生物學(xué)、機器學(xué)習(xí)和分布式計算,研究成果已發(fā)表在多個頂會和期刊上。
由邵斌團隊開發(fā)的Microsoft Graph Engine正在為微軟的多個產(chǎn)品和服務(wù)提供支持,如微軟Satori知識圖譜、必應(yīng)搜索、MSN、Xbox和認知服務(wù)等。邵斌還是開源輕量級AIMD模擬程序LightAIMD的發(fā)起人和主要開發(fā)者。
參考鏈接:
[1]https://www.nature.com/articles/s41586-024-08127-z。
[2]https://x.com/peteratmsr/status/1854199356850889096。
[3]https://www.binshao.info/。
[4]https://www.microsoft.com/en-us/research/people/watong/。