所有生命分子一夜皆可AI預(yù)測(cè)!AlphaFold 3改變?nèi)祟悓?duì)生命的理解,全球科學(xué)家都能免費(fèi)使用
AlphaFold 3再登Nature!
這次重磅升級(jí),不再僅限于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)——可以以前所未有的精度預(yù)測(cè)所有生命分子的結(jié)構(gòu)和相互作用。
只有了解它們?nèi)绾卧跀?shù)百萬種組合中相互作用,我們才能開始真正理解生命的過程。
這次的最大創(chuàng)新之一,是用上了AI繪畫上常見的去噪擴(kuò)散模型,直接生成每個(gè)原子的3D坐標(biāo)。
現(xiàn)在,AlphaFold 3對(duì)普通感冒病毒Spike蛋白(藍(lán)色)的結(jié)構(gòu)預(yù)測(cè),灰色部分為預(yù)測(cè)結(jié)果。這能讓人類更進(jìn)一步了解冠狀病毒。
對(duì)蛋白質(zhì)和DNA結(jié)合的分子復(fù)合物進(jìn)行預(yù)測(cè),其預(yù)測(cè)結(jié)果與真實(shí)結(jié)構(gòu)幾乎一致。
在不輸入任何結(jié)構(gòu)信息的情況下,AlphaFold3預(yù)測(cè)準(zhǔn)確度比現(xiàn)有方法提高了50%,對(duì)于部分相互作用類別甚至提高了1倍。
這使得AlphaFold 3成為首個(gè)超越基于真實(shí)生物分子結(jié)構(gòu)預(yù)測(cè)工具的AI系統(tǒng)。
而且全球科學(xué)家通過AlphaFold服務(wù)器即可免費(fèi)訪問使用AlphaFold 3進(jìn)行非商業(yè)研究(開放大部分功能)。
DeepMind聯(lián)創(chuàng)兼CEO哈撒比斯在發(fā)布會(huì)上非??隙ǖ乇硎荆珹lphaFold 3是人類了解生物學(xué)動(dòng)態(tài)系統(tǒng)歷史性的第一步。
網(wǎng)友都紛紛感慨:這就是AI的用處所在啊。
用擴(kuò)散網(wǎng)絡(luò)生成預(yù)測(cè)結(jié)果
事實(shí)上,在AlphaFold 3之前還進(jìn)行過一系列小規(guī)模更新,重點(diǎn)提高了對(duì)蛋白質(zhì)復(fù)合體的預(yù)測(cè)精度。
所以總結(jié)下來:
- AlphaFold,開創(chuàng)了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的新時(shí)代
- AlphaFold 2,大幅提高了預(yù)測(cè)精度
- AlphaFold-Multimer,將預(yù)測(cè)范圍擴(kuò)展到具有多個(gè)蛋白質(zhì)鏈的復(fù)合物
- AlphaFold 2.3,它提高了性能并將覆蓋范圍擴(kuò)大到更大的復(fù)合物
這次革命性的AlphaFold 3,繼續(xù)將預(yù)測(cè)范圍擴(kuò)展到蛋白質(zhì)、DNA、RNA以及一系列配體、離子和化學(xué)修飾等更多生物分子結(jié)構(gòu)。
AlphaFold 3建立在AlphaFold 2的基礎(chǔ)上,但在架構(gòu)和訓(xùn)練過程上有很大改進(jìn):
- 遺傳特征編碼器(MSA module)被大幅簡(jiǎn)化,聚焦提取更關(guān)鍵的進(jìn)化信息。
- 成對(duì)殘基關(guān)系編碼器(Pairformer)取代了原有的進(jìn)化特征處理單元(Evoformer),增強(qiáng)了復(fù)雜相互作用模式的建模能力。
- 結(jié)構(gòu)生成器從以氨基酸為中心,改為直接預(yù)測(cè)原子坐標(biāo),增加了處理通用分子結(jié)構(gòu)的靈活性。
為了避免擴(kuò)散方法在一些無結(jié)構(gòu)區(qū)域產(chǎn)生幻覺,還引入了一種新的交叉蒸餾方法,通過AlphaFold-Multimer v2預(yù)測(cè)的結(jié)構(gòu)數(shù)據(jù)來豐富訓(xùn)練數(shù)據(jù)。
更讓人驚嘆的是,AlphaFold 3即便在訓(xùn)練數(shù)據(jù)極度匱乏的領(lǐng)域,也展現(xiàn)出了驚人的泛化能力。
舉個(gè)例子,在CASP15的RNA預(yù)測(cè)任務(wù)中,它在10個(gè)公開靶點(diǎn)上的平均表現(xiàn)超過了專門的RNA結(jié)構(gòu)預(yù)測(cè)模型。要知道,這可是在幾乎沒有RNA訓(xùn)練數(shù)據(jù)的情況下實(shí)現(xiàn)的。
盡管AlphaFold 3在多個(gè)維度實(shí)現(xiàn)了突破,但它并非完美無缺。比如在對(duì)映異構(gòu)、自相互作用等方面,它還存在一定局限性。
此外,它目前專注的是分子結(jié)構(gòu)的靜態(tài)預(yù)測(cè),對(duì)動(dòng)力學(xué)行為的刻畫還不夠。對(duì)人工合成分子的適用性也有待考證。
AlphaFold 3偶爾也會(huì)產(chǎn)生錯(cuò)誤,對(duì)無序區(qū)域產(chǎn)生幻覺,導(dǎo)致對(duì)某些目標(biāo)的預(yù)測(cè)準(zhǔn)確性降低。
目前的緩解手段,是在生成時(shí)使用多個(gè)隨機(jī)種子,確保正確的手性并避免蛋白質(zhì)-配體輕微碰撞。
但瑕不掩瑜,AlphaFold 3的意義不僅在于具體指標(biāo)的躍升,而是展示了用統(tǒng)一的深度學(xué)習(xí)架構(gòu),來建模復(fù)雜生命系統(tǒng)組件之間相互作用的可能性。
AlphaFold開始商業(yè)化
2021年AlphaFold一代推出后,谷歌DeepMind積極為其尋找商業(yè)化途徑,并成立了Isomorhpic Labs公司。
這次雖然以谷歌DeepMind的名義新推出了免費(fèi)的AlphaFold Server,號(hào)稱科學(xué)家只需點(diǎn)擊幾下就模擬由蛋白質(zhì)、DNA、RNA 以及一系列配體、離子和化學(xué)修飾組成的結(jié)構(gòu)。
然而Nature報(bào)道指出,科學(xué)家對(duì)AlphaFold 3服務(wù)器的訪問是有限的。目前每天只能進(jìn)行10次預(yù)測(cè),而且不可能獲得可能與藥物結(jié)合的蛋白質(zhì)結(jié)構(gòu)。
Isomorphic Labs正在使用AlphaFold3通過自己的管道或與其他制藥公司合作開發(fā)藥物。
審稿人也在線喊話哈撒比斯,自己從服務(wù)器上得到了非常好的結(jié)果,但是發(fā)布論文里為什么沒有給代碼?
他在審稿評(píng)論中列出了AlphaFold2代碼發(fā)布后的一系列科學(xué)事件,它認(rèn)為如果不公布代碼就不會(huì)有如此多科學(xué)成果。
不過,可不要小看開源社區(qū)的力量。
可能不少人論文都沒看完,開源復(fù)現(xiàn)工作就已經(jīng)開啟了。
雖然現(xiàn)在還只是空倉,但網(wǎng)友推測(cè),對(duì)于復(fù)現(xiàn)過ViT、DALL·E 2、Imagen等工作的這位大神來說,可能幾天之內(nèi)就能完成。
目前Nature已經(jīng)放出的AlphaFold3論文預(yù)印版。感興趣的同學(xué)可以前去了解。
論文地址:https://www.nature.com/articles/s41586-024-07487-w
參考鏈接:
[1]https://www.nature.com/articles/d41586-024-01383-z。
[2]https://www.isomorphiclabs.com/articles/a-glimpse-of-the-next-generation-of-alphafold。
[3]https://github.com/lucidrains/alphafold3-pytorch。