利用進(jìn)化擴(kuò)散進(jìn)行蛋白生成,微軟開源新型蛋白質(zhì)生成AI框架EvoDiff
進(jìn)化產(chǎn)生了多種功能蛋白,可以精確調(diào)節(jié)細(xì)胞過程。近年來出現(xiàn)了深度生成模型,旨在從這種多樣性中學(xué)習(xí),生成既有效又新穎的蛋白質(zhì),最終目標(biāo)是定制功能以解決當(dāng)今突出的挑戰(zhàn)。
當(dāng)涉及到在計(jì)算機(jī)上創(chuàng)造新的蛋白質(zhì)時(shí),深度生成模型正成為越來越強(qiáng)大的工具。擴(kuò)散模型是一類生成模型,最近被證明可以生成生理上合理的蛋白質(zhì),與自然界中看到的任何實(shí)際蛋白質(zhì)不同,它可以在從頭蛋白質(zhì)設(shè)計(jì)中提供無與倫比的能力和控制。
然而,當(dāng)前最先進(jìn)的模型構(gòu)建蛋白質(zhì)結(jié)構(gòu),這嚴(yán)重限制了其訓(xùn)練數(shù)據(jù)的廣度,并將代限制在蛋白質(zhì)設(shè)計(jì)空間的微小且有偏差的部分。
微軟研究人員開發(fā)了 EvoDiff——一種通用擴(kuò)散框架,通過將進(jìn)化規(guī)模數(shù)據(jù)與擴(kuò)散模型的獨(dú)特調(diào)節(jié)能力相結(jié)合,可以在序列空間中創(chuàng)建可調(diào)節(jié)的蛋白質(zhì)。EvoDiff 可以使結(jié)構(gòu)合理的蛋白質(zhì)多樣化,涵蓋所有可能的序列和功能。EvoDiff 可以構(gòu)建基于結(jié)構(gòu)的模型無法訪問的蛋白質(zhì),例如那些具有無序部分的蛋白質(zhì),同時(shí)能夠?yàn)橛杏玫慕Y(jié)構(gòu)基序設(shè)計(jì)支架,這一事實(shí)證明了基于序列的公式的普遍性。
在蛋白質(zhì)序列進(jìn)化中,EvoDiff 是第一個(gè)展示擴(kuò)散生成模型功效的深度學(xué)習(xí)框架。
EvoDiff 的共同作者、微軟高級(jí)研究員 Ava Amini 表示:「如果有什么可以從 EvoDiff 中學(xué)到的,我認(rèn)為那就是,我們可以而且應(yīng)該通過序列進(jìn)行蛋白質(zhì)生成,因?yàn)槲覀兡軌驅(qū)崿F(xiàn)通用性、規(guī)?;湍K化。我們的擴(kuò)散框架使我們有能力做到這一點(diǎn),并控制我們?nèi)绾卧O(shè)計(jì)這些蛋白質(zhì)以滿足特定的功能目標(biāo)?!?/span>
EvoDiff 的另一位共同作者 Kevin K. Yang 表示,「我們?cè)O(shè)想 EvoDiff 將擴(kuò)展蛋白質(zhì)工程的能力,超越結(jié)構(gòu)-功能范式,轉(zhuǎn)向可編程、序列優(yōu)先的設(shè)計(jì),通過 EvoDiff,我們證明我們實(shí)際上可能不需要結(jié)構(gòu),而是『蛋白質(zhì)序列就是你所需要的』來可控地設(shè)計(jì)新蛋白質(zhì)?!?/span>
該研究以《Protein generation with evolutionary diffusion: sequence is all you need》為題,發(fā)布在 bioRxiv 預(yù)印平臺(tái)上。
GitHub 地址:https://github.com/microsoft/evodiff
論文鏈接:https://doi.org/10.1101/2023.09.11.556673
6.4 億個(gè)參數(shù)
EvoDiff 框架的核心是一個(gè)包含 6.4 億個(gè)參數(shù)的模型,該模型根據(jù)來自所有不同物種和蛋白質(zhì)功能類別的數(shù)據(jù)進(jìn)行訓(xùn)練。訓(xùn)練模型的數(shù)據(jù)來源于用于序列比對(duì)的 OpenFold 數(shù)據(jù)集 UniRef50,UniProt 數(shù)據(jù)的子集,UniProt 聯(lián)盟維護(hù)的蛋白質(zhì)序列和功能信息數(shù)據(jù)庫。
Uniref50 是一個(gè)包含約 4200 萬個(gè)蛋白質(zhì)序列的數(shù)據(jù)集。MSA 來自 OpenFold 數(shù)據(jù)集,其中包括 16,000,000 個(gè) UniClust30 集群和 401,381 個(gè) MSA,涵蓋 140,000 個(gè)不同的 PDB 鏈。有關(guān) IDR 的信息來自反向同源 GitHub。
EvoDiff 的主要特征
EvoDiff 主要特征如下:
- 為了生成可管理的蛋白質(zhì)序列,EvoDiff 將進(jìn)化規(guī)模數(shù)據(jù)與擴(kuò)散模型相結(jié)合。
- EvoDiff 可以使結(jié)構(gòu)合理的蛋白質(zhì)多樣化,涵蓋所有可能的序列和功能。
- 除了生成具有無序部分和基于結(jié)構(gòu)的模型無法獲得的其他特征的蛋白質(zhì)外,EvoDiff 還可以生成功能性結(jié)構(gòu)基序的支架,證明了基于序列的配方的普遍適用性。
EvoDiff 是一種新穎的生成建模系統(tǒng),用于僅從序列數(shù)據(jù)創(chuàng)建可編程蛋白質(zhì),該系統(tǒng)是通過將進(jìn)化規(guī)模數(shù)據(jù)集與擴(kuò)散模型相結(jié)合而開發(fā)的。其使用離散擴(kuò)散框架,其中正向過程通過改變其氨基酸特性來迭代地破壞蛋白質(zhì)序列,并且由神經(jīng)網(wǎng)絡(luò)參數(shù)化的學(xué)習(xí)反向過程利用自然框架來預(yù)測每次迭代時(shí)所做的變化。蛋白質(zhì)作為氨基酸語言上離散標(biāo)記的序列。
圖 1:EvoDiff,用于僅從序列數(shù)據(jù)進(jìn)行可控蛋白質(zhì)設(shè)計(jì)。(來源:論文)
可以使用反向方法從頭開始創(chuàng)建蛋白質(zhì)序列。與蛋白質(zhì)結(jié)構(gòu)設(shè)計(jì)中傳統(tǒng)使用的連續(xù)擴(kuò)散公式相比,EvoDiff 中使用的離散擴(kuò)散公式在數(shù)學(xué)上取得了顯著的改進(jìn)。多重序列比對(duì) (MSA) 突出顯示相關(guān)蛋白質(zhì)組的氨基酸序列的保守模式和變異,從而捕獲單個(gè)蛋白質(zhì)序列進(jìn)化規(guī)模數(shù)據(jù)集之外的進(jìn)化聯(lián)系。為了利用這種額外深度的進(jìn)化信息,他們構(gòu)建了在 MSA 上訓(xùn)練的離散擴(kuò)散模型,以產(chǎn)生新穎的 single lines。
在序列空間中創(chuàng)建可調(diào)節(jié)的蛋白質(zhì)
為了說明其在可調(diào)蛋白質(zhì)設(shè)計(jì)方面的功效,研究人員在一系列生成活動(dòng)的譜上檢查了序列和 MSA 模型(分別為 EvoDiff-Seq 和 EvoDiff-MSA)。
他們首先證明 EvoDiff-Seq 能夠可靠地產(chǎn)生高質(zhì)量、多樣化的蛋白質(zhì),準(zhǔn)確反映自然界蛋白質(zhì)的組成和功能。EvoDiff-MSA 通過比對(duì)具有相似但獨(dú)特進(jìn)化歷史的蛋白質(zhì)來引導(dǎo)新序列的開發(fā)。最后,他們表明 EvoDiff 可以可靠地生成具有 IDR 的蛋白質(zhì),直接克服基于結(jié)構(gòu)的生成模型的關(guān)鍵限制,并且可以通過利用基于擴(kuò)散的建??蚣艿恼{(diào)節(jié)功能,在沒有任何明確結(jié)構(gòu)信息的情況下生成功能結(jié)構(gòu)基序的支架。
圖 2:EvoDiff-MSA 支持進(jìn)化引導(dǎo)序列生成。(來源:論文)
為了生成具有基于序列限制條件調(diào)節(jié)的可能性的多樣化新蛋白質(zhì),研究人員提出了 EvoDiff,一種擴(kuò)散建??蚣?。通過挑戰(zhàn)基于結(jié)構(gòu)的蛋白質(zhì)設(shè)計(jì)范式,EvoDiff 可以通過從序列數(shù)據(jù)生成本質(zhì)上無序的區(qū)域和支架結(jié)構(gòu)基序,無條件地采樣結(jié)構(gòu)合理的蛋白質(zhì)多樣性。
通過引導(dǎo)進(jìn)行調(diào)節(jié),創(chuàng)建的序列可以迭代地調(diào)整以滿足所需的質(zhì)量,可以在未來的研究中添加到這些功能中。EvoDiff-D3PM 框架很適合通過指導(dǎo)進(jìn)行條件調(diào)節(jié),因?yàn)樾蛄兄忻總€(gè)殘基的身份都可以在每個(gè)解碼步驟中進(jìn)行編輯。
然而,研究人員觀察到,OADM 在無條件生成方面通常優(yōu)于 D3PM,這可能是因?yàn)?OADM 去噪任務(wù)比 D3PM 更容易學(xué)習(xí)。不幸的是,OADM 和其他現(xiàn)有的條件 LRAR 模型(如 ProGen)降低了指導(dǎo)的有效性。預(yù)計(jì)新的蛋白質(zhì)序列將通過調(diào)節(jié) EvoDiff-D3PM 的功能目標(biāo)(例如序列功能分類器描述的目標(biāo))來生成。
EvoDiff 數(shù)據(jù)要求極低
EvoDiff 的數(shù)據(jù)要求極低,這意味著它可以輕松適應(yīng)后續(xù)用途,而這只有通過基于結(jié)構(gòu)的方法才能實(shí)現(xiàn)。研究人員表明,EvoDiff 可以通過修復(fù)來創(chuàng)建 IDR,無需微調(diào),從而避免了基于結(jié)構(gòu)的預(yù)測和生成模型的經(jīng)典陷阱。
圖 3:EvoDiff 生成本質(zhì)上無序的區(qū)域。(來源:論文)
獲取大型測序數(shù)據(jù)集結(jié)構(gòu)的高昂成本可能會(huì)阻止研究人員使用新的生物、醫(yī)學(xué)或科學(xué)設(shè)計(jì)選項(xiàng),這些選項(xiàng)可以通過在特定于應(yīng)用程序的數(shù)據(jù)集(例如來自顯示庫或大型屏幕的數(shù)據(jù)集)上微調(diào) EvoDiff 來解鎖。盡管 AlphaFold 和相關(guān)算法可以預(yù)測許多序列的結(jié)構(gòu),但它們?cè)邳c(diǎn)突變方面遇到困難,并且在指示虛假蛋白質(zhì)的結(jié)構(gòu)時(shí)可能過于自信。
下一步計(jì)劃
總之,微軟科學(xué)家發(fā)布了一套離散擴(kuò)散模型,可用于進(jìn)行基于序列的蛋白質(zhì)工程和設(shè)計(jì)??梢詳U(kuò)展 EvoDiff 模型以進(jìn)行基于結(jié)構(gòu)或功能的引導(dǎo)設(shè)計(jì),并且它們可以立即用于無條件、進(jìn)化引導(dǎo)和條件創(chuàng)建蛋白質(zhì)序列。他們希望通過直接用蛋白質(zhì)語言讀取和寫入過程,EvoDiff 將為可編程蛋白質(zhì)創(chuàng)造開辟新的可能性。
「這只是一個(gè)包含 6.4 億參數(shù)的模型,如果我們擴(kuò)展到數(shù)十億個(gè)參數(shù),我們可能會(huì)看到生成質(zhì)量的提高,」Alamdari 說道。「雖然我們演示了一些粗粒度的策略,但為了實(shí)現(xiàn)更細(xì)粒度的控制,我們希望根據(jù)文本、化學(xué)信息或其他方式來調(diào)節(jié) EvoDiff 來指定所需的功能?!?/span>
下一步,EvoDiff 團(tuán)隊(duì)計(jì)劃測試模型在實(shí)驗(yàn)室生成的蛋白質(zhì),以確定它們是否可行。如果事實(shí)證明是這樣,他們將開始開發(fā)下一代框架。