自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

利用進(jìn)化擴(kuò)散進(jìn)行蛋白生成，微軟開源新型蛋白質(zhì)生成AI框架EvoDiff

作者：機(jī)器之心 2023-10-04 09:23:21

人工智能新聞

微軟研究人員開發(fā)了 EvoDiff——一種通用擴(kuò)散框架，通過將進(jìn)化規(guī)模數(shù)據(jù)與擴(kuò)散模型的獨(dú)特調(diào)節(jié)能力相結(jié)合，可以在序列空間中創(chuàng)建可調(diào)節(jié)的蛋白質(zhì)。

進(jìn)化產(chǎn)生了多種功能蛋白，可以精確調(diào)節(jié)細(xì)胞過程。近年來出現(xiàn)了深度生成模型，旨在從這種多樣性中學(xué)習(xí)，生成既有效又新穎的蛋白質(zhì)，最終目標(biāo)是定制功能以解決當(dāng)今突出的挑戰(zhàn)。

當(dāng)涉及到在計(jì)算機(jī)上創(chuàng)造新的蛋白質(zhì)時(shí)，深度生成模型正成為越來越強(qiáng)大的工具。擴(kuò)散模型是一類生成模型，最近被證明可以生成生理上合理的蛋白質(zhì)，與自然界中看到的任何實(shí)際蛋白質(zhì)不同，它可以在從頭蛋白質(zhì)設(shè)計(jì)中提供無與倫比的能力和控制。

然而，當(dāng)前最先進(jìn)的模型構(gòu)建蛋白質(zhì)結(jié)構(gòu)，這嚴(yán)重限制了其訓(xùn)練數(shù)據(jù)的廣度，并將代限制在蛋白質(zhì)設(shè)計(jì)空間的微小且有偏差的部分。

微軟研究人員開發(fā)了 EvoDiff——一種通用擴(kuò)散框架，通過將進(jìn)化規(guī)模數(shù)據(jù)與擴(kuò)散模型的獨(dú)特調(diào)節(jié)能力相結(jié)合，可以在序列空間中創(chuàng)建可調(diào)節(jié)的蛋白質(zhì)。EvoDiff 可以使結(jié)構(gòu)合理的蛋白質(zhì)多樣化，涵蓋所有可能的序列和功能。EvoDiff 可以構(gòu)建基于結(jié)構(gòu)的模型無法訪問的蛋白質(zhì)，例如那些具有無序部分的蛋白質(zhì)，同時(shí)能夠?yàn)橛杏玫慕Y(jié)構(gòu)基序設(shè)計(jì)支架，這一事實(shí)證明了基于序列的公式的普遍性。

在蛋白質(zhì)序列進(jìn)化中，EvoDiff 是第一個(gè)展示擴(kuò)散生成模型功效的深度學(xué)習(xí)框架。

EvoDiff 的共同作者、微軟高級(jí)研究員 Ava Amini 表示：「如果有什么可以從 EvoDiff 中學(xué)到的，我認(rèn)為那就是，我們可以而且應(yīng)該通過序列進(jìn)行蛋白質(zhì)生成，因?yàn)槲覀兡軌驅(qū)崿F(xiàn)通用性、規(guī)?；湍K化。我們的擴(kuò)散框架使我們有能力做到這一點(diǎn)，并控制我們?nèi)绾卧O(shè)計(jì)這些蛋白質(zhì)以滿足特定的功能目標(biāo)?！?/span>

EvoDiff 的另一位共同作者 Kevin K. Yang 表示，「我們?cè)O(shè)想 EvoDiff 將擴(kuò)展蛋白質(zhì)工程的能力，超越結(jié)構(gòu)-功能范式，轉(zhuǎn)向可編程、序列優(yōu)先的設(shè)計(jì)，通過 EvoDiff，我們證明我們實(shí)際上可能不需要結(jié)構(gòu)，而是『蛋白質(zhì)序列就是你所需要的』來可控地設(shè)計(jì)新蛋白質(zhì)?！?/span>

該研究以《Protein generation with evolutionary diffusion: sequence is all you need》為題，發(fā)布在 bioRxiv 預(yù)印平臺(tái)上。

GitHub 地址：https://github.com/microsoft/evodiff

論文鏈接：https://doi.org/10.1101/2023.09.11.556673

6.4 億個(gè)參數(shù)

EvoDiff 框架的核心是一個(gè)包含 6.4 億個(gè)參數(shù)的模型，該模型根據(jù)來自所有不同物種和蛋白質(zhì)功能類別的數(shù)據(jù)進(jìn)行訓(xùn)練。訓(xùn)練模型的數(shù)據(jù)來源于用于序列比對(duì)的 OpenFold 數(shù)據(jù)集 UniRef50，UniProt 數(shù)據(jù)的子集，UniProt 聯(lián)盟維護(hù)的蛋白質(zhì)序列和功能信息數(shù)據(jù)庫。

Uniref50 是一個(gè)包含約 4200 萬個(gè)蛋白質(zhì)序列的數(shù)據(jù)集。MSA 來自 OpenFold 數(shù)據(jù)集，其中包括 16,000,000 個(gè) UniClust30 集群和 401,381 個(gè) MSA，涵蓋 140,000 個(gè)不同的 PDB 鏈。有關(guān) IDR 的信息來自反向同源 GitHub。

EvoDiff 的主要特征

EvoDiff 主要特征如下：

為了生成可管理的蛋白質(zhì)序列，EvoDiff 將進(jìn)化規(guī)模數(shù)據(jù)與擴(kuò)散模型相結(jié)合。
EvoDiff 可以使結(jié)構(gòu)合理的蛋白質(zhì)多樣化，涵蓋所有可能的序列和功能。
除了生成具有無序部分和基于結(jié)構(gòu)的模型無法獲得的其他特征的蛋白質(zhì)外，EvoDiff 還可以生成功能性結(jié)構(gòu)基序的支架，證明了基于序列的配方的普遍適用性。

EvoDiff 是一種新穎的生成建模系統(tǒng)，用于僅從序列數(shù)據(jù)創(chuàng)建可編程蛋白質(zhì)，該系統(tǒng)是通過將進(jìn)化規(guī)模數(shù)據(jù)集與擴(kuò)散模型相結(jié)合而開發(fā)的。其使用離散擴(kuò)散框架，其中正向過程通過改變其氨基酸特性來迭代地破壞蛋白質(zhì)序列，并且由神經(jīng)網(wǎng)絡(luò)參數(shù)化的學(xué)習(xí)反向過程利用自然框架來預(yù)測每次迭代時(shí)所做的變化。蛋白質(zhì)作為氨基酸語言上離散標(biāo)記的序列。

圖 1：EvoDiff，用于僅從序列數(shù)據(jù)進(jìn)行可控蛋白質(zhì)設(shè)計(jì)。（來源：論文）

可以使用反向方法從頭開始創(chuàng)建蛋白質(zhì)序列。與蛋白質(zhì)結(jié)構(gòu)設(shè)計(jì)中傳統(tǒng)使用的連續(xù)擴(kuò)散公式相比，EvoDiff 中使用的離散擴(kuò)散公式在數(shù)學(xué)上取得了顯著的改進(jìn)。多重序列比對(duì) (MSA) 突出顯示相關(guān)蛋白質(zhì)組的氨基酸序列的保守模式和變異，從而捕獲單個(gè)蛋白質(zhì)序列進(jìn)化規(guī)模數(shù)據(jù)集之外的進(jìn)化聯(lián)系。為了利用這種額外深度的進(jìn)化信息，他們構(gòu)建了在 MSA 上訓(xùn)練的離散擴(kuò)散模型，以產(chǎn)生新穎的 single lines。

在序列空間中創(chuàng)建可調(diào)節(jié)的蛋白質(zhì)

為了說明其在可調(diào)蛋白質(zhì)設(shè)計(jì)方面的功效，研究人員在一系列生成活動(dòng)的譜上檢查了序列和 MSA 模型（分別為 EvoDiff-Seq 和 EvoDiff-MSA）。

他們首先證明 EvoDiff-Seq 能夠可靠地產(chǎn)生高質(zhì)量、多樣化的蛋白質(zhì)，準(zhǔn)確反映自然界蛋白質(zhì)的組成和功能。EvoDiff-MSA 通過比對(duì)具有相似但獨(dú)特進(jìn)化歷史的蛋白質(zhì)來引導(dǎo)新序列的開發(fā)。最后，他們表明 EvoDiff 可以可靠地生成具有 IDR 的蛋白質(zhì)，直接克服基于結(jié)構(gòu)的生成模型的關(guān)鍵限制，并且可以通過利用基于擴(kuò)散的建?？蚣艿恼{(diào)節(jié)功能，在沒有任何明確結(jié)構(gòu)信息的情況下生成功能結(jié)構(gòu)基序的支架。

圖 2：EvoDiff-MSA 支持進(jìn)化引導(dǎo)序列生成。（來源：論文）

為了生成具有基于序列限制條件調(diào)節(jié)的可能性的多樣化新蛋白質(zhì)，研究人員提出了 EvoDiff，一種擴(kuò)散建?？蚣?。通過挑戰(zhàn)基于結(jié)構(gòu)的蛋白質(zhì)設(shè)計(jì)范式，EvoDiff 可以通過從序列數(shù)據(jù)生成本質(zhì)上無序的區(qū)域和支架結(jié)構(gòu)基序，無條件地采樣結(jié)構(gòu)合理的蛋白質(zhì)多樣性。

通過引導(dǎo)進(jìn)行調(diào)節(jié)，創(chuàng)建的序列可以迭代地調(diào)整以滿足所需的質(zhì)量，可以在未來的研究中添加到這些功能中。EvoDiff-D3PM 框架很適合通過指導(dǎo)進(jìn)行條件調(diào)節(jié)，因?yàn)樾蛄兄忻總€(gè)殘基的身份都可以在每個(gè)解碼步驟中進(jìn)行編輯。

然而，研究人員觀察到，OADM 在無條件生成方面通常優(yōu)于 D3PM，這可能是因?yàn)?OADM 去噪任務(wù)比 D3PM 更容易學(xué)習(xí)。不幸的是，OADM 和其他現(xiàn)有的條件 LRAR 模型（如 ProGen）降低了指導(dǎo)的有效性。預(yù)計(jì)新的蛋白質(zhì)序列將通過調(diào)節(jié) EvoDiff-D3PM 的功能目標(biāo)（例如序列功能分類器描述的目標(biāo)）來生成。

EvoDiff 數(shù)據(jù)要求極低

EvoDiff 的數(shù)據(jù)要求極低，這意味著它可以輕松適應(yīng)后續(xù)用途，而這只有通過基于結(jié)構(gòu)的方法才能實(shí)現(xiàn)。研究人員表明，EvoDiff 可以通過修復(fù)來創(chuàng)建 IDR，無需微調(diào)，從而避免了基于結(jié)構(gòu)的預(yù)測和生成模型的經(jīng)典陷阱。

圖 3：EvoDiff 生成本質(zhì)上無序的區(qū)域。（來源：論文）

獲取大型測序數(shù)據(jù)集結(jié)構(gòu)的高昂成本可能會(huì)阻止研究人員使用新的生物、醫(yī)學(xué)或科學(xué)設(shè)計(jì)選項(xiàng)，這些選項(xiàng)可以通過在特定于應(yīng)用程序的數(shù)據(jù)集（例如來自顯示庫或大型屏幕的數(shù)據(jù)集）上微調(diào) EvoDiff 來解鎖。盡管 AlphaFold 和相關(guān)算法可以預(yù)測許多序列的結(jié)構(gòu)，但它們?cè)邳c(diǎn)突變方面遇到困難，并且在指示虛假蛋白質(zhì)的結(jié)構(gòu)時(shí)可能過于自信。

下一步計(jì)劃

總之，微軟科學(xué)家發(fā)布了一套離散擴(kuò)散模型，可用于進(jìn)行基于序列的蛋白質(zhì)工程和設(shè)計(jì)?？梢詳U(kuò)展 EvoDiff 模型以進(jìn)行基于結(jié)構(gòu)或功能的引導(dǎo)設(shè)計(jì)，并且它們可以立即用于無條件、進(jìn)化引導(dǎo)和條件創(chuàng)建蛋白質(zhì)序列。他們希望通過直接用蛋白質(zhì)語言讀取和寫入過程，EvoDiff 將為可編程蛋白質(zhì)創(chuàng)造開辟新的可能性。

「這只是一個(gè)包含 6.4 億參數(shù)的模型，如果我們擴(kuò)展到數(shù)十億個(gè)參數(shù)，我們可能會(huì)看到生成質(zhì)量的提高，」Alamdari 說道。「雖然我們演示了一些粗粒度的策略，但為了實(shí)現(xiàn)更細(xì)粒度的控制，我們希望根據(jù)文本、化學(xué)信息或其他方式來調(diào)節(jié) EvoDiff 來指定所需的功能?！?/span>

下一步，EvoDiff 團(tuán)隊(duì)計(jì)劃測試模型在實(shí)驗(yàn)室生成的蛋白質(zhì)，以確定它們是否可行。如果事實(shí)證明是這樣，他們將開始開發(fā)下一代框架。

責(zé)任編輯：張燕妮來源：機(jī)器之心

微軟開發(fā)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="rsolq"><track id="rsolq"></track></cite>

<s id="rsolq"></s>

<legend id="rsolq"><track id="rsolq"></track></legend>