斯坦福伯克利重磅發(fā)現(xiàn)DNA Scaling Law,Evo榮登Science封面!AI設(shè)計DNA/RNA/蛋白質(zhì)再突破
Is DNA all you need?
AI可以實現(xiàn)從分子到基因組尺度的預測和生成任務了!
圖片
就在剛剛,這項研究登上了Science封面。
圖片
來自斯坦福和UC伯克利的研究人員,提出了一種全新的基因組基礎(chǔ)大模型——Evo。
利用基于深度信號處理進展的架構(gòu),Evo擴展到了70億參數(shù),并在單核苷酸分辨率下實現(xiàn)了131千堿基的上下文長度。
目前,項目已經(jīng)在GitHub上開源。
圖片
論文地址:https://www.science.org/doi/10.1126/science.ado9336
開源項目:https://github.com/evo-design/evo
值得一提的是,研究人員重磅發(fā)現(xiàn)了DNA的Scaling Law!
經(jīng)過270萬個原核生物和噬菌體基因組的訓練后,Evo在DNA、RNA和蛋白質(zhì)模態(tài)上展現(xiàn)出的零樣本功能預測能力,可以與特定領(lǐng)域的語言模型相媲美,甚至直接超越。
生成合成CRISPR-Cas分子復合物和轉(zhuǎn)座子系統(tǒng)的結(jié)果表明,Evo在多模態(tài)生成任務上的表現(xiàn)也很出色。
此外,研究人員還首次使用語言模型,進行了蛋白質(zhì)-RNA和蛋白質(zhì)-DNA協(xié)同設(shè)計,驗證了Evo生成的CRISPR-Cas分子復合物以及IS200和IS605轉(zhuǎn)座子系統(tǒng)的功能活性。
利用從整個基因組中學習到的信息,Evo掌握了核苷酸序列的微小變化如何影響整個生物體的適應度,并能生成長度超過1兆堿基的具有合理基因組架構(gòu)的DNA序列。
圖片
有人表示,這項研究或許能使人們逆轉(zhuǎn)衰老。
圖片
世界首個AI生成CRISPR-Cas系統(tǒng)誕生
要知道,所有生物體的DNA序列中,都編碼著生命的基本指令,但理解它們卻很復雜。
即使是最簡單的微生物基因組也是如此,數(shù)百萬個堿基對,編碼出DNA、RNA和蛋白質(zhì)之間的相互作用。
這種復雜性存在于從單個分子到整個基因組的多個尺度上,代表著在進化時間中經(jīng)過功能性選擇的龐大遺傳信息景觀。
如果能有一個模型,能在保持單核苷酸分辨率的同時,還能處理大型基因組序列,就可以幫助科學家提取出自然進化變異模式中蘊含的復雜分子相互作用功能信息了。
而今Evo的出現(xiàn),讓這一切都可以實現(xiàn)了。
圖片
Evo是一個包含70億參數(shù)的基因組基礎(chǔ)模型,可以學習從單個核苷酸到整個基因組的生物復雜性
它預測、生成和設(shè)計整個基因組序列的能力,可能會改變合成生物學的工作方式!
因為Evo了解跨模式的共同進化模式,所以研究人員決定證明它可以生成蛋白質(zhì)和非編碼 RNA的大分子復合物。
至此,世界上第一個AI生成的CRISPR-Cas系統(tǒng)誕生了!
圖片
Evo還具有生成整個基因組規(guī)模的序列的潛力。
在單個GPU上,研究人員生成了超過650 KB的DNA序列。使用Evo對這個長度的序列進行采樣時可以發(fā)現(xiàn),基因組包含數(shù)千個潛在的蛋白質(zhì)編碼序列。
圖片
未來,研究人員還將把Evo擴展到真核和人類序列。
研究人員表示,Evo有極大潛力幫助或取代濕實驗室實驗,他對此感到非常興奮。
很多團隊都不得不對必需基因進行費力的CRISPR篩選,但他們直接用神經(jīng)網(wǎng)絡(luò)的前向傳播將之取代了!
Evo模型架構(gòu)
如前所述,Evo是一個基因組基礎(chǔ)模型,共有70億參數(shù)。
它通過使用單核苷酸(single-nucleotide)、字節(jié)級分詞方法,在高到131072個token的上下文進行了訓練。
為了有效地以核苷酸分辨率對長序列進行建模,作者利用了基于深度信號處理新興技術(shù)的StripedHyena架構(gòu)。
Evo是29層數(shù)據(jù)控制卷積算子(hyena層)與三層(10%)配備旋轉(zhuǎn)位置嵌入(RoPE)的多頭注意力交織的混合體。
圖片
Hyena層使用長短卷積濾波器的組合,依賴輸入的方式處理序列。這使得該層在過濾DNA中,可能出現(xiàn)的噪聲模式,以及將單核苷酸聚集成基序(motifs)方面特別有效。
模型混合最初是為了解決狀態(tài)空間模型的缺點而提出的,最近已經(jīng)證明可以提高獨立Hyena和Transformer架構(gòu)的語言建模的scaling性能。
與上一代利用Hyena架構(gòu)的DNA模型HyenaDNA相比,Evo基于改進的混合設(shè)計,可擴展到1000倍的模型大小和100倍的數(shù)據(jù)。
在訓練模型過程中,研究人員編制了一個OpenGenome的大型基因組數(shù)據(jù)集,其中包含了80000多個細菌和古細菌基因組,以及數(shù)百萬個預測的噬菌體和質(zhì)粒序列,涵蓋了3000億個核苷酸t(yī)oken。
DNA的Scaling Law
為了幫助Evo模型設(shè)計,作者對DNA序列建模進行了scaling law分析,以此確定訓練、架構(gòu)細節(jié)和性能指標之間的關(guān)系。
一旦獲得了scaling law,它就作為指導以最佳方式將訓練scaling到更大的模型和數(shù)據(jù)集。
具體來說,作者在四個架構(gòu)中訓練了300多個模型:
Transformer++、Mamba、Hyena、StripedHyena。
圖片
Transformer++是最先進的Transformer,而Mamba是使用數(shù)據(jù)控制狀態(tài)空間模型的現(xiàn)代架構(gòu)。
結(jié)果發(fā)現(xiàn),Transformer++在所有計算預算下, 產(chǎn)生的困惑度明顯更差,字節(jié)分辨率架構(gòu)效率低下的癥狀。
與Transformer++相比,狀態(tài)空間和深度信號處理架構(gòu)的縮放率都有所提高,其中Hyena和StripedHyena的scaling率最佳。
圖片
此外,在分析sclaing過程中,作者還觀察到StripedHyena在所有研究的模型大小和學習率中的穩(wěn)定訓練。
他們還比較了架構(gòu)計算最優(yōu)邊界之外的性能,即分配的計算預算,可能是次優(yōu)的。
與StripedHyena相比,Transformer++和Mamba在訓練過程中都經(jīng)歷了數(shù)值不穩(wěn)定性,并且在計算最佳邊界之外的scaling率性能下降更大。
從以上這些發(fā)現(xiàn)中,才使得研究人員選擇StripedHyena作為Evo的架構(gòu)。
Evo跨DNA、RNA和蛋白質(zhì)模態(tài)學習
預測突變對蛋白質(zhì)功能的影響
除了評估困惑度之外,研究人員接下來研究了Evo在生物相關(guān)下游任務中零樣本性能。
比如,在蛋白質(zhì)序列或核苷酸編碼序列大型語料庫上,專門訓練的語言模型已經(jīng)證明了預測突變對蛋白質(zhì)功能的影響的能力,無需任何特定任務的微調(diào)監(jiān)督。
由于Evo的訓練數(shù)據(jù)包含了蛋白質(zhì)編碼序列,作者測試其是否也可以進行零樣本蛋白質(zhì)功能預測。
這里,他們利用了深度突變掃描(DMS)研究,將一組詳盡的突變引入蛋白質(zhì)編碼序列,然后通過實驗測量這些突變對各種適應度指標的影響。
這些指標量化了功能活性。
氨基酸序列的語言模型似然或偽似然,被用來預測實驗適配性得分。
圖片
為了使這項任務適用于核苷酸序列,作者使用了原始DMS研究中報告的野生型編碼序列(wild-type coding sequence)和核苷酸突變(材料與方法)。
在原核蛋白質(zhì)的DMS數(shù)據(jù)集上,Evo的零樣本性能超過了測試中所有其他核苷酸模型,包括GenSLM。
Evo還達到了與主要蛋白質(zhì)特異性語言模型相媲美的性能。
先前的研究表明,對于僅使用自監(jiān)督預訓練的蛋白質(zhì)語言模型來說,超出此性能范圍的改進是困難的,這表明Evo已經(jīng)與最先進的細菌蛋白質(zhì)語言建模競爭。
圖片
在人類蛋白質(zhì)的DMS數(shù)據(jù)集上,Evo無法預測突變對適應度的影響,很可能是因為預訓練數(shù)據(jù)集由原核序列組成。
然而,作者還觀察到野生型序列上的語言模型困惑度與適應度預測性能之間存在很強的關(guān)聯(lián)性,這表明對哺乳動物編碼序列進行額外的微調(diào)或未來的預訓練可以提高Evo的性能,而不僅僅是細菌蛋白。
預測突變對ncRNA功能的影響
接下來,作者測試了相同的預訓練模型是否可以學習有關(guān)的ncRNA功能信息,比如tRNA、rRNA、核酶。
對此,他們收集了ncRNA DMS數(shù)據(jù)集并使用實驗性ncRNA DMS研究的結(jié)果作為基礎(chǔ)事實得分,來評估Evo進行零樣本ncRNA適應性預測的能力。
結(jié)果發(fā)現(xiàn),Evo在這項任務中再次優(yōu)于所有其他測試的核苷酸語言模型,包括RNA-FM。
另外,在測量5S rRNA突變對大腸桿菌生長速率影響的研究中,作者觀察到特別強的預測性能。
除了蛋白質(zhì)序列之外,這些結(jié)果還表明Evo可以了解突變對ncRNA功能的影響。
圖片
預測調(diào)控DNA的活性
Evo的訓練也包含了原核調(diào)控DNA序列,作者研究了Evo是否已經(jīng)學習了對調(diào)控DNA任務的有用信息。
接下來,他們將專注于啟動子序列預測基因表達和從核糖體結(jié)合位點(RBS)序列預測蛋白質(zhì)表達。
圖片
對于監(jiān)督啟動子活性(promoter activity)預測,作者使用來自單個研究的訓練和驗證分割來開發(fā)自回歸模型,然后在來自其他研究的啟動子數(shù)據(jù)集上測試最終模型,以評估域外泛化能力。
下圖F展示了,四項研究中啟動子活性與零樣本語言模型可能性、序列GC含量或監(jiān)督模型之間的相關(guān)性。
對于蛋白質(zhì)表達預測,作者使用了Kosuri此前創(chuàng)建的數(shù)據(jù)集,其中除了啟動子外,還包含了RBS,除mRNA表達外還測量了蛋白質(zhì)表達。
Evo的RBS序列零樣本可能性與蛋白質(zhì)表達,具有弱相關(guān)性。
然而,當把啟動子和RBS序列鏈接在一起時,Evo的零樣本可能性顯著提高,這表明額外的調(diào)控序列,可以提供有用的功能背景。
Evo在啟動子-RBS序列上零樣本相關(guān)性,高于啟動子-RBS序列的GC含量、零樣本GenSLM似然性,以及RBS計算器——最先進的蛋白質(zhì)表達預測器。
圖片
CRISPR-Cas分子復合物的生成設(shè)計
接下來,作者推斷Evo能夠生成涉及不同分子模態(tài)之間,相互作用的功能復合物。
在原核生物中,功能相關(guān)的基因通常被組織成操縱子,并在基因組序列上彼此相鄰。
因為Evo學習涉及上下文內(nèi)任何涉及遺傳元素的共變模式,所以模型應該理解編碼蛋白質(zhì)和ncRNA分子之間的相互作用。
為了證明這種能力,作者在含有CRISPR-Cas序列的基因組位點數(shù)據(jù)集上微調(diào)了Evo。
值得一提的是,CRISPR-Cas序列是由蛋白質(zhì)和ncRNA組成的分子機器,共同引導適應性免疫對抗病毒感染。
DNA靶向Cas9核酸酶,通常在3000到4800堿基對 (bp) 的編碼序列中編碼,并在基因組中與其同源的CRISPR陣列緊密相連。
CRISPR陣列轉(zhuǎn)錄產(chǎn)生的非編碼CRISPR RNA(crRNA)分子與Cas蛋白結(jié)合,生成序列特異性DNA靶向所需的功能性防御復合物。
特別是對Cas9來說,第二個反式激活CRISPR RNA(tracrRNA)與crRNA形成雙鏈,從而產(chǎn)生一個完整的引導RNA(gRNA)。
在細菌和古生物中發(fā)現(xiàn)了多種多樣的CRISPR-Cas系統(tǒng),例如基于Cas12或Cas13的系統(tǒng),它們分別以DNA和RNA為靶向。
研究人員從公共宏基因組和基因組序列中提取的72831個CRISPR-Cas基因座上微調(diào)Evo,為Cas9,Cas 12和Cas 13添加特殊的提示token,這些標記被預先添加到每個訓練序列的開頭。
在采樣過程中,這些token通過提示相應的特殊token知道特定CRISPR-Cas系統(tǒng)類型的生成。
使用這三種Cas token提示中的每一種對8-kb序列進行采樣,會產(chǎn)生包含Cas編碼序列和CRISPR陣列的相干世代。
如果Evo代包含了用MinCED包檢測的CRISPR陣列,以及用Cas9、Cas 12或Cas 13特征隱藏馬爾科夫模型(pHMM)返回的陽性命中開放閱讀框架(ORF),則將其分類為Cas9、Cas 12或Cas 13序列。
與訓練數(shù)據(jù)集的序列比對顯示,一些用Cas9 pHMM預測的ORF與最接近的天然Cas9的蛋白質(zhì)序列同一性也小于40%。
作者還發(fā)現(xiàn),與僅在CRISPR-Cas序列上訓練的模型相比,在CRISPR-Cas基因座上微調(diào)的Evo模型在所有Cas亞型上產(chǎn)生的世代質(zhì)量更高、更多樣化。
下圖E展示的是,通過pHNMR和CRISPR ncRNA預測算法確定在II型CRISPR系統(tǒng)中,EvoCas9-1基因中發(fā)現(xiàn)的核心蛋白編碼基因和ncRNA組分。
F是在于同源sgRNA和InM DNA靶向10:10:1摩爾比Cas9:sgRNA:target孵育后SpCas 9和EvoCas 9 -1切割反應的時程結(jié)果。
EvoCas 9 -1氨基酸序列與用于模型微調(diào)的Cas蛋白數(shù)據(jù)庫中,最接近的Cas9具有79.9%的同一性,與SpCas 9具有73.1%的同一性。
盡管EvoCas 9 -1的預測骨架結(jié)構(gòu)類似于SpCas 9骨架結(jié)構(gòu),但EvoCas 9 -1的預測結(jié)構(gòu)表現(xiàn)出更正的表面電荷分布。
圖片
另外,來自SpCas 9晶體結(jié)構(gòu)分離的sgRNA結(jié)構(gòu)和通過AlphaFold 3模型預測的EvoCas 9 -1 sgRNA的結(jié)構(gòu),顯示出RNA二級結(jié)構(gòu)的強烈一致性。
EvoCas 9 -1的AlphaFold 3共折疊結(jié)構(gòu)預測在其蛋白質(zhì)、RNA和DNA組分中,得到了平均高達90的pLDDT評分。
圖片
轉(zhuǎn)座子系統(tǒng)的生成設(shè)計
除了分子復合物,Evo還學習多基因系統(tǒng)的基本模式。
可動遺傳因子(MGEs)通常包含多個基因的生物系統(tǒng),并且在生命的所有領(lǐng)域中被發(fā)現(xiàn)。
它們的伺機傳播推動了序列變異,新基因功能、甚至是物種的形成。
MGE的IS200/IS605家族通過同源二聚體轉(zhuǎn)座酶TnpA與元件左端和右端處的末端發(fā)夾相互作用,催化出「剝離-粘貼」轉(zhuǎn)座來傳播。
插入序列(IS)從單鏈DNA(ssDNA)中切除,形成含有RE-LE結(jié)的環(huán)狀產(chǎn)物,作為插入到新的ssDNA目標位點的中間產(chǎn)物。
IS605元件還含有RNA引導的TnpB核酸酶和同源的ωRNA,它們偏向于轉(zhuǎn)座元件的自私遺傳。
圖片
研究人員基于10720個IS 605元件和219866個IS 200元件天然序列背景下微調(diào)Evo。
接下來,他們計算了自然IS 200/IS 605基因座上每個位置的條件概率的熵,并觀察到熵的急劇和持續(xù)增加,特別是與元素3'端相對應,這表明了Evo學會了MGE邊界的表示。
圖片
使用特殊的提示token,研究人員使用微調(diào)模型來生成IS200或IS605元素。
在這些生成序列內(nèi)檢測到TnpA和TnpB蛋白質(zhì)在訓練集中,最接近實力的距離上變化很大,對于訓練集中大于40%至50%同一性的預測結(jié)構(gòu)具有一致的高ESMFold pLDDT值。
而且,序列長度分布與訓練集中蛋白質(zhì)緊密匹配。
圖片
為了選擇用于實驗驗證的序列,作者通用與天然系統(tǒng)(ISSpn 6、ISStin 10、ISHp 608和ISDge 10)的相似性以及TnpA蛋白水平和DNA序列水平特征進行過濾,并在體外實驗測試了24種IS200樣和24種IS605樣的設(shè)計。
然后,作者通過將體外轉(zhuǎn)錄產(chǎn)生的TnpA蛋白與含有假定左右端的ssDNA孵育,然后用外向引物進行聚合酶鏈反應 (PCR),以檢測TnpA介導的切除和插入。
如果發(fā)生切除,RE-LE結(jié)的形成會產(chǎn)生一條帶。如果供體含有其他目標位點,并且也發(fā)生了插入,則通過相同的PCR反應,在兩個ssDNA底物連接處產(chǎn)生條帶。
圖片
研究人員觀察到,24個Evo生成IS200樣元中有11個和24個Evo生成的IS605樣元中,有3個在體外顯示了切除和插入的證據(jù)。
這種活性還依賴于一個假定的催化酪氨酸的存在,以及ssDNA底物而不是雙鏈DNA(dsDNA),這與已知的IS200/IS605 TnpA機制一致。
為了確定每個元件的精確邊界,研究人員對PCR產(chǎn)物進行了納米孔測序。
作為對照,他們還檢測了天然IS200元件ISSpn6和IS605元件ISHp608,在這兩種情況下,都成功地檢測到了ISFinder標注的邊界。
在生成的元件中,有三個似乎也能利用一對以上的左端或右端進行移動。含有推定TnpB編碼序列的類IS605功能元件,還含有與已知ωRNAs構(gòu)建的協(xié)方差模型顯著匹配(cmsearch E值小于0.001)的序列。
從整體上看,14個活性元件使用了一組不同的發(fā)夾,編碼的功能性TnpA蛋白與微調(diào)數(shù)據(jù)庫的序列同一性低至67%。
圖片
通過長基因組上下文學習基因
在第二階段的預訓練中,Evo處理了具有131,072個token上下文的序列,其中還包含物種特異性token。
圖片
結(jié)果顯示,Evo在其131,072長度的上下文中,保持了單核苷酸分辨率。
這一點很重要,因為如果單個核苷酸突變破壞了該基因的表達或功能,也可能導致生命無法維持。
研究人員在給定生物體基因組中每個編碼序列的開始處,插入提前終止密碼子,并測量這些變化對Evo似然值相對于野生型序列似然值的影響。
圖片
可以觀察到,在66k上下文下,Evo對數(shù)似然值的變化與58個基因組中的49個基因必要性顯著相關(guān)。
此外還可觀察到,為模型提供超出基因序列的額外基因組上下文會帶來性能的顯著提升,尤其是從僅基因上下文到8k上下文。
從8k到66k上下文,平均預測性能相當,盡管在較低范圍的樣本上,性能確實隨著更長的上下文而提高。
對于一些基因組,66k上下文的zero-shot性能特別強,在lambda噬菌體必要性數(shù)據(jù)上AUROC達到0.90,在銅綠假單胞菌必要性數(shù)據(jù)上AUROC達到0.84。
圖片
在使用不同的計算機模擬突變策略時,如改變插入終止密碼子的數(shù)量或完全刪除基因序列,Evo似然值的變化也能指示基因必要性。
圖片
在基因組規(guī)模上生成DNA序列
研究人員使用Evo采樣生成了16個各約含1 Mb的序列,這是模型131 kb上下文長度的七倍多。相比之下,「最小」的細菌基因組長度約為580 kb。
圖片
使用訓練數(shù)據(jù)集中的物種級標記來提示模型生成細菌基因組
結(jié)果顯示,Evo生成的編碼序列密度與自然基因組幾乎相同,且明顯高于隨機序列。
圖片
通過可視化觀察,自然序列和生成序列都顯示出相似的編碼組織模式,鄰近的序列通常具有相同的鏈方向;在細菌中,這些緊密相連的編碼序列組通常對應于功能相關(guān)的基因簇或操縱子。
圖片
使用ESMFold對這些編碼序列進行蛋白質(zhì)結(jié)構(gòu)預測時,幾乎所有序列都展現(xiàn)出了二級結(jié)構(gòu)和球狀折疊。而且,很多蛋白質(zhì)還展現(xiàn)出了與天然蛋白相似的結(jié)構(gòu)。
在生成的所有約16 Mb序列中,Evo還能夠生成128個tRNA序列,其反密碼子對應于所有經(jīng)典氨基酸。
進一步觀察可以發(fā)現(xiàn),包括GC含量、雙核苷酸頻率和某些密碼子使用模式在內(nèi)的各種基因組范圍序列模式,與隨機序列相比都更接近自然基因組。
圖片
在準確性方面,Evo的物種特異性生成序列與其對應的自然參考序列之間存在強相關(guān)性,四核苷酸使用偏差(TUDs)的準確度足以重建生成序列間的自然系統(tǒng)發(fā)育關(guān)系。
圖片
此外,TGA和TAA終止密碼子出現(xiàn)頻率最高,而TAG最少見,這與之前在原核生物基因組中觀察到的模式一致。相比之下,隨機序列顯示出均勻分布的終止密碼子比例。
這些分析共同表明,Evo生成的序列捕捉到了自然原核生物基因組特有的多層基因組特征。
圖片
然而,也存在一些不自然的特征。
首先,生成的序列不含有許多通常表明完整基因組的高度保守標記基因,在約16 Mb的樣本序列中,Evo僅生成了三個rRNA。
其次,很多蛋白質(zhì)結(jié)構(gòu)預測的可信度較低,偏向于進化上較簡單的α-螺旋型二級結(jié)構(gòu),且與自然蛋白質(zhì)代表性數(shù)據(jù)庫中的任何條目的結(jié)構(gòu)匹配度有限。
圖片
目前能力有限,未來潛力無限
一個能在基因組層面設(shè)計的模型,顯然有潛力推進治療發(fā)現(xiàn),拓寬我們對基礎(chǔ)生物學的理解。
圖片
現(xiàn)在,球基因組與健康聯(lián)盟(GA4GH)已制定了基因工程技術(shù)監(jiān)管原則。
研究人員表示,已開源該模型促進透明度,同時采取措施,將真核病毒排除在了預訓練數(shù)據(jù)集之外。
盡管這個第一代DNA基礎(chǔ)模型能力顯著,但仍有一些限制。
比如,研究人員僅僅是在3000億個原核生物token上預訓練了Evo,僅占公開可用基因組數(shù)據(jù)中的極小部分。
另外,由于模型僅在原核生物數(shù)據(jù)上訓練,在預測突變對人類蛋白質(zhì)適應度的功能影響時就能力有限。
而且與自然語言模型類似,Evo在保持長序列的連貫性和多樣性方面也面臨挑戰(zhàn)。
比如許多CRISPR-Cas生成結(jié)果存在明顯問題,如缺失或截斷的cas基因。
在基因組層面上,雖然Evo生成的兆堿基長序列展示了對基因組組織的高層次理解,但在包含關(guān)鍵標記基因(如完整的rRNA集)方面仍有困難。
LLM也遇到了相似限制,通過增加參數(shù)、標記數(shù)據(jù)、prompt工程和人類偏好對齊一一改進,因此DNA模型或許也會遵循類似軌跡。
最后研究人員展望:Evo有望成為下一代序列搜索算法的基礎(chǔ),將生物工程和設(shè)計的范圍擴展到整個基因組的尺度。
參考資料:https://www.science.org/doi/10.1126/science.ado9336






