使用語(yǔ)言模型模擬五億年的進(jìn)化歷程 精華
一、結(jié)論寫在前面
論文標(biāo)題:Simulating 500 million years of evolution with a language model
論文鏈接:??https://www.biorxiv.org/content/10.1101/2024.07.01.600583v1.full.pdf??
超過(guò)三十億年的進(jìn)化歷程將生物學(xué)圖像編碼到天然蛋白質(zhì)的空間中。論文在由進(jìn)化生成的token上訓(xùn)練的語(yǔ)言模型可以作為進(jìn)化模擬器,生成與已知蛋白質(zhì)相距甚遠(yuǎn)的功能性蛋白質(zhì)。
論文提出ESM3,一種前沿的多模態(tài)生成語(yǔ)言模型,該模型能夠推理蛋白質(zhì)的序列、結(jié)構(gòu)和功能。ESM3能夠遵循復(fù)雜的多模態(tài)提示,并對(duì)生物學(xué)對(duì)齊高度響應(yīng)。論文引導(dǎo)ESM3生成熒光蛋白,并采用了一種思維鏈方法。
在論文合成的生成物中,發(fā)現(xiàn)了一種亮度極高的熒光蛋白,其與已知熒光蛋白的相似度僅為58 q_o,而如此遠(yuǎn)距離的天然熒光蛋白之間的進(jìn)化間隔超過(guò)五億年。
?二、論文的簡(jiǎn)單介紹
2.1 論文的背景?
現(xiàn)存的蛋白質(zhì)在數(shù)十億年的自然進(jìn)化過(guò)程中演化成現(xiàn)今的形態(tài),歷經(jīng)了漫長(zhǎng)的進(jìn)化篩選。在地質(zhì)時(shí)間尺度上進(jìn)行的平行實(shí)驗(yàn)中,自然界創(chuàng)造隨機(jī)突變并應(yīng)用選擇,通過(guò)其多樣的序列、結(jié)構(gòu)和功能篩選蛋白質(zhì)。
因此,論文在蛋白質(zhì)中觀察到的模式反映了那些深藏不露的生物學(xué)隱變量,這些變量隨著時(shí)間的推移塑造了它們的演化。地球自然多樣性的基因測(cè)序調(diào)查正在編錄蛋白質(zhì)的序列和結(jié)構(gòu),包含數(shù)十億條序列和數(shù)億個(gè)結(jié)構(gòu),揭示了生命間的變異模式。目前形成了一種共識(shí),即在這些序列之下存在著一種基本的蛋白質(zhì)生物學(xué)語(yǔ)言,可以利用語(yǔ)言模型來(lái)理解。
現(xiàn)已開發(fā)并評(píng)估了多種蛋白質(zhì)序列的語(yǔ)言模型。研究發(fā)現(xiàn),語(yǔ)言模型中涌現(xiàn)的表征反映了蛋白質(zhì)的生物結(jié)構(gòu)和功能,并且這些表征是在無(wú)監(jiān)督情況下學(xué)習(xí)得到的,與這些屬性無(wú)關(guān),隨著規(guī)模的擴(kuò)大而改進(jìn)。在人工智能領(lǐng)域,發(fā)現(xiàn)了預(yù)測(cè)能力隨規(guī)模增長(zhǎng)的縮放定律,描述了計(jì)算、參數(shù)和數(shù)據(jù)的前沿。
論文介紹了ESM3,一種前沿的多模態(tài)生成模型,該模型能夠推理蛋白質(zhì)的序列、結(jié)構(gòu)和功能。ESM3被訓(xùn)練為針對(duì)每種模態(tài)的離散token的生成式掩碼語(yǔ)言模型。通過(guò)將三維原子結(jié)構(gòu)編碼為離散token,而不是采用近期預(yù)測(cè)性和生成性模型中使用的復(fù)雜架構(gòu)和三維空間擴(kuò)散,實(shí)現(xiàn)了結(jié)構(gòu)推理。對(duì)離散token的全對(duì)全建模是可擴(kuò)展的,并允許ESM3根據(jù)其模態(tài)的任意組合進(jìn)行提示,從而實(shí)現(xiàn)對(duì)新蛋白質(zhì)的可控生成,這些新蛋白質(zhì)能夠尊重提示的組合。
ESM3在其最大規(guī)模上,通過(guò)1.07 × 10^24次浮點(diǎn)運(yùn)算(FLOPs)對(duì)27.8億個(gè)蛋白質(zhì)和7710億個(gè)獨(dú)特token進(jìn)行了訓(xùn)練,并擁有980億個(gè)參數(shù)。將ESM3擴(kuò)展到980億參數(shù)規(guī)模,不僅提升了序列、結(jié)構(gòu)和功能的表示能力,還在生成評(píng)估方面取得了改進(jìn)。論文觀察到ESM3對(duì)提示極為敏感,并能創(chuàng)造性地解決復(fù)雜提示組合的問題,包括那些在自然界中找不到匹配結(jié)構(gòu)的問題。所有規(guī)模的模型都可以通過(guò)調(diào)整更好地遵循提示,而較大的模型在調(diào)整后對(duì)提示的響應(yīng)更為顯著,顯示出解決最困難提示的更大能力。
論文報(bào)告了使用ESM3生成的一種新型綠色熒光蛋白(GFP)。熒光蛋白負(fù)責(zé)水母和珊瑚的發(fā)光顏色(29),是現(xiàn)代生物技術(shù)中的重要工具(30)。它們共享一個(gè)優(yōu)雅的結(jié)構(gòu):一個(gè)由十一股β桶和一個(gè)穿過(guò)中心的螺旋組成的結(jié)構(gòu),該結(jié)構(gòu)作為支架,促使蛋白質(zhì)自身原子形成發(fā)光的發(fā)色團(tuán)。這種機(jī)制在自然界中是獨(dú)一無(wú)二的——沒有其他蛋白質(zhì)能自發(fā)地從其自身結(jié)構(gòu)中形成熒光發(fā)色團(tuán)——這表明即使對(duì)于自然界而言,產(chǎn)生熒光也是一項(xiàng)艱巨的挑戰(zhàn)。
論文的新蛋白質(zhì),命名為esmGFP,與水母綠色熒光蛋白(Aequorea victoria GFP)的序列相似度為36%。盡管綠色熒光蛋白作為蛋白質(zhì)工程的目標(biāo)已受到數(shù)十年的廣泛關(guān)注,據(jù)論文所知,如此遠(yuǎn)距離的新型GFP僅通過(guò)自然界中的發(fā)現(xiàn)獲得。
在可預(yù)測(cè)的時(shí)間尺度上,自然界中的GFP經(jīng)歷了類似的多樣化過(guò)程。從這個(gè)角度理解,在現(xiàn)有蛋白質(zhì)如此遠(yuǎn)距離生成新的熒光蛋白似乎等同于模擬超過(guò)5億年的進(jìn)化歷程。
2.2 ESM3
ESM3 模型在蛋白質(zhì)的序列、結(jié)構(gòu)和功能上進(jìn)行推理。這三種模態(tài)均由token表示,并以獨(dú)立軌道形式輸入和輸出,在模型內(nèi)部融合成單一的潛在空間。ESM3 采用生成式掩碼語(yǔ)言建模目標(biāo)進(jìn)行訓(xùn)練:
對(duì)描述蛋白質(zhì)的token x 應(yīng)用隨機(jī)掩碼 m,模型被監(jiān)督以預(yù)測(cè)被掩碼的token身份。在訓(xùn)練過(guò)程中,掩碼采用噪聲調(diào)度采樣,變化掩碼位置的比例,使得ESM3能夠看到多種不同的掩碼序列、結(jié)構(gòu)和功能組合,并從任何其他模態(tài)預(yù)測(cè)任何模態(tài)的完成。這與傳統(tǒng)的掩碼語(yǔ)言建模不同,后者在所有可能的掩碼率上應(yīng)用監(jiān)督,而不是單一固定掩碼率。這種監(jiān)督機(jī)制分解了給定任意先前token組合下所有可能的下一個(gè)token預(yù)測(cè)的概率分布,確保了可以從任意起點(diǎn)以任意順序生成token。
為了從ESM3生成token,token是迭代采樣的。從完全或部分掩碼的上下文開始,token可以在任何順序下逐個(gè)或并行采樣,直到所有位置完全未掩碼。除了實(shí)現(xiàn)生成功能外,ESM3的訓(xùn)練目標(biāo)也適用于表示學(xué)習(xí)。較高的掩碼率提高了生成能力,而較低的掩碼率則提高了表示學(xué)習(xí)的效果。論文選擇使用一種平衡生成能力和表示學(xué)習(xí)的噪聲調(diào)度來(lái)訓(xùn)練ESM3。
ESM3是一個(gè)雙向Transformer模型。序列、結(jié)構(gòu)和功能token在輸入時(shí)嵌入并融合,然后通過(guò)一系列Transformer塊進(jìn)行處理(圖1B)。在模型的輸出端,淺層多層感知器(MLP)頭將最終層表示投影為每個(gè)軌道token的概率。ESM3通過(guò)token化,而不是專門的架構(gòu)組件,來(lái)表示蛋白質(zhì)在學(xué)習(xí)的多元特征空間中的復(fù)雜性。這使得訓(xùn)練既高效又高度可擴(kuò)展。
蛋白質(zhì)結(jié)構(gòu)通過(guò)離散自編碼器進(jìn)行token化處理,該編碼器訓(xùn)練用于將三維結(jié)構(gòu)壓縮為離散token(圖1C)。論文提出了一種不變幾何注意力機(jī)制,以高效處理三維結(jié)構(gòu)。該機(jī)制在每個(gè)氨基酸的鍵幾何結(jié)構(gòu)定義的局部參考框架內(nèi)運(yùn)行,并通過(guò)轉(zhuǎn)換為全局框架,允許局部框架進(jìn)行全局交互。圍繞每個(gè)氨基酸的局部結(jié)構(gòu)鄰域被編碼為一系列離散token,每個(gè)氨基酸對(duì)應(yīng)一個(gè)token。
在預(yù)測(cè)或生成蛋白質(zhì)結(jié)構(gòu)時(shí),ESM3輸出的結(jié)構(gòu)token通過(guò)解碼器傳遞,解碼器重建完整的原子結(jié)構(gòu)。自編碼器訓(xùn)練用于編碼和重建原子坐標(biāo),采用幾何損失函數(shù)監(jiān)督鍵向量和法線的成對(duì)距離及相對(duì)方向。
由于每個(gè)結(jié)構(gòu)token的局部鄰域包含有關(guān)結(jié)構(gòu)鄰近部分的信息,論文還提供了一種機(jī)制,使模型能夠通過(guò)第一個(gè)變換器塊中的幾何注意力直接基于主鏈原子坐標(biāo)進(jìn)行條件化。為了支持結(jié)構(gòu)的高級(jí)抽象,論文包含了二級(jí)結(jié)構(gòu)(SS8)token和溶劑可及表面面積token的軌道。描述生物學(xué)功能的關(guān)鍵詞token,如結(jié)合、酶功能以及域或折疊分類,允許對(duì)蛋白質(zhì)結(jié)構(gòu)和功能進(jìn)行更高層次的語(yǔ)義描述。殘基水平注釋token指示單個(gè)殘基的功能,如催化位點(diǎn)和翻譯后修飾。
圖1。LSM3 是一種生成式語(yǔ)言模型,能夠推理蛋白質(zhì)的序列、結(jié)構(gòu)和功能。(A) 使用ESM3進(jìn)行迭代采樣。生成一個(gè)α/β水解酶。序列、結(jié)構(gòu)和功能均可作為模型的提示。在每個(gè)時(shí)間步 t,一部分被遮蔽的位置會(huì)被采樣,直到所有位置都未被遮蔽。(B) ESM3架構(gòu)。序列、結(jié)構(gòu)和功能在輸入和輸出中表示為離散token的軌跡。模型由一系列變換器塊組成,所有軌跡在一個(gè)單一的潛在空間中融合;第一個(gè)塊中的幾何注意力允許基于原子坐標(biāo)進(jìn)行條件化。ESM3受到監(jiān)督,以預(yù)測(cè)被遮蔽的token。(C) 結(jié)構(gòu)token化。圍繞每個(gè)氨基酸的局部原子結(jié)構(gòu)被編碼成token。(D) 模型在三個(gè)規(guī)模上進(jìn)行訓(xùn)練:1.4億、7億和98億參數(shù)。測(cè)試集上的負(fù)對(duì)數(shù)似然作為訓(xùn)練浮點(diǎn)運(yùn)算次數(shù)的函數(shù),顯示了模型對(duì)每個(gè)輸入軌跡條件化的響應(yīng),隨著浮點(diǎn)運(yùn)算次數(shù)的增加而改進(jìn)。(E) 來(lái)自ESM3 98B的無(wú)條件生成序列(根據(jù)與訓(xùn)練集中最近序列的序列同一性著色),通過(guò)ESM3嵌入,并由UMAP投影,同時(shí)隨機(jī)從UniProt中采樣的序列(以灰色表示)。生成序列多樣性高、質(zhì)量好,并且覆蓋了自然序列的分布
最大的ESM3模型是在從序列和結(jié)構(gòu)數(shù)據(jù)庫(kù)中收集的27.8億個(gè)自然蛋白質(zhì)上進(jìn)行訓(xùn)練的。由于相對(duì)于序列,只有一小部分結(jié)構(gòu)是通過(guò)實(shí)驗(yàn)確定的,論文利用了預(yù)測(cè)的結(jié)構(gòu)。序列通過(guò)使用隱馬爾可夫模型庫(kù)(40)注釋了功能關(guān)鍵詞。論文還為所有結(jié)構(gòu)(包括預(yù)測(cè)的結(jié)構(gòu))生成合成序列,使用了一個(gè)逆折疊模型。總體上,這使得訓(xùn)練數(shù)據(jù)增加到31.5億個(gè)蛋白質(zhì)序列,2.36億個(gè)蛋白質(zhì)結(jié)構(gòu),以及5.39億個(gè)帶有功能注釋的蛋白質(zhì),總計(jì)7710億個(gè)獨(dú)特token。
論文對(duì)ESM3模型進(jìn)行了三種規(guī)模的訓(xùn)練:14億、70億和980億參數(shù)。在一系列初步實(shí)驗(yàn)中,為了評(píng)估架構(gòu)超參數(shù)對(duì)表征學(xué)習(xí)性能的影響,論文發(fā)現(xiàn)增加深度比增加寬度有更大的響應(yīng)。這促使論文選擇了相對(duì)較深的網(wǎng)絡(luò)作為最終架構(gòu),其中980億參數(shù)模型包含了216個(gè)Transformer塊。
將ESM3從1.4億參數(shù)擴(kuò)展到980億參數(shù),在測(cè)試集的所有軌跡上均帶來(lái)了顯著的損失改進(jìn),其中序列損失的改進(jìn)最為顯著(圖1D)。這些測(cè)試損失的提升導(dǎo)致了更好的表征學(xué)習(xí)(表S7和圖S8)。在單序列結(jié)構(gòu)預(yù)測(cè)中,ESM3 98B超越了ESMFold(0.895 vs. 0.865平均局部距離差異測(cè)試,LDDT,CAMEO測(cè)試集;)。從模型中無(wú)提示生成(無(wú)條件生成)的序列產(chǎn)生了高質(zhì)量的蛋白質(zhì)——平均預(yù)測(cè)LDDT(pLDDT)為0.84,預(yù)測(cè)模板建模得分(pTM)為0.52——這些蛋白質(zhì)在序列(平均成對(duì)序列同一性0.155)和結(jié)構(gòu)(平均成對(duì)TM得分0.48)上均具有多樣性,涵蓋了已知蛋白質(zhì)的分布范圍(圖1E,圖S13)。
盡管已有大量研究致力于為蛋白質(zhì)創(chuàng)建專門的架構(gòu)和訓(xùn)練目標(biāo),論文的結(jié)果表明,通過(guò)token化、高效架構(gòu)和掩碼token預(yù)測(cè)實(shí)現(xiàn)的基于語(yǔ)言模型的擴(kuò)展,在表征和生成應(yīng)用中持續(xù)帶來(lái)了改進(jìn)。這種方法使得模型能夠構(gòu)建一個(gè)從數(shù)據(jù)中學(xué)習(xí)的多模態(tài)共享表征空間,而非顯式地硬編碼到其架構(gòu)中,這使得在計(jì)算和數(shù)據(jù)不斷增加的情況下,模型能夠?qū)W習(xí)到一個(gè)越來(lái)越豐富和通用的特征空間。在接下來(lái)的章節(jié)中,論文將展示這種方法在蛋白質(zhì)的可控生成中實(shí)現(xiàn)了高保真度。
2.3 可編程設(shè)計(jì)與ESM3
論文探究了ESM3遵循不同組合復(fù)雜提示的能力。ESM3可以接收來(lái)自其各個(gè)輸入軌跡的指令提示:序列、結(jié)構(gòu)坐標(biāo)、二級(jí)結(jié)構(gòu)(SS8)、可溶性表面積(SASA)以及功能關(guān)鍵詞。這使得提示可以在多個(gè)抽象層次上指定,從原子級(jí)別的結(jié)構(gòu)到描述功能和折疊拓?fù)涞母呒?jí)關(guān)鍵詞。
論文獨(dú)立評(píng)估ESM3在每個(gè)賽道中遵循提示的能力(圖2A)。為每個(gè)賽道構(gòu)建一組提示,使用從自然蛋白質(zhì)中暫時(shí)保留的測(cè)試集。生成的結(jié)果使用ESMFold進(jìn)行評(píng)估,以確保與提示的一致性和結(jié)構(gòu)預(yù)測(cè)的置信度(pTM)。論文為每個(gè)賽道定義了一致性指標(biāo):受限位點(diǎn)RMSD(cRMSD),即提示坐標(biāo)(即主鏈原子的位置)與生成中相應(yīng)坐標(biāo)之間的RMSD;SS3準(zhǔn)確性,提示與生成之間三類二級(jí)結(jié)構(gòu)匹配的殘基比例;SASA ρ,SASA提示與生成相應(yīng)區(qū)域之間的相關(guān)性;以及關(guān)鍵字恢復(fù),InterProScan恢復(fù)的提示關(guān)鍵字比例(40)。在所有賽道中,7B參數(shù)的ESM3找到了遵循提示且結(jié)構(gòu)被ESMFold自信預(yù)測(cè)的解決方案(pTM > 0.8)。
無(wú)條件生成反映了自然蛋白質(zhì)的分布。由于論文觀察到ESM3能夠忠實(shí)地遵循提示,論文推測(cè)提示可以引導(dǎo)模型生成與訓(xùn)練集和自然蛋白質(zhì)不同的蛋白質(zhì)。首先,論文測(cè)試模型遵循分布外提示的能力。論文構(gòu)建了一組結(jié)合SS8和SASA的提示,來(lái)自保留結(jié)構(gòu)(TM < 0.7至訓(xùn)練集)。在這些提示下,盡管模型繼續(xù)生成連貫的球狀結(jié)構(gòu)(平均pTM 0.85 ± 0.03),但與訓(xùn)練集相似度的分布(以TM-score和序列同一性衡量)變得更加新穎(與最近訓(xùn)練集蛋白質(zhì)的平均序列同一性<20%,平均TM-score 0.48 ± 0.09)。為了測(cè)試模型對(duì)超出自然蛋白質(zhì)分布結(jié)構(gòu)的泛化能力,論文使用從人工對(duì)稱蛋白質(zhì)設(shè)計(jì)數(shù)據(jù)集中提取的二級(jí)結(jié)構(gòu)提示,這些設(shè)計(jì)與訓(xùn)練數(shù)據(jù)集中的自然蛋白質(zhì)不同。同樣,ESM3生成了高置信度的生成(pTM > 0.8,pLDDT > 0.8),與訓(xùn)練集中的蛋白質(zhì)在序列和結(jié)構(gòu)上相似度低(序列同一性<20%,TM-score 0.52± 0.10),表明模型可以用于生成與自然界存在高度不同的蛋白質(zhì)序列和結(jié)構(gòu)。
圖2. 使用ESM3進(jìn)行生成式編程。(A) ESM3能夠遵循其輸入軌道的提示。每個(gè)軌道的提示忠誠(chéng)度密度如圖所示。生成結(jié)果與提示保持一致(骨架cRMSD、SS3準(zhǔn)確性、SASA Spearman ρ、關(guān)鍵詞恢復(fù)),并具有高結(jié)構(gòu)預(yù)測(cè)置信度(pTM)。(B) ESM3能夠根據(jù)提示生成在結(jié)構(gòu)(左)和序列(右)上與訓(xùn)練集和自然蛋白質(zhì)不同的蛋白質(zhì)。有提示的生成(藍(lán)色)相對(duì)于無(wú)提示的生成(紅色),在響應(yīng)來(lái)自分布外自然結(jié)構(gòu)(上部面板)和計(jì)算設(shè)計(jì)的對(duì)稱蛋白質(zhì)(下部面板)的提示時(shí),向更新的空間轉(zhuǎn)移。(C) ESM3能夠?yàn)楦鞣N復(fù)雜提示的組合生成創(chuàng)造性解決方案。論文展示了通過(guò)關(guān)鍵詞或二級(jí)結(jié)構(gòu)指定的高級(jí)指令與原子級(jí) motifs 的組合。提示的忠誠(chéng)度通過(guò)與參考結(jié)構(gòu)的相似性(關(guān)鍵詞提示)和全原子RMSD(motif提示)來(lái)展示。解決方案與從中提取motif的支架不同(中位TM-score 0.36± 0.14),對(duì)于許多motifs(例如血清素、鈣、蛋白酶抑制劑和Mcl-1抑制劑結(jié)合位點(diǎn)),論文找不到與包含相同motif的其他蛋白質(zhì)有顯著相似性。(D) 一個(gè)特別具有創(chuàng)造性的行為的例子。ESM3將一種絲氨酸蛋白酶壓縮了33%,同時(shí)保持了活性位點(diǎn)結(jié)構(gòu)
ESM3能夠遵循復(fù)雜的提示,并有能力從不同軌道和不同抽象層次組合提示。為了評(píng)估這一能力,論文向ESM3提供需要解決單個(gè)原子空間協(xié)調(diào)的motifs,包括參與序列中相距較遠(yuǎn)的殘基之間的三級(jí)接觸的原子,如催化中心和配體結(jié)合位點(diǎn)。論文將motif提示與指定折疊架構(gòu)的提示相結(jié)合。對(duì)于每個(gè)獨(dú)特的motif和支架組合,論文生成樣本,直到成功(全原子RMSD < 1.5 AA,包括側(cè)鏈原子的原子坐標(biāo);TM > 0.6 到折疊級(jí)提示的代表性結(jié)構(gòu);SS3 準(zhǔn)確性 > 80% 對(duì)于二級(jí)結(jié)構(gòu)提示;以及對(duì)支架的高置信度,pTM > 0.8,pLDDT > 0.8)。
論文發(fā)現(xiàn)ESM3能夠解決多種此類任務(wù)(圖2C)。它在不恢復(fù)原始支架的情況下完成這一任務(wù)(與參考蛋白的中位TM-score為0.40± 0.109)。在某些情況下,支架來(lái)自于具有相似基序的現(xiàn)有蛋白質(zhì)(例如,為鋅結(jié)合基序設(shè)計(jì)的ESM3-設(shè)計(jì)α螺旋支架與Ni_2+結(jié)合蛋白高度相似,PDB: 5DQW, 5DQY;圖2C,行3列1)。對(duì)于許多基序(例如,血清素、鈣、蛋白酶抑制劑和Mcl-1抑制劑的結(jié)合位點(diǎn)),F(xiàn)oldseek未發(fā)現(xiàn)與其他含有相同基序的蛋白質(zhì)有顯著相似性。在這些情況下,論文觀察到有時(shí)基序被嫁接到完全不同的折疊結(jié)構(gòu)中(例如,β桶中的蛋白酶抑制劑結(jié)合位點(diǎn)基序與膜結(jié)合銅轉(zhuǎn)運(yùn)蛋白最為相似,PDB: 7PGE;圖2C,行3列3)。其他時(shí)候,支架似乎是完全新穎的,例如為Mcl-1抑制劑結(jié)合基序設(shè)計(jì)的α/β蛋白,其結(jié)構(gòu)與PDB、ESMAtlas和AlphaFold數(shù)據(jù)庫(kù)中的所有已知蛋白質(zhì)的相似性都很低(最大TM-score < 0.5;圖2C,行4列1)??傮w而言,生成的解決方案具有高設(shè)計(jì)性,即在使用ESM-IF1(42)進(jìn)行逆折疊和使用ESMFold進(jìn)行重折疊后,能夠自信地恢復(fù)原始結(jié)構(gòu)(中位pTM 0.80± 0.08;scTM 0.96 - 0.04)。
通過(guò)實(shí)驗(yàn)性的提示工程,論文觀察到對(duì)提示特別有創(chuàng)意的響應(yīng)。在這里,論文重點(diǎn)介紹一個(gè)蛋白質(zhì)壓縮的例子(圖2D)。從天然的胰蛋白酶(PDB 1Y3V)開始,論文使用催化三聯(lián)體的序列和坐標(biāo)以及描述胰蛋白酶的功能關(guān)鍵詞進(jìn)行提示,但將總體生成長(zhǎng)度減少了三分之一(從223個(gè)殘基減少到150個(gè)殘基)。ESM3保持了活性部位的協(xié)調(diào)性(全原子RMSD 0.73A)和整體折疊的高設(shè)計(jì)性(pTM 0.84,scTM均值0.97,標(biāo)準(zhǔn)差0.006),盡管序列長(zhǎng)度顯著減少且折疊僅由功能關(guān)鍵詞提示指定。
這些例子展示了ESM3在單獨(dú)或組合使用其輸入軌道中的任何提示時(shí),找到創(chuàng)意解決方案的能力。這種能力使得蛋白質(zhì)設(shè)計(jì)能夠采用理性的方法,通過(guò)生成模型在提示和生物復(fù)雜性之間架起橋梁,從而在從高級(jí)拓?fù)浣Y(jié)構(gòu)到原子坐標(biāo)的各個(gè)抽象層次上提供控制。
2.4 生物學(xué)對(duì)齊
雖然論文觀察到基礎(chǔ)模型性能隨著規(guī)模的增長(zhǎng)而有意義的提升,但更大的模型可能具有論文尚未觀察到的更大潛在能力?;A(chǔ)ESM3模型可以被提示執(zhí)行諸如三級(jí) motif 支架搭建和提示組合等困難任務(wù),盡管這些模型并未針對(duì)這些目標(biāo)進(jìn)行明確優(yōu)化。由于論文評(píng)估生成輸出的屬性——如對(duì)提示的遵守程度或支架的置信度——僅在預(yù)訓(xùn)練期間間接被模型看到,通過(guò)微調(diào)將模型直接對(duì)齊到生成任務(wù)可能會(huì)在更大模型中引發(fā)更大的能力差異。
論文研究了如何將基礎(chǔ)模型對(duì)齊(43, 44)以生成滿足挑戰(zhàn)性提示的蛋白質(zhì)。對(duì)于每個(gè)模型,論文構(gòu)建了一個(gè)包含連續(xù)殘基片段和三級(jí)結(jié)構(gòu)基序(也指定了接觸氨基酸的身份)的主鏈原子坐標(biāo)提示數(shù)據(jù)集。論文為每個(gè)提示生成多個(gè)蛋白質(zhì)序列,并使用ESM3對(duì)每個(gè)序列進(jìn)行折疊,評(píng)分依據(jù)與提示的一致性(主鏈cRMSD)和結(jié)構(gòu)預(yù)測(cè)的置信度(pTM)。高質(zhì)量樣本與低質(zhì)量樣本配對(duì),以構(gòu)建偏好數(shù)據(jù)集。隨后,ESM3通過(guò)偏好優(yōu)化損失(45, 46)進(jìn)行微調(diào),使得模型相對(duì)于低質(zhì)量樣本更傾向于高質(zhì)量樣本。
在調(diào)整每個(gè)基礎(chǔ)模型后,論文評(píng)估它們的絕對(duì)性能,以及生成分布的偏移。論文關(guān)注一系列需要協(xié)調(diào)三級(jí)接觸中殘基主干原子的具有挑戰(zhàn)性的提示。論文評(píng)估生成高質(zhì)量支架(pTM > 0.8)的能力,這些支架能夠以高分辨率(主干cRMSD < 1.5A)遵循提示,使用ESM-Fold進(jìn)行評(píng)估。論文使用從46個(gè)配體結(jié)合基序的保留數(shù)據(jù)集中提取的氨基酸身份和主干原子坐標(biāo)來(lái)提示每個(gè)模型。對(duì)于每個(gè)基序,論文通過(guò)排列殘基順序、改變其在序列中的位置以及改變序列長(zhǎng)度,創(chuàng)建了1024個(gè)提示。每個(gè)提示生成一個(gè)蛋白質(zhì)。每個(gè)基序的1024個(gè)生成結(jié)果用于構(gòu)建一個(gè)無(wú)偏估計(jì)量,估計(jì)在128次生成后解決三級(jí)協(xié)調(diào)任務(wù)的比例。
圖3. 通過(guò)對(duì)齊,解決復(fù)雜任務(wù)的能力隨著規(guī)模增加而增強(qiáng)。ESM3通過(guò)一個(gè)由提示生成構(gòu)建的偏好對(duì)數(shù)據(jù)集來(lái)遵循三級(jí)協(xié)調(diào)提示,其中具有良好得分(高pTM,低cRMSD)的正樣本與得分較差的負(fù)樣本配對(duì)。偏好調(diào)諧損失鼓勵(lì)模型對(duì)正樣本賦予更高的似然。訓(xùn)練后,模型通過(guò)提示包含三級(jí)接觸中殘基的骨架原子坐標(biāo)來(lái)進(jìn)行評(píng)估。(A)論文展示了在128次生成中解決任務(wù)的比例(Pass@128;2個(gè)標(biāo)準(zhǔn)差誤差棒)的微調(diào)效果。隨著模型規(guī)模的擴(kuò)大,兩者之間出現(xiàn)了顯著差距。對(duì)齊響應(yīng)顯示,最大模型中潛藏著解決復(fù)雜任務(wù)的能力。(B)為每個(gè)三級(jí)基序生成的獨(dú)特解決方案數(shù)量(在TM > 0.8 處聚類)。微調(diào)后,對(duì)于成功的配體,通常存在許多獨(dú)特的解決方案。(C)對(duì)于多個(gè)隨機(jī)選擇的配體,基礎(chǔ)模型(左)和對(duì)齊模型(右)在98B規(guī)模上的提示生成密度顯示。對(duì)齊后,生成結(jié)果對(duì)提示的忠實(shí)度(骨架cRMSD)和質(zhì)量(pTM)往往有顯著提升。
對(duì)齊模型解決的協(xié)調(diào)任務(wù)數(shù)量是基礎(chǔ)模型的兩倍(圖3A)。盡管基礎(chǔ)模型在解決任務(wù)的百分比上存在差異(1.4B為9.5%,7 B為19.0%,98B為26.8%;圖3A),但通過(guò)對(duì)齊揭示的能力差異更為顯著(分別從9.5%增加到18.8%,19.0%增加到37.49%,以及26.8%增加到65.5%)。偏好調(diào)優(yōu)模型不僅解決了更大比例的任務(wù),而且在每個(gè)任務(wù)中找到了更多的解決方案,這是通過(guò)不同結(jié)構(gòu)簇的數(shù)量來(lái)評(píng)估的(TM > 0.8,主鏈cRMSD < 1.5 AA,且pTM > 0.8;圖3B)。觀察到ESMFold pTM和主鏈cRMSD在每個(gè)配體結(jié)合基序的分布上發(fā)生了變化(圖3C;圖S17)。在98B規(guī)模上,微調(diào)模型在37個(gè)測(cè)試配體中的46個(gè)上產(chǎn)生了比基礎(chǔ)模型更多的獨(dú)特成功簇,而剩下的9個(gè)配體未被基礎(chǔ)模型或?qū)R模型解決,這表明對(duì)齊幾乎普遍提高了生成蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)的忠實(shí)度和置信度。與僅最大化正樣本似然的監(jiān)督微調(diào)基線相比,偏好調(diào)優(yōu)在所有規(guī)模上都帶來(lái)了更大的改進(jìn)。
論文的實(shí)驗(yàn)揭示了模型規(guī)模之間在能力上存在顯著差異。最大的對(duì)齊模型相對(duì)于對(duì)齊前的基礎(chǔ)模型以及對(duì)齊后的小模型都有了顯著的改進(jìn)。通過(guò)對(duì)齊,模型學(xué)會(huì)了從少量示例中進(jìn)行泛化:生成的分布發(fā)生了變化,以提高支架的質(zhì)量和與提示的一致性,增加了解決任務(wù)的比例和不同解決方案的數(shù)量。
對(duì)齊要求模型通過(guò)示例進(jìn)行學(xué)習(xí)。模型能夠識(shí)別微調(diào)示例所展示的底層屬性,并將這些演示泛化到新任務(wù)中,這意味著微調(diào)能夠訪問這些屬性的內(nèi)部表示。這個(gè)表示空間是通過(guò)預(yù)訓(xùn)練過(guò)程學(xué)習(xí)的,其中模型在跨越進(jìn)化的蛋白質(zhì)上進(jìn)行訓(xùn)練,這表明它反映了并包含了蛋白質(zhì)生物學(xué)的巨大多樣性和復(fù)雜性。這樣的表示空間很可能包含支持多種生物屬性泛化的特征。較大模型對(duì)對(duì)齊的更高響應(yīng)性表明,它們的內(nèi)部表示空間更好地近似于那些底層屬性,這是通過(guò)預(yù)訓(xùn)練中學(xué)習(xí)的特征實(shí)現(xiàn)深度遷移能力的證據(jù),這種能力隨著規(guī)模的增加而提高。
2.5 生成一種新的熒光蛋白
論文試圖理解基礎(chǔ)預(yù)訓(xùn)練的ESM3模型是否具有足夠的生物學(xué)保真度來(lái)生成功能性蛋白質(zhì)。論文著手創(chuàng)建一種與現(xiàn)有熒光蛋白序列相似度低的、具有功能性的綠色熒光蛋白(GFP)。論文選擇熒光功能,因?yàn)樗y以實(shí)現(xiàn),易于測(cè)量,并且是大自然中最美麗的機(jī)制之一。
負(fù)責(zé)水母熒光和珊瑚鮮艷色彩的GFP家族蛋白,具有獨(dú)特的生物學(xué)特性。
圖4. 通過(guò)思維鏈生成新型熒光蛋白。(A) 論文向ESM3提供了形成和催化發(fā)色團(tuán)反應(yīng)所需的殘基序列和結(jié)構(gòu),以及天然GFP中心α螺旋的一部分結(jié)構(gòu)(左)。通過(guò)思維鏈,ESM3生成了設(shè)計(jì)候選方案(右)。(B) ESM3在兩次實(shí)驗(yàn)中找到了一個(gè)在亮度上遠(yuǎn)離其他已知GFP的亮GFP。論文在E大腸桿菌裂解液中測(cè)量了熒光。頂部行,平板照片。底部行,平板閱讀器熒光定量。已知GFP的陽(yáng)性對(duì)照用紫色圓圈token,無(wú)GFP序列或無(wú)E大腸桿菌的陰性對(duì)照用紅色圓圈token。在第一次實(shí)驗(yàn)(左)中,論文表達(dá)了具有一系列序列同一性的設(shè)計(jì)。一個(gè)與已知熒光蛋白序列同一性較低(57%)的顯著設(shè)計(jì)出現(xiàn)在token為B8的孔中(底部黑圈,頂部白圈)。論文繼續(xù)從B8中的蛋白質(zhì)進(jìn)行第二次實(shí)驗(yàn)(右)。一個(gè)亮設(shè)計(jì)出現(xiàn)在token為C10的孔中(與已知熒光蛋白序列同一性為58%,底部黑圈,頂部白圈),論文將其命名為esmGFP。(C) esmGFP表現(xiàn)出與常見GFP相似的熒光強(qiáng)度。實(shí)驗(yàn)2中部分蛋白質(zhì)的歸一化熒光顯示。(D) esmGFP的激發(fā)和發(fā)射光譜與EGFP的光譜疊加。(E) esmGFP預(yù)測(cè)結(jié)構(gòu)的中心α螺旋和β桶內(nèi)部的兩個(gè)切割視圖。esmGFP相對(duì)于其最近鄰tagRFP的96個(gè)突變以藍(lán)色顯示。(F) 跨分類群熒光蛋白序列同一性的累積密度。esmGFP與其他FP的相似度通常在比較不同目之間的序列時(shí)發(fā)現(xiàn),但在同一類別內(nèi)。(G) 三個(gè)示例珊瑚GFP和esmGFP的進(jìn)化距離(以百萬(wàn)年為單位)和序列同一性。(H) 根據(jù)GFP序列同一性估計(jì)的進(jìn)化距離(以百萬(wàn)年為單位)。論文估計(jì)esmGFP與最接近的已知蛋白質(zhì)相距超過(guò)5億年的自然進(jìn)化
在無(wú)需輔因子或底物的情況下形成熒光發(fā)色團(tuán)的能力(30)。這一特性使得GFP序列能夠被插入到其他生物的基因組中,用于可視化token分子、細(xì)胞結(jié)構(gòu)或過(guò)程,提供了一個(gè)在生物科學(xué)領(lǐng)域廣泛應(yīng)用的基礎(chǔ)工具包。
GFP家族已成為數(shù)十年來(lái)蛋白質(zhì)工程研究的重點(diǎn),但功能變體的多樣性絕大多數(shù)仍源自對(duì)自然界的探索。理性設(shè)計(jì)和突變技術(shù)已產(chǎn)生具有改進(jìn)特性的GFP序列——如更高的亮度或穩(wěn)定性,或不同顏色的變體——這些變體通常只包含少量突變(通常為5到15個(gè),總共238個(gè)氨基酸編碼序列)。在少數(shù)情況下,借助高通量實(shí)驗(yàn)和機(jī)器學(xué)習(xí),科學(xué)家能夠在保留熒光特性的同時(shí)引入多達(dá)40-50個(gè)突變(即80%序列同一性)(48-50)。
生成新的GFP需要實(shí)現(xiàn)其熒光特性背后的復(fù)雜生物化學(xué)和物理過(guò)程。所有GFP中,一個(gè)自催化過(guò)程在蛋白質(zhì)核心的三種關(guān)鍵氨基酸之間形成發(fā)色團(tuán)。GFP獨(dú)特的結(jié)構(gòu),即一個(gè)彎曲的中央α螺旋被具有向內(nèi)協(xié)調(diào)殘基的十一股β桶包圍,促成了這一反應(yīng)。形成后,發(fā)色團(tuán)不僅需要吸收光,還必須發(fā)射光以實(shí)現(xiàn)熒光。光發(fā)射對(duì)發(fā)色團(tuán)周圍的局部電子環(huán)境極為敏感。GFP的適應(yīng)度景觀反映了實(shí)現(xiàn)其功能所需的活性位點(diǎn)和周圍三級(jí)相互作用的精確配置,因?yàn)樯贁?shù)隨機(jī)突變就足以將熒光降低至零。
為了生成新的GFP序列,論文直接引導(dǎo)基礎(chǔ)預(yù)訓(xùn)練的7B參數(shù)ESM3模型,以Thr62、Thr65、Tyr66、Gly67、Arg96、Glu222這些對(duì)形成和催化發(fā)色團(tuán)反應(yīng)至關(guān)重要的殘基為條件,生成一個(gè)229殘基的蛋白質(zhì)(圖4A)。此外,論文還以1 QY3實(shí)驗(yàn)結(jié)構(gòu)中58至71殘基的結(jié)構(gòu)為條件,這些殘基已知對(duì)發(fā)色團(tuán)結(jié)構(gòu)能的穩(wěn)定性具有重要影響(53)。具體而言,輸入包括序列token、結(jié)構(gòu)token以及骨架原子坐標(biāo),生成過(guò)程從一個(gè)幾乎完全被遮蔽的229殘基token數(shù)組開始,除了用于條件的token位置。
論文采用以下思維鏈過(guò)程生成設(shè)計(jì):模型首先生成結(jié)構(gòu)token,有效創(chuàng)建蛋白質(zhì)骨架。具有活性位點(diǎn)充分良好原子協(xié)調(diào)但與1QY3骨架整體結(jié)構(gòu)有所差異的骨架通過(guò)篩選進(jìn)入鏈?zhǔn)竭^(guò)程的下一步。論文將生成的結(jié)構(gòu)添加到原始提示中,以新提示為條件生成序列。隨后進(jìn)行迭代聯(lián)合優(yōu)化,交替優(yōu)化序列和結(jié)構(gòu)。論文拒絕那些失去活性位點(diǎn)原子協(xié)調(diào)的思維鏈。論文從生成協(xié)議的迭代聯(lián)合優(yōu)化階段的中間和最終點(diǎn)抽取數(shù)十萬(wàn)個(gè)候選GFP設(shè)計(jì)。論文根據(jù)與已知熒光蛋白的序列相似性對(duì)設(shè)計(jì)進(jìn)行分類,并利用多種指標(biāo)進(jìn)行篩選和排序。
論文進(jìn)行了一項(xiàng)初步實(shí)驗(yàn),涉及96孔板上的88種設(shè)計(jì),評(píng)估了每個(gè)序列相似性桶中的頂級(jí)代。每個(gè)生成的蛋白質(zhì)都被合成,在E大腸桿菌中表達(dá),并在485 nm激發(fā)波長(zhǎng)下測(cè)量其熒光活性(圖4B左側(cè))。論文測(cè)量了一些設(shè)計(jì)的亮度,這些設(shè)計(jì)與天然存在的GFP具有更高的序列同一性,其亮度與陽(yáng)性對(duì)照相似。論文還識(shí)別了一個(gè)位于B8孔的設(shè)計(jì)(以黑色圓圈高亮顯示),其與1QY3序列的序列同一性僅為36%,與最近的現(xiàn)有熒光蛋白tagRFP的序列同一性為57%。該設(shè)計(jì)的亮度比天然GFP低50倍,且其發(fā)色團(tuán)成熟過(guò)程需要一周時(shí)間,而非不到一天,但它在新的一部分序列空間中表現(xiàn)出功能信號(hào),據(jù)論文所知,這在自然界或通過(guò)蛋白質(zhì)工程尚未發(fā)現(xiàn)。
論文繼續(xù)從B8孔設(shè)計(jì)的序列出發(fā),通過(guò)相同的迭代聯(lián)合優(yōu)化和排序程序,生成亮度提高的蛋白質(zhì)。論文創(chuàng)建了第二塊96孔板的設(shè)計(jì),并使用相同的板讀取器測(cè)定法發(fā)現(xiàn),這一批次中的少數(shù)設(shè)計(jì)具有與自然界中發(fā)現(xiàn)的GFP相當(dāng)?shù)牧炼取5诙K板上位于C10孔的最佳設(shè)計(jì)(圖4B右側(cè)),論文將其命名為esmGFP。
論文發(fā)現(xiàn)esmGFP在天然GFP的亮度分布中表現(xiàn)出色。論文評(píng)估了在色團(tuán)成熟第0天、第2天和第7天的熒光強(qiáng)度,并將這些測(cè)量結(jié)果繪制為esmGFP、B8的重復(fù)、B8的色團(tuán)敲除變體,以及三種天然GFP(avGFP、cgreGFP、ppluGFP)的圖表(圖4C)。esmGFP比論文測(cè)量的已知GFP成熟時(shí)間更長(zhǎng),但在兩天后達(dá)到相當(dāng)?shù)牧炼取榱蓑?yàn)證熒光是通過(guò)預(yù)期的Thr65和Tyr66介導(dǎo)的,論文展示了當(dāng)這些殘基被突變?yōu)楦拾彼釙r(shí),B8和esmGFP變體失去了熒光活性(圖S21)。
盡管兩種蛋白質(zhì)的發(fā)射峰值均為512 nm(圖4D)。光譜形狀表明,esmGFP的激發(fā)光譜的半峰全寬(FWHM)更窄(esmGFP為39 nm,而EGFP為56 nm),而它們的發(fā)射光譜的FWHM高度可比(分別為35 nm和39 nm)??傮w而言,esmGFP表現(xiàn)出與已知GFP一致的光譜特性。
接下來(lái),論文試圖了解esmGFP與已知蛋白質(zhì)的比較情況。通過(guò)非冗余蛋白質(zhì)序列數(shù)據(jù)庫(kù)的BLAST(54)搜索和ESM3訓(xùn)練集的MMseas(55)搜索,報(bào)告的相同最高命中是tagRFP,這也是B8的最近鄰,具有58%的序列同一性,代表序列中共有96個(gè)突變。tagRFP是一種設(shè)計(jì)變體,而從自然界中與esmGFP最接近的野生型序列是eqFP578,一種紅色熒光蛋白,與esmGFP在107個(gè)序列位置上有所不同(53%同一性)。esmGFP與tagRFP之間的序列差異在整個(gè)結(jié)構(gòu)中都有發(fā)生(圖4E),其中22個(gè)突變發(fā)生在蛋白質(zhì)內(nèi)部,由于發(fā)色團(tuán)接近和高密度相互作用,該區(qū)域已知對(duì)突變高度敏感(56)。
對(duì)648種自然和設(shè)計(jì)GFP樣熒光蛋白的序列比對(duì)分析顯示,esmGFP與其他所有FPs的相似度水平通常在跨分類目比較序列時(shí)發(fā)現(xiàn),但在同一分類綱內(nèi)(圖4F)。例如,esmGFP與其他FPs的差異程度類似于石珊瑚目(石珊瑚)和??浚ê?┻@兩個(gè)都屬于海洋無(wú)脊椎動(dòng)物中更大的綱——珊瑚綱的FPs之間的差異水平(圖4G)。與esmGFP最接近的FPs來(lái)自珊瑚綱(珊瑚和??黄骄蛄型恍?1.4%),但esmGFP也與水螅綱(水母)中的FPs共享一定程度的序列同一性,其中avGFP被發(fā)現(xiàn)(平均序列同一性33.4%)。
論文可以從進(jìn)化生物學(xué)中獲得啟示,了解通過(guò)自然進(jìn)化產(chǎn)生具有相似序列同一性的蛋白質(zhì)所需的時(shí)間。在圖4G中,論文將esmGFP與三種刺胞動(dòng)物的GFP并列展示。論文利用對(duì)刺胞動(dòng)物進(jìn)行的時(shí)間校準(zhǔn)系統(tǒng)發(fā)育分析(參考文獻(xiàn)5),估計(jì)了這些物種之間進(jìn)化時(shí)間的百萬(wàn)年前(MYA)至最近共同祖先的時(shí)間。使用包含六個(gè)刺胞動(dòng)物GFP和物種的數(shù)據(jù)集,這些物種的最近共同祖先的MYA和GFP序列同一性準(zhǔn)確,論文構(gòu)建了一個(gè)簡(jiǎn)單的估計(jì)器,將FP之間的序列同一性與物種之間的進(jìn)化時(shí)間(MY)相關(guān)聯(lián)(圖4H),以校準(zhǔn)自然進(jìn)化?;诖朔治?,論文估計(jì)esmGFP代表了超過(guò)5億年的進(jìn)化等效時(shí)間。
本文轉(zhuǎn)載自 ??AI帝國(guó)??,作者: 無(wú)影寺
