自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

模擬5億年自然進(jìn)化史,全新蛋白質(zhì)大模型ESM3誕生!前Meta老將力作LeCun轉(zhuǎn)贊

人工智能 新聞
能抗衡AlphaFold 3的生命科學(xué)大模型終于出現(xiàn)了。初創(chuàng)公司Evolutionary Scale AI發(fā)布了他們最新的98B參數(shù)蛋白質(zhì)語言模型ESM3。不僅支持序列、結(jié)構(gòu)、功能的all-to-all推理,團(tuán)隊(duì)還在實(shí)驗(yàn)中發(fā)現(xiàn),它設(shè)計(jì)的新蛋白質(zhì)相當(dāng)于模擬自然界5億年的進(jìn)化。

繼AlphaFold 3更新后,我們又看到了一個(gè)生命科學(xué)領(lǐng)域的大模型ESM3。

模型開發(fā)團(tuán)隊(duì)來自于名為Evolutionary Scale AI的初創(chuàng)公司,團(tuán)隊(duì)負(fù)責(zé)人Alex Rives在推特上官宣了模型發(fā)布的消息。

圖片

這個(gè)令人振奮的消息也得到了Yann LeCun的轉(zhuǎn)發(fā),他表示,你們這個(gè)公司有點(diǎn)「悶聲發(fā)大財(cái)」的意思。

圖片

相比AlphaFold系列,ESM3有什么競爭優(yōu)勢?

首先就是Meta團(tuán)隊(duì)輕車熟路的——開源。

圖片

雖然模型API仍處于內(nèi)測階段,需要申請(qǐng)?jiān)囉觅Y格,但模型代碼已經(jīng)放到了GitHub上。而且公司還會(huì)與AWS和英偉達(dá)云計(jì)算平臺(tái)合作,方便開發(fā)者使用和部署。

圖片

倉庫地址:https://github.com/evolutionaryscale/esm

但比較遺憾的是,目前在HuggingFace倉庫中還沒有公開模型權(quán)重。英偉達(dá)官方博客顯示,ESM3將在Nvidia BieNeMo平臺(tái)提供一個(gè)小型開源版本的代碼和權(quán)重,但僅限于非商業(yè)用途。

圖片

倉庫地址:https://huggingface.co/EvolutionaryScale/esm3-sm-open-v1/tree/main

此外,ESM3與不同于模擬多種生物分子的AlphaFold 3,只專注于蛋白質(zhì),但可以同時(shí)推理其序列、結(jié)構(gòu)和功能,這種多模態(tài)能力屬于領(lǐng)域首創(chuàng)。

更讓人耳目一新的是,ESM3在自然界中27.8億個(gè)多樣化蛋白質(zhì)上進(jìn)行訓(xùn)練,逐漸學(xué)習(xí)到了進(jìn)化過程如何讓蛋白質(zhì)發(fā)生變化。

從這個(gè)角度來看,ESM的推理過程可以被視為「進(jìn)化模擬器」,這為當(dāng)前的生命科學(xué)研究開辟了全新的視角。團(tuán)隊(duì)甚至在官網(wǎng)文章中提出了「模擬5億年進(jìn)化」的標(biāo)語。

或許你已經(jīng)注意到了,ESM這個(gè)名字和Meta之前的蛋白質(zhì)模型ESMFold非常類似。

這并不是有意擦邊。事實(shí)上,Evolutionary Scale這家初創(chuàng)公司就是Meta-FAIR蛋白質(zhì)小組的前成員創(chuàng)辦的,公司的首席科學(xué)家Alex Rives正是這個(gè)已解散團(tuán)隊(duì)的前負(fù)責(zé)人。

圖片

去年8月,在Meta的「效率年」中,扎克伯格選擇解散了只有十幾名科學(xué)家的蛋白質(zhì)小組,讓公司專注于更有盈利前景的研究。

圖片

但Rives并沒有被Meta的這種舉動(dòng)嚇倒,而是決定自立門戶,他們目前已經(jīng)籌集了1.42億美元的種子資金。

那么就來仔細(xì)看看,這次的ESM3具體有哪些新內(nèi)容?

圖片

ESM3:生物學(xué)的前沿語言模型

生命科學(xué)并不像我們想象的那般神秘莫測、不可捉摸。

蛋白質(zhì)分子雖然有難以置信的多樣性和動(dòng)態(tài)變化,但是它的合成遵循嚴(yán)密的算法與流程。如果把它看成一門技術(shù),其先進(jìn)程度遠(yuǎn)遠(yuǎn)超過任何人類創(chuàng)造的工程。

生物學(xué),就是一個(gè)厚厚的密碼本。

只不過,這個(gè)密碼本是用我們尚未理解的語言寫就的,即使是當(dāng)今最強(qiáng)超算上運(yùn)行的工具也不過觸及皮毛。

如果人類能夠閱讀,甚至是書寫「生命代碼」,就能使生物學(xué)變得可編程。試錯(cuò)法將被邏輯取代,費(fèi)力的實(shí)驗(yàn)將被模擬所取代。

ESM3就是朝這個(gè)宏偉愿景邁出的一步,是迄今為止首個(gè)能同時(shí)對(duì)蛋白質(zhì)的序列、結(jié)構(gòu)和功能進(jìn)行推理的生成模型。

過去五年中LLM的突飛猛進(jìn),也讓ESM團(tuán)隊(duì)發(fā)現(xiàn)了Scaling Law的威力,他們發(fā)現(xiàn),同樣的模式也適用于生物學(xué)。

隨著訓(xùn)練數(shù)據(jù)以及參數(shù)規(guī)模的擴(kuò)大,模型會(huì)加深對(duì)生物學(xué)基本原理的理解,并能更好地預(yù)測、設(shè)計(jì)生物結(jié)構(gòu)和功能。

因此,ESM3的開發(fā)思路也與Scaling Law一脈相承,其規(guī)模比上一代ESM大大擴(kuò)展,數(shù)據(jù)量提高了60倍,訓(xùn)練計(jì)算量提高了25倍,并且是具有原生多模態(tài)的生成模型。

ESM3的訓(xùn)練過程囊括了地球自然環(huán)境的多樣性——數(shù)十億種蛋白質(zhì),從亞馬遜雨林到海洋深處,小到土壤中的微生物,極端到深海熱泉。

HuggingFace上的模型卡顯示,訓(xùn)練集中天然蛋白質(zhì)數(shù)量達(dá)到27.8億,并通過合成數(shù)據(jù)增強(qiáng)到31.5億個(gè)序列、2.36個(gè)結(jié)構(gòu)以及5.39億個(gè)帶有功能注釋的蛋白質(zhì),token總數(shù)達(dá)到7710B。

模型訓(xùn)練參數(shù)總量達(dá)到98B,使用了超過1024 FLOPS的算力。團(tuán)隊(duì)似乎與英偉達(dá)緊密合作,訓(xùn)練使用了Andromeda集群,是當(dāng)今吞吐量最高的GPU集群之一,部署了最先進(jìn)的H100 GPU和Quantum-2 InfiniBand網(wǎng)絡(luò)。

圖片

網(wǎng)頁來源:https://andromeda.ai/

他們表示「相信ESM3的計(jì)算總量是有史以來生物模型之最」。

推理蛋白質(zhì)的序列、結(jié)構(gòu)和功能

處理文本的語言模型一般以token作為基本單位,但多模態(tài)的蛋白質(zhì)模型更加復(fù)雜,需要將序列、三維結(jié)構(gòu)和功能都轉(zhuǎn)換為離散的字母進(jìn)行表示。

為了更好地?cái)U(kuò)展訓(xùn)練規(guī)模、釋放模型的「涌現(xiàn)」生成潛力,ESM3使用的詞匯在同一語言模型中能夠很好地連接序列、結(jié)構(gòu)和功能,進(jìn)行聯(lián)合推理。

不同于GPT等語言模型,ESM3的訓(xùn)練目標(biāo)繼承于掩碼語言模型(masked language modeling objective)。

每個(gè)蛋白質(zhì)的序列、結(jié)構(gòu)、和功能的部分位置會(huì)被掩碼,模型在訓(xùn)練過程中需要逐漸理解三者之間的深層聯(lián)系,從而預(yù)測掩碼位置。如果遮蔽所有位置的標(biāo)記,就相當(dāng)于執(zhí)行生成任務(wù)。

圖片

由于在蛋白質(zhì)的序列、結(jié)構(gòu)和功能上聯(lián)合訓(xùn)練,對(duì)這三種模態(tài)可以任意進(jìn)行掩碼和預(yù)測,因此ESM3實(shí)現(xiàn)了「全對(duì)全」預(yù)測或生成(all to all)。

也就是說,模型的輸入可以是部分或完全指定的三種模態(tài)的任意組合。這種強(qiáng)大的多模態(tài)推理能力有很強(qiáng)的應(yīng)用價(jià)值,科學(xué)家們能以前所未有的靈活度和控制度設(shè)計(jì)全新的蛋白質(zhì)。

比如,可以提示模型結(jié)合結(jié)構(gòu)、序列和功能,提出PET酶活性位點(diǎn)的潛在支架結(jié)構(gòu)。PET是一種常用的塑料,如果PET酶設(shè)計(jì)成功,就能用于高效分解塑料廢物。

圖片

ESM3通過序列、結(jié)構(gòu)和功能的多模態(tài)提示設(shè)計(jì)PET酶活性位點(diǎn)的支架

Evolutionary Scale的聯(lián)合創(chuàng)始人兼兼工程副總裁Tom Sercu表示,在內(nèi)部測試中,ESM在應(yīng)對(duì)各種復(fù)雜提示時(shí)表現(xiàn)出了令人印象深刻的創(chuàng)造力。

「它能夠解決一個(gè)極其困難的蛋白質(zhì)設(shè)計(jì)問題,創(chuàng)造一種新型綠色熒光蛋白。ESM3能夠幫助科學(xué)家加速工作,開辟新的可能性——我們期待看到它在未來對(duì)生命科學(xué)研究的貢獻(xiàn)。」

當(dāng)數(shù)十億個(gè)蛋白質(zhì)來自進(jìn)化時(shí)間軸上的不同位置,具有豐富的多樣性時(shí),模型還能學(xué)到模擬進(jìn)化的能力。

能力隨規(guī)模涌現(xiàn)

正如LLM在規(guī)模擴(kuò)展中「涌現(xiàn)」出了語言理解、推理等能力,在解決有挑戰(zhàn)性的蛋白質(zhì)設(shè)計(jì)任務(wù)時(shí),ESM3也隨規(guī)模增加逐漸顯現(xiàn)能力,其中一個(gè)重要的能力就是原子級(jí)協(xié)調(diào)。

比如,提示中可能指定組成蛋白質(zhì)的兩個(gè)氨基酸需要在序列位置上相近,但在結(jié)構(gòu)中相距較遠(yuǎn)。這衡量了模型在結(jié)構(gòu)生成任務(wù)中達(dá)到原子級(jí)精度的能力。

這對(duì)于設(shè)計(jì)功能性蛋白質(zhì)至關(guān)重要,而ESM3解決這類復(fù)雜生成任務(wù)的能力可以隨著規(guī)模增加逐漸提高。

不僅如此,在訓(xùn)練完成后,ESM3的能力還有進(jìn)一步提升的空間,其機(jī)制類似于LLM常用的RLHF方法。

但區(qū)別在于,ESM3并不是從人類那里接受反饋,而是可以評(píng)估自身的生成質(zhì)量,進(jìn)行自我改進(jìn),也可以結(jié)合已有的實(shí)驗(yàn)數(shù)據(jù)和濕實(shí)驗(yàn)結(jié)果,讓ESM3的生成與生物學(xué)結(jié)果保持對(duì)齊。

圖片

模型生成能力隨規(guī)模增長,且微調(diào)的提升效果明顯

模擬5億年的進(jìn)化

在發(fā)表的論文中,ESM3團(tuán)隊(duì)詳細(xì)介紹了他們在模型上觀察到的「模擬進(jìn)化」功能。

圖片

論文地址:https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf

綠色熒光蛋白(Green Fluorescent Protein,GFP)及其熒光蛋白家族是自然界中最美麗的蛋白質(zhì)之一,但它們只存在于「生命之樹」的幾個(gè)分支中。

但GFP不僅僅是美麗而已,它包含一種熒光發(fā)色團(tuán)(fluorescent chromophore)。這種分子可以吸收短波長的單色光子、捕獲部分能量,再釋放出波長較長的另一種單色光子。比如,自然界存在的GFP可以吸收藍(lán)光并發(fā)出綠光。

圖片

由于這種特性,GFP能夠作為標(biāo)記,幫助科學(xué)家在細(xì)胞內(nèi)觀察蛋白質(zhì),成為了生物學(xué)中最廣泛使用的工具之一,GFP的發(fā)現(xiàn)也因此獲得了諾貝爾獎(jiǎng)。

GFP的功能如此獨(dú)特且有用,結(jié)構(gòu)也是非常罕見:由十一條鏈組成的桶狀結(jié)構(gòu),中間穿過一條螺旋。折疊后進(jìn)行自發(fā)反應(yīng),在蛋白質(zhì)中心的分子會(huì)重新排列,產(chǎn)生熒光發(fā)色團(tuán)。

這種機(jī)制是獨(dú)一無二的。沒有其他已知的蛋白質(zhì)能夠自發(fā)地從其自身結(jié)構(gòu)中形成熒光發(fā)色團(tuán),這表明即使在自然界中,產(chǎn)生熒光也是相當(dāng)罕見且困難的。

為了能在實(shí)驗(yàn)室有更廣泛的應(yīng)用,科學(xué)家們嘗試添加突變或改變顏色,進(jìn)行人工合成。最新的機(jī)器學(xué)習(xí)技術(shù)能夠搜索到序列差異高達(dá)20%的變體,但功能性GFP的主要來源依舊是自然界而非蛋白質(zhì)工程。

想在自然界中找到更多的變體也并不簡單,因?yàn)樾聼晒獾鞍椎倪M(jìn)化需要漫長的時(shí)間——GFP所屬家族的歷史相當(dāng)久遠(yuǎn),它們從祖先序列中分化出來的時(shí)間點(diǎn)能追溯到數(shù)億年前。

這個(gè)棘手的問題或許能在ESM3這里得到解決。

將天然GFP核心結(jié)構(gòu)中幾個(gè)位點(diǎn)的信息作為提示,并使用CoT技巧,ESM3成功生成了新型GFP的候選者。

這種生成絕不可能是隨機(jī)撞大運(yùn)或者是全局搜索,因?yàn)榭赡艿男蛄泻徒Y(jié)構(gòu)的組合起來會(huì)達(dá)到天文數(shù)字——20229 x 4096229 ,比可見宇宙中所有的原子數(shù)加起來還要多。

在首次實(shí)驗(yàn)中,團(tuán)隊(duì)測試了ESM3生成的96個(gè)候選蛋白,其中出現(xiàn)了成功的發(fā)光樣本,而且存在一種十分獨(dú)特的結(jié)構(gòu),與自然界中任何蛋白質(zhì)都相差甚遠(yuǎn)。

在另一組96個(gè)候選樣本中,發(fā)現(xiàn)了幾種亮度與天然GFP相似的蛋白質(zhì),其中一種亮度最高的蛋白質(zhì)被命名為esmGFP,與最接近的天然熒光蛋白相比有96個(gè)突變(在229個(gè)氨基酸組成的序列中,有58%的相似部分)。

圖片

左側(cè)是與所有已知GFP都相差較大的生成物B8,從B8開始,ESM3生成了右圖的esmGFP

與自然進(jìn)化不同,蛋白質(zhì)語言模型并不在進(jìn)化約束內(nèi)明確工作。

但為了讓ESM3解決其預(yù)測下一個(gè)掩碼token的訓(xùn)練任務(wù),模型必須學(xué)習(xí)進(jìn)化如何在潛在蛋白質(zhì)空間中演變。

從這個(gè)意義上說,ESM3生成與天然蛋白十分相似的esmGFP的過程,可以被視為一種進(jìn)化模擬器。

對(duì)esmGFP進(jìn)行傳統(tǒng)的進(jìn)化分析是自相矛盾的,因?yàn)樗窃谧匀贿^程之外創(chuàng)造的,但仍可以從進(jìn)化生物學(xué)的工具中獲得洞見,了解一個(gè)蛋白質(zhì)通過自然進(jìn)化與其最近的序列鄰居分化所需的時(shí)間。

因此,研究團(tuán)隊(duì)使用進(jìn)化生物學(xué)的方法,把esmGFP當(dāng)成自然界新發(fā)現(xiàn)的蛋白質(zhì)進(jìn)行分析。他們估計(jì),esmGFP等效于進(jìn)化模擬器執(zhí)行的超過 5 億年的自然進(jìn)化。

圖片

esmGFP的渲染圖

開放模型

自成立以來,ESM項(xiàng)目(ESM project)一直致力于通過發(fā)布代碼和模型來實(shí)現(xiàn)開放科學(xué)。目前仍能在GitHub和HuggingFace上找到團(tuán)隊(duì)在幾年前發(fā)布的代碼和模型權(quán)重。

圖片

倉庫地址:https://huggingface.co/facebook/esm2_t36_3B_UR50D/tree/main

看到ESM模型在研究和工業(yè)領(lǐng)域的創(chuàng)造性和有影響力的應(yīng)用,可謂是令人驚嘆:

- Hie等人使用ESM-1v和ESM-1b來進(jìn)化抗體,改善了結(jié)合親和力、熱穩(wěn)定性和病毒中和等治療相關(guān)特性。

- BioNTech和InstaDeep微調(diào)了一個(gè)ESM語言模型,用于檢測COVID刺突蛋白中的變異,成功地在WHO指定之前標(biāo)記了所有16種關(guān)注變異。

- Brandes等人使用ESM-1b來預(yù)測突變的臨床效果,目前這仍是完成該重要任務(wù)的最強(qiáng)方法。

- Marsiglia等人使用ESM-1v來設(shè)計(jì)新的抗CRISPR蛋白變體,這些變體在保持目標(biāo)編輯功能的同時(shí),減少了對(duì)非目標(biāo)副作用。

- Shanker等人使用ESM-IF1引導(dǎo)多樣蛋白的進(jìn)化,包括實(shí)驗(yàn)室驗(yàn)證的對(duì)SARS-CoV-2高效抗體。

- Yu等人微調(diào)了ESM-1b來預(yù)測酶的功能,包括稀有和研究不足的酶,并通過實(shí)驗(yàn)驗(yàn)證了預(yù)測結(jié)果。

- Rosen等人使用ESM2嵌入來構(gòu)建單細(xì)胞基礎(chǔ)模型中的基因表示。

- H?ie等人微調(diào)了ESM-IF1在抗體結(jié)構(gòu)上的表現(xiàn),在CDR區(qū)域的序列恢復(fù)中達(dá)到了最先進(jìn)的性能,設(shè)計(jì)出了高結(jié)合親和力的抗體。

而這些,只是建立在ESM平臺(tái)上的驚人工作的一小部分!

如今,團(tuán)隊(duì)正式宣布,將發(fā)布一個(gè)ESM3 1.4B參數(shù)版本的權(quán)重和代碼,以便科學(xué)家和開發(fā)人員能夠基于ESM3的理念和架構(gòu)進(jìn)行構(gòu)建。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-02-04 11:11:07

2022-12-23 15:04:33

Meta模型

2022-11-02 13:41:46

2024-09-18 13:16:46

2022-07-22 14:49:37

語言模型DeepMindAlphaFold2

2023-02-06 08:55:12

學(xué)習(xí)語言模型

2021-07-24 10:21:46

模型人工智能深度學(xué)習(xí)

2022-12-25 13:36:47

論文

2023-07-06 16:59:56

英特爾

2023-10-04 09:23:21

微軟開發(fā)

2023-07-06 13:23:49

2023-08-08 10:17:16

人工智能

2022-11-02 13:42:08

AI語言模型

2023-03-03 14:00:00

模型深度學(xué)習(xí)

2014-09-01 16:29:34

2019-08-29 08:13:28

2011-12-21 16:44:00

信息圖手機(jī)進(jìn)化史

2014-08-13 10:31:26

Windows操作系統(tǒng)

2024-04-22 07:20:00

訓(xùn)練開源

2023-05-16 12:11:22

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)