《Science》:用大語言模型模擬5億年生命進(jìn)化
超過三十億年的進(jìn)化形成了一幅由天然蛋白質(zhì)編碼的生物學(xué)圖景。本文展示了在進(jìn)化數(shù)據(jù)上大規(guī)模訓(xùn)練的語言模型可以生成遠(yuǎn)離已知蛋白質(zhì)的功能性蛋白質(zhì)。我們介紹了ESM3,這是一種前沿的多模態(tài)生成語言模型,可以對(duì)蛋白質(zhì)的序列、結(jié)構(gòu)和功能進(jìn)行推理。ESM3能夠響應(yīng)復(fù)雜提示,結(jié)合其多種模態(tài),并通過校準(zhǔn)顯著提高生成結(jié)果的精確性。我們利用ESM3生成了熒光蛋白。在合成的生成結(jié)果中,我們發(fā)現(xiàn)了一種與已知熒光蛋白具有遠(yuǎn)距離相似性(58%序列同一性)的明亮熒光蛋白。我們估計(jì),這相當(dāng)于模擬了5億年的進(jìn)化過程。
近日,科學(xué)界迎來了一項(xiàng)重大突破,人工智能公司 Evolutionary Scale 在《Science》雜志上發(fā)布了其最新的研究成果 ——ESM3 模型,該模型能夠模擬超過 5 億年的自然進(jìn)化過程,為生命科學(xué)領(lǐng)域帶來了前所未有的變革與機(jī)遇。
ESM3 模型由人工智能初創(chuàng)公司 Evolutionary Scale 研發(fā),旨在幫助科學(xué)家理解、構(gòu)思和創(chuàng)造蛋白質(zhì)。研究人員使用了超過 31.5 億條蛋白質(zhì)序列、2.36 億個(gè)蛋白質(zhì)結(jié)構(gòu),以及 5.39 億個(gè)帶有功能注釋的蛋白質(zhì)數(shù)據(jù)來訓(xùn)練 ESM3 模型,該模型總共有三種不同的規(guī)模,分別為 14 億、70 億和 980 億參數(shù)。實(shí)驗(yàn)表明,隨著模型參數(shù)規(guī)模的增加,ESM3 在生成能力和表示學(xué)習(xí)上的性能有顯著提升,特別是在生成蛋白質(zhì)結(jié)構(gòu)時(shí),980 億參數(shù)的模型表現(xiàn)出超越現(xiàn)有模型的強(qiáng)大能力。
重大突破:模擬 5 億年進(jìn)化生成全新蛋白質(zhì)
在本次研究中,ESM3 模型展示了其強(qiáng)大的能力,成功設(shè)計(jì)出了全新的綠色熒光蛋白。綠色熒光蛋白在生物學(xué)研究中是非常重要的工具,用于標(biāo)記和跟蹤細(xì)胞內(nèi)的分子與結(jié)構(gòu)。然而,現(xiàn)有的熒光蛋白大多數(shù)來自自然界,且其突變通常限制在已有序列周圍,很難大幅度改變其序列。
為了突破這一瓶頸,研究人員通過對(duì) ESM3 模型進(jìn)行特定的功能提示,嘗試生成一個(gè)全新的綠色熒光蛋白,要求該蛋白的序列與已知的綠色熒光蛋白序列相似性較低,但仍要保持其熒光特性。ESM3 模型在接收到這些提示后,會(huì)生成一個(gè)蛋白質(zhì)的三維結(jié)構(gòu),尤其是確?;钚晕稽c(diǎn)的氨基酸位置協(xié)調(diào)良好。然后,基于生成的結(jié)構(gòu),模型進(jìn)一步推理生成合適的氨基酸序列,并嘗試保持活性位點(diǎn)的正確結(jié)構(gòu)。
經(jīng)過一系列的生成和優(yōu)化步驟,研究人員獲得了多個(gè)新的綠色熒光蛋白,其中一個(gè)特別的設(shè)計(jì)被命名為 esmGFP。這個(gè)全新的蛋白質(zhì)與現(xiàn)有的熒光蛋白之間的序列相似性為 58%,與最接近的天然蛋白之間的序列差異為 107 個(gè)氨基酸,序列相似性為 53%。研究人員還進(jìn)一步驗(yàn)證了生成的綠色熒光蛋白是否具有實(shí)際的熒光功能,結(jié)果表明,盡管 esmGFP 發(fā)光特性有所延遲,成熟時(shí)間較長,但最終的熒光亮度與已知的綠色熒光蛋白相似,且具有穩(wěn)定的熒光特性。
研究人員還提供了時(shí)間校準(zhǔn)系統(tǒng)發(fā)育分析,指出如果通過現(xiàn)有蛋白的自然界進(jìn)化過程得到 esmGFP,則需要超過 5 億年的等效時(shí)間。這一成果充分展示了 ESM3 模型在模擬生命進(jìn)化和生成全新蛋白質(zhì)方面的巨大潛力,為蛋白質(zhì)設(shè)計(jì)和藥物開發(fā)開辟了新的路徑。
多模態(tài)能力:開啟蛋白質(zhì)研究新視角
ESM3 不僅僅是一個(gè)傳統(tǒng)的序列生成模型,而是一個(gè)多模態(tài)生成模型,能夠同時(shí)處理蛋白質(zhì)的序列、三維結(jié)構(gòu)和功能。它使用了一種名為 “生成掩碼語言模型” 的方法,在輸入中對(duì)蛋白質(zhì)的序列、結(jié)構(gòu)和功能進(jìn)行隨機(jī)掩碼,然后通過模型推理生成缺失的部分。研究人員通過隨機(jī)掩碼并生成序列和結(jié)構(gòu),對(duì)比生成結(jié)果與真實(shí)蛋白質(zhì)的匹配情況,發(fā)現(xiàn)模型能夠生成高質(zhì)量的蛋白質(zhì)序列和結(jié)構(gòu),其與真實(shí)結(jié)構(gòu)的平均差異僅為 0.5?。
此外,ESM3 能夠通過不同的提示生成具有目標(biāo)功能的蛋白質(zhì),這為蛋白質(zhì)設(shè)計(jì)帶來了高度靈活性。與傳統(tǒng)的三維空間中的復(fù)雜建模方法不同,ESM3 將三維結(jié)構(gòu)離散化為 token,這使得它能夠與序列和功能信息一同被輸入模型進(jìn)行處理,這種方法避免了復(fù)雜的三維空間擴(kuò)散架構(gòu),使得生成過程更加高效、可控。
ESM3 的多模態(tài)能力在蛋白質(zhì)研究領(lǐng)域尚屬首次,為科學(xué)家們提供了一個(gè)全新的視角和工具。通過這種多模態(tài)的分析和生成方式,科學(xué)家們能夠更深入地理解蛋白質(zhì)的序列、結(jié)構(gòu)和功能之間的關(guān)系,進(jìn)而更好地進(jìn)行蛋白質(zhì)設(shè)計(jì)、藥物研發(fā)等工作。例如,在藥物設(shè)計(jì)領(lǐng)域中,生成具有特定功能的蛋白質(zhì)是一個(gè)重要的研究方向,而通過 ESM3,研究人員能夠設(shè)計(jì)出符合特定靶點(diǎn)的蛋白質(zhì),減少實(shí)驗(yàn)驗(yàn)證的時(shí)間和成本。
開源與合作:推動(dòng)全球科研創(chuàng)新
ESM3 模型的開源策略,加上與 AWS 和 NVIDIA 等云計(jì)算平臺(tái)的合作,極大地方便了全球開發(fā)者和科研人員的應(yīng)用和部署。模型代碼已在 GitHub 上公開,盡管 API 目前還處于內(nèi)測階段,但開放科學(xué)的精神已經(jīng)體現(xiàn)在 ESM3 的推廣中。
這種開源和合作的模式,將吸引更多的科研人員和開發(fā)者參與到蛋白質(zhì)研究和生命科學(xué)領(lǐng)域的創(chuàng)新中來。全球各地的科學(xué)家們可以利用 ESM3 模型進(jìn)行自己的研究和實(shí)驗(yàn),進(jìn)一步挖掘該模型的潛力,推動(dòng)生命科學(xué)領(lǐng)域的快速發(fā)展。同時(shí),與云計(jì)算平臺(tái)的合作也為科研人員提供了強(qiáng)大的計(jì)算支持,使得他們能夠更高效地進(jìn)行模型訓(xùn)練和數(shù)據(jù)分析。
行業(yè)影響:加速生命科學(xué)領(lǐng)域發(fā)展
ESM3 模型的出現(xiàn),對(duì)生命科學(xué)領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響。在蛋白質(zhì)設(shè)計(jì)方面,它打破了傳統(tǒng)方法的局限,能夠生成與自然界已知蛋白序列不同的全新蛋白質(zhì),為蛋白質(zhì)工程提供了更多的可能性。在藥物開發(fā)領(lǐng)域,ESM3 可以幫助研究人員快速設(shè)計(jì)出具有特定功能的蛋白質(zhì)藥物,縮短藥物研發(fā)的周期,降低研發(fā)成本。在合成生物學(xué)領(lǐng)域,ESM3 能夠?yàn)殚_發(fā)新的合成途徑提供幫助,生成具備新功能的酶或代謝途徑,推動(dòng)合成生物學(xué)的發(fā)展。
此外,ESM3 模型的成功也為人工智能與生命科學(xué)的交叉研究提供了一個(gè)范例。它展示了人工智能技術(shù)在模擬和理解自然界復(fù)雜過程中的巨大潛力,為未來更多的跨學(xué)科研究提供了借鑒和啟示。隨著人工智能技術(shù)的不斷發(fā)展和生命科學(xué)領(lǐng)域?qū)Υ髷?shù)據(jù)分析和預(yù)測的需求增加,這種跨學(xué)科的研究模式將成為未來科學(xué)發(fā)展的重要趨勢。
然而,ESM3 模型的應(yīng)用也面臨一些挑戰(zhàn)和問題。例如,模型的準(zhǔn)確性和可靠性還需要進(jìn)一步提高,特別是在處理復(fù)雜的生物系統(tǒng)和疾病機(jī)制時(shí)。此外,隨著模型的廣泛應(yīng)用,數(shù)據(jù)隱私和安全問題也需要引起足夠的重視??蒲腥藛T需要在利用模型進(jìn)行創(chuàng)新研究的同時(shí),關(guān)注和解決這些潛在的問題,確保模型的安全和合理使用。
未來展望:潛力無限的 ESM3 模型
隨著模型規(guī)模和數(shù)據(jù)量的進(jìn)一步增加,ESM3 有潛力生成更加復(fù)雜和創(chuàng)新的蛋白質(zhì)。未來,ESM3 的應(yīng)用可能涵蓋從基礎(chǔ)研究到藥物設(shè)計(jì)等更多領(lǐng)域,為蛋白質(zhì)工程開辟全新的可能性。例如,在基礎(chǔ)研究方面,ESM3 可以幫助科學(xué)家更好地理解蛋白質(zhì)的進(jìn)化機(jī)制和生物功能的起源;在疾病治療方面,ESM3 可以用于設(shè)計(jì)個(gè)性化的蛋白質(zhì)藥物,針對(duì)特定患者的基因突變和疾病特征進(jìn)行精準(zhǔn)治療。
此外,ESM3 模型的發(fā)展也將促進(jìn)生命科學(xué)領(lǐng)域與其他學(xué)科的交叉融合。例如,與物理學(xué)、化學(xué)、計(jì)算機(jī)科學(xué)等學(xué)科的結(jié)合,將為解決生命科學(xué)中的復(fù)雜問題提供新的思路和方法。同時(shí),ESM3 模型的應(yīng)用也將推動(dòng)生物技術(shù)產(chǎn)業(yè)的創(chuàng)新和發(fā)展,為生物制藥、生物能源、生物環(huán)保等領(lǐng)域帶來新的機(jī)遇和挑戰(zhàn)。
總之,ESM3 模型的發(fā)布是生命科學(xué)領(lǐng)域的一個(gè)重要里程碑,它為我們理解和模擬生命進(jìn)化提供了一個(gè)全新的工具和視角。在未來的研究中,我們期待 ESM3 模型能夠繼續(xù)發(fā)揮其巨大的潛力,為生命科學(xué)領(lǐng)域的發(fā)展做出更大的貢獻(xiàn)。同時(shí),我們也需要關(guān)注和解決模型應(yīng)用中面臨的挑戰(zhàn)和問題,確保其安全、可靠和合理地使用,讓這項(xiàng)技術(shù)更好地造福人類。
本文轉(zhuǎn)載自??歐米伽未來研究所??,作者:歐米伽未來研究所
