自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

蛋白質(zhì)設(shè)計(jì)新紀(jì)元:語言模型驅(qū)動(dòng)的 5 億年進(jìn)化模擬

人工智能
ESM3 模型作為此項(xiàng)研究的核心成果,無疑是一座閃耀著創(chuàng)新光芒的科學(xué)豐碑。它是一種處于前沿陣地的多模態(tài)生成語言模型,其架構(gòu)設(shè)計(jì)精妙絕倫,猶如一臺(tái)精密的分子機(jī)器,能夠精準(zhǔn)地對(duì)蛋白質(zhì)的序列、結(jié)構(gòu)和功能等多維度信息進(jìn)行深度剖析與推理。

在生命科學(xué)的浩瀚星空中,蛋白質(zhì)一直是最為璀璨的研究焦點(diǎn)之一。近期,一項(xiàng)由 Thomas Hayes 等眾多學(xué)者共同完成的研究成果 —— 利用語言模型模擬 5 億年蛋白質(zhì)進(jìn)化,在《Science》雜志重磅發(fā)表,如同一顆超新星爆發(fā),瞬間照亮了整個(gè)領(lǐng)域,為蛋白質(zhì)研究開啟了全新的篇章。

圖片

一、ESM3 模型架構(gòu)揭秘

ESM3 模型作為此項(xiàng)研究的核心成果,無疑是一座閃耀著創(chuàng)新光芒的科學(xué)豐碑。它是一種處于前沿陣地的多模態(tài)生成語言模型,其架構(gòu)設(shè)計(jì)精妙絕倫,猶如一臺(tái)精密的分子機(jī)器,能夠精準(zhǔn)地對(duì)蛋白質(zhì)的序列、結(jié)構(gòu)和功能等多維度信息進(jìn)行深度剖析與推理。

在輸入信息的處理上,ESM3 展現(xiàn)出了強(qiáng)大的兼容性和敏銳的洞察力。它所接納的信息豐富多樣,涵蓋了蛋白質(zhì)研究的多個(gè)關(guān)鍵層面。其中,序列信息以 20 種標(biāo)準(zhǔn)氨基酸為基石,并巧妙地融入了如 B - 天冬酰胺、U - 硒代半胱氨酸等特定特殊氨基酸,以此構(gòu)建起獨(dú)特的序列表示體系。結(jié)構(gòu)坐標(biāo)則如同蛋白質(zhì)的 “空間坐標(biāo)圖”,為模型勾勒出蛋白質(zhì)分子在三維空間中的大致輪廓。結(jié)構(gòu)令牌通過復(fù)雜的編碼方式,將蛋白質(zhì)結(jié)構(gòu)的局部特征進(jìn)行高效壓縮和抽象表達(dá)。二級(jí)結(jié)構(gòu)標(biāo)簽則像是給蛋白質(zhì)的不同結(jié)構(gòu)區(qū)域貼上了精細(xì)的 “標(biāo)簽”,清晰地標(biāo)注出其結(jié)構(gòu)類型。溶劑可及表面積(SASA)值以量化的方式反映了蛋白質(zhì)表面的溶劑暴露特性,功能關(guān)鍵詞令牌和殘基注釋則從功能和微觀結(jié)構(gòu)層面為模型提供了關(guān)鍵線索。

為了高效處理這些復(fù)雜多樣的輸入信息,ESM3 運(yùn)用了一系列獨(dú)特且先進(jìn)的技術(shù)手段。在結(jié)構(gòu)令牌化過程中,采用了 VQ - VAE 編碼器,它能夠?qū)⒌鞍踪|(zhì)的局部結(jié)構(gòu)信息轉(zhuǎn)化為離散的令牌表示,就像把一幅精美的拼圖拆解成具有代表性的小塊。而功能關(guān)鍵詞令牌化則基于 TF - IDF 變換和局部敏感哈希技術(shù),將蛋白質(zhì)的功能描述轉(zhuǎn)化為模型能夠理解和處理的數(shù)字語言。在神經(jīng)網(wǎng)絡(luò)架構(gòu)方面,ESM3 基于大規(guī)模的蛋白質(zhì)數(shù)據(jù)進(jìn)行訓(xùn)練,這些數(shù)據(jù)來源廣泛,包括 UniRef、MGnify、JGI 等權(quán)威數(shù)據(jù)庫提供的海量序列數(shù)據(jù),以及 PDB、AlphaFoldDB、ESMAtlas 等數(shù)據(jù)庫中的珍貴結(jié)構(gòu)數(shù)據(jù)。在訓(xùn)練過程中,研究團(tuán)隊(duì)精心設(shè)計(jì)了多種訓(xùn)練任務(wù)和策略,如巧妙地添加噪聲以增強(qiáng)模型的魯棒性,隨機(jī)失活某些軌道來模擬真實(shí)世界中的數(shù)據(jù)缺失情況等。通過這些巧妙的設(shè)計(jì)和海量數(shù)據(jù)的洗禮,ESM3 成功地學(xué)習(xí)到了蛋白質(zhì)的內(nèi)在特征和隱藏規(guī)律,從而能夠在蛋白質(zhì)設(shè)計(jì)的舞臺(tái)上大顯身手。

二、蛋白質(zhì)設(shè)計(jì)的卓越成就

在蛋白質(zhì)設(shè)計(jì)的宏偉藍(lán)圖中,ESM3 憑借其強(qiáng)大的功能繪制出了濃墨重彩的一筆,尤其是在綠色熒光蛋白(GFP)的設(shè)計(jì)領(lǐng)域取得了令人矚目的突破性成果。

研究團(tuán)隊(duì)在利用 ESM3 設(shè)計(jì) GFP 時(shí),猶如經(jīng)驗(yàn)豐富的建筑師精心構(gòu)建一座微觀的分子大廈。首先,他們從 16 個(gè)靠近發(fā)色團(tuán)形成位點(diǎn)的關(guān)鍵殘基中,精心篩選并提取出最為核心的序列和結(jié)構(gòu)信息,以此打造出一個(gè)具有高度針對(duì)性的模板。在這個(gè)模板的序列部分,Met1、Thr62 等 7 個(gè)殘基宛如閃耀的明星,它們?cè)诎l(fā)色團(tuán)形成和熒光產(chǎn)生的過程中扮演著不可或缺的關(guān)鍵角色,是整個(gè)設(shè)計(jì)的核心基石。而結(jié)構(gòu)部分則精準(zhǔn)地選取了能夠大致捕捉中心 α 螺旋的原子坐標(biāo)和結(jié)構(gòu)令牌,這些信息如同大廈的框架,為后續(xù)的設(shè)計(jì)提供了堅(jiān)實(shí)的支撐。

基于這個(gè)精心構(gòu)建的模板,ESM3 開啟了一場充滿創(chuàng)新與挑戰(zhàn)的生成之旅。它采用聯(lián)合序列結(jié)構(gòu)優(yōu)化的先進(jìn)方法,如同一位技藝高超的工匠,不斷地調(diào)整溫度這一關(guān)鍵參數(shù),進(jìn)行多次迭代優(yōu)化。在這個(gè)過程中,模型首先運(yùn)用其強(qiáng)大的預(yù)測能力,對(duì)設(shè)計(jì)序列的結(jié)構(gòu)進(jìn)行精準(zhǔn)預(yù)測,隨后再利用吉布斯采樣技術(shù)對(duì)序列進(jìn)行細(xì)致的調(diào)整和優(yōu)化。為了進(jìn)一步提升生成結(jié)果的質(zhì)量,模型還采用了一系列巧妙的策略。例如,負(fù)局部序列引導(dǎo)策略能夠有效地避免模型陷入局部最優(yōu)解,如同為探索未知的分子世界開辟了一條新的路徑;最大解碼熵閾值控制策略則像一位嚴(yán)謹(jǐn)?shù)氖亻T人,確保生成的序列具有足夠的多樣性和合理性;基于 PSSM 偏差調(diào)整策略則根據(jù)已知的蛋白質(zhì)序列信息,對(duì)生成過程進(jìn)行有針對(duì)性的優(yōu)化,提高生成符合預(yù)期蛋白質(zhì)的概率。

在經(jīng)過 ESM3 的精心設(shè)計(jì)和一系列復(fù)雜的優(yōu)化過程后,研究團(tuán)隊(duì)迎來了眾多的候選 GFP 設(shè)計(jì)。但這僅僅是一個(gè)開始,接下來他們運(yùn)用了一系列嚴(yán)格且科學(xué)的篩選和評(píng)估指標(biāo),對(duì)這些候選設(shè)計(jì)進(jìn)行了全方位的 “考驗(yàn)”。其中,模板發(fā)色團(tuán)位點(diǎn) RMSD 和模板螺旋 RMSD 指標(biāo)如同高精度的顯微鏡,能夠精確地衡量候選設(shè)計(jì)與模板在關(guān)鍵結(jié)構(gòu)區(qū)域的相似程度;序列偽困惑度和往返困惑度指標(biāo)則從信息論的角度,評(píng)估序列的復(fù)雜性和合理性;N - gram 分?jǐn)?shù)、PSSM 分?jǐn)?shù)等指標(biāo)則像是經(jīng)驗(yàn)豐富的鑒賞家,從不同的維度對(duì)候選設(shè)計(jì)的質(zhì)量進(jìn)行評(píng)估和打分;N - 末端卷曲計(jì)數(shù)指標(biāo)則專注于檢測蛋白質(zhì) N 端的結(jié)構(gòu)穩(wěn)定性。通過這些嚴(yán)格的篩選和評(píng)估,研究團(tuán)隊(duì)成功地從眾多候選者中篩選出了具有巨大潛力的 GFP 變體。

其中,esmGFP 脫穎而出,成為了這項(xiàng)研究的一顆璀璨明珠。它與已知熒光蛋白的序列同一性僅為 58%,這意味著它在序列上具有高度的創(chuàng)新性和獨(dú)特性。然而,令人驚嘆的是,盡管序列差異較大,但 esmGFP 卻展現(xiàn)出了明亮的熒光特性,如同黑暗中的一盞明燈,為蛋白質(zhì)設(shè)計(jì)領(lǐng)域帶來了新的希望和方向。為了深入探究 esmGFP 的獨(dú)特地位,研究團(tuán)隊(duì)運(yùn)用了先進(jìn)的多序列比對(duì)和系統(tǒng)發(fā)育分析技術(shù),并結(jié)合特定的統(tǒng)計(jì)模型,對(duì)其進(jìn)行了全面而深入的研究。結(jié)果表明,esmGFP 與已知熒光蛋白的進(jìn)化距離相當(dāng)于 5 億年的漫長進(jìn)化歷程,這一驚人的發(fā)現(xiàn)充分彰顯了 ESM3 在設(shè)計(jì)具有全新功能蛋白質(zhì)方面的強(qiáng)大實(shí)力和巨大潛力,它仿佛一把神奇的鑰匙,開啟了通往未知蛋白質(zhì)世界的大門。

三、全方位性能表現(xiàn)驚艷全場

ESM3 模型的卓越之處不僅僅體現(xiàn)在蛋白質(zhì)設(shè)計(jì)上,在其他多個(gè)關(guān)鍵性能方面同樣表現(xiàn)出色,宛如一位全能的科學(xué)巨星,在蛋白質(zhì)研究的舞臺(tái)上閃耀著璀璨光芒。

在結(jié)構(gòu)預(yù)測這一關(guān)鍵領(lǐng)域,ESM3 展現(xiàn)出了驚人的準(zhǔn)確性和強(qiáng)大的預(yù)測能力。它能夠直接對(duì)蛋白質(zhì)結(jié)構(gòu)進(jìn)行預(yù)測,而且隨著模型規(guī)模的不斷增大,其預(yù)測精度如同芝麻開花 —— 節(jié)節(jié)高。例如,ESM3 1.4B、7B 和 98B 模型在 CAMEO 測試集上的 P@L 值分別達(dá)到了 0.76、0.82 和 0.85,這些數(shù)字背后反映的是模型對(duì)蛋白質(zhì)結(jié)構(gòu)關(guān)鍵特征的精準(zhǔn)捕捉能力。在 LDDT - CA 值的表現(xiàn)上,單步推理時(shí)它們分別為 0.777、0.848 和 0.879,這進(jìn)一步證明了 ESM3 在重構(gòu)蛋白質(zhì)結(jié)構(gòu)細(xì)節(jié)方面的高超技藝,仿佛一位技藝精湛的雕塑家,能夠精準(zhǔn)地還原蛋白質(zhì)分子的三維結(jié)構(gòu)。

在條件似然評(píng)估這一復(fù)雜的任務(wù)中,ESM3 同樣表現(xiàn)出了非凡的智慧和強(qiáng)大的適應(yīng)性。當(dāng)面對(duì)不同的條件設(shè)定時(shí),它在各軌道的生成能力上呈現(xiàn)出明顯的差異和規(guī)律,就像一位靈活應(yīng)變的音樂家,能夠根據(jù)不同的音樂風(fēng)格(條件)演奏出獨(dú)特而和諧的旋律。以序列、結(jié)構(gòu)、功能等軌道為例,當(dāng)以結(jié)構(gòu)為條件時(shí),二級(jí)結(jié)構(gòu)預(yù)測的損失能夠大幅降低,如同在迷霧中找到了清晰的方向。而且,這種規(guī)律在不同模型規(guī)模下都保持著高度的一致性,這充分體現(xiàn)了 ESM3 能夠深刻理解和有效利用條件信息,從而顯著提升自身的生成性能,就像一位聰明的學(xué)生,能夠根據(jù)不同的學(xué)習(xí)條件迅速調(diào)整學(xué)習(xí)策略,提高學(xué)習(xí)效果。

在無條件生成和提示跟隨評(píng)估方面,ESM3 也毫不遜色,展現(xiàn)出了良好的穩(wěn)定性和高度的靈活性。它所生成的蛋白質(zhì)結(jié)構(gòu)在多樣性和質(zhì)量上都達(dá)到了較高的水平,如同一位創(chuàng)意無限的藝術(shù)家,能夠創(chuàng)作出風(fēng)格各異且品質(zhì)上乘的作品。這些生成的蛋白質(zhì)結(jié)構(gòu)與已知蛋白質(zhì)的分布具有一定的相似性,這表明 ESM3 對(duì)蛋白質(zhì)的整體特征有著深刻的理解和把握。同時(shí),當(dāng)面對(duì)不同類型的提示信息時(shí),如結(jié)構(gòu)坐標(biāo)、二級(jí)結(jié)構(gòu)、SASA、功能關(guān)鍵詞等,ESM3 能夠迅速做出響應(yīng),準(zhǔn)確地遵循提示信息,生成符合要求的蛋白質(zhì)序列。在后續(xù)的評(píng)估過程中,如對(duì)齊度量、功能關(guān)鍵詞恢復(fù)等指標(biāo)上,ESM3 都取得了令人滿意的結(jié)果,這進(jìn)一步證明了它在實(shí)際應(yīng)用中的可靠性和有效性,仿佛一位可靠的導(dǎo)航員,能夠準(zhǔn)確地按照指令引導(dǎo)船只駛向目的地。

四、安全與應(yīng)用的雙重保障

研究團(tuán)隊(duì)在追求科學(xué)創(chuàng)新的同時(shí),始終將模型的安全性和可用性放在至關(guān)重要的位置,為此精心打造了 ESM3 - open 模型,為蛋白質(zhì)研究的實(shí)際應(yīng)用保駕護(hù)航。

在數(shù)據(jù)處理環(huán)節(jié),研究團(tuán)隊(duì)采取了一系列嚴(yán)格且有效的措施,確保模型的安全性。他們?nèi)缤瑖?yán)謹(jǐn)?shù)男l(wèi)士,仔細(xì)地去除了與病毒和毒素相關(guān)的序列,以及可能引發(fā)潛在風(fēng)險(xiǎn)的特定關(guān)鍵詞。這一過程就像是在一片繁茂的森林中,精心清理掉可能隱藏危險(xiǎn)的雜草和荊棘,為后續(xù)的研究和應(yīng)用營造了一個(gè)安全可靠的環(huán)境。通過這些努力,有效地降低了模型在實(shí)際應(yīng)用中可能帶來的潛在風(fēng)險(xiǎn),使得 ESM3 - open 模型能夠在安全的軌道上穩(wěn)定運(yùn)行。

在性能評(píng)估方面,ESM3 - open 模型經(jīng)受住了嚴(yán)格的考驗(yàn),在多個(gè)關(guān)鍵任務(wù)上保持著強(qiáng)大的競爭力。在結(jié)構(gòu)預(yù)測的 LDDT 指標(biāo)上,盡管與未進(jìn)行數(shù)據(jù)過濾的計(jì)算匹配模型相比,出現(xiàn)了輕微的性能下降,但依然能夠保持在較高的水平,這就像一位經(jīng)驗(yàn)豐富的運(yùn)動(dòng)員,在面對(duì)一些限制條件時(shí),仍然能夠保持出色的競技狀態(tài)。在表示學(xué)習(xí)的接觸預(yù)測 P@L 指標(biāo)上,ESM3 - open 表現(xiàn)優(yōu)異,甚至超越了 ESM2,這充分展示了它在理解蛋白質(zhì)分子間相互作用方面的獨(dú)特優(yōu)勢。在功能關(guān)鍵詞預(yù)測任務(wù)中,它也取得了令人矚目的成績,平均精度達(dá)到了較高的水平,這表明它能夠準(zhǔn)確地識(shí)別和預(yù)測蛋白質(zhì)的功能特征,為蛋白質(zhì)的功能研究提供了有力的支持。

這項(xiàng)研究成果的意義深遠(yuǎn),如同燈塔照亮了蛋白質(zhì)研究的廣闊海洋。在基礎(chǔ)研究領(lǐng)域,它為深入探索蛋白質(zhì)的進(jìn)化機(jī)制提供了全新的視角和強(qiáng)大的工具。通過模擬長達(dá) 5 億年的進(jìn)化過程,就像打開了一扇通往蛋白質(zhì)歷史長河的時(shí)光之門,有助于科學(xué)家們深入了解蛋白質(zhì)在自然選擇這一偉大力量驅(qū)動(dòng)下的演變規(guī)律,進(jìn)一步完善蛋白質(zhì)進(jìn)化理論的拼圖。在應(yīng)用方面,其潛力更是不可限量,如同蘊(yùn)含著無盡寶藏的礦山等待著人們?nèi)ネ诰?。在生物醫(yī)學(xué)領(lǐng)域,它有望成為設(shè)計(jì)新型治療性蛋白質(zhì)的魔法棒,例如,可以創(chuàng)造出針對(duì)特定疾病的靶向蛋白,精準(zhǔn)地攻擊病魔,或者研發(fā)出具有特殊功能的生物制劑,為患者帶來新的希望。在生物技術(shù)領(lǐng)域,它能夠?yàn)殚_發(fā)更高效的蛋白質(zhì)工程工具注入強(qiáng)大的動(dòng)力,大幅提高蛋白質(zhì)設(shè)計(jì)的效率和成功率,推動(dòng)生物技術(shù)產(chǎn)業(yè)如火箭般飛速創(chuàng)新發(fā)展。展望未來,隨著技術(shù)的持續(xù)進(jìn)步,基于語言模型的蛋白質(zhì)設(shè)計(jì)必將成為生命科學(xué)研究和應(yīng)用的堅(jiān)實(shí)支柱,如同巍峨的大廈基石,為解決眾多生命科學(xué)難題和推動(dòng)相關(guān)產(chǎn)業(yè)蓬勃發(fā)展提供源源不斷的強(qiáng)大動(dòng)力支持,引領(lǐng)我們走向生命科學(xué)的新時(shí)代。

責(zé)任編輯:武曉燕 來源: 未來擁抱AI
相關(guān)推薦

2024-06-26 13:21:50

2022-11-02 13:41:46

2022-12-23 15:04:33

Meta模型

2021-07-24 10:21:46

模型人工智能深度學(xué)習(xí)

2023-07-06 16:59:56

英特爾

2023-02-06 08:55:12

學(xué)習(xí)語言模型

2023-10-04 09:23:21

微軟開發(fā)

2023-07-06 13:23:49

2022-12-25 13:36:47

論文

2023-03-03 14:00:00

模型深度學(xué)習(xí)

2020-10-26 10:51:09

人工智能AI語言

2023-01-13 21:13:31

AI人工智能醫(yī)療

2022-11-02 13:42:08

AI語言模型

2022-10-08 12:38:23

模型開源

2022-07-22 14:49:37

語言模型DeepMindAlphaFold2

2023-07-13 12:53:02

FrameDiffAI

2023-07-18 09:54:43

模型語言

2024-09-06 14:01:11

2024-04-22 07:20:00

訓(xùn)練開源

2024-09-18 13:16:46

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)