自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4無師自通預(yù)測蛋白質(zhì)結(jié)構(gòu)登Nature子刊!LLM全面進(jìn)軍生物學(xué),AlphaFold被「偷家」?

人工智能
距離GPT-4首次發(fā)布已經(jīng)過去了將近一年半的時(shí)間,Nature最近發(fā)表的一篇報(bào)告卻探索出了這個(gè)「過氣」模型的新用途——氨基酸和蛋白質(zhì)的結(jié)構(gòu)建模。

提到AI4Science, 尤其是AI在生物學(xué)領(lǐng)域的應(yīng)用,DeepMind的AlphaFold已經(jīng)成為了「出圈」的代表作,是生物學(xué)和計(jì)算交叉融合的里程碑。

2020年底,第一代AlphaFold就已經(jīng)能以原子級(jí)別的精度預(yù)測蛋白質(zhì)的三維形狀。然而,這僅僅是一個(gè)開始。

一個(gè)不那么明顯的事實(shí)是,與Meta FAIR研發(fā)的ESM系列不同,AlphaFold并非不是使用LLM構(gòu)建的,而是依賴于一種名為「多序列比對(duì)」(MSA)的方法,是生物信息學(xué)領(lǐng)域一種較為傳統(tǒng)的做法。

當(dāng)全球的目光聚焦于AlphaFold時(shí),大語言模型在生物學(xué)領(lǐng)域的潛力或許被低估了。

去年,AI專欄作家、Radical VC合伙人Rob Toews在《福布斯》雜志上發(fā)表了一篇文章,預(yù)言LLM在生物領(lǐng)域的潛力。

圖片圖片

相比速度慢且計(jì)算量大的MSA方法,LLM在規(guī)?;A(yù)測方面有更大的優(yōu)勢,而且能產(chǎn)生同樣準(zhǔn)確,甚至更準(zhǔn)確的結(jié)構(gòu)預(yù)測。

此外,語言模型能夠?qū)Φ鞍踪|(zhì)的潛在特征空間產(chǎn)生更普遍的理解,這為蛋白質(zhì)科學(xué)開辟了令人興奮的可能性。、

無獨(dú)有偶,去年11月,微軟研究院的AI4Science部門和Azure量子計(jì)算部門發(fā)表了一篇長達(dá)230頁的報(bào)告,其中著重強(qiáng)調(diào)了GPT-4協(xié)助生物學(xué)領(lǐng)域前沿研究的巨大潛力。

圖片圖片

論文地址:https://arxiv.org/pdf/2311.07361

雖然只在人類語言上進(jìn)行訓(xùn)練,但GPT-4依舊表現(xiàn)出了對(duì)「蛋白質(zhì)語言」的理解和推理能力。如圖2所示,根據(jù)對(duì)應(yīng)的DNA序列,模型可以正確預(yù)測MYC蛋白上轉(zhuǎn)錄因子的結(jié)合位點(diǎn)。

圖片圖片

最近,Nature也收錄了一篇GPT-4與生物學(xué)進(jìn)行結(jié)合的研究,用更詳實(shí)的實(shí)驗(yàn)和數(shù)據(jù)佐證了微軟這篇報(bào)告的結(jié)論。

研究人員發(fā)現(xiàn),GPT-4能以出人意料的精度對(duì)氨基酸、多肽和蛋白質(zhì)結(jié)構(gòu)進(jìn)行建模。

圖片圖片

論文地址:https://www.nature.com/articles/s41598-024-69021-2

雖然相比AlphaFold 3,GPT-4的建模能力只算是初階,實(shí)際應(yīng)用有限,但考慮到GPT-4的目標(biāo)是建模人類自然語言,并不是專門為結(jié)構(gòu)生物學(xué)任務(wù)而開發(fā)的,因此達(dá)到這種精度才令人驚訝。

作者指出,他們尚不清楚GPT-4這種「觸類旁通」的具體機(jī)制,需要更廣泛的研究才能得出明確結(jié)論。但這篇論文的結(jié)果無疑揭示了生成模型新的潛力和探索方向。

「無師自通」,GPT-4高精度建模

單個(gè)氨基酸結(jié)構(gòu)的建模

氨基酸是蛋白質(zhì)的最小組成單位,其原子組成和幾何參數(shù)已經(jīng)得到了很好的表征,因此非常適合基本結(jié)構(gòu)建模任務(wù)。

實(shí)驗(yàn)通過prompt給出最少的必要上下文信息,讓GPT-4以PDB格式對(duì)20個(gè)標(biāo)準(zhǔn)氨基酸進(jìn)行建模,同時(shí)還納入了GPT-3.5作為性能對(duì)比。

圖片圖片

對(duì)每個(gè)單獨(dú)的氨基酸,研究人員都用相同的prompt輸入5次迭代運(yùn)行以監(jiān)控一致性。

結(jié)果發(fā)現(xiàn),模型可以生成含有主鏈和側(cè)鏈原子坐標(biāo)值的氨基酸3D結(jié)構(gòu),PDB格式渲染后的可視化效果如下圖所示:

圖片圖片

圖d、e展示了GPT-4生成主鏈鍵長和角度的準(zhǔn)確性(藍(lán)色),雖然準(zhǔn)確度各不相同,但都聚集在實(shí)驗(yàn)確定的參考值(紅色)附近。

側(cè)鏈的預(yù)測結(jié)果也有極高的精度,近90%的鍵長差值在0.1 ?以內(nèi),近80%的鍵角誤差在10°以內(nèi),而且在所有指標(biāo)上,GPT-4相比GPT-3.5的預(yù)測準(zhǔn)確性都有較大幅度的提升。

圖片

α-螺旋結(jié)構(gòu)的建模

α-螺旋是蛋白質(zhì)中最常見且被廣泛研究的二級(jí)結(jié)構(gòu)。研究人員表示,雖然使用各種prompt進(jìn)行了多次嘗試,GPT-4和GPT-3.5都無法像模擬氨基酸一樣準(zhǔn)確地生成α-螺旋多肽鏈的結(jié)構(gòu)。

有趣的一點(diǎn)是,GPT-4習(xí)慣于用數(shù)學(xué)公式描述α-螺旋的空間結(jié)構(gòu)參數(shù):

圖片圖片

由于單獨(dú)使用GPT-4效果不佳,實(shí)驗(yàn)人員嘗試整合Wolfram插件,這是由Wolfram-Alpha開發(fā)的適配GPT-4模型的數(shù)學(xué)計(jì)算擴(kuò)展。

調(diào)用Wolfram插件并得到響應(yīng)調(diào)用Wolfram插件并得到響應(yīng)

和之前的實(shí)驗(yàn)一樣,給GPT-4輸入上下文prompt,對(duì)含有10個(gè)氨基酸的多肽進(jìn)行PDB格式的結(jié)構(gòu)預(yù)測。

其中,多肽上的每個(gè)位點(diǎn)都單獨(dú)進(jìn)行一輪迭代,每個(gè)多肽同樣重復(fù)預(yù)測5輪。

實(shí)驗(yàn)流程示意圖實(shí)驗(yàn)流程示意圖

每次迭代中,實(shí)驗(yàn)人員還會(huì)進(jìn)行最多3次嘗試,通過prompt給模型提出改進(jìn)建議,比如提示螺旋的直徑過大或過小等等,相當(dāng)于提供專業(yè)人員的校準(zhǔn)和監(jiān)督:

圖片圖片

可以看出,GPT-4和Wolfram結(jié)合后,基本可以捕捉到α-螺旋的整體結(jié)構(gòu)

圖片圖片

結(jié)構(gòu)建模的準(zhǔn)確度可以用「均方根偏差」(root-mean-square deviation, RMSD)進(jìn)行量化。

下圖e顯示,每次輸入prompt迭代后,輸出的準(zhǔn)確性都有明顯提升。經(jīng)過兩次基于提示的改進(jìn)后,近90%的預(yù)測結(jié)果RMSD誤差已經(jīng)小于0.5?,但相比AlphaFold 2的結(jié)果依舊有一定差距(下圖f)。

圖片圖片

結(jié)構(gòu)相互作用分析

實(shí)驗(yàn)主要關(guān)注抗病毒藥物和病毒蛋白之間的結(jié)構(gòu)相互作用的定性分析,以nirmatrelvir-SARS-CoV-2為例。

其中SARS-CoV-2是導(dǎo)致COVID-19的一種病毒株;nirmatrelvir中文名為奈瑪特韋,是輝瑞研制的COVID-19口服藥帕昔洛韋的主要成分之一。

實(shí)驗(yàn)中,給GPT-4提供PDB格式的nirmatrelvir晶體結(jié)構(gòu),提示模型進(jìn)行配體檢測和相互作用檢測。

配體相互作用分析流程配體相互作用分析流程

整體的實(shí)驗(yàn)過程如下圖所示:

圖片圖片

結(jié)果發(fā)現(xiàn),GPT-4正確識(shí)別出了nirmatrelvir配體,并在輸出的PDB文件中用「4WI」標(biāo)識(shí)了出來。

圖片圖片

在此基礎(chǔ)上進(jìn)行的相互作用檢測中,GPT-4在結(jié)合位點(diǎn)內(nèi)列出了5種氨基酸,恰好涵蓋了4種直接結(jié)合nirmatrelvir配體的氨基酸。

此外,模型還描述出了幾種可能干擾結(jié)合過程的突變,其中大部分是合理的,但有一些突變無關(guān)緊要。

值得注意的是,其中提到的GLU A166突變已被證明對(duì)nirmatrelvir結(jié)合極其有害,且會(huì)造成臨床治療中的病毒耐藥性。

圖片圖片

圖片圖片

討論和結(jié)論

這篇報(bào)告探索性地展示了,在基本結(jié)構(gòu)生物學(xué)建模和藥物相互作用分析等領(lǐng)域,GPT-4模型的已有能力和局限性。

鑒于生物信息學(xué)常用的AI工具,比如AlphaFold、RoseTTAFold 和蛋白質(zhì)語言模型等,與自然語言領(lǐng)域的LLM存在技術(shù)路線上的固有差距,這種發(fā)現(xiàn)呈現(xiàn)出獨(dú)特的新穎性。

雖然GPT-4在標(biāo)準(zhǔn)氨基酸結(jié)構(gòu)建模,以及集成Wolfram后在α-螺旋結(jié)構(gòu)上的建模都有較好的表現(xiàn),但其中發(fā)生的零星錯(cuò)誤也不能忽視。即使是引入最小規(guī)模的錯(cuò)誤,也可能對(duì)結(jié)構(gòu)模型和相關(guān)的生物學(xué)解釋非常不利。

實(shí)驗(yàn)最后一節(jié)中,在預(yù)測可能干擾相互作用的蛋白質(zhì)突變時(shí),GPT-4展現(xiàn)出了非常強(qiáng)大的能力,這對(duì)藥物發(fā)現(xiàn)和開發(fā)將會(huì)非常有用。

GPT-4為什么能發(fā)展出蛋白質(zhì)的結(jié)構(gòu)建模能力?

一種推測是,訓(xùn)練數(shù)據(jù)中可能有關(guān)于原子坐標(biāo)的信息,但這不能解釋模型輸出的結(jié)構(gòu)中含有的幾何變異性,而且結(jié)構(gòu)復(fù)雜性似乎是預(yù)測結(jié)果的限制因素。

更有可能的解釋是,GPT-4的建模是從頭開始運(yùn)行的,因?yàn)轫憫?yīng)中包含了原子坐標(biāo)和數(shù)學(xué)計(jì)算公式,Wolfram插件和prompt給出的改進(jìn)信息也大大提升了α-螺旋結(jié)構(gòu)建模的準(zhǔn)確性,證明預(yù)測時(shí)發(fā)生了推理過程。

參考資料:

https://arxiv.org/abs/2311.07361

https://the-decoder.com/openais-gpt-4-surprises-scientists-with-its-ability-to-model-basic-protein-structures/

https://www.forbes.com/sites/robtoews/2023/07/16/the-next-frontier-for-large-language-models-is-biology/

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2021-07-24 10:21:46

模型人工智能深度學(xué)習(xí)

2020-11-17 14:53:54

騰訊 蛋白質(zhì)AI

2024-05-09 11:08:22

2021-12-20 10:07:35

AI 數(shù)據(jù)人工智能

2020-12-01 10:53:42

AI 數(shù)據(jù)人工智能

2022-02-14 00:04:24

AI蛋白質(zhì)結(jié)構(gòu)

2023-07-06 16:59:56

英特爾

2021-01-12 09:28:09

人工智能AlphaFold神經(jīng)網(wǎng)絡(luò)

2023-07-06 13:23:49

2022-03-21 15:23:43

AI研究抗體

2024-09-18 13:16:46

2023-03-03 14:00:00

模型深度學(xué)習(xí)

2023-02-06 08:55:12

學(xué)習(xí)語言模型

2022-03-07 14:45:21

昇思MindSpore開源

2022-11-02 13:41:46

2023-12-01 09:47:31

AI技術(shù)

2021-07-30 15:36:54

開源技術(shù) 軟件

2022-07-22 14:49:37

語言模型DeepMindAlphaFold2

2024-08-26 12:43:46

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)