自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Meta打造首個(gè)「蛋白質(zhì)宇宙」全景圖!用150億參數(shù)語(yǔ)言模型,預(yù)測(cè)了6億+蛋白質(zhì)結(jié)構(gòu)

人工智能
在過(guò)去的幾十年里,隨著我們對(duì)生活在人類(lèi)體內(nèi)、身上以及環(huán)境中的所有微生物有更多的了解,宏基因組學(xué)一直是一個(gè)非?;钴S的領(lǐng)域。

?Meta在蛋白質(zhì)結(jié)構(gòu)的探索上又前進(jìn)了一步!

這次他們瞄準(zhǔn)的是更大的目標(biāo)領(lǐng)域:宏基因組學(xué)。

圖片

蛋白質(zhì)宇宙的「暗物質(zhì)」

根據(jù)NIH人類(lèi)基因組研究所的解釋?zhuān)昊蚪M學(xué)(Metagenomics,又譯宏基因組學(xué))研究從大宗樣品中的所有生物體(通常是微生物)中分離和分析的整個(gè)核苷酸序列的結(jié)構(gòu)和功能,通常用于研究特定的微生物群落,比如居住在人類(lèi)皮膚上、土壤中或水樣中的微生物身上的蛋白質(zhì)。

在過(guò)去的幾十年里,隨著我們對(duì)生活在人類(lèi)體內(nèi)、身上以及環(huán)境中的所有微生物有更多的了解,宏基因組學(xué)一直是一個(gè)非?;钴S的領(lǐng)域。

由于宏基因組學(xué)的研究對(duì)象無(wú)所不包,遠(yuǎn)遠(yuǎn)超過(guò)了構(gòu)成動(dòng)植物生命的蛋白質(zhì),可以說(shuō)是地球上最不為人知的蛋白質(zhì)。

為此,Meta AI用上了最新的大型語(yǔ)言模型、打造了一個(gè)超過(guò)6億個(gè)宏基因組結(jié)構(gòu)的數(shù)據(jù)庫(kù),并提供一個(gè)API,讓科學(xué)家輕松檢索與工作相關(guān)的特定蛋白質(zhì)結(jié)構(gòu)。

圖片

論文地址:https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2

Meta表示,解碼宏基因組結(jié)構(gòu),有助于解開(kāi)長(zhǎng)期存在的人類(lèi)進(jìn)化史之謎,幫助人類(lèi)更有效地治愈疾病、凈化環(huán)境。

蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),提速60倍!

宏基因組學(xué)主要研究如何從所有這些在環(huán)境中共存的生物體中獲得DNA,這有點(diǎn)像一盒拼圖,但并不只是一盒拼圖,實(shí)際上是所有10組較小的拼圖堆在一起,放在一個(gè)盒子里。

宏基因組學(xué)同時(shí)獲取這10種生物的基因組時(shí),實(shí)際上是試圖同時(shí)解決10個(gè)謎題,了解同一個(gè)基因組盒子里的所有不同的拼圖。

正是這種結(jié)構(gòu)和生物作用的未知性,通過(guò)宏基因組學(xué)發(fā)現(xiàn)的新蛋白質(zhì),甚至可以稱(chēng)為蛋白質(zhì)宇宙的「暗物質(zhì)」。

圖片

近些年,基因測(cè)序方面的進(jìn)步讓編目數(shù)十億宏基因組蛋白質(zhì)序列成為可能。

然而,盡管已經(jīng)知道這些蛋白質(zhì)序列的存在,但想要進(jìn)一步了解它們的生物學(xué)特性,卻是一個(gè)巨大的挑戰(zhàn)。

圖片

為了要得到這些數(shù)以?xún)|計(jì)的蛋白質(zhì)序列結(jié)構(gòu),預(yù)測(cè)速度的突破是至關(guān)重要的。

這個(gè)過(guò)程,即便是用目前最先進(jìn)的工具,再搭上一個(gè)大型研究機(jī)構(gòu)的計(jì)算資源,也可能需要數(shù)年時(shí)間。

于是,Meta訓(xùn)練了一個(gè)大型語(yǔ)言模型,來(lái)學(xué)習(xí)進(jìn)化模式,并直接從蛋白質(zhì)序列中端到端地生成準(zhǔn)確的結(jié)構(gòu)預(yù)測(cè),在保持準(zhǔn)確性的同時(shí),預(yù)測(cè)速度比當(dāng)前最先進(jìn)的方法快60倍。

事實(shí)上,借助于這種新的結(jié)構(gòu)預(yù)測(cè)能力,Meta在短短兩周內(nèi)用一個(gè)由大約2000個(gè)GPU組成的集群上,預(yù)測(cè)出了圖譜中超過(guò)6億個(gè)宏基因組蛋白質(zhì)的序列。

圖片

Meta發(fā)布的宏基因組圖譜名為ESM Atlas,幾乎涵蓋了整個(gè)宏基因組序列公共數(shù)據(jù)庫(kù)MGnify90的預(yù)測(cè)。

Meta表示,ESM Atlas是迄今為止最大的高分辨率預(yù)測(cè)結(jié)構(gòu)數(shù)據(jù)庫(kù),比現(xiàn)有蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)大3倍,而且是第一個(gè)全面和大規(guī)模地覆蓋宏基因組蛋白質(zhì)的數(shù)據(jù)庫(kù)。

這些蛋白質(zhì)結(jié)構(gòu)為了解自然界的廣泛性和多樣性提供了一個(gè)前所未有的視角,并有可能加速發(fā)現(xiàn)蛋白質(zhì)在醫(yī)學(xué)、綠色化學(xué)、環(huán)境應(yīng)用和可再生能源等領(lǐng)域的實(shí)際應(yīng)用。

此次用于預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的新語(yǔ)言模型擁有150億個(gè)參數(shù),是迄今為止最大的「蛋白質(zhì)語(yǔ)言模型」。

這個(gè)模型實(shí)際上是Meta今年7月發(fā)布的ESM Fold蛋白質(zhì)預(yù)測(cè)模型的延續(xù)。

在當(dāng)初ESMFold發(fā)布時(shí),已經(jīng)和AlphaFold2、RoseTTAFold等主流蛋白質(zhì)模型不相上下。但ESMFold預(yù)測(cè)速度要比AlphaFold2快一個(gè)數(shù)量級(jí)!

一下說(shuō)數(shù)量級(jí)可能不好理解三者之間速度的對(duì)比,看看下面這張圖就懂了。

圖片

而這次ESM Atlas數(shù)據(jù)庫(kù)的發(fā)布,更是讓150億參數(shù)的大語(yǔ)言模型有了最廣泛的用武之地。

由此,科學(xué)家便可以在數(shù)億個(gè)蛋白質(zhì)的規(guī)模上搜索和分析以前沒(méi)有被定性的結(jié)構(gòu),并發(fā)現(xiàn)在醫(yī)學(xué)和其他應(yīng)用中有用的新蛋白質(zhì)。

語(yǔ)言模型,真是「萬(wàn)能」的

就像文本一樣,蛋白質(zhì)也可以被寫(xiě)成字符序列。

其中,構(gòu)成蛋白質(zhì)的每個(gè)「字符」都對(duì)應(yīng)于20個(gè)標(biāo)準(zhǔn)化學(xué)元素之一——氨基酸。而每個(gè)氨基酸又都有不同的特性。

但想要讀懂這種「生物學(xué)語(yǔ)言」是個(gè)很大的挑戰(zhàn)。

圖片

雖然就像剛剛說(shuō)的,蛋白質(zhì)序列和一段文字都可以寫(xiě)成字符,但它們之間卻存在著深刻而根本的區(qū)別。

一方面,這些「字符」的不同組合方式的數(shù)量是個(gè)天文數(shù)字。例如,對(duì)于由200個(gè)氨基酸組成的蛋白質(zhì),有20^200種可能的序列,比目前可探索的宇宙中的原子數(shù)量還要多。

另一方面,氨基酸的每個(gè)序列都會(huì)根據(jù)物理定律折疊成一個(gè)三維形狀。而且,不是所有的序列都會(huì)折疊成連貫的結(jié)構(gòu),其中有很多會(huì)折疊成無(wú)序的形式,但正是這種讓人捉摸不透形狀決定了蛋白質(zhì)的功能。

舉個(gè)例子,如果一個(gè)位置出現(xiàn)了某種氨基酸,而這種氨基酸通常又會(huì)與另一個(gè)位置的某種氨基酸配對(duì)。那么,在之后的折疊結(jié)構(gòu)中,它們就很可能存在相互作用。

而人工智能,便可以通過(guò)觀察蛋白質(zhì)序列來(lái)可以學(xué)習(xí)和閱讀這些模式,進(jìn)而推斷出蛋白質(zhì)的實(shí)際結(jié)構(gòu)。

在2019年,Meta提出了語(yǔ)言模型學(xué)習(xí)蛋白質(zhì)屬性的證據(jù),例如它們的結(jié)構(gòu)和功能。

圖片

論文地址:https://www.pnas.org/doi/10.1073/pnas.2016239118

利用掩膜這種自監(jiān)督學(xué)習(xí)形式訓(xùn)練的模型,可以正確地填補(bǔ)一段文字中的空白,如「要不要__,這是________」。

通過(guò)這種方法,Meta在數(shù)百萬(wàn)天然蛋白質(zhì)序列的基礎(chǔ)上上訓(xùn)練了一個(gè)語(yǔ)言模型,從而實(shí)現(xiàn)了填補(bǔ)蛋白質(zhì)序列中的空白,如「GL_KKE_AHY_G」。

實(shí)驗(yàn)表明,這種模型經(jīng)過(guò)訓(xùn)練,可以發(fā)現(xiàn)關(guān)于蛋白質(zhì)的結(jié)構(gòu)和功能的信息。

2020年,Meta發(fā)布ESH1b,這是當(dāng)時(shí)最先進(jìn)的蛋白質(zhì)語(yǔ)言模型,目前已被用于各種應(yīng)用,包括幫助科學(xué)家預(yù)測(cè)新冠病毒的進(jìn)化,以及發(fā)現(xiàn)遺傳病的病因。

圖片

論文地址:https://www.biorxiv.org/content/10.1101/2022.08.25.505311v1

現(xiàn)在,Meta擴(kuò)大了這種方法的規(guī)模,創(chuàng)建了下一代蛋白質(zhì)語(yǔ)言模型ESM-2,這是一個(gè)150億參數(shù)的大模型。

隨著模型從800萬(wàn)個(gè)參數(shù)擴(kuò)展到1500萬(wàn)個(gè)參數(shù),內(nèi)部表征中出現(xiàn)的信息能夠在原子分辨率下進(jìn)行三維結(jié)構(gòu)預(yù)測(cè)。

讀懂「蛋白質(zhì)語(yǔ)言」,讓生命更透明

從幾十億年前起,生物的進(jìn)化就形成了一種蛋白質(zhì)語(yǔ)言,這種語(yǔ)言可以通過(guò)簡(jiǎn)單的構(gòu)件形成復(fù)雜而動(dòng)態(tài)的分子機(jī)器。學(xué)習(xí)閱讀蛋白質(zhì)的語(yǔ)言是我們理解自然界的一個(gè)重要步驟。

AI可以為我們提供理解自然世界的新工具,就像顯微鏡一樣,讓我們以幾乎無(wú)限小的尺度來(lái)觀察世界,并開(kāi)啟了對(duì)生命的全新理解。AI可以幫助我們理解自然界多樣性的巨大范圍,并以一種新的方式看待生物學(xué)。

目前,大部分的AI研究都是讓計(jì)算機(jī)以類(lèi)似于人類(lèi)的方式來(lái)理解世界。蛋白質(zhì)的語(yǔ)言是人類(lèi)無(wú)法理解的,甚至最強(qiáng)大的計(jì)算工具也無(wú)法理解。

所以,Meta的這項(xiàng)工作的意義在于揭示了AI在跨領(lǐng)域時(shí)的巨大優(yōu)勢(shì),即:在機(jī)器翻譯、自然語(yǔ)言理解、語(yǔ)音識(shí)別和圖像生成方面取得進(jìn)展的大型語(yǔ)言模型,也能夠?qū)W習(xí)有關(guān)生物學(xué)的深刻信息。

此次Meta公開(kāi)這項(xiàng)工作,分享數(shù)據(jù)和成果,并以他人的見(jiàn)解為基礎(chǔ),希望這個(gè)大規(guī)模結(jié)構(gòu)圖集和快速蛋白質(zhì)折疊模型的發(fā)布,可以推動(dòng)進(jìn)一步的科學(xué)進(jìn)步,使我們更好地了解周?chē)氖澜纭?/p>

參考資料:

https://ai.facebook.com/blog/protein-folding-esmfold-metagenomics/?utm_source=twitter&utm_medium=organic_social&utm_campaign=blog

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2022-12-23 15:04:33

Meta模型

2021-07-24 10:21:46

模型人工智能深度學(xué)習(xí)

2022-11-02 13:42:08

AI語(yǔ)言模型

2023-07-06 16:59:56

英特爾

2023-07-06 13:23:49

2022-07-22 14:49:37

語(yǔ)言模型DeepMindAlphaFold2

2023-03-03 14:00:00

模型深度學(xué)習(xí)

2025-02-04 11:11:07

2021-12-20 10:07:35

AI 數(shù)據(jù)人工智能

2022-10-08 12:38:23

模型開(kāi)源

2024-06-26 13:21:50

2023-08-08 10:17:16

人工智能

2023-07-18 09:54:43

模型語(yǔ)言

2020-10-26 10:51:09

人工智能AI語(yǔ)言

2024-04-22 07:20:00

訓(xùn)練開(kāi)源

2023-07-13 12:53:02

FrameDiffAI

2022-12-25 13:36:47

論文

2021-11-22 09:39:21

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)人工智能

2022-07-28 19:31:39

AlphabetDeepMind擴(kuò)展數(shù)據(jù)庫(kù)

2022-02-14 00:04:24

AI蛋白質(zhì)結(jié)構(gòu)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)