自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌AI一次注釋了10%的已知蛋白質(zhì)序列,超過(guò)人類(lèi)十年研究成果

人工智能 深度學(xué)習(xí) 新聞
和 AlphaFold 不同,這次谷歌探索的是用深度學(xué)習(xí)給蛋白質(zhì)打上功能標(biāo)簽。

蛋白質(zhì)是組成人體一切細(xì)胞、組織的重要成分。機(jī)體所有重要的組成部分都需要有蛋白質(zhì)的參與。

目前已知存在的蛋白質(zhì)種類(lèi)有數(shù)十億,但其中大約有三分之一的功能是不可知的。我們迫切地需要探索這片未知區(qū)域,因?yàn)樗鼈冴P(guān)系到抗菌素耐藥性,甚至氣候變化等重要議題。例如,青霉素是蛋白質(zhì)之間自然反應(yīng)的產(chǎn)物,植物蛋白可用于減少大氣中的二氧化碳。

近日,谷歌與歐洲生物信息學(xué)研究所合作開(kāi)發(fā)了一種技術(shù) ProtCNN,其能夠使用神經(jīng)網(wǎng)絡(luò)可靠地預(yù)測(cè)蛋白質(zhì)功能,幫助我們縮小蛋白質(zhì)宇宙中最后不可見(jiàn)的區(qū)域。

谷歌表示,這種新方法讓我們可以較為準(zhǔn)確地預(yù)測(cè)蛋白質(zhì)功能、突變的功能效應(yīng),并進(jìn)行蛋白質(zhì)設(shè)計(jì),進(jìn)而應(yīng)用于藥物發(fā)現(xiàn)、酶設(shè)計(jì),甚至是了解生命的起源。

論文:Using deep learning to annotate the protein universe

論文鏈接:https://www.nature.com/articles/s41587-021-01179-w

谷歌提出的方法可靠地預(yù)測(cè)了更多蛋白質(zhì)的作用,而且它們快速、便宜且易于嘗試,其研究已讓主流數(shù)據(jù)庫(kù) Pfam 中注釋的蛋白質(zhì)序列增加了近 10%,一舉超過(guò)了過(guò)去十年的增速,并預(yù)測(cè)了 360 種人類(lèi)蛋白質(zhì)功能。

Pfam 數(shù)據(jù)庫(kù)是一系列蛋白質(zhì)家族的集合,其中每一個(gè)蛋白家族都以多序列比對(duì)和隱馬爾科夫模型的形式來(lái)表示。

這些結(jié)果表明,深度學(xué)習(xí)模型將成為未來(lái)蛋白質(zhì)注釋工具的核心組成部分。

對(duì)于大多數(shù)人來(lái)說(shuō),我們更熟悉的是 DeepMind 此前預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)算法 AlphaFold 的工作。AlphaFold 向我們展示了這些神秘生物機(jī)器的形狀,新研究的重點(diǎn)則是這些機(jī)器的作用以及它們的用途。

生物醫(yī)療是一個(gè)極其活躍的科學(xué)領(lǐng)域,每天都有超過(guò)十萬(wàn)個(gè)蛋白質(zhì)序列被添加到全球序列數(shù)據(jù)庫(kù)中。但是,除非附有功能注釋?zhuān)駝t這些條目對(duì)從業(yè)者的用途非常有限。雖然人們會(huì)努力從文獻(xiàn)中提取注釋?zhuān)磕暝u(píng)估超過(guò)六萬(wàn)篇論文,但這項(xiàng)任務(wù)的耗時(shí)性質(zhì)意味著只有 0.03% 的公開(kāi)可用蛋白質(zhì)序列是手動(dòng)注釋的。

直接從氨基酸序列推斷蛋白質(zhì)功能是科學(xué)社區(qū)長(zhǎng)久以來(lái)一直在研究的方向。從 1980 年代開(kāi)始,人們就提出了 BLAST 等方法,其依賴(lài)于成對(duì)的序列比較,假設(shè)查詢(xún)蛋白與已經(jīng)注釋的高度相似的序列具有相同的功能。后來(lái),人們引入了基于 signature 的方法,PROSITE 數(shù)據(jù)庫(kù)對(duì)在具有特定功能的蛋白質(zhì)中發(fā)現(xiàn)的短氨基酸「基序」進(jìn)行分類(lèi)。基于 signature 方法的一個(gè)關(guān)鍵改進(jìn)是開(kāi)發(fā)了 profile 隱馬爾可夫模型(pHMM)。這些模型將相關(guān)蛋白質(zhì)序列的對(duì)齊折疊成一個(gè)模型,該模型為新序列提供似然分?jǐn)?shù),描述它們與對(duì)齊的集合的匹配程度。

在這里至關(guān)重要的是,profile HMM 允許更長(zhǎng)的 signature 和更模糊的匹配,目前用于更新流行的數(shù)據(jù)庫(kù),如 Interpro 和 Pfam。后期的改進(jìn)使這些技術(shù)更加靈敏,計(jì)算效率更高,而它們作為網(wǎng)絡(luò)工具的高可用性讓從業(yè)者可以輕松將它們整合到工作流程中去。

這些計(jì)算建模方法在學(xué)界產(chǎn)生了很大影響。然而,至今仍有三分之一的細(xì)菌蛋白質(zhì)沒(méi)有被注釋出功能。究其原因,當(dāng)前方法對(duì)每個(gè)比較序列或模型進(jìn)行完全獨(dú)立的比較,因此可能無(wú)法充分利用不同功能類(lèi)共享的特征。

擴(kuò)展注釋的蛋白質(zhì)序列集需要遠(yuǎn)程同源檢測(cè),即對(duì)與訓(xùn)練數(shù)據(jù)相似度低的序列進(jìn)行準(zhǔn)確分類(lèi)。新研究得到的基準(zhǔn)測(cè)試集包含 21,293 個(gè)序列。ProtENN 對(duì)所有類(lèi)別分類(lèi)的準(zhǔn)確度顯著提高,包括那些具有遠(yuǎn)距離測(cè)試序列的類(lèi),這是擴(kuò)大蛋白質(zhì)領(lǐng)域覆蓋范圍的關(guān)鍵要求。為解決從幾個(gè)例子中推斷的挑戰(zhàn),作者使用深度模型學(xué)習(xí)的序列表示來(lái)提高性能。

Pfam-seed 模型的性能。

ProtCNN 的架構(gòu)。中心圖展示了輸入(紅色)、嵌入(黃色)和預(yù)測(cè)(綠色)網(wǎng)絡(luò)以及殘差網(wǎng)絡(luò) ResNet 架構(gòu)(左),而右圖展示了 ProtCNN 和 ProtREP 通過(guò)簡(jiǎn)單的最近鄰方法利用。在這一表示中,每個(gè)序列對(duì)應(yīng)一個(gè)點(diǎn),來(lái)自同一家族的序列通常比來(lái)自其他家族的序列更接近。

ProtCNN 學(xué)習(xí)每序列長(zhǎng)度為 1100 的實(shí)值向量表示,無(wú)論其未對(duì)齊長(zhǎng)度如何。為獲得高精度,來(lái)自每個(gè)族的表示必須緊密地聚集在一起,以便不同的族很好地相互分離。為了測(cè)試這種學(xué)習(xí)表示是否可用于準(zhǔn)確分類(lèi)最小家族的序列,作者構(gòu)建了一種稱(chēng)為 ProtREP 的新方法。對(duì)于 ProtREP,研究者計(jì)算每個(gè)家族在其訓(xùn)練序列中的平均學(xué)習(xí)表示,產(chǎn)生一個(gè)標(biāo)記家族表示。然后通過(guò)在學(xué)習(xí)表示空間中找到其最近的標(biāo)記來(lái)對(duì)每個(gè)保留的測(cè)試序列進(jìn)行分類(lèi)。對(duì)于相同的計(jì)算成本,ProtREP 在聚類(lèi)分割上超過(guò)了 ProtCNN 的準(zhǔn)確性。

ProtENN 和 TPHMM 的組合提高了遠(yuǎn)程同源任務(wù)的性能。TPHMM 和 ProtENN 模型的簡(jiǎn)單組合將錯(cuò)誤率降低了 38.6%,將 ProtENN 數(shù)據(jù)的準(zhǔn)確度從 89.0% 提高到 93.3%。

為探究深度模型對(duì)蛋白質(zhì)序列數(shù)據(jù)的了解,作者在來(lái)自 Pfam-full 的 80% 的未對(duì)齊序列上訓(xùn)練 ProtCNN,并計(jì)算了學(xué)習(xí)氨基酸表示的相似性矩陣。

結(jié)果表明,ProtCNN 學(xué)習(xí)了一種有意義的蛋白質(zhì)序列表示方式,其可泛化到序列空間未知的部分,可用于預(yù)測(cè)和理解蛋白質(zhì)序列的特性。另一個(gè)挑戰(zhàn)是檢測(cè)蛋白質(zhì)結(jié)構(gòu)域及其在蛋白質(zhì)序列中的位置。此任務(wù)類(lèi)似于圖像分割,這正是深度學(xué)習(xí)模型擅長(zhǎng)的任務(wù)。雖然 ProtCNN 是使用域進(jìn)行訓(xùn)練的,但研究展示了 ProtCNN 使用簡(jiǎn)單的滑動(dòng)窗口方法將完整序列分割成域的能力。

盡管不使用序列比對(duì),但 ProtCNN 仍顯示出了卓越的準(zhǔn)確性。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心Pro
相關(guān)推薦

2021-07-24 10:21:46

模型人工智能深度學(xué)習(xí)

2025-01-20 09:13:00

OpenAI編程技術(shù)

2022-07-28 19:31:39

AlphabetDeepMind擴(kuò)展數(shù)據(jù)庫(kù)

2025-02-25 13:46:26

2024-09-06 14:01:11

2023-07-06 16:59:56

英特爾

2023-07-06 13:23:49

2023-03-03 14:00:00

模型深度學(xué)習(xí)

2024-05-09 11:08:22

2022-11-02 13:41:46

2023-09-20 12:44:00

AI訓(xùn)練

2022-05-05 09:10:00

AI芯片設(shè)計(jì)

2023-01-13 21:13:31

AI人工智能醫(yī)療

2020-12-01 10:53:42

AI 數(shù)據(jù)人工智能

2021-12-20 10:07:35

AI 數(shù)據(jù)人工智能

2023-10-04 09:23:21

微軟開(kāi)發(fā)

2020-11-17 14:53:54

騰訊 蛋白質(zhì)AI

2023-06-05 15:41:10

AI算法

2023-12-20 14:11:55

人工智能

2022-12-29 13:37:00

人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)