自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="6y53v"><p id="6y53v"></p></sub>

<em id="6y53v"><rt id="6y53v"></rt></em>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

谷歌AI一次注釋了10%的已知蛋白質(zhì)序列，超過(guò)人類(lèi)十年研究成果

作者：機(jī)器之心 2022-02-22 16:33:58

人工智能深度學(xué)習(xí) 新聞

和 AlphaFold 不同，這次谷歌探索的是用深度學(xué)習(xí)給蛋白質(zhì)打上功能標(biāo)簽。

蛋白質(zhì)是組成人體一切細(xì)胞、組織的重要成分。機(jī)體所有重要的組成部分都需要有蛋白質(zhì)的參與。

目前已知存在的蛋白質(zhì)種類(lèi)有數(shù)十億，但其中大約有三分之一的功能是不可知的。我們迫切地需要探索這片未知區(qū)域，因?yàn)樗鼈冴P(guān)系到抗菌素耐藥性，甚至氣候變化等重要議題。例如，青霉素是蛋白質(zhì)之間自然反應(yīng)的產(chǎn)物，植物蛋白可用于減少大氣中的二氧化碳。

近日，谷歌與歐洲生物信息學(xué)研究所合作開(kāi)發(fā)了一種技術(shù) ProtCNN，其能夠使用神經(jīng)網(wǎng)絡(luò)可靠地預(yù)測(cè)蛋白質(zhì)功能，幫助我們縮小蛋白質(zhì)宇宙中最后不可見(jiàn)的區(qū)域。

谷歌表示，這種新方法讓我們可以較為準(zhǔn)確地預(yù)測(cè)蛋白質(zhì)功能、突變的功能效應(yīng)，并進(jìn)行蛋白質(zhì)設(shè)計(jì)，進(jìn)而應(yīng)用于藥物發(fā)現(xiàn)、酶設(shè)計(jì)，甚至是了解生命的起源。

論文：Using deep learning to annotate the protein universe

論文鏈接：https://www.nature.com/articles/s41587-021-01179-w

谷歌提出的方法可靠地預(yù)測(cè)了更多蛋白質(zhì)的作用，而且它們快速、便宜且易于嘗試，其研究已讓主流數(shù)據(jù)庫(kù) Pfam 中注釋的蛋白質(zhì)序列增加了近 10%，一舉超過(guò)了過(guò)去十年的增速，并預(yù)測(cè)了 360 種人類(lèi)蛋白質(zhì)功能。

Pfam 數(shù)據(jù)庫(kù)是一系列蛋白質(zhì)家族的集合，其中每一個(gè)蛋白家族都以多序列比對(duì)和隱馬爾科夫模型的形式來(lái)表示。

這些結(jié)果表明，深度學(xué)習(xí)模型將成為未來(lái)蛋白質(zhì)注釋工具的核心組成部分。

對(duì)于大多數(shù)人來(lái)說(shuō)，我們更熟悉的是 DeepMind 此前預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)算法 AlphaFold 的工作。AlphaFold 向我們展示了這些神秘生物機(jī)器的形狀，新研究的重點(diǎn)則是這些機(jī)器的作用以及它們的用途。

生物醫(yī)療是一個(gè)極其活躍的科學(xué)領(lǐng)域，每天都有超過(guò)十萬(wàn)個(gè)蛋白質(zhì)序列被添加到全球序列數(shù)據(jù)庫(kù)中。但是，除非附有功能注釋?zhuān)駝t這些條目對(duì)從業(yè)者的用途非常有限。雖然人們會(huì)努力從文獻(xiàn)中提取注釋?zhuān)磕暝u(píng)估超過(guò)六萬(wàn)篇論文，但這項(xiàng)任務(wù)的耗時(shí)性質(zhì)意味著只有 0.03% 的公開(kāi)可用蛋白質(zhì)序列是手動(dòng)注釋的。

直接從氨基酸序列推斷蛋白質(zhì)功能是科學(xué)社區(qū)長(zhǎng)久以來(lái)一直在研究的方向。從 1980 年代開(kāi)始，人們就提出了 BLAST 等方法，其依賴(lài)于成對(duì)的序列比較，假設(shè)查詢(xún)蛋白與已經(jīng)注釋的高度相似的序列具有相同的功能。后來(lái)，人們引入了基于 signature 的方法，PROSITE 數(shù)據(jù)庫(kù)對(duì)在具有特定功能的蛋白質(zhì)中發(fā)現(xiàn)的短氨基酸「基序」進(jìn)行分類(lèi)。基于 signature 方法的一個(gè)關(guān)鍵改進(jìn)是開(kāi)發(fā)了 profile 隱馬爾可夫模型（pHMM）。這些模型將相關(guān)蛋白質(zhì)序列的對(duì)齊折疊成一個(gè)模型，該模型為新序列提供似然分?jǐn)?shù)，描述它們與對(duì)齊的集合的匹配程度。

在這里至關(guān)重要的是，profile HMM 允許更長(zhǎng)的 signature 和更模糊的匹配，目前用于更新流行的數(shù)據(jù)庫(kù)，如 Interpro 和 Pfam。后期的改進(jìn)使這些技術(shù)更加靈敏，計(jì)算效率更高，而它們作為網(wǎng)絡(luò)工具的高可用性讓從業(yè)者可以輕松將它們整合到工作流程中去。

這些計(jì)算建模方法在學(xué)界產(chǎn)生了很大影響。然而，至今仍有三分之一的細(xì)菌蛋白質(zhì)沒(méi)有被注釋出功能。究其原因，當(dāng)前方法對(duì)每個(gè)比較序列或模型進(jìn)行完全獨(dú)立的比較，因此可能無(wú)法充分利用不同功能類(lèi)共享的特征。

擴(kuò)展注釋的蛋白質(zhì)序列集需要遠(yuǎn)程同源檢測(cè)，即對(duì)與訓(xùn)練數(shù)據(jù)相似度低的序列進(jìn)行準(zhǔn)確分類(lèi)。新研究得到的基準(zhǔn)測(cè)試集包含 21,293 個(gè)序列。ProtENN 對(duì)所有類(lèi)別分類(lèi)的準(zhǔn)確度顯著提高，包括那些具有遠(yuǎn)距離測(cè)試序列的類(lèi)，這是擴(kuò)大蛋白質(zhì)領(lǐng)域覆蓋范圍的關(guān)鍵要求。為解決從幾個(gè)例子中推斷的挑戰(zhàn)，作者使用深度模型學(xué)習(xí)的序列表示來(lái)提高性能。

Pfam-seed 模型的性能。

ProtCNN 的架構(gòu)。中心圖展示了輸入（紅色）、嵌入（黃色）和預(yù)測(cè)（綠色）網(wǎng)絡(luò)以及殘差網(wǎng)絡(luò) ResNet 架構(gòu)（左），而右圖展示了 ProtCNN 和 ProtREP 通過(guò)簡(jiǎn)單的最近鄰方法利用。在這一表示中，每個(gè)序列對(duì)應(yīng)一個(gè)點(diǎn)，來(lái)自同一家族的序列通常比來(lái)自其他家族的序列更接近。

ProtCNN 學(xué)習(xí)每序列長(zhǎng)度為 1100 的實(shí)值向量表示，無(wú)論其未對(duì)齊長(zhǎng)度如何。為獲得高精度，來(lái)自每個(gè)族的表示必須緊密地聚集在一起，以便不同的族很好地相互分離。為了測(cè)試這種學(xué)習(xí)表示是否可用于準(zhǔn)確分類(lèi)最小家族的序列，作者構(gòu)建了一種稱(chēng)為 ProtREP 的新方法。對(duì)于 ProtREP，研究者計(jì)算每個(gè)家族在其訓(xùn)練序列中的平均學(xué)習(xí)表示，產(chǎn)生一個(gè)標(biāo)記家族表示。然后通過(guò)在學(xué)習(xí)表示空間中找到其最近的標(biāo)記來(lái)對(duì)每個(gè)保留的測(cè)試序列進(jìn)行分類(lèi)。對(duì)于相同的計(jì)算成本，ProtREP 在聚類(lèi)分割上超過(guò)了 ProtCNN 的準(zhǔn)確性。

ProtENN 和 TPHMM 的組合提高了遠(yuǎn)程同源任務(wù)的性能。TPHMM 和 ProtENN 模型的簡(jiǎn)單組合將錯(cuò)誤率降低了 38.6%，將 ProtENN 數(shù)據(jù)的準(zhǔn)確度從 89.0% 提高到 93.3%。

為探究深度模型對(duì)蛋白質(zhì)序列數(shù)據(jù)的了解，作者在來(lái)自 Pfam-full 的 80% 的未對(duì)齊序列上訓(xùn)練 ProtCNN，并計(jì)算了學(xué)習(xí)氨基酸表示的相似性矩陣。

結(jié)果表明，ProtCNN 學(xué)習(xí)了一種有意義的蛋白質(zhì)序列表示方式，其可泛化到序列空間未知的部分，可用于預(yù)測(cè)和理解蛋白質(zhì)序列的特性。另一個(gè)挑戰(zhàn)是檢測(cè)蛋白質(zhì)結(jié)構(gòu)域及其在蛋白質(zhì)序列中的位置。此任務(wù)類(lèi)似于圖像分割，這正是深度學(xué)習(xí)模型擅長(zhǎng)的任務(wù)。雖然 ProtCNN 是使用域進(jìn)行訓(xùn)練的，但研究展示了 ProtCNN 使用簡(jiǎn)單的滑動(dòng)窗口方法將完整序列分割成域的能力。

盡管不使用序列比對(duì)，但 ProtCNN 仍顯示出了卓越的準(zhǔn)確性。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心Pro

深度學(xué)習(xí)人工智能模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)