自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<big id="kilbr"></big>

<sub id="kilbr"></sub>

<sub id="kilbr"><p id="kilbr"><li id="kilbr"></li></p></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

哈佛、哥大開源1600萬組蛋白質(zhì)序列，解決AlphaFold 2訓(xùn)練數(shù)據(jù)私有難題！

作者：新智元 2023-09-20 12:44:00

人工智能新聞

這個叫OpenProteinSet的開源數(shù)據(jù)集，提供1600萬個開源蛋白質(zhì)多序列對齊（MSA）和相關(guān)數(shù)據(jù)。它涵蓋了所有蛋白質(zhì)數(shù)據(jù)庫的蛋白質(zhì)和各種UniProt集群，可以實現(xiàn)廣泛的AI模型訓(xùn)練。

蛋白質(zhì)是生命的主力軍，了解它們的序列和結(jié)構(gòu)，是設(shè)計新酶、開發(fā)救命藥物等生物學(xué)和醫(yī)學(xué)挑戰(zhàn)的關(guān)鍵。

DeepMind的AlphaFold 2，能夠以前所未有的準(zhǔn)確性預(yù)測蛋白質(zhì)結(jié)構(gòu)。

然而，由于缺乏開放的訓(xùn)練數(shù)據(jù)，這一領(lǐng)域的進展被嚴(yán)重阻礙。

但來自哈佛大學(xué)、哈佛醫(yī)學(xué)院、哥倫比亞大學(xué)、紐約大學(xué)和Flatiron Institute的研究者，引入了一個開源數(shù)據(jù)庫。

這個名為OpenProteinSet的開源數(shù)據(jù)庫，可以通過大規(guī)模提供蛋白質(zhì)比對數(shù)據(jù)，來大大改善這種狀況。

它提供的數(shù)據(jù)集，和用于訓(xùn)練AlphaFold 2的數(shù)據(jù)集質(zhì)量相同。

因為AlphaFold 2，MSA的實用性爆炸性增長

蛋白質(zhì)的功能，就編碼在氨基酸序列中。

在進化過程中，這些序列會積累一些微小的變化，而蛋白質(zhì)的整體結(jié)構(gòu)和功能卻一直保持不變。

多序列對齊（MSA）是一組和進化相關(guān)的蛋白質(zhì)序列，通過插入間隙進行對齊，使匹配的氨基酸最終出現(xiàn)在同一列中。

通過分析這些MSA中的模式，可以深入了解蛋白質(zhì)的結(jié)構(gòu)和功能。

MSA的每一行，都是一個蛋白質(zhì)序列。蛋白質(zhì)是由20個氨基酸（或「殘基」）組成的一維字符串，每個氨基酸或「殘基」由一個字母表示。

目標(biāo)或「查詢」蛋白質(zhì)在MSA的第一行中給出。后續(xù)行是根據(jù)與查詢序列的相似性，從大型序列數(shù)據(jù)庫中檢索到的進化相關(guān)（「同源」）蛋白質(zhì)。

為了改進比對、適應(yīng)長度隨時間變化的同源序列，MSA比對軟件可以在同源序列中插入「缺口」（此處用破折號表示）或刪除殘基。

MSA中同源序列的數(shù)量（「深度」）及其多樣性，都有助于MSA的實用性。

MSA引物

長期以來，MSA對蛋白質(zhì)研究都至關(guān)重要，不過在2021年，因為AlphaFold 2的出現(xiàn)，MSA的實用性呈現(xiàn)了爆炸性增長。

通過MSA，AlphaFold 2能夠以近乎實驗級的準(zhǔn)確性預(yù)測蛋白質(zhì)結(jié)構(gòu)。

然而有一個問題：雖然AlphaFold 2是開源的，但它的訓(xùn)練數(shù)據(jù)仍然是私有的。

這樣做的計算成本很高。根據(jù)目標(biāo)序列長度和正在搜索的序列數(shù)據(jù)庫的大小生成一個具有高靈敏度的MSA，可能需要幾個小時。

這樣，蛋白質(zhì)機器學(xué)習(xí)和生物信息學(xué)的前沿研究除了少數(shù)大型研究團隊外，其他所有人都無法訪問。

1600萬個MSA全部開源

因此，團隊提出了OpenProteinSet，這是一個在AlphaFold 2及其以上規(guī)模訓(xùn)練生物信息學(xué)的模型。

它包含了AlphaFold 2未發(fā)布的訓(xùn)練集，包括所有唯一的蛋白質(zhì)數(shù)據(jù)庫(PDB)鏈的MSAs和結(jié)構(gòu)模板。

現(xiàn)在，OpenProteinSet提供了1600萬個MSA和相關(guān)數(shù)據(jù)，并且全部開源。

PDB是實驗確定的蛋白質(zhì)結(jié)構(gòu)的權(quán)威數(shù)據(jù)庫，而OpenProteinSet包括PDB中所有140,000種蛋白質(zhì)的MSA。

它甚至還包括來自UniProt知識庫的序列，該序列按相似性聚類。

對于PDB蛋白質(zhì)，OpenProteinSet能夠提供來自多個序列數(shù)據(jù)庫的原始MSA。

通過搜索PDB，它還能找到結(jié)構(gòu)相似的蛋白質(zhì)。

AlphaFold 2預(yù)測的結(jié)構(gòu)，包括270,000個不同的UniProt集群。

使用開源數(shù)據(jù)集重新創(chuàng)建AlphaFold 2

開發(fā)者還會使用OpenProteinSet來訓(xùn)練OpenFold，這是AlphaFold 2的一個開放版本。

他們發(fā)現(xiàn)，OpenFold的性能與DeepMind的原始數(shù)據(jù)相當(dāng)，證明了這種開放數(shù)據(jù)的充分性。

團隊表示，「通過OpenProteinSet，我們大大提高了分子機器學(xué)習(xí)社區(qū)可用的預(yù)計算MSA的數(shù)量和質(zhì)量，」

該數(shù)據(jù)集可直接應(yīng)用于結(jié)構(gòu)生物學(xué)的各種任務(wù)。

實驗方法

OpenProteinSet由超過1600萬個獨特的MSAs組成，這些MSAs是根據(jù)AIphaFold2論文中的程序生成的。

這一計數(shù)包括截至2022年4月PDB中所有14萬個唯一鏈的MSAs，以及針對同一數(shù)據(jù)庫為Uniclust30中的每個序列集群計算的1,600萬個MSAs。

從后一組中，研究者確定了270,000個最大多樣性代表性集群，比如可以適用于AphaFold2訓(xùn)練過程中的自我蒸餾集。

對于每個PDB鏈，研究者使用了不同的對齊工具和序列數(shù)據(jù)庫計算三個MSAs。

使用OpenFold中的腳本，可以從公開可用的PDBmmCIF文件中，檢索相應(yīng)的結(jié)構(gòu)。

與用于生成AIphaFold2訓(xùn)練集的過程一樣，研究者更改了MSA生成工具的一些默認(rèn)選項。

隨后，產(chǎn)生了大約1600萬個MSAs，每個集群一個。

為了創(chuàng)建一個不同的、深度的MSAs子集，研究者通過迭代去除代表性鏈出現(xiàn)在其他MSAs中最多的MSAs。

這樣重復(fù)，直到每個代表鏈只出現(xiàn)在它自己的MSA中。

為了與對應(yīng)的（未發(fā)布的）AlphaFold 2集進行奇偶性檢驗，研究者進一步刪除了代表序列大于1024個殘基或小于200個殘基的簇。

最后，他們剔除了相應(yīng)MSAs少于200個序列的簇，只剩下270,262個MSAs。

總的來說，OpenProteinSet中的MSAs代表了超過400萬小時的計算。

OpenProteinSet大大提高了分子機器學(xué)習(xí)社區(qū)可用的預(yù)計算MSAs的數(shù)量和質(zhì)量，它可以直接應(yīng)用于結(jié)構(gòu)生物學(xué)中的各種任務(wù)。

隨著模型對數(shù)據(jù)的需求越來越大，像OpenProteimnSet這樣的數(shù)據(jù)庫既可以作為多模態(tài)語言模型的生物知識寶庫，也可以作為多模態(tài)訓(xùn)練本身的實證研究工具。

總之，OpenProteinSet將進一步推動生物信息學(xué)、蛋白質(zhì)機器學(xué)習(xí)等領(lǐng)域的研究。

責(zé)任編輯：張燕妮來源：新智元

AI 訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營