自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<em id="k7bd8"><span id="k7bd8"></span></em>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

華為云與北大BIOPIC聯(lián)合發(fā)布蛋白質(zhì)多序列比對開源數(shù)據(jù)集

作者：佚名 2021-09-09 17:57:04

企業(yè)動態(tài)

為了更好地服務(wù)于跨領(lǐng)域的研究人員，Protein MSA數(shù)據(jù)集將被組織成具有多重形態(tài)的數(shù)據(jù)格式。

　　近日，華為與北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心（BIOPIC）、北京大學(xué)化學(xué)與分子工程學(xué)院、深圳灣實驗室高毅勤教授課題組聯(lián)合推出蛋白質(zhì)多序列比對（Protein MSA）數(shù)據(jù)集，希望在標準化的數(shù)據(jù)集基礎(chǔ)上，支撐研究人員開發(fā)先進的AI模型，加深對蛋白質(zhì)結(jié)構(gòu)、功能和進化的認知，并進行蛋白設(shè)計與改造。此數(shù)據(jù)集將發(fā)布于華為云AI Gallery平臺，相關(guān)代碼及數(shù)據(jù)集說明將依托于華為全場景AI計算框架MindSpore進行開源開放、定期擴展與維護，旨在為全世界相關(guān)的產(chǎn)、學(xué)、研團隊提供優(yōu)質(zhì)的數(shù)據(jù)共享解決方案。

　　本次開源的Protein MSA數(shù)據(jù)集完全覆蓋最新版本（2021年2月發(fā)布）的UniRef50數(shù)據(jù)庫中的蛋白質(zhì)序列，采用學(xué)術(shù)界的“金標準”搜索方法，對約0.5億條蛋白序列進行了充分的MSA搜索與比對（MSA平均深度大于1000），是目前世界范圍內(nèi)規(guī)模最大、參考數(shù)據(jù)集最新、覆蓋度最廣的開源蛋白質(zhì)MSA數(shù)據(jù)集（之前最大的開源MSA數(shù)據(jù)集包含10萬個蛋白MSA）【1】。

　　人類已知的蛋白質(zhì)序列已經(jīng)超過4.4億條，但僅憑這些蛋白質(zhì)單序列數(shù)據(jù)庫，很難了解蛋白之間的關(guān)系。Protein MSA數(shù)據(jù)庫是一個對不同蛋白質(zhì)序列之間的關(guān)系進行了標記的大規(guī)模“關(guān)系型”數(shù)據(jù)庫，被標記為關(guān)聯(lián)的蛋白質(zhì)序列之間的相似度、進化關(guān)系、突變所在位點的分布等信息對蛋白質(zhì)結(jié)構(gòu)和功能的預(yù)測極為重要。

　　為了更好地服務(wù)于跨領(lǐng)域的研究人員，Protein MSA數(shù)據(jù)集將被組織成具有多重形態(tài)的數(shù)據(jù)格式。原始數(shù)據(jù)集（近30T）將以UniRef系列數(shù)據(jù)庫【2】和UniClust數(shù)據(jù)庫【3】的標準文本形式存儲，并按照序列長度進行分割與壓縮。為了便于AI領(lǐng)域的研究人員直接使用，Protein MSA數(shù)據(jù)集還會將文本格式的數(shù)據(jù)集轉(zhuǎn)化為浮點數(shù)張量類型壓縮存儲，并對已有的AI框架如MindSpore進行數(shù)據(jù)接口的支持。

　　高毅勤教授表示：“我們鼓勵并期待來自生物信息學(xué)、數(shù)據(jù)科學(xué)和AI研究等領(lǐng)域的專家和人才充分碰撞與合作，引入、改進或設(shè)計全新的AI模型，來充分地挖掘Protein MSA數(shù)據(jù)集中所隱藏的‘自然的秘密’”。

　　從科學(xué)的角度看，MSA的數(shù)量和質(zhì)量很大程度上影響了目前最先進結(jié)構(gòu)模型的預(yù)測速度和精度，而且產(chǎn)生MSA的非參數(shù)化算法仍是諸多蛋白預(yù)測方法中決定速度的主要步驟之一。因此，Protein MSA數(shù)據(jù)庫本身可以作為這些結(jié)構(gòu)預(yù)測模型的預(yù)訓(xùn)練材料，用來挖掘序列信息甚至快速生成新的序列特征，這對解決研究、設(shè)計蛋白質(zhì)中所面臨的高變異序列和孤兒序列等問題具有巨大的潛在價值。

　　此次數(shù)據(jù)庫的發(fā)布，依托于華為云AI Gallery平臺，能夠充分保障國內(nèi)外用戶對于數(shù)據(jù)集的訪問和下載，并提供可持續(xù)更新與擴充的先進數(shù)據(jù)維護方案以及下游AI應(yīng)用與部署的相關(guān)支持，融合了產(chǎn)、學(xué)、研相結(jié)合的研究模式的優(yōu)勢。此外，華為也與北京大學(xué)高毅勤課題組聯(lián)合開發(fā)并開源了首個國產(chǎn)分子動力學(xué)軟件MindSponge。未來，華為將牽手更多的學(xué)術(shù)科研界合作伙伴，在材料、生物、醫(yī)藥等更廣泛的科學(xué)計算領(lǐng)域打造數(shù)據(jù)推動的研究新模式。

　　附：

　　數(shù)據(jù)集開源說明：

　　https://gitee.com/mindspore/mindscience/tree/master/MindSPONGE/protein_msa

　　數(shù)據(jù)集下載地址：

　　https://marketplace.huaweicloud.com/markets/aihub/datasets/detail/?content_id=5802def2-5fbd-40da-85d8-a4541d1c6f1e

　　【1】AlQuraishi, Mohammed. "ProteinNet: a standardized data set for machine learning of protein structure." BMC bioinformatics 20.1 (2019): 1-10.

　　【2】Suzek, B. E., Wang, Y., Huang, H., McGarvey, P. B., Wu, C. H., & UniProt Consortium. (2015). UniRef clusters: a comprehensive and scalable alternative for improving sequence similarity searches. Bioinformatics, 31(6), 926-932.

　　【3】Mirdita M.*, von den Driesch L.*, Galiez C., Martin M. J., Söding J.#, and Steinegger M.#, Uniclust databases of clustered and deeply annotated protein sequences and alignments, Nucleic Acids Res. 2016.

責(zé)任編輯：張誠來源：互聯(lián)網(wǎng)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營