基因界谷歌 | 中國人自己的生命大數(shù)據(jù)平臺,來了!
編者按
5 月 27 日,生命大數(shù)據(jù)高峰論壇暨第四屆基因組云計算技術(shù)開發(fā)者峰會(GCTA 4)在貴陽隆重舉行。作為 2019 數(shù)博會的重要組成部分,會議聚焦“閱讀、管理、理解、計算生命大數(shù)據(jù)”,分享前沿學(xué)術(shù)報告,解讀***政策及行業(yè)動態(tài),為生命大數(shù)據(jù)的研究與應(yīng)用再添新動力。
圍繞如何搭建生命應(yīng)用大平臺,魏曉鋒分享了國家基因庫生命大數(shù)據(jù)平臺(CNGBdb)的設(shè)計思路及服務(wù)優(yōu)勢,并展示了 CNGBdb 在助力生命大數(shù)據(jù)研究與應(yīng)用方面取得的成果。以下是內(nèi)容詳情。
生命大數(shù)據(jù),挖掘種質(zhì)資源
生命就是大數(shù)據(jù),其載體可能是動物、植物,也有可能是細(xì)胞,甚至磁盤或磁帶。這里涉及一個關(guān)鍵詞:種質(zhì)(編者注:種質(zhì)是指生物體親代傳遞給子代的遺傳物質(zhì),往往存在于特定品種之中。 如古老的地方品種、新培育的推廣品種、重要的遺傳材料以及野生近緣植物,都屬于種質(zhì)資源的范圍)。
哪些種質(zhì)的應(yīng)用對經(jīng)濟(jì)有較大價值?中國的種質(zhì)資源豐富到什么程度?對于豐富的種質(zhì)資源,應(yīng)該如何做好信息存儲?
另外,每個人都是一個行走的大數(shù)據(jù)庫。每個人從受精卵成長及至衰老,整個身體里動態(tài)維持著 40 多萬億細(xì)胞,每個細(xì)胞里都有 23 對染色體。IT 領(lǐng)域經(jīng)常提到一個詞叫量級,提升一個量級需要經(jīng)常更新方法。而在 BT 領(lǐng)域的難題是,我們每個人有 3G 的基因組數(shù)據(jù),通過測序分析會產(chǎn)生數(shù)百 GB 甚至 1TB 以上的數(shù)據(jù)。海量數(shù)據(jù)對平臺和方法有更嚴(yán)苛的要求。
搭建數(shù)據(jù)組織的頂層設(shè)計
面對龐雜的數(shù)據(jù),CNGBdb 團(tuán)隊把自身的數(shù)據(jù)和公開的信息進(jìn)行了整合。那么,如何在上層構(gòu)建一個新的載體以組織連接?魏曉鋒認(rèn)為,在這個平臺上,需要做三件事情:數(shù)據(jù)、系統(tǒng)、網(wǎng)絡(luò)。
具體到數(shù)據(jù)。CNGBdb 構(gòu)建了一個數(shù)據(jù)倉庫,整合了內(nèi)外部的數(shù)據(jù),建立標(biāo)準(zhǔn)流程,所有的數(shù)據(jù)都以節(jié)點的形式來承載。
此外還有數(shù)據(jù)挖掘。整個平臺被分成數(shù)據(jù)層、平臺層、應(yīng)用層。未來,用戶如需創(chuàng)建數(shù)據(jù)應(yīng)用,只需一個按鈕,就能像做選擇題一樣選擇相關(guān)模塊。
對應(yīng)到網(wǎng)絡(luò),作為一個平臺,并不是一個孤獨的數(shù)據(jù)點。CNGBdb 整合了全球的公開生命數(shù)據(jù)資源,覆蓋母嬰健康、腫瘤、動植物多樣性、病原微生物等十幾個研究領(lǐng)域,形成一個超大型的科研數(shù)據(jù)系統(tǒng)。
CNGBdb,打造基因界的谷歌
CNGBdb 的主頁界面
魏曉鋒介紹,CNGBdb 目前已經(jīng)建立覆蓋健康與疾病、生物多樣性、微生物等領(lǐng)域的十大專有數(shù)據(jù)庫,專精專用;支撐數(shù)十篇科研成果發(fā)表,被《Cell》《Nature Genetics 》《Nucleic Acids Research》等國際期刊引用;并通過樣本信息共享平臺(E-BioBank)對外共享相關(guān)信息,而且配有對應(yīng)的標(biāo)本照片。
可以說,CNGBdb 以統(tǒng)一門戶的形式,為用戶一站式解決搜、存、算、用全部需求,且對用戶免費開放,努力打造“基因界的谷歌”。
CNGBdb 一站式解決搜、存、算、用全部需求
此外,依托國家基因庫對生物數(shù)據(jù)的“存”、“讀”、“寫”聯(lián)動,CNGBdb 將樣本元數(shù)據(jù)與生物樣本甚至活體信息相關(guān)聯(lián),因此數(shù)據(jù)可以在“生物活體——生物樣本——生物信息數(shù)據(jù)”全過程中進(jìn)行追溯,實現(xiàn)綜合數(shù)據(jù)的全貫穿。
魏曉鋒稱,從開始的“載體”到“連接”,再到***以“平臺”的形式展示,CNGBdb 作為一個對外的窗口,展示了數(shù)據(jù)的可能性。另外,就服務(wù)體驗而言,CNGBdb 更希望做成一本字典,讓所有人通過這個字典都可以方便快捷地了解到更多更豐富的信息。
未來,CNGBdb 將持續(xù)促進(jìn)生命大數(shù)據(jù)的共享與利用,使生物信息數(shù)據(jù)在生命科學(xué)與生物產(chǎn)業(yè)發(fā)展中創(chuàng)造更大價值。