ENCODE變廢為寶 大數(shù)據(jù)成就基因工程
1972年,日本遺傳學(xué)家大野乾給不能編碼蛋白質(zhì)的DNA片段起名為“垃圾DNA”。然而在2012年9月5日的這篇“80%的基因組是有功能”的報(bào)道中說明,這些大野乾稱為“垃圾”的DNA實(shí)際上是一個(gè)龐大的控制面板,能調(diào)控?cái)?shù)以萬計(jì)基因的活性,并決定了一些基因的特質(zhì)。如果沒有這些開關(guān)的調(diào)控,基因?qū)⒉荒苷9ぷ?,而這些區(qū)域也許會(huì)導(dǎo)致人類患上疾病。這個(gè)發(fā)現(xiàn)震驚了整個(gè)科學(xué)界!
但是對(duì)于計(jì)算機(jī)領(lǐng)域的我們來說,神奇的不僅是ENCODE項(xiàng)目的成果,還有那些提供支持的基礎(chǔ)設(shè)施。新聞稿還報(bào)道了ENCODE產(chǎn)生了15TB以上的原始數(shù)據(jù),數(shù)據(jù)分析更是耗費(fèi)了300年以上的執(zhí)行時(shí)間!對(duì)于那些以大數(shù)據(jù)謀生的公司來說這也許算不了什么 — Facebook公布日處理數(shù)據(jù)超過500TB。但是別忘了,ENCODE的數(shù)據(jù)是在科學(xué)界中共享和存取的!
當(dāng)我們?cè)噲D去建立節(jié)約和有組織的大數(shù)據(jù)時(shí),ENCODE項(xiàng)目還是值得我們借鑒的。它不只是提出了一些新的遺傳物質(zhì)真理 — 還是一個(gè)全球性的合作,需要32個(gè)實(shí)驗(yàn)室,收集和完成多于147個(gè)組織樣本上超出1600多個(gè)實(shí)驗(yàn)產(chǎn)生的數(shù)據(jù),然后進(jìn)一步的使用這些數(shù)據(jù)收獲更多的發(fā)現(xiàn)。
在近期一份來自ENCODE的報(bào)告中。UCSC Genome Browser項(xiàng)目主任ENCODE Data Coordination Center主事Jim Kent公布了一些難題。這些挑戰(zhàn)來自確定實(shí)驗(yàn)是獨(dú)立的、有價(jià)值的及它仍然能夠產(chǎn)生精確的數(shù)據(jù)。
Kent及他的生物分子科學(xué)與工程數(shù)據(jù)協(xié)調(diào)小組(位于加州大學(xué)圣克魯茲分校中心),就項(xiàng)目規(guī)模提出了許多挑戰(zhàn)。首先,他們必須協(xié)調(diào)一部分來自世界各地制造數(shù)據(jù)的科學(xué)家。Kent還說,我們有5個(gè)數(shù)據(jù)收割者周游于各個(gè)實(shí)驗(yàn)室之間,在高峰期通常1周4次的電話會(huì)議還要輔以1年兩次的大型會(huì)議,還有數(shù)不清的電子郵件和網(wǎng)絡(luò)電話。
數(shù)據(jù)及活動(dòng)進(jìn)程/QA的管理的難題更是如影隨形?;驍?shù)據(jù)管理Appistry公司的副總裁Sultan M.Meghji說,大部分的人都致力于數(shù)據(jù)的管理,好讓它能一直保持最新。
該項(xiàng)目還使用了龐大的數(shù)據(jù)集。研究人員同樣對(duì)結(jié)果分析工具進(jìn)行了開發(fā)。其中包括為了追蹤遺傳分析細(xì)節(jié)而設(shè)計(jì)的數(shù)據(jù)庫HaploReg和RegulomeDB。還有一個(gè)預(yù)配置的虛擬機(jī)提供托管和對(duì)項(xiàng)目所產(chǎn)生數(shù)據(jù)進(jìn)行分析。當(dāng)然數(shù)據(jù)會(huì)對(duì)研究者開放,該項(xiàng)目的參與者還鼓勵(lì)有興趣人士積極的學(xué)習(xí)如何使用數(shù)據(jù)并為他們提供了一個(gè)門戶網(wǎng)站。
隨著信息科技的發(fā)展,世界范圍的互通性得到顯著性的提高,以往以實(shí)驗(yàn)室為單位的科技研究將漸漸的被有組織的多實(shí)驗(yàn)室研究所替代。而隨著云計(jì)算的發(fā)展、大數(shù)據(jù)的完善及新技術(shù)的問世,這些現(xiàn)有的難題必將被逐一解決!