驚!科學(xué)家可利用DNA將數(shù)據(jù)中心壓縮至方糖大小
譯文【51CTO.com快譯】
- DNA存儲——延續(xù)千年的承載介質(zhì)。
微軟與華盛頓大學(xué)的研究員們已經(jīng)演示相關(guān)方案,旨在利用合成DNA作為數(shù)據(jù)歸檔存儲介質(zhì)。
如果這項技術(shù)足夠強大,則完全可以將沃爾瑪這樣的巨型企業(yè)的全部數(shù)據(jù)存儲設(shè)備縮小為一塊方糖尺寸,研究員們指出。
“我們認為時機已經(jīng)成熟,基于DNA的存儲方案已經(jīng)具備可行性,且能夠立足于此設(shè)計并架構(gòu)相關(guān)系統(tǒng),”研究員們在其論文中寫道。
該研究團隊已經(jīng)成功將來自四幅圖片的數(shù)字化數(shù)據(jù)存儲在合成DNA片段當(dāng)中。更重要的是,他們亦能夠逆轉(zhuǎn)該過程——即從較大DNA池中檢索正確序列,并利用提取到的完整字節(jié)重構(gòu)圖像。
華盛頓大學(xué)計算機科學(xué)與工程研究科學(xué)家們混合DNA樣本以實現(xiàn)存儲功能。每條DNA中存儲一個數(shù)字化文件。
另一項實驗則證明,華盛頓大學(xué)的“盧旺達法庭之聲”項目能夠編碼并檢索數(shù)據(jù),從而實現(xiàn)視頻文件歸檔。該項目共使用49段視頻,分別來自盧旺達戰(zhàn)爭罪法庭中對法官、律師以及其他相關(guān)人員的訪談。
“生命造就了DNA這一夢幻般的分子,其能夠有效存儲各類基因信息以及生命系統(tǒng)的運作方式——其非常緊湊且極為耐用,”威斯康星大學(xué)計算機科學(xué)與工程副教授、研究論文聯(lián)合作者Luis Ceze表示。
“我們基本上就是在利用DNA存儲數(shù)字化數(shù)據(jù)——包括圖片、視頻、文檔,且其管理周期能夠長達數(shù)百甚至數(shù)千年,”他補充稱。
DNA數(shù)據(jù)存儲研究進展神速。1999年,DNA存儲方案還僅僅只能編碼并恢復(fù)長度為23個字節(jié)的信息。
到2013年,來自英國EMBL歐洲生物信息學(xué)研究院的科學(xué)家們已經(jīng)能夠?qū)ⅠR丁·路德·金的“我有一個夢想”演講MP3文件存儲在DNA當(dāng)中。
研究員們在《自然》雜志上發(fā)表的論文中指出,只需一杯DNA即可存儲至少長達1億小時的高清視頻數(shù)據(jù)。
而且根據(jù)英國研究員們的解釋,存儲在DNA鏈中的數(shù)據(jù)可以持續(xù)數(shù)萬年之久。
讀取DNA的方式非常簡單,但向其中寫入?yún)s難度很大。這方面共存在兩項挑戰(zhàn):其一,利用現(xiàn)代方案僅能制造短DNA序列;其二,DNA在寫入與讀取時容易出錯,特別是在重復(fù)相同的DNA字母時。
以上三幅圖片為此次DNA數(shù)據(jù)存儲實驗中的對象。
微軟與華盛頓大學(xué)的研究員們指出,他們開發(fā)出了“一種新型方案”,能夠?qū)㈤L字符串轉(zhuǎn)換為DNA序列的四種基本組成部分——腺嘌呤、鳥嘌呤、胞嘧啶與胸腺嘧啶,分別簡寫為A、G、C與T。
要訪問這些數(shù)據(jù),研究員們在DNA序列內(nèi)編制出類似于郵編及街道地址的符號。聚合酶鏈反應(yīng)(簡稱PCR)技術(shù)——常用于分子生物學(xué)當(dāng)中——幫助他們能夠更為輕松地識別自己正在搜索的郵編。
利用DNA測序技術(shù),研究人員得以“讀取”數(shù)據(jù),并利用街道地址重新排序數(shù)據(jù)以將其恢復(fù)為視頻、圖片或者文檔。
“將1和0轉(zhuǎn)換為A、G、C和T非常重要,因為只有采用非常精妙的實現(xiàn)方式,我們才能提高存儲密度并降低錯誤率,”論文聯(lián)合作者Georg Seelig解釋稱。
微軟與華盛頓大學(xué)的研究員們宣稱,他們已經(jīng)在編程語言與操作系統(tǒng)架構(gòu)支持ACM國際大會上公布了研究成果。
“DNA擁有可觀的發(fā)展?jié)摿Γ?rdquo;研究員們表示,因為其存儲密度極高,理論極限比磁帶高出八個量級。磁帶技術(shù)能夠在巴掌大的卡帶中存儲最高185 TB數(shù)據(jù)。
微軟與華盛頓大學(xué)的研究員們還證實了合成DNA的長效性,稱其能夠在惡劣環(huán)境中帶來超過500年的半衰期。相比之下,磁帶壽命為10到30年,而磁盤驅(qū)動器則僅為3到5年——研究員們指出。
研究員們還強調(diào)稱,預(yù)計到2020年存儲于計算機中的全部數(shù)據(jù)——包括歸檔、視頻、圖片、企業(yè)系統(tǒng)數(shù)據(jù)以及移動設(shè)備信息——將達到44萬億GB,這一數(shù)字來自IDC與EMC的研究報告。
“這相當(dāng)于2013年全部數(shù)據(jù)總量的十倍。雖然并非全部信息都需要進行長期保存,但可以肯定的是數(shù)據(jù)存儲設(shè)備的增長速度完全跟不上數(shù)據(jù)的產(chǎn)生速度。”
不過在投入商業(yè)使用之前,DNA存儲系統(tǒng)還需要克服一系列難題。首先,DNA合成與測序的效果還遠稱不上完美,每核苷酸中仍存在1%的排序錯誤率。因此,DNA存儲需要設(shè)計出合適的編碼方案,從而帶來額外的容錯能力。
再有,DNA存儲不擅長實現(xiàn)隨機數(shù)據(jù)存取,這意味著整體而言讀取延遲遠高于寫入延遲。目前的進展只能夠?qū)崿F(xiàn)大型數(shù)據(jù)塊存取;即使僅讀取單個字節(jié),也必須對整套DNA庫進行測序與解碼。
科學(xué)家們已經(jīng)提出了對應(yīng)的解決方案,即利用聚合酶鏈?zhǔn)椒磻?yīng)(簡稱PCR)對需要的數(shù)據(jù)進行定向放大,從而通過針對性測序改善隨機接入能力。如此一來,我們將不再需要對整套DNA庫進行測序。
“這是我們借用大自然產(chǎn)物的絕對實例,”Ceze解釋稱。“但我們也在使用現(xiàn)有計算機技術(shù)對其加以完善,例如如何糾正內(nèi)存錯誤,并讓最終成果回歸自然。”
原文標(biāo)題:Scientists could use DNA to shrink a data center into a sugar cube