自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一杯DNA裝下全世界?MIT突破DNA新檢索技術(shù),實(shí)現(xiàn)DNA「冷存儲(chǔ)」

新聞
近日,麻省理工學(xué)院開(kāi)發(fā)了一種檢索DNA數(shù)據(jù)文件的新方法,或許能成為DNA存儲(chǔ)數(shù)據(jù)的重要一步。

一個(gè)咖啡杯就能裝下全世界?

有了DNA數(shù)據(jù)存儲(chǔ),這是可能的。

1988年,藝術(shù)家Joe Davis和哈佛大學(xué)研究人員合作,首次證明了DNA存儲(chǔ)數(shù)字化數(shù)據(jù)的原理。

[[405986]]

Davis通過(guò)明暗像素將代表35bits數(shù)據(jù)的符文符號(hào)圖像表示為二進(jìn)制0和1,并將其編碼成了大腸桿菌DNA中的28個(gè)堿基對(duì)。

隨后,存儲(chǔ)在DNA中的數(shù)據(jù)也從簡(jiǎn)單文本變成高清音樂(lè)視頻、整個(gè)數(shù)據(jù)庫(kù)、MPEG、JPG、PDF等文件,甚至還有惡意軟件。

一杯DNA裝下全世界?MIT突破DNA新檢索技術(shù),實(shí)現(xiàn)DNA「冷存儲(chǔ)」

DNA數(shù)據(jù)存儲(chǔ)發(fā)展過(guò)程(1965-2018)(圖源:nature)

DNA數(shù)據(jù)存儲(chǔ)是什么

DNA數(shù)據(jù)存儲(chǔ)是一個(gè)將二進(jìn)制數(shù)據(jù)轉(zhuǎn)換成人工合成DNA鏈的編碼過(guò)程。

為了在DNA中存儲(chǔ)二進(jìn)制數(shù)字文件,比特(bits)將從1和0轉(zhuǎn)換成字母A,C,G,T,這四個(gè)字母代表組成DNA的四種核苷酸:腺嘌呤,胞嘧啶,鳥(niǎo)嘌呤,胸腺嘧啶。

物理存儲(chǔ)介質(zhì)是一條序列中包含As, Cs, Gs, Ts的合成DNA鏈,其順序與數(shù)字文件中的bits相對(duì)應(yīng),如果要恢復(fù)數(shù)據(jù),需要對(duì)DNA鏈進(jìn)行測(cè)序,根據(jù)As, Cs, Gs, Ts還原成初始的數(shù)字序列。

一杯DNA裝下全世界?MIT突破DNA新檢索技術(shù),實(shí)現(xiàn)DNA「冷存儲(chǔ)」

數(shù)字化的數(shù)據(jù)在DNA中編碼和解碼的過(guò)程(圖源:https://www.ssbt.org.cn/upload/20190905163302_429.pdf)

在人類(lèi)創(chuàng)造數(shù)據(jù)能力不斷增長(zhǎng)的今天,基于DNA的數(shù)據(jù)存儲(chǔ)似乎是個(gè)「潛力股」。

因?yàn)榕c其他大多數(shù)媒介相比,DNA提供了驚人的「數(shù)據(jù)存儲(chǔ)密度」,而且相比傳統(tǒng)數(shù)據(jù)存儲(chǔ),它具有高度穩(wěn)定性:DNA分子半衰期超過(guò)「500年」,低溫條件下可保存「成千上萬(wàn)年」。

但DNA并非沒(méi)有缺點(diǎn),成本高昂是阻礙其發(fā)展的主要問(wèn)題。

目前,DNA鏈的堿基模式中沒(méi)有編碼比特的標(biāo)準(zhǔn)方法,合成特定的序列仍然很昂貴。而用目前的方法訪問(wèn)數(shù)據(jù)不僅慢,而且會(huì)消耗用于存儲(chǔ)的DNA。如果試圖訪問(wèn)數(shù)據(jù)的次數(shù)太多,就必須以某種方式恢復(fù)它,這有可能引入錯(cuò)誤。

近日,麻省理工學(xué)院和Broad研究所(Broad Institute)的一個(gè)團(tuán)隊(duì)找到了一個(gè)解決方案。在這個(gè)過(guò)程中,研究人員創(chuàng)建了一個(gè)基于DNA的圖像存儲(chǔ)系統(tǒng),它介于「文件系統(tǒng)」和「基于元數(shù)據(jù)的數(shù)據(jù)庫(kù)」之間,相關(guān)論文已在Nature上發(fā)表。

一杯DNA裝下全世界?MIT突破DNA新檢索技術(shù),實(shí)現(xiàn)DNA「冷存儲(chǔ)」

把所有數(shù)據(jù)存儲(chǔ)到DNA上的瓶頸

在DNA中存儲(chǔ)數(shù)據(jù)的系統(tǒng)涉及到向包含數(shù)據(jù)的DNA片段添加特定的序列標(biāo)簽。

為了得到想要的數(shù)據(jù),你只需添加能與正確的標(biāo)簽堿基配對(duì)的DNA位,并使用它們來(lái)擴(kuò)增完整的序列。可以把它想象成用一個(gè) ID 標(biāo)記集合中的每個(gè)圖像,然后進(jìn)行設(shè)置,只放大一個(gè)特定的 ID。

一杯DNA裝下全世界?MIT突破DNA新檢索技術(shù),實(shí)現(xiàn)DNA「冷存儲(chǔ)」

這種方法是有效的,但它有兩個(gè)方面的限制。

首先,使用稱為PCR(聚合酶鏈?zhǔn)椒磻?yīng))的過(guò)程進(jìn)行的擴(kuò)增步驟,對(duì)可擴(kuò)增的序列的大小有限制。而每個(gè)標(biāo)簽都會(huì)占用一些有限的空間,所以添加更多詳細(xì)的標(biāo)簽(如復(fù)雜的文件系統(tǒng)可能需要)會(huì)減少數(shù)據(jù)空間。

一杯DNA裝下全世界?MIT突破DNA新檢索技術(shù),實(shí)現(xiàn)DNA「冷存儲(chǔ)」

一條 8 個(gè) PCR 管,每個(gè)管含有 100 μL 反應(yīng)混合物

另一個(gè)限制是,擴(kuò)增特定數(shù)據(jù)片段的 PCR 反應(yīng)會(huì)消耗一些原始的 DNA 庫(kù)。換句話說(shuō),每次你拉出一些數(shù)據(jù),你都會(huì)破壞成堆的不相關(guān)的數(shù)據(jù)。頻繁地訪問(wèn)數(shù)據(jù),最終會(huì)耗盡整個(gè)存儲(chǔ)庫(kù)。雖然有辦法重新放大一切信息,但每次這樣做都會(huì)增加引入錯(cuò)誤的機(jī)會(huì)。

而這項(xiàng)新的研究已經(jīng)將標(biāo)簽信息從數(shù)據(jù)存儲(chǔ)中分離出來(lái)。此外,研究人員創(chuàng)建了一個(gè)系統(tǒng),其中可以只訪問(wèn)你感興趣的DNA數(shù)據(jù),而不觸及其余的數(shù)據(jù),提高了數(shù)據(jù)存儲(chǔ)的壽命。

給二氧化硅磁珠添加「涂層」

該基本技術(shù)是基于這樣一個(gè)事實(shí),即DNA會(huì)粘在二氧化硅磁珠(beads)上。

但這種吸力與DNA的大小無(wú)關(guān),因此你可以使用這個(gè)系統(tǒng)存儲(chǔ)任意大的數(shù)據(jù)塊(在這種情況下,這些片段的大小是過(guò)去使用的典型的DNA數(shù)據(jù)存儲(chǔ)塊的10倍以上)。

同樣重要的是,DNA中沒(méi)有標(biāo)簽被存儲(chǔ)在數(shù)據(jù)中,所以數(shù)據(jù)存儲(chǔ)和文件系統(tǒng)信息之間沒(méi)有競(jìng)爭(zhēng)。

一旦DNA出現(xiàn)在這些磁珠的表面,研究人員就在其上面聚合一些額外的二氧化硅。這個(gè)過(guò)程涂抹了DNA并保護(hù)它不受環(huán)境影響。

一杯DNA裝下全世界?MIT突破DNA新檢索技術(shù),實(shí)現(xiàn)DNA「冷存儲(chǔ)」

研究人員通過(guò)使用熒光標(biāo)簽來(lái)確認(rèn)該系統(tǒng)是有效的;基本上,所有以這種方式創(chuàng)造的顆粒都含有DNA。

一杯DNA裝下全世界?MIT突破DNA新檢索技術(shù),實(shí)現(xiàn)DNA「冷存儲(chǔ)」

只有當(dāng)這個(gè)外殼就位后,研究人員才添加標(biāo)簽,這些標(biāo)簽與外殼進(jìn)行化學(xué)連接。這些標(biāo)簽是由單鏈DNA制成的,而且有可能在一個(gè)玻璃外殼上附著幾個(gè)不同的標(biāo)簽。

研究人員對(duì)每個(gè)數(shù)據(jù)塊分別進(jìn)行了處理,一旦一切就緒,被標(biāo)記的玻璃球就可以混入一個(gè)單一的數(shù)據(jù)庫(kù)。

雖然沒(méi)有純DNA的存儲(chǔ)那么緊湊,但仍然具有長(zhǎng)期穩(wěn)定和不需要能源維護(hù)的優(yōu)勢(shì)。

取代PCR

有趣的部分是訪問(wèn)數(shù)據(jù)。

除了成本之外,使用DNA存儲(chǔ)數(shù)據(jù)的另一個(gè)主要瓶頸是,很難從所有文件中挑選出想要的文件。

此次開(kāi)發(fā)的新的檢索技術(shù),希望取代PCR方法。

研究人員將每個(gè)DNA文件封裝到一個(gè)微小的二氧化硅磁珠中,每個(gè)磁珠都貼上了由單鏈DNA組成的「條形碼」,與文件內(nèi)容相對(duì)應(yīng)。

為了證明這種方法的成本效益,研究人員將20個(gè)不同的圖像編碼到大約長(zhǎng)度為3000個(gè)核苷酸的DNA片段中,這大致相當(dāng)于100個(gè)字節(jié)(研究還顯示,這些磁珠可以容納高達(dá)1GB的DNA文件)。

研究中的每個(gè)文件都有相應(yīng)的條形碼標(biāo)簽,如「貓」或「飛機(jī)」等。

當(dāng)研究人員想要提取一個(gè)特定的圖像時(shí),他們會(huì)取出一個(gè)DNA樣本,加入與目標(biāo)標(biāo)簽相對(duì)應(yīng)的引物。例如,老虎的圖像對(duì)應(yīng)的標(biāo)簽是「貓」「橘色」和「野生」,而家貓的圖像對(duì)應(yīng)「貓」「橘色」和「家養(yǎng)」。

一杯DNA裝下全世界?MIT突破DNA新檢索技術(shù),實(shí)現(xiàn)DNA「冷存儲(chǔ)」

這些引物用熒光或磁性顆粒標(biāo)記,便于從樣本中提取并識(shí)別匹配片段。

通過(guò)這種方法,研究人員可以將需要的文件移出來(lái),剩下的DNA則完整地放回去,繼續(xù)存儲(chǔ)數(shù)據(jù)。

他們的檢索過(guò)程允許「布爾邏輯語(yǔ)句」,如「總統(tǒng)和18世紀(jì)」會(huì)生成「喬治·華盛頓」的結(jié)果,這很類(lèi)似谷歌的圖像檢索。

一杯DNA裝下全世界?MIT突破DNA新檢索技術(shù),實(shí)現(xiàn)DNA「冷存儲(chǔ)」

在目前的概念驗(yàn)證階段,搜索速度是每秒1000字節(jié)(1KB)。文件系統(tǒng)的搜索速度是由每個(gè)磁珠的數(shù)據(jù)量大小決定的,而目前限制數(shù)據(jù)量大小的因素就是在DNA上寫(xiě)入100兆字節(jié)(MB)數(shù)據(jù)所需的高昂成本,以及可以并行使用的分類(lèi)器的數(shù)量。

如果DNA合成變得足夠便宜,就能夠用這種方法將每個(gè)文件存儲(chǔ)的數(shù)據(jù)量最大化

DNA數(shù)據(jù)存儲(chǔ)目前局限于「冷存儲(chǔ)」

該系統(tǒng)還允許用多個(gè)術(shù)語(yǔ)進(jìn)行「布爾搜索」(Boolean search)。

通過(guò)一個(gè)接一個(gè)地選擇不同的標(biāo)簽,你可以建立起相當(dāng)復(fù)雜的條件:貓為真,馴養(yǎng)的為假,黑為真,等等。

給兩個(gè)標(biāo)簽貼上相同的熒光顏色,如果你抓到任何帶有這種顏色的東西,你就可以得到相當(dāng)于邏輯OR的結(jié)果。

因?yàn)檫@些標(biāo)簽中的每一個(gè)都可以被看作是關(guān)于DNA所存儲(chǔ)的圖像的元數(shù)據(jù),磁珠的集合最終作為一個(gè)元數(shù)據(jù)驅(qū)動(dòng)的圖像數(shù)據(jù)庫(kù)。

雖然這項(xiàng)研究代表了基于DNA的存儲(chǔ)在復(fù)雜性方面的一個(gè)重大飛躍,但它仍然只是基于DNA的存儲(chǔ)。

這意味著它的速度之慢,甚至還不如磁帶驅(qū)動(dòng)器。

一杯DNA裝下全世界?MIT突破DNA新檢索技術(shù),實(shí)現(xiàn)DNA「冷存儲(chǔ)」

根據(jù)研究人員的計(jì)算,即使他們把更多的數(shù)據(jù)塞進(jìn)每顆磁珠,搜索上限只是每秒約1GB的數(shù)據(jù)。這將意味著搜索PB級(jí)的數(shù)據(jù)將需要「兩周多」的時(shí)間。

而這僅僅是找到合適的磁珠。敲開(kāi)它們,將DNA放進(jìn)去,然后進(jìn)行必要的測(cè)序,以實(shí)際確定磁珠中儲(chǔ)存的內(nèi)容,這又會(huì)使實(shí)驗(yàn)過(guò)程增加幾天。

當(dāng)然,沒(méi)有人會(huì)因?yàn)镈NA存儲(chǔ)「速度快」而推薦它;正如上面提到的,它的優(yōu)勢(shì)在能源使用和數(shù)據(jù)穩(wěn)定性方面。

我們只有在確定不會(huì)經(jīng)常訪問(wèn)某些數(shù)據(jù)時(shí)才會(huì)將它儲(chǔ)存在DNA中,也即「冷存檔存儲(chǔ)」。

不過(guò),目前,該實(shí)驗(yàn)室已經(jīng)成立了一家名為Cache DNA的初創(chuàng)公司,正在開(kāi)發(fā)DNA的長(zhǎng)期存儲(chǔ)技術(shù),既可以用于長(zhǎng)期的DNA數(shù)據(jù)存儲(chǔ),也能用于短期的臨床和其他現(xiàn)有的DNA樣品存儲(chǔ)。

一杯DNA裝下全世界?MIT突破DNA新檢索技術(shù),實(shí)現(xiàn)DNA「冷存儲(chǔ)」

https://www.cache-dna.com/

雖然可能還需要一段時(shí)間才能將DNA作為數(shù)據(jù)存儲(chǔ)介質(zhì),但目前在Covid-19檢測(cè)、人類(lèi)基因組測(cè)序和其他基因組學(xué)領(lǐng)域中,對(duì)于DNA和RNA樣品的低成本和大規(guī)模存儲(chǔ)的解決方案都有很大需求。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2018-09-11 11:03:45

存儲(chǔ)新方式DNA存儲(chǔ)

2020-06-23 07:00:00

DNA數(shù)據(jù)存儲(chǔ)

2018-10-11 10:50:02

存儲(chǔ)數(shù)據(jù)安全

2020-04-22 10:15:33

DNA數(shù)據(jù)存儲(chǔ)

2015-10-27 13:59:52

物聯(lián)網(wǎng)軟件DNA

2019-07-01 10:30:27

存儲(chǔ)技術(shù)容器

2024-11-15 13:42:25

2022-03-17 17:55:08

深度學(xué)習(xí)人工智能Nature

2013-11-26 09:31:15

開(kāi)源混合云紅帽CloudForms

2021-04-14 15:59:50

博睿數(shù)據(jù)金融科技APM

2021-05-12 14:44:28

大數(shù)據(jù)數(shù)據(jù)鏈博睿數(shù)據(jù)

2013-07-15 10:50:13

活細(xì)胞DNA計(jì)算

2010-03-15 09:47:43

Python DNA序

2010-03-12 20:08:53

Python統(tǒng)計(jì)

2023-09-20 09:49:41

2011-10-14 09:36:20

DNA數(shù)據(jù)庫(kù)

2021-09-29 10:35:02

數(shù)據(jù)鏈DNA博睿數(shù)據(jù)

2015-08-11 13:12:13

物聯(lián)網(wǎng)DNA

2010-12-24 10:15:32

webOSPlam

2017-05-16 16:28:21

互聯(lián)網(wǎng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)