自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

基于新型存儲的大數(shù)據(jù)存儲管理

存儲 存儲軟件
大數(shù)據(jù)已經(jīng)成為目前的一個研究熱點。如何改進現(xiàn)有的數(shù)據(jù)存儲與管理技術(shù)或者設(shè)計全新的體系結(jié)構(gòu),以滿足大數(shù)據(jù)應(yīng)用中的大數(shù)據(jù)量和高速數(shù)據(jù)流實時處理需求,是大數(shù)據(jù)技術(shù)中的核心問題之一。

1  引言

大數(shù)據(jù)已經(jīng)成為目前的一個研究熱點。如何改進現(xiàn)有的數(shù)據(jù)存儲與管理技術(shù)或者設(shè)計全新的體系結(jié)構(gòu),以滿足大數(shù)據(jù)應(yīng)用中的大數(shù)據(jù)量和高速數(shù)據(jù)流實時處理需求,是大數(shù)據(jù)技術(shù)中的核心問題之一。如果采用傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng)(database management system, DBMS)的集中式數(shù)據(jù)存儲方式,大數(shù)據(jù)存取性能就會受到極大的影響。Hadoop技術(shù)雖然提供了對大規(guī)模數(shù)據(jù)的快速、低成本存儲和管理,但它是一個離線、批量的數(shù)據(jù)處理系統(tǒng),對于實時數(shù)據(jù)處理與分析的支持較弱,難以滿足許多應(yīng)用的要求。例如,在城市公共安全中,通常要求能夠?qū)Ω哌_每秒幾千幀的高清監(jiān)控視頻流進行實時處理與分析。但目前在傳統(tǒng)計算體系結(jié)構(gòu)下,單臺計算機只能支持每秒150~300幀的低分辨率圖像實時異常事件檢測。如果要做進一步的目標(biāo)識別,根據(jù)目前的處理技術(shù),性能將下降到每秒16幀左右,遠遠不能滿足每秒幾千幀高清圖像的實時處理要求。因此,迫切需要研究能夠滿足大數(shù)據(jù)高效存儲與實時處理的新型體系結(jié)構(gòu)與新方法。

[[223051]]

針對大數(shù)據(jù)高效存儲與管理問題,目前除了Hadoop技術(shù)之外,學(xué)術(shù)界和工業(yè)界也提出了一些其他的設(shè)計,包括以NoSQL數(shù)據(jù)庫為代表的大規(guī)模分布式數(shù)據(jù)庫系統(tǒng)設(shè)計、基于動態(tài)隨機存取存儲器(dynamic random access memory, DRAM)的內(nèi)存數(shù)據(jù)庫技術(shù)等。但現(xiàn)有的NoSQL分布式數(shù)據(jù)庫技術(shù)仍以磁盤存儲或者“磁盤+閃存(flash memory)”混合存儲的方式存儲數(shù)據(jù),本質(zhì)上還是傳統(tǒng)的“CPU-DRAM-二級存儲”的存儲架構(gòu),依然存在著內(nèi)存和磁盤之間的“存儲墻”問題,難以從本質(zhì)上解決大數(shù)據(jù)實時存取的問題。此外,由于DRAM能耗和成本較高,也限制了其在大規(guī)模數(shù)據(jù)處理中的應(yīng)用。

過去5年來,閃存作為新型存儲的代表性技術(shù)取得了快速發(fā)展,對現(xiàn)有的數(shù)據(jù)管理技術(shù)提出了極大的挑戰(zhàn),同時也帶來了許多新的機遇.但是,閃存由于其存取方式(按頁)、存取性能(1次存取通常需要約2[17個CPU時鐘周期)的限制,仍適合作為二級存儲器。基于閃存的數(shù)據(jù)管理只是優(yōu)化了I/O延遲,并沒有從本質(zhì)上改變計算架構(gòu)。

除了閃存之外,近年來另一種新型存儲介質(zhì)——相變存儲器(phase change memory,PCM)引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。與閃存相比,PCM可以被CPU直接按位存取,而且存取性能更高。因此PCM可以與DRAM一樣與CPU交互。但與DRAM相比,PCM存儲具有非易失性,能夠進行持久的數(shù)據(jù)存儲。傳統(tǒng)硬盤基于磁性存儲機理存儲數(shù)據(jù),閃存基于微型電容儲存電荷的機理存儲數(shù)據(jù),存儲密度都有理論上限,而PCM基于微型相變單元存儲數(shù)據(jù)的機理使其能夠迅速超越固態(tài)盤的存儲密度,并且在未來還有更大的提升空間。IBM公司把PCM這一類具有DRAM的存取性能,同時又具有持久存儲能力的介質(zhì)稱為存儲級主存(storage class memory,SCM)。PCM等存儲級主存以其非揮發(fā)、存儲速度快、易實現(xiàn)高密度等技術(shù)特點,在高速與海量存儲方面具有巨大的潛能,已被認(rèn)為是下一代非易失存儲技術(shù)的發(fā)展方向。另外,因該技術(shù)兼有DRAM的高速隨機訪問和閃存的非易失特性,模糊了主存和外存的界限,有望突破原有的存儲架構(gòu),實現(xiàn)更高性能的存儲。

因此,如果能夠利用PCM等新型存儲器件設(shè)計出適合大數(shù)據(jù)存儲與管理的新型存儲架構(gòu)(如圖1所示),同時設(shè)計新的分布式多節(jié)點存儲技術(shù),則可以將大數(shù)據(jù)存取集中在DRAM和PCM上,充分發(fā)揮DRAM和PCM的高性能特性以及PCM的隨機存取和非易失優(yōu)點,而且可以利用分布式多節(jié)點存儲的優(yōu)勢建立高擴展的大數(shù)據(jù)存儲系統(tǒng),從而有望徹底解決大數(shù)據(jù)存取中的性能與容量問題,為大規(guī)模的大數(shù)據(jù)分析與應(yīng)用提供有力的支撐。

圖1  引入PCM等存儲級主存后的存儲體系結(jié)構(gòu)

目前,公共安全、智能交通、物聯(lián)網(wǎng)等許多應(yīng)用都要求實現(xiàn)大數(shù)據(jù)的實時存取。但是,現(xiàn)有的Hadoop等技術(shù)還很難達到這一目標(biāo),主要的困難在于無法提供低延遲、高吞吐的大數(shù)據(jù)實時存取能力。新型存儲的出現(xiàn)為解決這一難題提供了可能。首先,PCM等非易失內(nèi)存的出現(xiàn)為實現(xiàn)大規(guī)模的內(nèi)存計算奠定了基礎(chǔ),使得人們有可能在內(nèi)存中支持高并發(fā)的事務(wù)處理,而不需要傳統(tǒng)DRAM導(dǎo)致的大量I/O操作,從而實現(xiàn)低延遲的大數(shù)據(jù)存取。其次,借助基于新型存儲的分布式內(nèi)存文件系統(tǒng)等技術(shù),可以大規(guī)模提升外存和內(nèi)存的寫吞吐速率。

本文綜述了基于新型存儲的大數(shù)據(jù)存儲管理技術(shù),分析了現(xiàn)有大數(shù)據(jù)存儲技術(shù)的局限性,介紹了新型存儲的特點和發(fā)展概況,總結(jié)了基于新型存儲的大數(shù)據(jù)存儲架構(gòu)、基于新型存儲的大數(shù)據(jù)存儲管理等方向的研究現(xiàn)狀,在此基礎(chǔ)上給出了基于新型存儲的大數(shù)據(jù)存儲與管理的若干未來研究方向。

2  大數(shù)據(jù)存儲技術(shù)

2.1  常見的大數(shù)據(jù)存儲技術(shù)

目前,大數(shù)據(jù)存儲一般采用分布式存儲技術(shù),主要應(yīng)用在NoSQL數(shù)據(jù)庫系統(tǒng)中?,F(xiàn)有的主流的NoSQL數(shù)據(jù)庫系統(tǒng),例如文檔數(shù)據(jù)庫系統(tǒng)MongoDB、列存儲數(shù)據(jù)庫系統(tǒng)HBase、內(nèi)存數(shù)據(jù)庫系統(tǒng)Redis等,均采用了分布式集群架構(gòu)實現(xiàn)大數(shù)據(jù)的存儲。也有一些分布式數(shù)據(jù)庫系統(tǒng)在存儲架構(gòu)設(shè)計上考慮了異構(gòu)存儲的特性,例如RAMCloud和RethinkDB,從而有效提升了系統(tǒng)的存取性能。

但是,現(xiàn)有的大數(shù)據(jù)存儲技術(shù)還存在著以下的局限性。

  • 以NoSQL數(shù)據(jù)庫為代表的大規(guī)模分布式數(shù)據(jù)庫系統(tǒng)設(shè)計了基于磁盤存儲的讀寫方式、索引結(jié)構(gòu)、查詢執(zhí)行、查詢優(yōu)化、恢復(fù)策略,但是磁盤固有的讀寫性能差等弊端限制了大數(shù)據(jù)存取尤其是大數(shù)據(jù)分析性能的提升。
  • 在以Hadoop分布式文件系統(tǒng)(Hadoop distributed file system,HDFS)為代表的大規(guī)模分布式文件系統(tǒng)中,雖然它們提供了大數(shù)據(jù)的存儲支持能力,但由于這些文件系統(tǒng)在設(shè)計時并沒有考慮對實時、高性能的數(shù)據(jù)處理的支持,因此無法滿足日益增長的大數(shù)據(jù)在線分析的需求。此外,隨著數(shù)據(jù)量的急劇增加,元數(shù)據(jù)的大小也急劇增加,傳統(tǒng)的元數(shù)據(jù)架構(gòu)、元數(shù)據(jù)備份管理、元數(shù)據(jù)動態(tài)負(fù)載均衡等越來越難適應(yīng)大數(shù)據(jù)應(yīng)用需求。
  • 基于DRAM的內(nèi)存數(shù)據(jù)管理技術(shù)旨在通過海量的內(nèi)存提高大數(shù)據(jù)的處理性能。但是,由于DRAM本身能耗高、價格相對昂貴,使得構(gòu)建基于大內(nèi)存的大數(shù)據(jù)存儲集群在環(huán)境支持、成本上存在較大的困難。此外,DRAM的掉電易失特性導(dǎo)致的大數(shù)據(jù)環(huán)境下的數(shù)據(jù)一致性也是一個棘手的問題。

2.2  新型存儲技術(shù)

鑒于磁盤存儲、內(nèi)存存儲在面臨大數(shù)據(jù)管理與分析時的困難,學(xué)術(shù)界和工業(yè)界開始將目光轉(zhuǎn)向新型存儲技術(shù)。目前,從技術(shù)成熟度和應(yīng)用前景上看,閃存和相變存儲器最有可能形成大規(guī)模應(yīng)用,因此也吸引了國內(nèi)外學(xué)者的關(guān)注。

閃存是一種可以被電子化擦除和重寫的非易失性存儲設(shè)備?;陂W存的固態(tài)盤(solid state drive,SSD)是目前市場上常見的閃存存儲設(shè)備。與傳統(tǒng)的磁存儲介質(zhì)相比,閃存具有傳輸速率高、低延遲、低能耗、低噪音、抗震等優(yōu)良特性。同時也有一些特殊性質(zhì):寫前擦除,對閃存的寫操作不是簡單地改變某個二進制位,而是需要將整個擦除塊的所有二進制位置改為1,這帶來了閃存的讀寫不對稱性,一般采用異地更新的方式緩解寫前擦除帶來的延遲,減少讀寫不對稱帶來的影響;壽命限制,目前企業(yè)級閃存能耐受3萬次寫循環(huán),消費級閃存僅為3 000次;讀寫與擦除的單位不一致,一個擦除塊中包含若干個閃存頁,擦除的單位是一個閃存擦除塊,讀寫的單位是閃存頁。

相變存儲器是一種非易失類型的存儲器,由硫系玻璃材質(zhì)構(gòu)成。由于這種材質(zhì)的特質(zhì),通過施以電脈沖熱,它可以在非晶態(tài)和多晶態(tài)這兩種狀態(tài)之間進行切換。PCM兼具速度快、耐用、非揮發(fā)性和高密度性等多種優(yōu)勢,其讀寫數(shù)據(jù)和恢復(fù)數(shù)據(jù)的速度是閃存的100倍。

隨著云計算和物聯(lián)網(wǎng)等新一代信息技術(shù)的涌現(xiàn),對海量存儲系統(tǒng)的低能耗、高速及高可靠性的需求日益凸顯,以新型存儲取代傳統(tǒng)存儲介質(zhì)的呼聲越來越高,而PCM有望成為未來新型存儲的主要技術(shù)。與DRAM、閃存等存儲介質(zhì)相比,PCM具有非易失性、存取速度快、節(jié)能、可字節(jié)尋址、寫壽命長等優(yōu)點。韓國三星(Samsung)公司與美國美光(Micron)公司是目前在PCM技術(shù)方面較為領(lǐng)先的兩家公司,其中三星公司開發(fā)出的65 nm制程、512 MB容量的PCM芯片已投入量產(chǎn),并應(yīng)用在三星公司的手機存儲卡中;同時三星公司已經(jīng)推出了20 nm制程、8GB容量的相變內(nèi)存顆粒。美光公司已經(jīng)成功研制了45 nm制程、1GB容量的LPDDR2接口的PCM芯片產(chǎn)品,并已經(jīng)量產(chǎn)。我國中國科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所近年來也研制了中國自主知識產(chǎn)權(quán)的PCM芯片(8 MB),為研制我國自主產(chǎn)權(quán)的新型存儲系統(tǒng)奠定了基礎(chǔ)。此外,華中科技大學(xué)自2007年開始研究高密度低功耗的電阻式相變存儲器、相變存儲器功能芯片、相變存儲器芯片的關(guān)鍵材料以及相關(guān)專用測試設(shè)備等,已經(jīng)自主研制出具有簡單讀、擦、寫功能的相變存儲器功能芯片。

總體而言,傳統(tǒng)的磁盤存儲技術(shù)在大數(shù)據(jù)存儲與管理方面面臨著嚴(yán)重的性能瓶頸。內(nèi)存數(shù)據(jù)管理技術(shù)由于價格、容量以及易失等特點難以作為PB級大數(shù)據(jù)存儲的最終解決方案,但在大數(shù)據(jù)存儲與管理中可以借鑒內(nèi)存數(shù)據(jù)處理的一些思路。閃存、PCM等新型存儲器件提供了高性能、非易失的數(shù)據(jù)存儲支持。從目前的技術(shù)發(fā)展現(xiàn)狀看,PCM是現(xiàn)有最為成熟,且性能、容量與DRAM最為接近的存儲技術(shù)。PCM以其非揮發(fā)、存儲速度快、易實現(xiàn)高密度等技術(shù)特點以及與CMOS工藝兼容性好、易于與CPU集成形成片上系統(tǒng)(system on chip,SoC)芯片等優(yōu)點,具有廣泛的應(yīng)用前景。

3 大數(shù)據(jù)存儲架構(gòu)

新型存儲的出現(xiàn)為構(gòu)建新的大數(shù)據(jù)存儲架構(gòu)提供了可能。目前,學(xué)術(shù)界針對基于新型存儲的大數(shù)據(jù)存儲架構(gòu)提出了多種設(shè)計,包括基于PCM的主存架構(gòu)、基于閃存的主存擴展架構(gòu)、分布式存儲與緩存架構(gòu)等。

3.1  基于PCM的主存架構(gòu)

PCM與閃存相比,其存取延遲更短,而且可以直接按位存取,因此能夠被CPU直接存取,更適合作為DRAM的擴展。與DRAM相比,PCM具有非易失性特點,因此適合存儲文件等靜態(tài)數(shù)據(jù)??偠灾?, PCM可以看作兼有DRAM和閃存的優(yōu)點。從存儲架構(gòu)設(shè)計的角度來看,PCM既可以作為主存使用,也可以作為外存使用。但由于PCM的可字節(jié)尋址特性(與閃存不同),目前學(xué)術(shù)界對基于PCM的主存架構(gòu)研究相對較多。

在利用PCM替代DRAM方面,理論上可以有兩種架構(gòu),即純PCM主存架構(gòu)和DRAM/PCM混合主存架構(gòu)。在純PCM主存架構(gòu)中,PCM完全替代DRAM作為唯一的主存,而在DRAM/PCM混合主存架構(gòu)中,DRAM和PCM共同作為主存。在后一種架構(gòu)中,又存在著兩種可能的設(shè)計:一是將DRAM作為PCM緩存的層次架構(gòu),另一種是DRAM和PCM并列的平等架構(gòu)。目前,大多數(shù)的研究都假設(shè)DRAM/PCM的混合主存架構(gòu)。研究者針對DRAM/PCM的混合主存架構(gòu),提出了多種PCM寫操作優(yōu)化以及負(fù)載均衡算法。由于PCM的寫次數(shù)有限制,因此如何在混合主存中減少PCM上的寫操作是目前的研究重點。

基于PCM的主存架構(gòu)為實現(xiàn)大數(shù)據(jù)的實時處理提供了可能。首先,PCM的低能耗特性使得在集群系統(tǒng)中使用大量的PCM存儲代替DRAM成為可能,從而降低系統(tǒng)成本。其次,PCM的持久存儲特性可以通過設(shè)計有效的算法提高分布式存儲環(huán)境中的數(shù)據(jù)一致性。第三,PCM的高密度特性可以為內(nèi)存計算提供有力的支持。

3.2  基于閃存的主存擴展架構(gòu)

閃存是目前相對較成熟的新型存儲技術(shù)?;陂W存的SSD已經(jīng)大量裝備在服務(wù)器上,成為企業(yè)級存儲解決方案中的重要組成。由于閃存的整體存取性能優(yōu)于磁盤,因此理論上可以借助閃存提升大數(shù)據(jù)存儲和管理的性能。在早期的一些研究工作中,研究人員往往假設(shè)未來存儲系統(tǒng)中閃存可以完全替代磁盤作為外存,但是,由于閃存的讀寫不均衡特性以及壽命問題,目前實際的系統(tǒng)中往往是DRAM、閃存和磁盤共存。

在DRAM、閃存、磁盤共存的存儲架構(gòu)下,閃存通常作為主存的擴展,即作為DRAM和磁盤之間的中間層,提升大數(shù)據(jù)存取的性能。SSDAlloc是基于閃存的主存擴展系統(tǒng),它將閃存作為磁盤的緩存,實現(xiàn)了系統(tǒng)整體性能的提升。也有一些學(xué)者提出了將閃存作為虛擬內(nèi)存,在DRAM容量不夠的情況下,將閃存作為虛擬內(nèi)存設(shè)備進行頁面交換。由于閃存性能總體優(yōu)于磁盤,因此這種以閃存作為虛擬內(nèi)存的架構(gòu)理論上在大數(shù)據(jù)應(yīng)用場景下性能優(yōu)于傳統(tǒng)的DRAM+磁盤的架構(gòu)。

對于大數(shù)據(jù)處理而言,基于PCM的主存擴展總體上比基于閃存的主存擴展更具可行性。這是因為大容量的閃存本身仍然采用按頁存取的方式,與CPU按位存取模式之間存在不一致性,而且在存取性能上PCM也高于閃存,因此更有望減小與CPU之間的性能差距,構(gòu)建能夠充分發(fā)揮CPU、DRAM和PCM各自優(yōu)勢的高性能數(shù)據(jù)處理系統(tǒng)。

3.3  分布式存儲與緩存架構(gòu)

目前,基于分布式觀點的數(shù)據(jù)管理是大數(shù)據(jù)存儲與管理研究中的一個熱點。一種觀點是將閃存應(yīng)用于分布式文件系統(tǒng)中進行元數(shù)據(jù)存儲。元數(shù)據(jù)對于整個大數(shù)據(jù)管理系統(tǒng)的性能起著決定性作用,對于大數(shù)據(jù)解析、大數(shù)據(jù)統(tǒng)計、大數(shù)據(jù)操作優(yōu)化等起著重要作用。基于閃存的分布式文件系統(tǒng)元數(shù)據(jù)管理的基本思路是在元數(shù)據(jù)服務(wù)器(metadata server,MDS)上使用SSD作為存儲設(shè)備加速文件系統(tǒng),如參考文獻在Lustre分布式文件系統(tǒng)架構(gòu)中的元數(shù)據(jù)服務(wù)器上使用閃存作為存儲介質(zhì),加速元數(shù)據(jù)的讀寫速度。此外,基于Memcached的內(nèi)存分布式緩存技術(shù)也被廣泛用來加速大規(guī)模數(shù)據(jù)的訪問,而在更為復(fù)雜的大數(shù)據(jù)環(huán)境下,其局限性主要體現(xiàn)在:一方面內(nèi)存分布式緩存受限于集群內(nèi)存容量,只能服務(wù)容量較小的熱點數(shù)據(jù),會造成性能下降;另一方面,如果采取擴大集群內(nèi)存容量滿足更多數(shù)據(jù)緩存需求,會帶來高額的成本和巨大的能耗?,F(xiàn)階段解決方法是將小容量、高I/O負(fù)載的緩存處理與大容量、中低等I/O負(fù)載的緩存處理分離,形成“熱緩存”與“冷緩存”的緩存策略,其中在“冷緩存”方面主要采用了閃存技術(shù)。例如,F(xiàn)acebook設(shè)計了基于閃存的鍵—值存儲系統(tǒng)McDipper,代替Memcached為大量訪問頻率較低的圖片提供緩存服務(wù),降低成本和能耗,為了減少閃存I/O延遲,將閃存層分成兩個區(qū)域,一個區(qū)域存放數(shù)據(jù),另一個區(qū)域配置散列桶存放鍵值數(shù)據(jù)的指針,并將散列桶元數(shù)據(jù)放入內(nèi)存。

分布式存儲技術(shù)將是解決大數(shù)據(jù)存儲與管理問題的主要途徑之一。一方面是由于Hadoop分布式技術(shù)已經(jīng)為現(xiàn)有的大數(shù)據(jù)管理提供了一種行之有效的存儲方案,而且已經(jīng)在Google、Facebook等公司的實際應(yīng)用中得到了驗證,為大數(shù)據(jù)未來研究提供了有用的借鑒;另一方面也是因為在大數(shù)據(jù)應(yīng)用中數(shù)據(jù)來源、用戶等本身存在天然的分布特性,適合采用分布式存儲技術(shù)。

4  大數(shù)據(jù)存儲管理

閃存、PCM等新型存儲的物理特性、讀寫特性等均與磁盤有著非常顯著的不同,而目前已有的大數(shù)據(jù)數(shù)據(jù)庫,其設(shè)計理念均是基于磁盤存儲,在面對閃存、PCM等新型存儲時,并不能最大限度地發(fā)揮新型存儲的性能。目前,在基于新型存儲的大數(shù)據(jù)存儲管理方面也有一些研究工作。

在基于PCM的存儲管理方面,Ramos L E等人提出了一種針對DRAM/PCM混合主存的硬件驅(qū)動的頁面置換策略。該策略依賴一個內(nèi)存控制器(memory controller,MC)監(jiān)控內(nèi)存頁面的使用頻率和寫密集程度。MC在DRAM和PCM之間進行頁面遷移,保證性能攸關(guān)的頁面和頻繁寫的頁面保存在DRAM中,而性能不太敏感以及很少寫的頁面存儲在PCM中。Qureshi M K等人提出了一個層次型混合主存系統(tǒng)。他們將DRAM設(shè)計為CPU和PCM之間的緩沖區(qū)。所有的數(shù)據(jù)頁都存儲在PCM中,只有當(dāng)DRAM發(fā)生頁面置換或者需要訪問新的頁面時系統(tǒng)才存取PCM。Wu Z L等人在PCM存儲管理方面也提出了動態(tài)桶列表(dynamic bucket list)以及寫敏感的混合時鐘存儲管理方法。

索引作為優(yōu)化數(shù)據(jù)存取性能的重要技術(shù),是數(shù)據(jù)存儲管理中的關(guān)鍵問題之一。傳統(tǒng)的B+樹索引在數(shù)據(jù)庫系統(tǒng)和文件系統(tǒng)中被廣泛應(yīng)用,近年來在云計算、位置服務(wù)等應(yīng)用中也有一些針對B+樹的優(yōu)化工作。雖然B+樹具有很好的搜索性能,但它常常導(dǎo)致較高的更新代價。在面向閃存的數(shù)據(jù)庫領(lǐng)域,研究人員提出了多種針對B+樹的改進設(shè)計,例如μ*-Tree、BF-Tree、LA-Tree、HashTree、BloomTree等。這些方法以減少對閃存的寫操作為主要目標(biāo),采用了利用溢出節(jié)點延遲更新、利用額外的緩存節(jié)點的更新等方法,最終減少B+樹葉節(jié)點的更新次數(shù)以及索引的合并和分裂操作。

雖然目前在基于閃存的索引設(shè)計方面已經(jīng)有了不少的工作,但由于在大數(shù)據(jù)存儲中引入了PCM等其他類型的新型存儲介質(zhì),而且在計算架構(gòu)上產(chǎn)生了根本性的變化(閃存定位在二級存儲,而PCM則可以用于直接的內(nèi)存擴展),因此,近年來研究人員也探討了針對PCM的B+樹索引優(yōu)化問題。Chen S M等人最早在2011年的國際創(chuàng)新數(shù)據(jù)庫研究會議(International Conference on Innovative Database Research,CIDR)上測試了B+樹在采用了PCM主存技術(shù)的服務(wù)器上的性能。其研究結(jié)果表明,當(dāng)PCM技術(shù)應(yīng)用到數(shù)據(jù)庫服務(wù)器上后,因其具備高速隨機訪問特性,傳統(tǒng)的索引技術(shù)應(yīng)進行新的設(shè)計。他們在后續(xù)的工作中繼續(xù)研究了針對PCM等非易失內(nèi)存的B+樹索引結(jié)構(gòu),類似的工作還有Hu W W等人提出的BP-tree、Chi P等人提出的寫優(yōu)化B+樹以及Li L等人提出的面向PCM的讀寫趨勢感知的CB+-tree索引。這些工作基本都采用了針對PCM特性優(yōu)化傳統(tǒng)的B+樹的思路。

5 未來研究展望

5.1 基于新型存儲的大數(shù)據(jù)存儲架構(gòu)

以PCM為代表的新型存儲技術(shù)進一步提升了非易失存儲的性能極限。PCM類似于DRAM的高速隨機訪問模式使其有機會直接與CPU連接,而其高密度潛力也使它能夠適應(yīng)大數(shù)據(jù)時代的容量需求。當(dāng)存儲靜態(tài)數(shù)據(jù)的非易失存儲允許CPU通過直接尋址的方式訪問時,存儲體系的進化不僅僅帶來性能的大幅提升,同時還將改變應(yīng)用程序訪問數(shù)據(jù)的方式。由于PCM等存儲級主存能夠直接支持隨機讀寫,因此可以將其與DRAM共同連接于主存控制器上,與DRAM實現(xiàn)統(tǒng)一編址,CPU可直接尋址到PCM的任何地址。

由于計算機系統(tǒng)的系統(tǒng)集成度較高、構(gòu)成復(fù)雜,不易完成架構(gòu)改動,因此基于新型存儲的大數(shù)據(jù)存儲架構(gòu)可以采用嵌入式系統(tǒng)方式構(gòu)建驗證用的硬件平臺,在平臺上直接實現(xiàn)新存儲架構(gòu)及相應(yīng)軟件,從而能夠準(zhǔn)確地評估新存儲架構(gòu)帶來的性能優(yōu)勢。通過搭建新型嵌入式存儲架構(gòu)軟硬件驗證平臺,實現(xiàn)對存儲系統(tǒng)的硬件級訪問檢測,為驗證軟件系統(tǒng)性能提供準(zhǔn)確的數(shù)據(jù)。

5.2  基于新型存儲的分布式內(nèi)存文件系統(tǒng)

PCM等存儲級主存的出現(xiàn)及應(yīng)用打破了傳統(tǒng)的硬盤驅(qū)動器(hard disk drive,HDD)/SDD+DRAM的存儲架構(gòu),為適應(yīng)PCM等存儲級主存PCM和DRAM共存的新存儲架構(gòu),需研究新型的可支持以內(nèi)存訪問形式訪問各種文件數(shù)據(jù)的新型文件系統(tǒng)。同時,由于大數(shù)據(jù)時代數(shù)據(jù)一般需要分布式存儲與計算,因此在文件管理上還需要考慮對分布式環(huán)境的支持。因此,需要結(jié)合新型存儲架構(gòu)和分布式環(huán)境的需求,研究新型的大數(shù)據(jù)文件系統(tǒng)。該方向的一些研究要點包括以下幾方面。

(1)支持新型存儲架構(gòu)的單節(jié)點文件系統(tǒng)

單節(jié)點文件系統(tǒng)是研制分布式隨機訪問內(nèi)存文件系統(tǒng)的基礎(chǔ),具體包括新型存儲架構(gòu)下的文件原位訪問技術(shù)、文件系統(tǒng)管理與控制技術(shù)、基于新型存儲架構(gòu)的內(nèi)存管理機制等。

(2)支持新型存儲架構(gòu)的分布式文件系統(tǒng)

本地節(jié)點的數(shù)據(jù)訪問僅能夠提升應(yīng)用程序訪問本地數(shù)據(jù)時的效率。分布式存儲技術(shù)可以基于新型存儲架構(gòu)搭建支持海量數(shù)據(jù)存儲的分布式環(huán)境,從而滿足大數(shù)據(jù)存儲的容量需求。因此,將單節(jié)點文件系統(tǒng)向多節(jié)點擴充,完成支持新型存儲架構(gòu)的分布式內(nèi)存文件系統(tǒng),是實現(xiàn)基于新型存儲的大數(shù)據(jù)存儲管理的關(guān)鍵,研究要點包括分布式文件系統(tǒng)虛擬訪問接口、基于統(tǒng)一尋址的分布式文件管理技術(shù)、存儲空間的全局劃分和尋址技術(shù)等。

5.3  基于新型存儲的大數(shù)據(jù)管理

PCM等存儲級主存給存儲與計算架構(gòu)帶來了極大的挑戰(zhàn),包括異構(gòu)存儲上的數(shù)據(jù)分配與調(diào)整機制、異質(zhì)緩存管理機制、基于新型存儲的大數(shù)據(jù)索引技術(shù)等。

(1)基于新型存儲架構(gòu)的數(shù)據(jù)存儲分配與調(diào)整機制

由于DRAM、PCM、SSD/HDD等多種存儲介質(zhì)同時用于數(shù)據(jù)存儲,因此需要研究一種自適應(yīng)的多粒度數(shù)據(jù)存儲分配機制。具體而言,該機制首先根據(jù)數(shù)據(jù)訪問頻度將數(shù)據(jù)劃分為3種狀態(tài):熱(hot)、溫(warm)、冷(cold),然后根據(jù)數(shù)據(jù)的狀態(tài)進行存儲分配與調(diào)整。所謂多粒度是指在存儲分配時,同時采用文件和頁兩種粒度。在PCM與SSD/HDD之間進行數(shù)據(jù)分配時,PCM作為持久存儲介質(zhì),采用文件粒度進行數(shù)據(jù)分配;在DRAM與SSD/HDD之間進行數(shù)據(jù)分配時,DRAM作為緩存,采用頁粒度進行數(shù)據(jù)分配;在DRAM與PCM之間進行數(shù)據(jù)分配時,以鍵值記錄粒度進行數(shù)據(jù)遷移和交換。

在數(shù)據(jù)存儲調(diào)整方面,一種可能的方法是基于應(yīng)用對數(shù)據(jù)的訪問模式變化,自適應(yīng)、動態(tài)地調(diào)整數(shù)據(jù)存儲策略。訪問模式的度量基于數(shù)據(jù)的訪問頻度以及存取方式(讀/寫)兩類因素,通過周期性考察的方法確定當(dāng)前數(shù)據(jù)訪問模式的變化程度,并基于訪問模式的變化程度確定是否重新執(zhí)行數(shù)據(jù)存儲分配。一旦確定了新的數(shù)據(jù)存儲分配策略,將對相應(yīng)的數(shù)據(jù)進行介質(zhì)之間的遷移操作。

(2)基于新型存儲架構(gòu)的異質(zhì)緩存管理

數(shù)據(jù)緩存是傳統(tǒng)數(shù)據(jù)庫領(lǐng)域中的核心技術(shù)之一,它對于提升系統(tǒng)存取性能有著非常重要的作用。在大數(shù)據(jù)環(huán)境下,由于數(shù)據(jù)量的急劇增加,數(shù)據(jù)緩存的重要性尤為突出,因為如果讓每個應(yīng)用直接在全部的大數(shù)據(jù)上運行將很難保證訪問性能。目前一種普遍的觀點認(rèn)為,雖然大數(shù)據(jù)環(huán)境下數(shù)據(jù)量很大,但對一個具體應(yīng)用而言,涉及的只是大數(shù)據(jù)集合中的一部分(小數(shù)據(jù))。但是,在新型存儲架構(gòu)下,數(shù)據(jù)存儲涉及了DRAM、PCM、SSD等具有完全不同訪問特性的存儲介質(zhì),在緩存層也同樣面臨著多種介質(zhì)共存的局面,例如數(shù)據(jù)既可以緩存在DRAM中,也可以緩存在PCM中,甚至也可以緩存在SSD中。這類異質(zhì)緩存管理問題是傳統(tǒng)數(shù)據(jù)緩存研究中不曾面臨的新問題,也是構(gòu)建基于新型存儲的高效大數(shù)據(jù)管理系統(tǒng)的關(guān)鍵所在,需要首先分析異質(zhì)緩存管理中的普遍性問題,闡明異質(zhì)緩存管理的一些新的準(zhǔn)則,在此基礎(chǔ)上研究新的方法。

(3)基于新型存儲架構(gòu)的大數(shù)據(jù)索引

在傳統(tǒng)的基于“DRAM+SSD/HDD”的存儲架構(gòu)下,DRAM與外存之間的I/O是影響系統(tǒng)查詢處理性能的瓶頸。但在基于新型存儲架構(gòu)的大數(shù)據(jù)應(yīng)用系統(tǒng)中,索引的設(shè)計不僅要考慮內(nèi)外存之間的I/O代價,還要考慮異質(zhì)內(nèi)存之間的數(shù)據(jù)遷移代價(從DRAM到PCM以及從PCM到DRAM),此外還要考慮PCM等新型存儲的器件特性(例如芯片寫次數(shù)有限制)。另一方面,大數(shù)據(jù)應(yīng)用系統(tǒng)往往構(gòu)建在分布式環(huán)境之上,由于數(shù)據(jù)的分布以及涉及的數(shù)據(jù)量過大,傳統(tǒng)的單一索引機制不能從根本上解決問題。因此,需要針對新型存儲和分布式查詢處理要求,設(shè)計相應(yīng)的大數(shù)據(jù)索引結(jié)構(gòu)以及操作算法。

6 結(jié)束語

高效的大數(shù)據(jù)存儲與管理如果僅從軟件體系結(jié)構(gòu)考慮很難取得本質(zhì)性突破,因為在大數(shù)據(jù)環(huán)境下內(nèi)存與外存之間的I/O瓶頸很難克服。以PCM為代表的新型存儲為大數(shù)據(jù)高效存儲與實時處理提供了可能。研究適合高效大數(shù)據(jù)存儲和管理的新型存儲架構(gòu),借助創(chuàng)新的系統(tǒng)軟件設(shè)計,改變大數(shù)據(jù)處理過程中對外存I/O的依賴,有望克服目前大數(shù)據(jù)存儲與管理中的性能瓶頸,并進一步帶動大數(shù)據(jù)技術(shù)的未來發(fā)展。本文討論了新型存儲的特點以及現(xiàn)有大數(shù)據(jù)存儲技術(shù)的局限性,在此基礎(chǔ)上綜述了基于新型存儲的大數(shù)據(jù)存儲管理領(lǐng)域的研究現(xiàn)狀,最后給出了未來研究展望,以期能對新型存儲與大數(shù)據(jù)管理的未來研究提供有價值的參考。

目前,由于非易失內(nèi)存技術(shù)仍處于研發(fā)階段,工業(yè)界還沒有推出真正可用的新型存儲系統(tǒng),因此目前的研究還只能在新型存儲模擬器上展開。隨著非易失內(nèi)存芯片工藝上的突破,預(yù)計幾年內(nèi)會出現(xiàn)可用的新型存儲系統(tǒng)。屆時,可以基于實際的平臺開展理論和實驗,對基于新型存儲的理論研究成果進行驗證。

責(zé)任編輯:武曉燕 來源: 大數(shù)據(jù)期刊
相關(guān)推薦

2017-11-01 14:29:38

2013-08-08 10:07:43

大數(shù)據(jù)存儲結(jié)構(gòu)化數(shù)據(jù)

2016-10-12 09:02:28

大數(shù)據(jù)存儲技巧

2017-08-07 09:39:52

HBase大數(shù)據(jù)存儲

2021-09-29 16:39:23

大數(shù)據(jù)存儲

2020-12-02 10:32:10

大數(shù)據(jù)存儲

2022-09-01 23:34:18

大數(shù)據(jù)數(shù)據(jù)分析工具

2017-07-13 11:13:18

大數(shù)據(jù)數(shù)據(jù)存儲

2020-11-20 14:15:23

大數(shù)據(jù)數(shù)據(jù)存儲

2012-09-26 10:42:11

大數(shù)據(jù)

2018-08-24 09:42:05

云存儲存儲大數(shù)據(jù)

2018-07-04 09:30:55

列式存儲格式

2012-03-14 15:53:16

Windows Ser存儲管理

2022-08-14 14:52:45

數(shù)據(jù)存儲實踐

2018-06-07 16:33:31

大數(shù)據(jù)冷熱數(shù)據(jù)存儲平臺

2022-06-08 13:07:22

數(shù)據(jù)存儲數(shù)據(jù)管理桌面

2019-05-05 09:03:06

HBase大數(shù)據(jù)存儲數(shù)據(jù)存儲

2017-06-23 21:32:16

MySQL大數(shù)據(jù)優(yōu)化

2017-03-08 10:29:06

HBase大數(shù)據(jù)存儲

2020-12-08 14:20:43

人工智能數(shù)據(jù)存儲
點贊
收藏

51CTO技術(shù)棧公眾號