華為新一代存儲(chǔ),開啟數(shù)據(jù)存儲(chǔ)重刪之快道
重復(fù)數(shù)據(jù)刪除技術(shù)作為存儲(chǔ)十大熱點(diǎn)技術(shù)備受大家的關(guān)注。在備份存儲(chǔ)領(lǐng)域,重刪技術(shù)已基本成熟,且具有極高的市場(chǎng)價(jià)值,各大廠家都推出了相關(guān)的重刪產(chǎn)品,并受到了客戶青睞。而在主存儲(chǔ)領(lǐng)域,重刪技術(shù)雖然還不夠成熟,但由于市場(chǎng)的需要及較高的市場(chǎng)價(jià)值,很多廠商也都推出了主存儲(chǔ)重刪產(chǎn)品。但在主存儲(chǔ)場(chǎng)景下,客戶對(duì)存儲(chǔ)的性能要求都比較高,考慮到對(duì)性能的影響,很多廠商在重刪技術(shù)上面選擇了后重刪技術(shù),如EMC的VNX、NetApp的FAS。然而,后重刪技術(shù)能解決我們主存儲(chǔ)場(chǎng)景下的問題嗎?
重刪之“痛” ——后重刪:
一痛:后重刪與快照天然的就存在兼容性的問題。重刪的目的是對(duì)數(shù)據(jù)進(jìn)行處理,當(dāng)存在重復(fù)數(shù)據(jù)時(shí),需要將重復(fù)的數(shù)據(jù)刪除從而達(dá)到節(jié)約空間的目的,而快照的目的則是將快照后的元數(shù)據(jù)和數(shù)據(jù)進(jìn)行鎖定,保證快照時(shí)刻數(shù)據(jù)的完成性。當(dāng)快照后進(jìn)行重刪,重刪為了縮減數(shù)據(jù)對(duì)數(shù)據(jù)和元數(shù)據(jù)進(jìn)行修改或刪除,而快照則是將修改或刪除后的元數(shù)據(jù)和數(shù)據(jù)拷貝到快照空間保證快照時(shí)刻數(shù)據(jù)的完成性。為此,雖然重刪縮減了正在使用的空間容量,但快照空間容量則會(huì)大幅度增加,最終起不到任何數(shù)據(jù)縮減的效果。為此,選擇后處理重刪的廠家都要求在重刪壓縮后再進(jìn)行快照,當(dāng)前EMC的VNX、NetApp的FAS都存在這樣的情況。這使得用戶在同時(shí)使用快照和重刪功能時(shí),非常的不滿意。
二痛:后重刪處理重刪數(shù)據(jù)會(huì)滯后,一般是一天或一周處理一次。這就需要用戶預(yù)留足夠的空間存儲(chǔ)這段時(shí)間內(nèi)產(chǎn)生的新數(shù)據(jù),即使是所有的新數(shù)據(jù)都是重復(fù)數(shù)據(jù)。例如:在批量部署虛擬機(jī)時(shí),每個(gè)虛擬機(jī)50G,部署1000個(gè),則需要預(yù)留50T的空間,而實(shí)際重刪后所占空間僅需要50G。
三痛:后重刪原理:先將數(shù)據(jù)寫入到設(shè)備,待重刪時(shí),再將未重刪的數(shù)據(jù)讀到內(nèi)存中進(jìn)行重刪處理,如下圖1:后處理重刪示意圖。由此可以分析,后處理對(duì)一個(gè)數(shù)據(jù)塊需要進(jìn)行
兩次寫,一次讀的操作。也就是說由于后處理重刪的原因,會(huì)導(dǎo)致設(shè)備總的負(fù)荷增加,在設(shè)備空閑業(yè)務(wù)時(shí)間很少或不間斷時(shí),后處理重刪實(shí)際上對(duì)性能的消耗將大于在線重刪(在線重刪對(duì)一個(gè)數(shù)據(jù)塊僅需1次寫,如圖2:在線重刪示意圖)。同時(shí),由于增加了寫的次數(shù),對(duì)磁盤壽命也有一定的影響,特別是SSD,這在閃存陣列中是無法接受的。
圖表1 后處理重刪示意圖
圖表 2 在線重刪示意圖
四痛:為了更好的使用重刪功能,減少對(duì)系統(tǒng)性能的影響。推出后重刪產(chǎn)品的廠商都提供了對(duì)應(yīng)的一些配置策略,以及使用須知等。這使得在使用重刪功能時(shí)變得很復(fù)雜,需要考慮的東西很多。這不符合存儲(chǔ)的發(fā)展方向:簡單、易用。
后重刪有如此多的痛,而在線重刪就沒有了嗎? 在線重刪由于在寫入數(shù)據(jù)后就已經(jīng)完成了重刪,所以可以很好的和快照兼容;在預(yù)留空間問題上,由于是實(shí)時(shí)重刪也不存在問題;在對(duì)設(shè)備總的IO負(fù)荷方面,由于數(shù)據(jù)經(jīng)過了重刪寫盤數(shù)據(jù)更少,顯得優(yōu)勢(shì)更為明顯,特別是在全閃存陣列中。當(dāng)前主要的全閃存陣列廠商都是采用的在線重刪方案。而在易用性方面,在線重刪功能的配置等,簡單很多,僅需開啟關(guān)閉即可。在線重刪真是如此之好?那為何很多主存儲(chǔ)廠商還是選擇了后重刪?
迎難而上,華為選擇在線重刪:
在線重刪需要實(shí)時(shí)的對(duì)每一個(gè)IO進(jìn)行指紋計(jì)算、查重及數(shù)據(jù)壓縮,會(huì)占用較多的CPU及磁盤IO。基于該原因,很多主存儲(chǔ)廠商,退而求其次,選擇了后處理重刪。而同樣作為主存儲(chǔ)廠商的華為,則另辟蹊徑選擇了在線重刪。
那為什么華為會(huì)選擇在線重刪呢?
1、 CPU方面:重刪是CPU消耗的大戶。降低重刪對(duì)CPU的消耗,是在主存儲(chǔ)重刪中引入在線重刪的關(guān)鍵。華為能在設(shè)備中增加重刪壓縮加速卡,將重刪壓縮過程中,大量的計(jì)算功能放到加速卡中進(jìn)行計(jì)算,從而降低CPU的消耗同時(shí)還能提升計(jì)算速度。另外,在一些性能要求不高的場(chǎng)景中,則可以去除加速卡降低成本,這樣使得華為在不同場(chǎng)景下支持重刪壓縮功能變得更加靈活、多變。
2、 磁盤IO方面:數(shù)據(jù)查重的過程需要消耗較多磁盤IO,能否使得查重效率***、速度最快,是整個(gè)重刪技術(shù)的關(guān)鍵。華為在數(shù)據(jù)查重方面完成了多個(gè)關(guān)鍵技術(shù)的優(yōu)化:
a) 采用SSD Cache技術(shù)對(duì)存儲(chǔ)重刪元數(shù)據(jù)進(jìn)度加速,從而加快重刪過程中元數(shù)據(jù)的讀寫性能;
b) 基于場(chǎng)景的重刪Cache優(yōu)化,如數(shù)據(jù)的時(shí)空局部性在Cache中的應(yīng)用等;
c) 基于IO特征的優(yōu)化,根據(jù)不同場(chǎng)景的IO智能選擇重刪流程等。經(jīng)過上面的優(yōu)化,在線重刪磁盤IO訪問明顯下降,甚至在部分場(chǎng)景下,磁盤IO的訪問量比沒有重刪的情況下還少。華為公司給出了VDI場(chǎng)景下的在線重刪壓縮性能測(cè)試情況:在線重刪壓縮性能影響小于10%,而數(shù)據(jù)縮減率高于3:1。
總結(jié):在線重刪是整個(gè)重刪技術(shù)的趨勢(shì),而在線重刪卻在主存儲(chǔ)場(chǎng)景中始終步履蹣跚。相信,華為5月份即將發(fā)布的新一代企業(yè)級(jí)OceanStor V3系列新品即是一個(gè)很好的契機(jī),將促使在線重刪技術(shù)在主存儲(chǔ)場(chǎng)景中開出絢爛的花朵。