瘦身有道 主存儲器數(shù)據(jù)縮減六大方法
已經(jīng)成為許多備份和歸檔產(chǎn)品標(biāo)準(zhǔn)的數(shù)據(jù)縮減功能,正在主存儲上變得越來越流行了。產(chǎn)生這種現(xiàn)象的驅(qū)動力是可量化的成本節(jié)約,從不得不購買更少的磁盤來減少每年的支持費(fèi)用,到減少存儲管理相關(guān)的運(yùn)營花費(fèi)。數(shù)據(jù)縮減在存儲性能方面還有一個令人高興的影響:通過減少不活躍數(shù)據(jù)對于昂貴的高性能存儲的占用,使整個存儲和應(yīng)用系統(tǒng)的性能可以獲得可喜的提升。
在典型的企業(yè)里,按照存儲網(wǎng)絡(luò)工業(yè)協(xié)會(SNIA)的研究,存放在主存儲上80%的文件在最近30天內(nèi)沒有被訪問;同一份報告還指出,不活躍數(shù)據(jù)的增長是活躍數(shù)據(jù)的四倍??紤]到這些事實,數(shù)據(jù)縮減技術(shù)已經(jīng)開始進(jìn)入主存儲領(lǐng)域就不覺得奇怪了。
然而,對比備份和歸檔系統(tǒng)所使用的數(shù)據(jù)縮減方法,主存儲系統(tǒng)不能夠容忍任何一點(diǎn)對于性能和可靠性的影響,這是主存儲系統(tǒng)最相關(guān)的屬性。因此,數(shù)據(jù)縮減技術(shù)發(fā)生了變化,并且在主存儲上和用在備份和歸檔系統(tǒng)上采用了不同的方式。在備份和歸檔系統(tǒng)上,重復(fù)數(shù)據(jù)刪除和壓縮是主要的數(shù)據(jù)縮減手段,而對于主存儲系統(tǒng),那些技術(shù)明顯變得更加敏感,而且不會像重復(fù)數(shù)據(jù)刪除和壓縮一樣影響性能。這些主要的數(shù)據(jù)縮減技術(shù)正在被應(yīng)用到主存儲系統(tǒng)中:選擇合適的RAID級別;自動精簡配置;高效克??;自動存儲分層;重復(fù)數(shù)據(jù)刪除;壓縮。
選擇合適的RAID級別
把“選擇合適的RAID級別”放在數(shù)據(jù)縮減技術(shù)列表的最前面首先看起來好像很奇怪,而且不像其它的數(shù)據(jù)縮減方法,這只是所有存儲系統(tǒng)都可以使用的一個選項,但它對于磁盤的需求、性能和可靠性都有著很大的影響。如果不考慮可靠性缺陷,RAID 0(跨所有磁盤的塊級別條帶,無校驗或鏡像)會是最劃算和***性能的選擇,但單個磁盤故障將會丟失整個RAID組數(shù)據(jù)的缺點(diǎn)使其難登數(shù)據(jù)中心的大雅之堂。另一方面,RAID 1(鏡像,無校驗或條帶)和 RAID 10(條帶化磁盤組鏡像),結(jié)合了高性能和高可靠性,但需要兩倍的磁盤容量,因此也是站在數(shù)據(jù)縮減的對立面的。RAID 5(塊級別條帶化,分布式校驗)盡管需要一塊額外的磁盤,但已成為近些年來***的折衷方案了,但隨著磁盤容量的增長,重建時間也越來越長,在單盤故障后,RAID組重建的時候,丟失兩塊磁盤的風(fēng)險已經(jīng)增加到一個不舒服卻不得不接受的水平。因此,存儲廠商們采用了RAID 6,通過對RAID 5增加一塊額外的校驗磁盤,使其能夠經(jīng)得起兩次磁盤故障而不丟失數(shù)據(jù)--但隨之而來的有不同程度的性能影響,這與實施情況有關(guān)。在購買一個新存儲系統(tǒng)的時候,RAID 6和RAID 6的性能指標(biāo)都會是要考慮的事情。
“與我們大多數(shù)的競爭者不同,我們可以采用只有5%額外開銷的RAID-DP(NetApp公司的RAID 6技術(shù))技術(shù),”NetApp公司的高級存儲技術(shù)專家Larry Freeman表示。
自動精簡配置
直到最近,仍然沒有一個真正替代現(xiàn)有按需供應(yīng)的存儲產(chǎn)品,因此,存儲的利用率一直不高。對于在公司數(shù)據(jù)中心有幾百個GB的已經(jīng)分配但還沒有使用過的存儲,這種情況很常見。“在我們使用康貝公司的磁盤陣列和自動精簡配置技術(shù)之前,我們依賴用戶幫助我們估計存儲的需求,我們給每個用戶的估計再增加20%到100%,這取決于是什么樣應(yīng)用系統(tǒng),” Brandon Jackson,北卡羅來納州加斯頓郡的CIO,描述了這個被許多企業(yè)使用以保證足夠的存儲容量的不科學(xué)并且浪費(fèi)的過程。
自動精簡配置技術(shù)可以通過允許存儲系統(tǒng)按照實際需要的物理容量進(jìn)行分配的方式,來終結(jié)這種存儲資源浪費(fèi)式的管理。存儲按需分配到精簡卷。例如,自動精簡配置可以分配一個100GB的卷,盡管它只有10GB的物理存儲。自動精簡配置對于用戶是透明的,用戶會看到一個100GB的卷。精簡供應(yīng)節(jié)約的成本可能會非常巨大,并且使存儲的利用率超過90%.
支持自動精簡配置的廠商正在快速增長,同時,這已經(jīng)成為選擇存儲系統(tǒng)的關(guān)鍵標(biāo)準(zhǔn)之一??墒且涀。⒉皇撬械淖詣泳喤渲玫膶嵤┒际窍嗤?。一些系統(tǒng)需要為自動精簡配置設(shè)置單獨(dú)的區(qū)域,而其他所有的容量都可以用來做自動精簡配置而不需要特別的保留。把“thick”卷轉(zhuǎn)換為“thin”卷的功能,沒有使用的存儲如何恢復(fù)以及自動精簡配置的許可方式,是另外一些不同的地方。隨著自動精簡配置存儲的越來越多,物理存儲的耗盡成為自動精簡配置環(huán)境中經(jīng)常出現(xiàn)的風(fēng)險。因此,告警、通知和存儲分析成為必要的功能,并且對比傳統(tǒng)環(huán)境,在自動精簡配置的環(huán)境中扮演了更大的角色。
高效克隆
克隆用于對現(xiàn)有的卷建立一個完全相同的復(fù)本,這更適用于服務(wù)器虛擬化,它可以經(jīng)常用來克隆虛擬化操作系統(tǒng)卷??寺∽罨咀钪饕膶嵤┦墙⒃淳淼耐耆截?,克隆卷會占用與源卷完全相同的物理存儲。
進(jìn)一步的升級功能是對于自動精簡配置卷的克隆。而一些存儲系統(tǒng)在克隆期間會把精簡卷轉(zhuǎn)換為傳統(tǒng)卷,另外一些可以建立精簡卷的克隆,精簡源卷和克隆卷需要分配相同的物理存儲。“我們的Virtual Storage Platform(VSP),能夠通過一個精簡卷建立一個精簡的克隆卷,”日立數(shù)據(jù)系統(tǒng)公司企業(yè)平臺部的高級產(chǎn)品市場經(jīng)理,Mike Nalls如是說。
最有效的克隆是精簡克隆,克隆卷完全不保留數(shù)據(jù),而是根據(jù)原始影像。精簡克隆只需要保存原始影像和克隆影像的差異即可,這樣可以節(jié)約大量的磁盤空間。換句話,一份***的克隆需要最少的物理磁盤空間,并且只有區(qū)別于源影像的克隆變化才會被保存。NetApp公司的FlexClone和Oracle公司的ZFS Storage Appliance(Sun公司ZFS Storage 7000系列)的克隆功能是當(dāng)今支持精簡克隆的存儲系統(tǒng)。
#p# 自動存儲分層
自動存儲分層是主存儲上減少數(shù)據(jù)的另外一種機(jī)制。一個磁盤陣列能夠把活動數(shù)據(jù)保留在快速、昂貴的存儲上,把不活躍的數(shù)據(jù)遷移到廉價的低速層上,以限制tier-1存儲的花費(fèi)總量。自動存儲分層的重要性隨著固態(tài)存儲在當(dāng)前磁盤陣列中的采用而提升,并隨著云存儲的來臨而補(bǔ)充內(nèi)部部署的存儲。自動存儲分層使用戶數(shù)據(jù)保留在合適的存儲層級,因此減少了存儲需求的總量并實質(zhì)上減少了成本,提升了性能。
自動存儲分層有兩個關(guān)鍵的特性:
- 數(shù)據(jù)從一層遷移到另一層的粒度越精細(xì),可以使用的昂貴存儲的效率就越高。子卷級的分層意味著數(shù)據(jù)是按照塊來分配而不是整個卷,而字節(jié)及的分層比文件級的分層更好。
- 如何控制數(shù)據(jù)在層間移動的內(nèi)部工作規(guī)則,會決定需要把自動分層放在正確的位置的努力程度。一些系統(tǒng),像EMC公司的Fully Automated Storage Tiering(FAST),是根據(jù)預(yù)先定義的什么時候移動數(shù)據(jù)和移動到哪一層的策略。相反的,NetApp公司和Oracle公司(在Sun ZFS Storage 7000系列中)倡導(dǎo)存儲系統(tǒng)應(yīng)該足夠智能,能夠自動的保留數(shù)據(jù)在其合適的層,而不需要用戶定義的策略。
重復(fù)數(shù)據(jù)刪除
在備份和歸檔領(lǐng)域的良好表現(xiàn),使得重復(fù)數(shù)據(jù)刪除逐漸找到了其進(jìn)入主存儲的途徑。重復(fù)數(shù)據(jù)刪除用于主存儲最主要的挑戰(zhàn)是性能慢。“去重和性能完全無法相處,” Greg Schulz說,位于明尼蘇達(dá)州斯蒂爾沃特的StorageIO Group的創(chuàng)始人和高級分析師。不過盡管如此,重復(fù)數(shù)據(jù)刪除已經(jīng)找到了進(jìn)入一些存儲系統(tǒng)的途徑,而大家的跟風(fēng)只是時間的問題。
NetApp公司為其所有系統(tǒng)提供重復(fù)數(shù)據(jù)刪除選項,并且可以針對每個卷進(jìn)行激活。NetApp公司的重復(fù)數(shù)據(jù)刪除并不是實時執(zhí)行的。相反,它是使用預(yù)先設(shè)置的進(jìn)程執(zhí)行的,一般是在閑暇時間執(zhí)行,通過掃描把重復(fù)的4KB數(shù)據(jù)塊替換為相應(yīng)的指針。NetApp公司并不對每一個4KB數(shù)據(jù)塊生成一個唯一的哈希值,而是使用數(shù)據(jù)塊的校驗和來標(biāo)識重復(fù)的數(shù)據(jù)塊。為防止哈希沖突,這種情況發(fā)生在不同的數(shù)據(jù)塊卻有著相同的校驗和(哈希)的情況,NetApp公司執(zhí)行了數(shù)據(jù)塊級別的比較,并去掉那些重復(fù)的部分。至于所關(guān)心的性能問題,“我們平均每小時可以去重1TB數(shù)據(jù),”NetApp公司的Freeman表示。NetApp公司的重復(fù)數(shù)據(jù)刪除一般是針對單個卷或LUN執(zhí)行的,并且不會跨越它們。
與NetApp公司相似,Oracle公司在其Sun Storage ZFS 7000系列系統(tǒng)中也具備塊級別重復(fù)數(shù)據(jù)刪除的功能。與NetApp公司不同的是,去重是在其寫入磁盤時實時執(zhí)行的。“根據(jù)環(huán)境以及環(huán)境中的變化總量,去重的負(fù)荷小于7%,” Oracle公司的存儲產(chǎn)品管理高級主管Jason Schaffer說。一些較小的廠商,像BridgeSTOR LLC公司,利用其應(yīng)用優(yōu)化存儲(AOS)以支持去重。
另外一個明確投身數(shù)據(jù)縮減的廠商是戴爾公司。隨著2010年對Ocarina Networks公司的并購,戴爾公司獲得了內(nèi)容感知的去重和壓縮技術(shù),并企圖把這種技術(shù)整合到其所有的存儲系統(tǒng)中。“從下半年開始,我們會發(fā)布具有Ocarina去重和壓縮技術(shù)的存儲產(chǎn)品,”戴爾康貝的產(chǎn)品市場化主管Bob Fine說。
當(dāng)前面這些公司開發(fā)或收購重復(fù)數(shù)據(jù)刪除技術(shù)的時候,Permabit Technology公司已經(jīng)開發(fā)出了Albireo,一個可以授權(quán)給存儲廠商的去重軟件庫,使這些廠商為及時適應(yīng)市場而在其存儲系統(tǒng)中增加重復(fù)數(shù)據(jù)刪除的功能,同時避免了自己開發(fā)所帶來的風(fēng)險。“我們已經(jīng)有了Xiotech公司、BlueArc公司以及LSI公司三個客戶,我們希望具備Permabit去重功能的***個產(chǎn)品會在2011年晚些時候發(fā)貨,” Permabit公司的CEO,Tom Cook說。
壓縮
壓縮和去重一樣,在用于主存儲時面臨許多相同的挑戰(zhàn)。壓縮也有性能負(fù)荷;它僅限于一個卷,并且無論什么時候數(shù)據(jù)要移出這個卷,數(shù)據(jù)必須要解壓縮,這就像去重后的數(shù)據(jù)從一個卷遷移到另一個卷的時候必須先恢復(fù)。在理想情況下,不同的層,包括備份和恢復(fù)層,應(yīng)該能夠接受并應(yīng)對壓縮和去重的數(shù)據(jù),但因為標(biāo)準(zhǔn)的缺失,他們通常還不能。
壓縮和去重是互補(bǔ)性的技術(shù),提供去重的廠商通常也提供壓縮--BridgeSTOR公司、戴爾公司和Sun公司都是這樣。而對于虛擬服務(wù)器卷、電子郵件附件、文件和備份環(huán)境來說,去重通常更加有效,壓縮對于隨機(jī)數(shù)據(jù)效果更好,像數(shù)據(jù)庫。換句話說,在數(shù)據(jù)重復(fù)性比較高的地方,去重比壓縮有效。
除了上述這些廠商以外,EMC公司能夠在其VNX統(tǒng)一存儲產(chǎn)品中提供壓縮功能,以及對于文件內(nèi)容提供單實例存儲特性,這個功能可以實現(xiàn)對于相同的文件只存儲單個拷貝,它確實達(dá)到了一定程度的重復(fù)數(shù)據(jù)刪除功能。IBM公司為前端的NAS存儲提供了Real-time Compression Appliances(STN6500和STN6800);該設(shè)備及其壓縮技術(shù)來自IBM公司在2010年對于Storwize公司的收購。“Storwize公司的實時壓縮軟件在今年晚些時候?qū)蔀镮BM磁盤陣列的功能,在18個月之內(nèi),可以用在所有的產(chǎn)品線上,”IBM公司存儲效率戰(zhàn)略主管Ed Walsh說。
#p# 新老技術(shù)的并存
主存儲的數(shù)據(jù)縮減是當(dāng)今的現(xiàn)實,而且隨著數(shù)據(jù)的無節(jié)制增長,它無疑會成為存儲效率的關(guān)鍵部分。數(shù)據(jù)縮減功能,像RAID 6、精簡供應(yīng)、高效克隆和自動存儲分層正在變得必不可少,并且成為評價主存儲時的必要特性。另一方面,重復(fù)數(shù)據(jù)刪除和壓縮是新興技術(shù),隨著時間的推移將變得更加普遍,但現(xiàn)在這些相對的新來者剛剛開始對主存儲產(chǎn)生影響。
主要存儲縮減技術(shù)
主存儲的快速數(shù)據(jù)縮減
取回主存儲上寶貴空間最簡單的方法是通過歸檔。公司,像個人一樣,有保留太多東西的傾向。企業(yè)在其主存儲上保留了大量某天可能會用到的數(shù)據(jù)。歸檔可以像遷移數(shù)據(jù)到歸檔存儲以及在需要的時候恢復(fù)到主存儲一樣簡單--零成本。如果想要自動遷移數(shù)據(jù)到歸檔存儲并恢復(fù)到主存儲的,可以使用像賽門鐵克公司的Enterprise Vault或Waterford Technologies公司的歸檔產(chǎn)品,它們可以對已經(jīng)歸檔的數(shù)據(jù),在主存儲上留下一個“存根”,對用戶隱藏文件的真實位置。訪問的時候,歸檔產(chǎn)品會根據(jù)“存根”自動拉回數(shù)據(jù),對用戶完全透明。