重復(fù)數(shù)據(jù)刪除技術(shù)對備份有著深刻影響
導(dǎo)讀:重復(fù)數(shù)據(jù)刪除是一種非常高級的數(shù)據(jù)縮減方式,可以極大的減少備份數(shù)據(jù)的數(shù)量。這種技術(shù)通過減少存儲的數(shù)據(jù)量,改變數(shù)據(jù)保護方式,卓越的提升了磁盤備份方式的經(jīng)濟性。重復(fù)數(shù)據(jù)刪除被業(yè)界公認為備份技術(shù)的下一代發(fā)展步驟,是今日數(shù)據(jù)中心的"必備"技術(shù)。可重復(fù)數(shù)據(jù)的刪除技術(shù)對備份又會產(chǎn)生一定的影響。
重復(fù)數(shù)據(jù)刪除應(yīng)運而生
重復(fù)數(shù)據(jù)刪除是一項非常新的技術(shù),專門用于在減少需要備份的數(shù)據(jù)量、***化存儲利用率的同時,使更多的備份數(shù)據(jù)在線保留更長時間。通常來講,重復(fù)數(shù)據(jù)刪除技術(shù)會將***的備份數(shù)據(jù)與已有的之前的備份數(shù)據(jù)進行比對,從而消除冗余數(shù)據(jù)。這項技術(shù)的優(yōu)勢在于數(shù)據(jù)的減少不僅使存儲的效率更高、成本更節(jié)約,帶寬的利用也降到***,使更經(jīng)濟、更快速的實現(xiàn)備份數(shù)據(jù)的遠程復(fù)制成為可能。然而,目前市場中的重復(fù)數(shù)據(jù)刪除解決方案還有很大差異,有些解決方案會使備份處理的速度變的很慢,甚至引發(fā)無法預(yù)計且不可恢復(fù)的數(shù)據(jù)丟失。
塊級重復(fù)數(shù)據(jù)刪除
多年以前的重復(fù)數(shù)據(jù)刪除技術(shù),可以看作是文件級的技術(shù),當時稱之為“單一實例存儲(SingleInstanceStore,SIS)”,通過SIS技術(shù),整個文件系統(tǒng)或電子郵件系統(tǒng)的重復(fù)文件可以被減少為單一的拷貝,當再出現(xiàn)這一文件時,會被指向到這一單一拷貝,從而減少容量需求。這一技術(shù)通常被用于電子郵件管理及歸檔系統(tǒng)。
今天的重復(fù)數(shù)據(jù)刪除技術(shù)利用了與SIS類似的數(shù)據(jù)縮減概念,但卻使之向前邁進了一大步–實現(xiàn)了塊級(子文件)重復(fù)數(shù)據(jù)刪除。當讀取數(shù)據(jù)時,系統(tǒng)利用Hash算法識別唯一的數(shù)據(jù)塊,系統(tǒng)將保留Hash索引,每個Hash編碼指向一個不同的數(shù)據(jù)塊。當新的備份發(fā)生時,會自動的與現(xiàn)有的塊進行比對,如果索引中已經(jīng)有相同的塊,數(shù)據(jù)將會被刪除或被指向塊的指針所代替;反之,則會被保存并在索引中為其創(chuàng)建一個新的Hash編碼。這里提到的唯一數(shù)據(jù)塊的大小,會根據(jù)用戶選擇的不同的重復(fù)數(shù)據(jù)刪除解決方案而不同,平均大小在4KB-24KB之間。
與文件級SIS技術(shù)相比,塊級的重復(fù)數(shù)據(jù)刪除技術(shù)可以說更具優(yōu)勢。它可以在不同的文件或應(yīng)用中消除冗余數(shù)據(jù)塊。比如,如果一個文件只做了想當小的一點修改并保存,塊級重復(fù)數(shù)據(jù)刪除技術(shù)則將只保存發(fā)生變化的數(shù)據(jù)塊。按這種方式,塊級重復(fù)數(shù)據(jù)刪除可以提供更好的壓縮比率,特別是應(yīng)用于巨大數(shù)據(jù)量的情況下,如數(shù)據(jù)庫或全備份之后。
下面的例子進一步說明了SIS和塊級兩種重復(fù)數(shù)據(jù)刪除技術(shù)的結(jié)果比較。
一個企業(yè)向1000個郵件地址發(fā)出一封帶有注冊內(nèi)容的活動邀請函,傳統(tǒng)的備份應(yīng)用將會把文件備份1000次。SIS解決方案可以識別出文件是相同的,將只會保留一份備份,然后生成999個指針指向那個唯一的備份,因此,大概節(jié)省了99.9%的空間。但是,之后這1000個參會人可能會將注冊內(nèi)容填好后回復(fù)給發(fā)件人,由于他們的名字不同,SIS解決方案就會備份1000份回執(zhí)。
塊級解決方案在發(fā)出邀請函的時候執(zhí)行了相同的重復(fù)數(shù)據(jù)刪除處理,也實現(xiàn)了99.9%的存儲空間節(jié)省。但是,當收到1000份參會人的回執(zhí)時,塊級解決方案會發(fā)現(xiàn)每個回執(zhí)的大部分內(nèi)容與***封收到的是相同的并已經(jīng)備份過,因此,它只會對其它999封回執(zhí)的相異數(shù)據(jù)塊(塊級)進行備份。這種方法與SIS技術(shù)相比,則還可以節(jié)省額外的99.9%的存儲空間。
綠色存儲與重復(fù)數(shù)據(jù)刪除
由于塊級重復(fù)數(shù)據(jù)刪除技術(shù)只保存發(fā)生變化的數(shù)據(jù),極大的減少了所需的備份容量,使用戶不用再像從前一樣購置大量磁盤,從而將用戶備份系統(tǒng)的總成本降到***。更少的磁盤致使存儲系統(tǒng)更少,電力及制冷需求更小,同時還降低了整體系統(tǒng)的復(fù)雜性。
與傳統(tǒng)的磁帶備份解決方案相比,重復(fù)數(shù)據(jù)刪除技術(shù)完全改變了磁盤備份的經(jīng)濟性。通過這一技術(shù),更多的用戶可以負擔得起用磁盤備份取代整個或是部分磁帶備份的解決方案。磁盤備份相對于磁帶備份來說,提供了更好的備份及恢復(fù)性能。通過利用磁盤備份的方式,用戶可以進一步改善他們的服務(wù)品質(zhì)協(xié)議(Service-LevelAgreements,SLAs)。
當通過數(shù)據(jù)復(fù)制實現(xiàn)災(zāi)備時,重復(fù)數(shù)據(jù)刪除技術(shù)也可以帶來卓越利益。由于減少了備份數(shù)據(jù)量,重復(fù)數(shù)據(jù)刪除技術(shù)將主站點與遠程數(shù)據(jù)中心之間的帶寬需求、數(shù)據(jù)傳輸成本、復(fù)制時間都降到***。企業(yè)利用相對經(jīng)濟的WAN網(wǎng)絡(luò)即可在任意地理空間范圍內(nèi)執(zhí)行復(fù)制,實現(xiàn)了額外的成本節(jié)約。
重復(fù)數(shù)據(jù)刪除最適用于哪里?
理論上講,重復(fù)數(shù)據(jù)刪除技術(shù)可以用于任意地點存在的數(shù)據(jù)。它可以與在線或是離線的數(shù)據(jù)一起工作,可以在文件系統(tǒng)或是數(shù)據(jù)庫,也可以在其它應(yīng)用??偟膩碚f,哪里有大量的重復(fù)數(shù)據(jù),它就能在哪呈現(xiàn)出***的利益回報。
而***的應(yīng)用示例是在企業(yè)級備份。企業(yè)大都是每天做一次全備份,兩日的全備份中通常只有很小部分不會超過5%的數(shù)據(jù)是不同的,大部分備份扇區(qū)都是相似的。這種情況下,重復(fù)刪除為備份系統(tǒng)帶來了***的利益回報。因此,大多數(shù)重復(fù)數(shù)據(jù)刪除解決方案都是專為備份系統(tǒng)而設(shè)計的。
【編輯推薦】