一行命令導(dǎo)致的數(shù)據(jù)丟失,阿里工程師是如何恢復(fù)的?
數(shù)據(jù)安全性被提到了前所未有的高度,數(shù)據(jù)保護(hù)的話(huà)題越來(lái)越成為敏感。因?yàn)?,業(yè)務(wù)的中斷時(shí)間對(duì)用戶(hù)造成的影響愈來(lái)愈大。阿里技術(shù)專(zhuān)家凡鈞從數(shù)據(jù)安全的形勢(shì)與發(fā)展,面臨的挑戰(zhàn),問(wèn)題的定義,傳統(tǒng)的解決方案,當(dāng)前云廠商的解決方案,去闡述什么是連續(xù)數(shù)據(jù)保護(hù)并提出了彈性的可驗(yàn)證的連續(xù)數(shù)據(jù)保護(hù)方案(Elastic Assured Continuous Data Protection)。
一、摘要
相比于傳統(tǒng)的連續(xù)數(shù)據(jù)保護(hù)等的解決方案,需要在Guest OS 層面或者在專(zhuān)有的存儲(chǔ)層面,進(jìn)行寫(xiě)時(shí)數(shù)據(jù)變化日志的獲取,或多或少對(duì)生產(chǎn)機(jī)的存儲(chǔ)性能有很大的影響,一旦上云,必將加重客戶(hù)的計(jì)算成本及存儲(chǔ)成本。即使是混合的架構(gòu)部署,在網(wǎng)絡(luò)的帶寬,實(shí)施的復(fù)雜性層面也很難與云端實(shí)施相比,很難滿(mǎn)足傳統(tǒng)企業(yè)客戶(hù)的更低的RPO(Recovery Point Objective)及RTO(Recovery Time Objective)的訴求。雖然,連續(xù)數(shù)據(jù)保護(hù)的產(chǎn)品定位與快照,復(fù)制(Replication)的功能有所重合,但CDP的定位更加寬泛,注重?cái)?shù)據(jù)的保護(hù),恢復(fù),更高效的業(yè)務(wù)連續(xù)性,不僅僅局限于快照的實(shí)現(xiàn)及數(shù)據(jù)的搬移。
新的Pangu2.0的塊存儲(chǔ)的全新的架構(gòu)為實(shí)現(xiàn)云端連續(xù)性數(shù)據(jù)保護(hù)提供了契機(jī),特別是日志結(jié)構(gòu)塊設(shè)備(Log Structure Block Device),其中包括:全新的數(shù)據(jù)寫(xiě)入方式,日志存儲(chǔ)方式及快照方式等都極大地方便了連續(xù)數(shù)據(jù)保護(hù)的的實(shí)現(xiàn)。相信隨著企業(yè)上云的加速,在兼顧存儲(chǔ)性能的同時(shí),將會(huì)滿(mǎn)足傳統(tǒng)高級(jí)企業(yè)用戶(hù)的低RTO及低RPO的數(shù)據(jù)保護(hù)的緊迫需求。但數(shù)據(jù)備份及數(shù)據(jù)備份在考慮可操作的同時(shí),數(shù)據(jù)可恢復(fù)的操作性在很大程度上決定了數(shù)據(jù)保護(hù)的有效性。
二、數(shù)據(jù)保護(hù)的挑戰(zhàn)
在當(dāng)今,數(shù)據(jù)安全性被提到了前所未有的高度,數(shù)據(jù)保護(hù)的話(huà)題越來(lái)越成為敏感。因?yàn)椋瑯I(yè)務(wù)的中斷時(shí)間對(duì)用戶(hù)造成的影響愈來(lái)愈大。在2017年,病毒,勒索軟件,如WannCry, Peta 及 Locky及頻繁的刪庫(kù)誤操作,甚至有些對(duì)用戶(hù)的備份軟件進(jìn)行直接攻擊,使得云端用戶(hù)對(duì)數(shù)據(jù)安全及數(shù)據(jù)保護(hù)的期望愈來(lái)愈高。
數(shù)據(jù)變得越來(lái)越重要: 數(shù)據(jù)=資產(chǎn) 數(shù)據(jù)=資源
2017年1月,“Gitlab誤刪庫(kù)事件”引起業(yè)界對(duì)信息安全和重大風(fēng)險(xiǎn)的敏感神經(jīng)。值得關(guān)注的是,在Gitlab恢復(fù)的過(guò)程中,發(fā)現(xiàn)只有db1.staging的數(shù)據(jù)庫(kù)可以用于恢復(fù),而其它的5種備份機(jī)制都不可用。而db1.staging 是6小時(shí)前的數(shù)據(jù),而且傳輸速率有限,導(dǎo)致恢復(fù)進(jìn)程緩慢,Gitlab 最終丟掉了差不多6個(gè)小時(shí)的數(shù)據(jù)。
因此,如何降低數(shù)據(jù)丟失的風(fēng)險(xiǎn),減小數(shù)據(jù)保護(hù)的窗口,降低用戶(hù)的損失,提供高效的恢復(fù)機(jī)制,是用戶(hù)的迫切需要。另外,從一個(gè)側(cè)面可以看出,低RTO及可驗(yàn)證的恢復(fù)性,對(duì)數(shù)據(jù)保護(hù)的重要性;數(shù)據(jù)的可恢復(fù)性相對(duì)于存儲(chǔ)成本在此刻是及其重要的救命稻草。
三、連續(xù)性數(shù)據(jù)保護(hù)的定義
存儲(chǔ)網(wǎng)絡(luò)協(xié)會(huì)(SNIA)對(duì)于連續(xù)性數(shù)據(jù)保護(hù)的定義為:連續(xù)數(shù)據(jù)保護(hù)是一套方法,它可以捕獲或跟蹤數(shù)據(jù)的變化,并將其獨(dú)立保存放在生產(chǎn)數(shù)據(jù)以外,以確保數(shù)據(jù)可以恢復(fù)到過(guò)去的任意時(shí)間點(diǎn)。連續(xù)數(shù)據(jù)保護(hù),可以基于塊、文件或應(yīng)用實(shí)現(xiàn),可以為恢復(fù)提供足夠的恢復(fù)粒度,實(shí)現(xiàn)幾乎無(wú)限多的恢復(fù)時(shí)間點(diǎn)。
全球最具權(quán)威的IT研究與顧問(wèn)咨詢(xún)公司(Gartner)的定義為:連續(xù)數(shù)據(jù)保護(hù)是一種恢復(fù)方法,它連續(xù)或者近似連續(xù)的捕獲或跟蹤數(shù)據(jù)文件或者數(shù)據(jù)塊的變化,同時(shí)以日志的形式進(jìn)行保存。這種能力提供了更加細(xì)粒度的實(shí)時(shí)點(diǎn),以減少數(shù)據(jù)的的丟失,并且使得任意的恢復(fù)點(diǎn)成為可能。一些CDP解決方案可以被配置去抓取連續(xù)的數(shù)據(jù)改變(真的CDP)或者以一定的時(shí)間抓取數(shù)據(jù)改變(準(zhǔn)CDP)。
為了更好的表達(dá)CDP的狀態(tài),需要引入兩個(gè)概念:RPO和RTO。
- RPO(Recovery Point Objective):恢復(fù)點(diǎn)目標(biāo),指出現(xiàn)災(zāi)難的時(shí)候會(huì)丟失多長(zhǎng)時(shí)間的數(shù)據(jù),即是備份間隔。
- RTO(Recovery Time Objective):恢復(fù)時(shí)間目標(biāo),指出現(xiàn)災(zāi)難的時(shí)候多長(zhǎng)時(shí)間可以讓業(yè)務(wù)繼續(xù)運(yùn)作,即恢復(fù)時(shí)間。
- 真正的CDP概念被定義為RPO=0,RTO趨近于0,才能被成為CDP。當(dāng)RPO不為0時(shí)稱(chēng)之為:Near CDP(準(zhǔn)CDP)。
四、連續(xù)性數(shù)據(jù)保護(hù)的特點(diǎn)
傳統(tǒng)的數(shù)據(jù)保護(hù)解決方案專(zhuān)注在對(duì)數(shù)據(jù)的周期性備份上,因此一直伴隨有備份窗口、數(shù)據(jù)一致性以及對(duì)生產(chǎn)系統(tǒng)的影響等問(wèn)題。而CDP為用戶(hù)提供了新的數(shù)據(jù)保護(hù)手段,系統(tǒng)管理者無(wú)須關(guān)注數(shù)據(jù)的備份過(guò)程(因?yàn)镃DP系統(tǒng)會(huì)不斷監(jiān)測(cè)關(guān)鍵數(shù)據(jù)的變化,從而不斷地自動(dòng)實(shí)現(xiàn)數(shù)據(jù)的保護(hù)),而是僅僅當(dāng)災(zāi)難發(fā)生后,簡(jiǎn)單地選擇需要恢復(fù)到的數(shù)據(jù)備份時(shí)間點(diǎn)即可實(shí)現(xiàn)數(shù)據(jù)的快速恢復(fù)。
連續(xù)數(shù)據(jù)保護(hù)和傳統(tǒng)的災(zāi)難恢復(fù)技術(shù)相比,連續(xù)數(shù)據(jù)保護(hù)具有如下明顯的特點(diǎn):
1、首先可以大大提高數(shù)據(jù)恢復(fù)時(shí)間點(diǎn)目標(biāo)(RPO)。備份技術(shù)實(shí)現(xiàn)的數(shù)據(jù)保護(hù)間隔一般為24小時(shí)(每天備份一次),因此用戶(hù)會(huì)面臨數(shù)據(jù)丟失多達(dá)24小時(shí)的風(fēng)險(xiǎn),采用快照技術(shù),可以將數(shù)據(jù)的丟失風(fēng)險(xiǎn)降低到幾個(gè)小時(shí)之內(nèi),而CDP能夠?qū)崿F(xiàn)的數(shù)據(jù)丟失量可以降低到幾秒(當(dāng)然,不同的CDP產(chǎn)品和解決方案提供的時(shí)間精度也不盡相同)。實(shí)際上,在傳統(tǒng)數(shù)據(jù)保護(hù)技術(shù)中采用的是對(duì)“單時(shí)間點(diǎn)(SinglePoint-In-Time)”的數(shù)據(jù)拷貝進(jìn)行管理的模式,而連續(xù)數(shù)據(jù)保護(hù)保護(hù)可以實(shí)現(xiàn)對(duì)“任意時(shí)間點(diǎn)(Any Point-In-Time)”的數(shù)據(jù)保護(hù)。
2、雖然復(fù)制(Replication)技術(shù)可以通過(guò)與生產(chǎn)數(shù)據(jù)的同步獲得數(shù)據(jù)的最新?tīng)顟B(tài),但其無(wú)法規(guī)避由人為的邏輯錯(cuò)誤或病毒攻擊所造成的數(shù)據(jù)丟失。當(dāng)生產(chǎn)數(shù)據(jù)由于以上原因?qū)е聰?shù)據(jù)遭到破壞時(shí)(例如數(shù)據(jù)被誤刪除),復(fù)制技術(shù)會(huì)將遭到破壞的數(shù)據(jù)狀態(tài)同步到后備數(shù)據(jù)存儲(chǔ)系統(tǒng),使后備數(shù)據(jù)也受到破壞。CDP系統(tǒng)可以使數(shù)據(jù)狀態(tài)恢復(fù)到數(shù)據(jù)遭到破壞之前的任意一個(gè)時(shí)間點(diǎn),也就可以消除前者具有的風(fēng)險(xiǎn)。
3、由于恢復(fù)時(shí)間和恢復(fù)對(duì)象的粒度更細(xì),所以連續(xù)數(shù)據(jù)保護(hù)保護(hù)的數(shù)據(jù)恢復(fù)也更加靈活。目前的部分產(chǎn)品和解決方案允許最終用戶(hù)(而不僅僅是系統(tǒng)管理員)直接對(duì)數(shù)據(jù)進(jìn)行恢復(fù)操作,這在很大程度上方便了使用者。
五、實(shí)現(xiàn)方式
連續(xù)數(shù)據(jù)保護(hù)實(shí)現(xiàn)的關(guān)鍵技術(shù)是對(duì)數(shù)據(jù)變化的記錄和保存,以便實(shí)現(xiàn)任意時(shí)間點(diǎn)的快速恢復(fù)。一般來(lái)講,有三種實(shí)現(xiàn)方式:
- 基準(zhǔn)參考數(shù)據(jù)模式。建立參考數(shù)據(jù)拷貝,根據(jù)生產(chǎn)數(shù)據(jù)變化記錄數(shù)據(jù)差異日志,根據(jù)日志差異按需恢復(fù)數(shù)據(jù)?;鶞?zhǔn)參考數(shù)據(jù)模式原理簡(jiǎn)單,實(shí)現(xiàn)起來(lái)比較容易,但由于數(shù)據(jù)恢復(fù)時(shí)需要從最原始的參考數(shù)據(jù)開(kāi)始,逐步進(jìn)行數(shù)據(jù)恢復(fù),因此恢復(fù)時(shí)間比較長(zhǎng),尤其是恢復(fù)時(shí)間點(diǎn)越靠近當(dāng)前的時(shí)間,恢復(fù)所需要的時(shí)間就越長(zhǎng)。
- 復(fù)制參考數(shù)據(jù)模式。生產(chǎn)數(shù)據(jù)和參考數(shù)據(jù)副本實(shí)時(shí)同步,在同步的同時(shí)記錄回退日志或事件,基于回退日志(Undo Log)差異實(shí)現(xiàn)數(shù)據(jù)按需恢復(fù)。復(fù)制參考數(shù)據(jù)模式和基準(zhǔn)參考數(shù)據(jù)模式在實(shí)現(xiàn)原理上恰好相反。復(fù)制參考數(shù)據(jù)模式在數(shù)據(jù)恢復(fù)時(shí),恢復(fù)的時(shí)間點(diǎn)越靠近當(dāng)前,所需要的恢復(fù)時(shí)間越短。但在數(shù)據(jù)的保存過(guò)程中,需要同時(shí)進(jìn)行數(shù)據(jù)和日志記錄的同步,需要較多的系統(tǒng)資源。
- 合成參考數(shù)據(jù)模式。合成參考數(shù)據(jù)模式是以上兩種模式的折衷,較好地實(shí)現(xiàn)了以上兩種模式的妥協(xié),因此可以得到較好的資源占用和恢復(fù)時(shí)間效果。但需要復(fù)雜的軟件管理和數(shù)據(jù)處理功能,實(shí)現(xiàn)起來(lái)比較復(fù)雜。 連續(xù)數(shù)據(jù)保護(hù)技術(shù)或解決方案的實(shí)現(xiàn)有多種模式。
不同的傳統(tǒng)廠商建立了不同的連續(xù)數(shù)據(jù)保護(hù)保護(hù)模型,參考SNIA的存儲(chǔ)共享模型, 可以將實(shí)現(xiàn)連續(xù)數(shù)據(jù)保護(hù)的產(chǎn)品或解決方案分為基于應(yīng)用、基于文件和基于數(shù)據(jù)塊的連續(xù)數(shù)據(jù)保護(hù)保護(hù)。本文主要從數(shù)據(jù)塊層面講CDP的實(shí)現(xiàn)。基于塊的CDP功能直接運(yùn)行在物理的存儲(chǔ)設(shè)備或邏輯的卷管理器上,甚至也可以運(yùn)行在數(shù)據(jù)傳輸層上。當(dāng)數(shù)據(jù)塊寫(xiě)入生產(chǎn)數(shù)據(jù)的存儲(chǔ)設(shè)備時(shí),CDP系統(tǒng)可以捕獲數(shù)據(jù)的拷貝并將其存放在另外一個(gè)存儲(chǔ)設(shè)備中。 基于數(shù)據(jù)塊的數(shù)據(jù)保護(hù)又有基于主機(jī)層、基于傳輸層和基于存儲(chǔ)層三類(lèi)實(shí)現(xiàn)方式。
六、傳統(tǒng)數(shù)據(jù)保護(hù)產(chǎn)品的CDP
下面以FalconStorCDP、VeeamCDP及EMC RecoverPoint這3個(gè)廠商,從不同背景進(jìn)行分析,具有一定的代表性:飛康是傳統(tǒng)的連續(xù)數(shù)據(jù)保護(hù)產(chǎn)品的代表。EMC傳統(tǒng)的存儲(chǔ)廠商,收購(gòu)以前的RecoverPoint打造自己的數(shù)據(jù)保護(hù)套件, 方案建立在自己的存儲(chǔ)上,提供物理機(jī)到虛擬機(jī)的保護(hù)方案。Veeam 是虛擬機(jī)保護(hù)的后起之秀,主打虛擬化平臺(tái)上,VMWARE 及 HYPERV的數(shù)據(jù)保護(hù),擴(kuò)展到云端,目前的方案依賴(lài)于VMWare的VAIO 虛擬化數(shù)據(jù)獲取框架。
EMCRecoverPoint/SE 是針對(duì) EMC CLARiiON 系列陣列的全面解決方案,而 EMC RecoverPoint則是針對(duì)整個(gè)數(shù)據(jù)中心的全面解決方案。兩種產(chǎn)品都提供了使用連續(xù)數(shù)據(jù)保護(hù) (CDP)的同步本地復(fù)制,以及具有任意時(shí)間點(diǎn)恢復(fù)功能的同步和異步連續(xù)遠(yuǎn)程復(fù)制 (CRR)。在RecoverPoint 應(yīng)用裝置上同時(shí)運(yùn)行CDP和CRR實(shí)現(xiàn)本地和遠(yuǎn)程(CLR) 數(shù)據(jù)保護(hù),使您能夠用單個(gè)解決方案同時(shí)在本地和遠(yuǎn)程保護(hù)相同數(shù)據(jù)。 飛康CDP解決方案整合了數(shù)據(jù)備份、系統(tǒng)恢復(fù)、災(zāi)難恢復(fù)、本地及異地容災(zāi)等多項(xiàng)功能。飛康CDP是基于磁盤(pán)的備份與容災(zāi)一體化解決方案,實(shí)現(xiàn)文件/數(shù)據(jù)庫(kù)/操作系統(tǒng)的實(shí)時(shí)備份與瞬間恢復(fù);實(shí)現(xiàn)了驗(yàn)證、演練的本地/異地容災(zāi)功能整合。
七、主要云廠商的數(shù)據(jù)保護(hù)方式
AWS僅提供原生的快照功能及幫助客戶(hù)上云的手段,數(shù)據(jù)備份等功能依賴(lài)于傳統(tǒng)的數(shù)據(jù)保護(hù)廠商;Azure提供基于虛擬機(jī)的基本的備份及恢復(fù)方式,沒(méi)有提供CDP等高級(jí)功能。
八、可驗(yàn)證的彈性的連續(xù)數(shù)據(jù)保護(hù)CDP
根據(jù)Gartner的描述的彈性的云備份引擎,其中規(guī)定的了成功彈性備份的幾個(gè)特征:
彈性的云備份引擎需要快速的RTO,這就要求備份引擎和數(shù)據(jù)恢復(fù)在一個(gè)數(shù)據(jù)中心。
彈性的云備份引擎需要有全備份,沒(méi)有過(guò)大的WAN數(shù)據(jù)傳輸,將備份與生產(chǎn)機(jī)職責(zé)分開(kāi)。
并且要確保數(shù)據(jù)的可恢復(fù)性。
連續(xù)數(shù)據(jù)保護(hù)CDP本質(zhì)上作為一種高級(jí)的數(shù)據(jù)保護(hù)方案,由云廠商進(jìn)行,具有傳統(tǒng)備份所不具有的彈性。傳統(tǒng)廠商為了上云,必然需要將數(shù)據(jù)經(jīng)過(guò)WAN傳輸?shù)皆贫?,必然耗費(fèi)CPU資源,必然耗費(fèi)IO資源。為了躲避資源的耗費(fèi),可能采取定時(shí)開(kāi)啟的任務(wù)方式,連基本的彈性的備份都保證不了,更談不上CDP。可驗(yàn)證性,強(qiáng)調(diào)了CDP方案的可靠性,可操作性。為了保證應(yīng)用程序的數(shù)據(jù)的跨卷一致性,需要卷之間建立一致性組(Consistency Group)及應(yīng)用程序的一致性(Application Consistency)。
九、結(jié)論
數(shù)據(jù)保護(hù)不是亡羊補(bǔ)牢,需要未雨綢繆。隨著企業(yè)上云的快速增長(zhǎng),傳統(tǒng)企業(yè)對(duì)云端數(shù)據(jù)保護(hù)的訴求更加突出;隨著數(shù)據(jù)重要性的日益提高,用戶(hù)對(duì)數(shù)據(jù)丟失的敏感程度前所未有,從而使得云端數(shù)據(jù)保護(hù)與用戶(hù)需求之間的矛盾更加凸顯。傳統(tǒng)的基于塊存儲(chǔ)的連續(xù)數(shù)據(jù)保護(hù)因?yàn)榇蠖嘁蕾?lài)于特定的存儲(chǔ)設(shè)備,并不具有云端實(shí)現(xiàn)所具有的彈性,并不適應(yīng)云端分布式環(huán)境的復(fù)雜性。連續(xù)數(shù)據(jù)保護(hù)作為傳統(tǒng)或者混合云數(shù)據(jù)保護(hù)的重要補(bǔ)充,定會(huì)以新的解決方案的出現(xiàn)而被企業(yè)用戶(hù)所重視。全新的Pangu2.0的塊存儲(chǔ)的架構(gòu)為實(shí)現(xiàn)云端連續(xù)性數(shù)據(jù)保護(hù)提供了契機(jī),隨著企業(yè)上云的加速,在兼顧存儲(chǔ)性能的同時(shí),將會(huì)滿(mǎn)足傳統(tǒng)高級(jí)企業(yè)用戶(hù)的低RTO及低RPO的數(shù)據(jù)保護(hù)的緊迫需求。后續(xù)文章將會(huì)著重闡述基于基準(zhǔn)參考數(shù)據(jù)模型的云端連續(xù)數(shù)據(jù)保護(hù),該方案基于Pangu2.0的Block Storage實(shí)現(xiàn)連續(xù)性數(shù)據(jù)保護(hù),著重描述連續(xù)數(shù)據(jù)保護(hù)的秒級(jí)數(shù)據(jù)恢復(fù)機(jī)制。
參考:https://www.snia.org/sites/default/education/tutorials/2007/spring/data-management/Trends_in_Data_Protection_CDP_VTL.pdfhttps://en.wikipedia.org/wiki/Continuous_data_protectionhttps://www.gartner.com/it-glossary/continuous-data-protection-cdp/https://falconstor.com/page/700/continuous-data-protector-cdphttps://www.emc.com/collateral/guide/h12151-ho-emc-15-minute-continuous-availability-services.pdfhttps://d1.awsstatic.com/whitepapers/Backup_and_Recovery_Approaches_Using_AWS.pdfhttps://www.gartner.com/doc/reprints?id=1-4TIM69I&ct=180320&st=sbhttps://docs.microsoft.com/zh-cn/azure/backup/backup-azure-vms-first-look-armhttps://docs.microsoft.com/zh-cn/azure/backup/backup-azure-restore-files-from-vmhttps://azure.microsoft.com/zh-cn/blog/large-disk-support/https://amazonaws-china.com/cn/backup-restore/http://everrundoc.stratus.com/7.2.1.0/en-us/Content/Help/P01_Users/C08_MngVMs/S03_ConfigWindowsVM/T_InstallQEMUWindowsVM.htmhttp://www.arcserve.com/fr/~/media/files/whitepapers/ca-arcserve-family-r16-improving-system-and-data-protection.aspxhttps://www.emc.com/collateral/software/white-papers/h4175-recoverpoint-clr-operational-dr-wp.pdf