大數(shù)據(jù)如何為備份和恢復(fù)改變游戲規(guī)則?
譯文在如今的分布式數(shù)據(jù)庫(kù)中,想針對(duì)所有那些PB級(jí)的數(shù)據(jù)獲得一份可靠的快照并非易事。
這是IT界眾所周知的事實(shí):改變軟件堆棧的一部分,你很有可能要改變另一個(gè)部分。如果舉個(gè)明顯的例子,只要看看大數(shù)據(jù)。
首先,大數(shù)據(jù)徹底改變了數(shù)據(jù)庫(kù)領(lǐng)域,帶來了一批新的“向外擴(kuò)展型”技術(shù)。Hadoop、MongoDB和Cassandra之類的產(chǎn)品就體現(xiàn)了這一點(diǎn):數(shù)據(jù)分布在多臺(tái)商用服務(wù)器上,而不是被塞入到一臺(tái)大型服務(wù)器上。當(dāng)然,這么做的優(yōu)點(diǎn)在于靈活性:若想容納更多PB級(jí)的數(shù)據(jù),你只需要添加另外一兩臺(tái)廉價(jià)的服務(wù)器,而不是“向上擴(kuò)展”,支付大筆費(fèi)用購(gòu)買更龐大的服務(wù)器。
這一切很好,不過現(xiàn)在出現(xiàn)了一個(gè)新的棘手問題:備份和恢復(fù)。
知名調(diào)研機(jī)構(gòu)Gartner的副總裁戴夫·拉塞爾(Dave Russell)說:“傳統(tǒng)的備份產(chǎn)品處理數(shù)量非常多的數(shù)據(jù)時(shí)面臨挑戰(zhàn)。架構(gòu)具有的向外擴(kuò)展性對(duì)傳統(tǒng)的備份應(yīng)用軟件來說也難以處理。”
拉塞爾表示,如今的橫向擴(kuò)展型數(shù)據(jù)庫(kù)確實(shí)包括可用性和恢復(fù)方面的一些功能,但是它們通常不如IT用戶已經(jīng)習(xí)慣的那些功能來得強(qiáng)大、可靠。
如果出現(xiàn)系統(tǒng)停運(yùn),這個(gè)問題就會(huì)導(dǎo)致大企業(yè)岌岌可危。不過與此同時(shí),一類新的數(shù)據(jù)保護(hù)產(chǎn)品開始浮出水面。Datos IO公司的RecoverX就是其中之一。
Datos IO的聯(lián)合創(chuàng)始人兼首席執(zhí)行官塔倫·塔庫(kù)爾(Tarun Thakur)說:“如果你有一個(gè)傳統(tǒng)的數(shù)據(jù)庫(kù),比如甲骨文或MySQL,它又是向上擴(kuò)展的,那么始終存在持久性日志(durable log)這個(gè)概念。”
在這類情況下,如果出現(xiàn)了問題,該日志的副本就成為了備份。
在如今下一代數(shù)據(jù)庫(kù)盛行的世界(數(shù)據(jù)分布在多臺(tái)小型機(jī)器上),這并不是那么簡(jiǎn)單。
塔庫(kù)爾解釋道:“根本沒有持久性日志這個(gè)概念,因?yàn)闆]有主系統(tǒng),每個(gè)節(jié)點(diǎn)都在處理各自的事務(wù)。不同的節(jié)點(diǎn)可能獲得不同的權(quán)利,每一個(gè)節(jié)點(diǎn)對(duì)于操作有不同的視圖。”
這一方面是由于為了適應(yīng)通常所說的大數(shù)據(jù)的“三個(gè)V”:數(shù)量、速度和種類而做出的取舍。具體來說,為了提供可擴(kuò)展性,同時(shí)適應(yīng)以越來越快的速度向我們涌來的海量數(shù)據(jù),如今的分布式數(shù)據(jù)庫(kù)背離了傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)通常承諾的“ACID”標(biāo)準(zhǔn)。相反,它們采用了所謂的“BASE”原則。
這是一個(gè)重大區(qū)別。最密切相關(guān)的是,相比傳統(tǒng)數(shù)據(jù)庫(kù)承諾在整個(gè)過程中有很強(qiáng)的一致性(也就是ACID中的“C”),分布式數(shù)據(jù)庫(kù)而是力爭(zhēng)實(shí)現(xiàn)所謂的“最終一致性”。更新會(huì)遲早體現(xiàn)在數(shù)據(jù)庫(kù)的所有節(jié)點(diǎn)中,不過存在時(shí)間滯后。
塔庫(kù)爾說:“如果你需要可擴(kuò)展性,就需要放棄一致性――你必須得放棄其中一個(gè)。”
這樣一來就很難為時(shí)間點(diǎn)恢復(fù)獲得全局的一份可靠快照。451 Research的研究副總裁西蒙·魯賓遜(Simon Robinson)表示,不僅更難在任何一個(gè)給定的時(shí)間點(diǎn)跟蹤哪些數(shù)據(jù)可能轉(zhuǎn)移到了分布式數(shù)據(jù)庫(kù)中的哪個(gè)地方,如果數(shù)據(jù)出現(xiàn)了損壞,常常被“整合”到更新穎分布式數(shù)據(jù)庫(kù)中的彈性功能(比如復(fù)制)也無法保護(hù)你。
他說:“你剛剛復(fù)制了那個(gè)損壞的數(shù)據(jù)。”
本月早些時(shí)候,Datos IO推出了RecoverX,借助功能特性(包括所謂的可擴(kuò)展版本控制和語(yǔ)義重復(fù)數(shù)據(jù)刪除),解決那些問題。該公司表示,其結(jié)果是,與集群一致的備份不僅節(jié)省空間,還能夠以原生格式出現(xiàn)。
索維克·達(dá)斯(Souvik Das)就在不久前還是第一資本汽車金融公司(CapitalOne Auto Finance)的首席技術(shù)官兼主管工程技術(shù)的執(zhí)行副總裁,他對(duì)備份難題可是深有體會(huì)。
達(dá)斯表示,使用了多年的傳統(tǒng)數(shù)據(jù)庫(kù)后,第一資本早在幾年前進(jìn)行了一次“巨大的轉(zhuǎn)變”,包括推出新的分布式技術(shù),比如Cassandra。現(xiàn)在,他是面向醫(yī)療保健行業(yè)的初創(chuàng)公司Grand Rounds主管工程技術(shù)的高級(jí)副總裁。
這就意味著為備份和恢復(fù)尋找一種新的策略。
他解釋道:“大多數(shù)備份廠商和軟件通常適應(yīng)它們備份的系統(tǒng)的類型。”
他表示,如果使用老式備份產(chǎn)品的同時(shí)使用新式的分布式數(shù)據(jù)庫(kù),可能會(huì)帶來麻煩。
達(dá)斯說:“不是該軟件會(huì)因不知道如何備份新的數(shù)據(jù)存儲(chǔ)系統(tǒng)而完全失效,就是它會(huì)以一種很不理想的方式運(yùn)行。我們知道,那樣的話,我們就要使用不同的備份解決方案。”
達(dá)斯表示,第一資本一直在評(píng)估Datos IO以及這個(gè)領(lǐng)域的另一家大廠商:Talena。
提供較傳統(tǒng)備份產(chǎn)品的廠商也在針對(duì)大數(shù)據(jù),逐步調(diào)整自己的技術(shù)。
451 Research的羅賓遜說:“老牌的備份廠商通常需要一些時(shí)間來支持新穎的技術(shù)。”
他補(bǔ)充說:“回到10年前,最初為VMware虛擬機(jī)輕松進(jìn)行備份是件很難的事情。這就給了Veeam之類的廠商大好機(jī)會(huì),得以從老牌廠商的眼皮子底下進(jìn)入并搶奪虛擬機(jī)備份市場(chǎng)。”