企業(yè)如何在云服務(wù)中斷時(shí)避免受傷
亞馬遜今年4月那次出了名的云中斷導(dǎo)致大量著名網(wǎng)站的宕機(jī),其中包括foursquare和Reddit,但是亞馬遜的很多企業(yè)級(jí)云服務(wù)客戶卻安然度過(guò)了這次中斷風(fēng)險(xiǎn),并沒(méi)有因此而受損。
這些企業(yè)級(jí)客戶的系統(tǒng)駐留在多個(gè)可用域中,要么在傳統(tǒng)數(shù)據(jù)中心留有備份,要么選擇了備份的云服務(wù)商設(shè)置,一旦出現(xiàn)狀況便可安然防范。
硅谷的一家照片共享公司SmugMug即便在其同行們紛紛落馬之時(shí)也安然無(wú)恙。這里面的部分原因是因?yàn)樗鼪](méi)有使用亞馬遜的彈性塊存儲(chǔ)——這個(gè)特殊服務(wù)組件在系統(tǒng)中斷時(shí)也會(huì)中斷。
當(dāng)然,該公司還將其系統(tǒng)在亞馬遜的多個(gè)數(shù)據(jù)中心做了備份——這些數(shù)據(jù)中心就是亞馬遜所謂的“可用域”。
SmugMug的CEO Chris MacAskill認(rèn)為,加入其他的同行也能像他們那樣將其應(yīng)用做分布式備份的話,也能夠安然度過(guò)危機(jī)。他還建議這些公司也使用多個(gè)亞馬遜可用域,而且各個(gè)域之間的隔離性最好高于亞馬遜可用域之間的隔離性。當(dāng)然,亞馬遜會(huì)對(duì)使用多個(gè)可用域收取更高的費(fèi)用,所以必須仔細(xì)考慮企業(yè)的需求。
SmugMug如今非常依賴亞馬遜,利用后者基于云的簡(jiǎn)單存儲(chǔ)服務(wù)(S3)存儲(chǔ)客戶的照片和視頻。SmugMug還用到了很多的EC2實(shí)例。但是它沒(méi)有用到彈性塊存儲(chǔ)——該服務(wù)是每個(gè)EC2實(shí)例自帶的,通常用于存儲(chǔ)各種運(yùn)營(yíng)數(shù)據(jù)——而是仍然使用了傳統(tǒng)的數(shù)據(jù)中心。
但是即便如此,SmugMug還是遭遇了一些損失,比如在亞馬遜中斷服務(wù)的那一周里,該公司的一臺(tái)核心路由器、備份服務(wù)器和一臺(tái)核心的主數(shù)據(jù)庫(kù)服務(wù)器都宕掉了。“我一點(diǎn)兒都不想再去處理路由器或者數(shù)據(jù)庫(kù)的故障,這也就是為什么我們始終采用云服務(wù)的原因,”MacAskills說(shuō)。
他補(bǔ)充說(shuō),即便遭遇到服務(wù)中斷,他們從亞馬遜所獲得的云服務(wù)依然要比他們自己的好,也要比其他云服務(wù)商的服務(wù)好。“我們對(duì)亞馬遜非常信任。”
一家以色列公司Kitely只使用了亞馬遜的一個(gè)可用域,但幸運(yùn)的是,這個(gè)域逃沒(méi)有出現(xiàn)服務(wù)中斷。
不過(guò)這家公司已準(zhǔn)備從這次中斷事件吸取教訓(xùn)。“我們計(jì)劃將我們所有的服務(wù)分布在多個(gè)可用域上去,”Kitely的研發(fā)副總裁Oren Hurvitz說(shuō)。
Kitely是一家運(yùn)行云會(huì)議與云協(xié)作環(huán)境的公司,其平臺(tái)是OpenSim,他們會(huì)對(duì)服務(wù)進(jìn)行連續(xù)檢查以確保其所有服務(wù)始終在線,正常運(yùn)行。
“我們的系統(tǒng)設(shè)計(jì)基于這樣的假設(shè):任何服務(wù)都有可能在任何時(shí)刻出現(xiàn)中斷故障,如果我們發(fā)現(xiàn)有臺(tái)服務(wù)器沒(méi)有及時(shí)響應(yīng),我們就會(huì)停掉它,開(kāi)啟一臺(tái)新的服務(wù)器。”他說(shuō)。
傳統(tǒng)備份服務(wù)
還有一家公司沒(méi)有受亞馬遜服務(wù)中斷的影響,因?yàn)檫@家公司使用了多個(gè)可用域,這就是Mashery公司,這家公司為100多家企業(yè),如百思買、Hoovers和紐約時(shí)報(bào)等提供API。不過(guò)Mashery也還有另外一套備份計(jì)劃,那就是傳統(tǒng)的數(shù)據(jù)中心。
“我們很早就意識(shí)到,亞馬遜的服務(wù)可能會(huì)出問(wèn)題,可能會(huì)完全無(wú)法使用,所以我們就決定需要做一個(gè)故障切換基礎(chǔ)設(shè)施,”Mashery的CEO Oren Michels說(shuō)。“我們采用了Internap公司專門的硬件。”
總部在亞特蘭大市的Internap網(wǎng)絡(luò)服務(wù)公司不僅能為Mashery提供一個(gè)熱備份場(chǎng)所,而且還可為客戶提供一個(gè)比云的延時(shí)要低的生產(chǎn)環(huán)境,或者在亞馬遜服務(wù)覆蓋不到的地理位置提供服務(wù)。
“我們?cè)趦蓚€(gè)地方維護(hù)者充足的基礎(chǔ)設(shè)施,以便應(yīng)對(duì)峰值負(fù)載,”他說(shuō)。
兩年前,當(dāng)Mashery剛開(kāi)始構(gòu)建其云基礎(chǔ)架構(gòu)時(shí),亞馬遜還不是云廠商。因此那個(gè)時(shí)候說(shuō)要向另一個(gè)云廠商做備份還不是一個(gè)必選項(xiàng),但是現(xiàn)在已有了這種可能。
“我們肯定會(huì)持續(xù)關(guān)注這樣的做法。亞馬遜為我們服務(wù)的也非常好,而Internap也是一個(gè)很好的合作伙伴,會(huì)繼續(xù)為我們提供所需要的服務(wù)。”
Internap甚至壓低了價(jià)格以保持競(jìng)爭(zhēng)力,但是他說(shuō),價(jià)格并非他們進(jìn)行決策時(shí)的主要依據(jù)。
“我們的客戶是上百家大品牌客戶,萬(wàn)一出現(xiàn)狀況導(dǎo)致服務(wù)中斷,那么失去這些客戶的代價(jià)將會(huì)是非常巨大的。我們的客戶之所以肯付錢要解決API的問(wèn)題,就是想在一旦出現(xiàn)故障時(shí)我們能讓他們安然無(wú)恙。”
Enderle集團(tuán)分析師Rob Enderle認(rèn)為,正在向云遷移的企業(yè)通常都會(huì)在開(kāi)始階段繼續(xù)使用傳統(tǒng)數(shù)據(jù)中心作為其備份。
“你可以擁有一組較少的設(shè)備作為備用設(shè)備,用于故障切換,”他說(shuō)。
“通常情況下,在企業(yè)向云遷移之前就得做好這種準(zhǔn)備。這樣便可在出現(xiàn)故障時(shí)切換到一種性能較低的設(shè)備上去,始終維護(hù)住自己的客戶。”
企業(yè)一般會(huì)把一些應(yīng)用運(yùn)行在傳統(tǒng)數(shù)據(jù)中心內(nèi),而將另一些應(yīng)用運(yùn)行在云上,對(duì)這兩方都使用同一個(gè)災(zāi)備場(chǎng)所,因?yàn)閬嗰R遜的服務(wù)和傳統(tǒng)數(shù)據(jù)中心的服務(wù)在同一時(shí)刻中斷的幾率是微乎其微的。但是他也反對(duì)在同一朵云中,用一組云服務(wù)為另一組云服務(wù)做備份的做法。
“一種冗余服務(wù)雖然可以和主服務(wù)使用某些相同的資源,但是必須慎用,必須確保冗余的資源是真正冗余的,而不是軟硬件重疊使用的另一種叫法。”他說(shuō)。
選擇第二家云提供商
利用一家云服務(wù)提供商作為傳統(tǒng)數(shù)據(jù)中心的備份一般來(lái)說(shuō)要比采用其他方法更加節(jié)省成本。
這是因?yàn)樵谠品?wù)商那里,你可以按計(jì)算周期付費(fèi)。沒(méi)有用到計(jì)算周期時(shí),客戶只需要最少量的計(jì)算能力能夠快速啟動(dòng)服務(wù)即可,只有在需要的時(shí)候才會(huì)增加更多的服務(wù)容量。
而在傳統(tǒng)數(shù)據(jù)中心內(nèi),必須時(shí)刻保證有足夠多的服務(wù)器能夠投用,以便應(yīng)對(duì)峰值負(fù)載,即便這些服務(wù)器平常很少使用也得如此。轉(zhuǎn)換成硬件成本,也就是諸如電力消耗和人員費(fèi)用等——一般來(lái)說(shuō),一個(gè)傳統(tǒng)的備份中心可能會(huì)使總的計(jì)算成本加倍,而一個(gè)云備份中心可能只增加了一定比例的成本而已。
舉例來(lái)說(shuō),網(wǎng)盤加密廠商AlertBoot僅每月用電一項(xiàng)成本就高達(dá)5萬(wàn)美金,AlertBoot的CEO Tim Maliyil說(shuō)。
“我們?cè)?jīng)在一個(gè)地方有兩個(gè)物理數(shù)據(jù)中心——你簡(jiǎn)直無(wú)法相信當(dāng)我們把它們關(guān)閉掉的時(shí)候是多么的高興。如今,我們有兩個(gè)云,帶寬和托管費(fèi)用是每月16000美金。電力和容量幾乎沒(méi)有任何浪費(fèi),云真的是我們的成本和持續(xù)支出最小化了。”
向云提供商遷移并不困難,因?yàn)锳lertBoot早就在其傳統(tǒng)數(shù)據(jù)中心內(nèi)使用VMware的虛擬化軟件了。該公司所選擇的兩家云服務(wù)商是SunGard和OpSource,這兩家所使用的也是VMware的技術(shù)。
他說(shuō),從其中一家向另一家切換只需費(fèi)時(shí)一兩分鐘,備份云可以迅速增加容量以處理猛然間增加的負(fù)載。而切換過(guò)程本身采用的則是Zeus科技公司的技術(shù)。
Maliyil稱,他的公司之所以選擇了這兩家云服務(wù)商,是因?yàn)樗鼈兊钠髽I(yè)級(jí)可靠性很好。“對(duì)于我們這個(gè)行業(yè)來(lái)說(shuō),我們的客戶不能容忍發(fā)生故障,所以我們必須繞開(kāi)亞馬遜的基礎(chǔ)設(shè)施。”
還有一家可幫助企業(yè)管理在多個(gè)云上的服務(wù)的公司是rPath,該公司已有90多家企業(yè)客戶,多數(shù)都是大型企業(yè)和大型ISP,其中包括像AMD、富士通、高通和EMC等。
這家公司最近部署了16種格式的鏡像服務(wù),可對(duì)云環(huán)境中運(yùn)行的應(yīng)用進(jìn)行快照處理。增加一個(gè)云一般只需要不到一周的時(shí)間,rPath的首席營(yíng)銷官Jake Sorofman說(shuō),“這點(diǎn)時(shí)間對(duì)我們來(lái)說(shuō)就相當(dāng)短了。”
該公司已可支持亞馬遜EC2、VMware、Citrix Zen、微軟Hyper-V、Rackspace和其他一些鏡像格式。一旦某個(gè)應(yīng)用在rPath系統(tǒng)中運(yùn)行,那么系統(tǒng)只需15分鐘便可生成新的鏡像,并將其部署到新的云上去。
但是,應(yīng)用首先必須重新為rPath系統(tǒng)進(jìn)行架構(gòu)設(shè)計(jì),這會(huì)花費(fèi)稍長(zhǎng)一些時(shí)間。“為我們的平臺(tái)重新打包應(yīng)用的過(guò)程可能需要數(shù)小時(shí)到數(shù)天時(shí)間,這取決于應(yīng)用的復(fù)雜程度,”他說(shuō),“但我們擁有專業(yè)的服務(wù)團(tuán)隊(duì),可以很好地為客戶提供服務(wù)。”
他說(shuō),很多流行的應(yīng)用已經(jīng)打包設(shè)計(jì)完成,例如Windows和Linux操作系統(tǒng)、WebLogic和WebSphere、SAP、EMC和RSA產(chǎn)品等。
“利用我們的技術(shù),已經(jīng)有一系列內(nèi)容廣泛的應(yīng)用堆棧進(jìn)行了模塊化,都是可以現(xiàn)成使用的,”他說(shuō)。
由于選擇應(yīng)用在云間遷移的企業(yè)要多于只選擇備份服務(wù)的企業(yè),所以他們的技術(shù)能夠讓企業(yè)在與云服務(wù)商簽訂合同時(shí)獲得更大的優(yōu)惠。
“有了更多的選擇也就有了套利的機(jī)會(huì),”他說(shuō),“因?yàn)楣ぷ髫?fù)載可以基于性能、策略和價(jià)格進(jìn)行優(yōu)化了。從某種程度上說(shuō),企業(yè)可以很容易地將工作負(fù)載在亞馬遜、Rackspace或其他云環(huán)境之間進(jìn)行遷移,這樣就能夠?qū)υ品?wù)商進(jìn)行施壓,因?yàn)槟銛[脫了廠商鎖定的困擾。”