云服務(wù)宕機“保險單”正確匹配云SLA
企業(yè)在將關(guān)鍵業(yè)務(wù)應(yīng)用轉(zhuǎn)移到云端時,需要云提供商提供一種可度量且可執(zhí)行的服務(wù)水平協(xié)議。就像為IT組織提供一份保險單,一份SLA可以讓訂閱用戶投保人遠(yuǎn)離宕機或者影響日常業(yè)務(wù)運營的減速。對于使用云服務(wù)的企業(yè)而言,SLA等同于怠工對于業(yè)務(wù)造成的財務(wù)影響。
一份有效的SLA必須能夠讓云提供商、客戶,以及最好是約定的第三方監(jiān)控服務(wù)能夠?qū)ζ溥M(jìn)行度量。宕機應(yīng)該反映其對客戶的影響,并不是云提供商網(wǎng)站上一個設(shè)備在給定時間段可能失敗的百分比。比如,一份SLA規(guī)定一年四個九(99.99%)的有效性,這其中包括許多的網(wǎng)絡(luò)、服務(wù)器和存儲設(shè)備,如果三種設(shè)備失敗了影響了對于終端客戶的服務(wù)交付,都會變成沒有價值。
相反,企業(yè)應(yīng)該強調(diào)性能或者宕機的度量,因為可以以一種可以計量的時間段反映此次宕機對于你的業(yè)務(wù)的影響。通常,你劃分的宕機時間段越長,提供商就更容易符合那些條款。
不同行業(yè)的企業(yè)會劃分出不同的峰值用例時間。峰值時間對于企業(yè)業(yè)務(wù)和客戶都很有意義。股票交易應(yīng)用客戶為例,在交易時間內(nèi),從周一到周五的上午九點半到下午四點,他們需要完全的可用性和性能。提供賀卡的企業(yè)網(wǎng)站可能在時間框架上并不需要完全的有效性;網(wǎng)站變慢的一小時,用戶可能并不會去點擊其他的網(wǎng)站。相反,賀卡網(wǎng)站可能在周末的時候需要更多地有效性,因為人們更可能直接去商店。
選擇一個度量標(biāo)準(zhǔn),來滿足你的終端用戶的需求,然后就SLA同你的服務(wù)提供商談判,來滿足或者超越這些期望。如果你希望防御服務(wù)宕機,就要確信SLA寫明了一個具體的度量內(nèi)容,尤其是你的用戶或者客戶的宕機內(nèi)容構(gòu)成。
你就是你的客戶的業(yè)務(wù)主張者;因此你需要減少對于云數(shù)據(jù)中心事件數(shù)量的關(guān)注,更多的是關(guān)注一次事件如何影響你的所有業(yè)務(wù)。從你的用戶的觀點來看,交易響應(yīng)時間
是最佳的度量值,正如其反映了終端用戶服務(wù)交付的感知。
在宕機和減慢速度之間的區(qū)別達(dá)成一致也很重要。如果客戶由于登錄過慢,花費了五秒或者更多時間才登陸,他們就會轉(zhuǎn)到其他網(wǎng)站。登錄事件超過五秒鐘完全就是一次宕機。提供流媒體視頻的公司會將任何中斷內(nèi)容交付的事件看作是一次宕機。一定要將宕機的定義同客戶的具體需求匹配。
作為云服務(wù)的客戶,要確保你能夠訪問云提供商的性能以及宕機統(tǒng)計。你也需要一種方式確保這些信息能夠精準(zhǔn)的收集起來。一種方式是用目標(biāo)第三方衡量響應(yīng)時間和宕機。第三方監(jiān)控服務(wù)使用協(xié)商的工具和流程來收集各種云服務(wù)提供商的數(shù)據(jù),并且回報他們的發(fā)現(xiàn)。
最后,如果你的云提供商沒能遵從SLA,設(shè)置處罰措施。這些處罰應(yīng)該放映宕機對于你的業(yè)務(wù)的影響,但是很可能會按照你在云服務(wù)提供商上每月花費的成本來計算。就像是保險單,你要更多的保護(hù)自己,也要支付更多的保費。因此要設(shè)置同你的業(yè)務(wù)需求一直的SLA。