防止基礎(chǔ)設(shè)施停運的四個步驟
譯文我們過著忙碌的日子,這讓大家都毫無耐心可言;需要多個步驟的私人任務(wù)會讓人覺得難以對付。一個典型的例子是:預(yù)先規(guī)劃,為全家出行訂購機票。
比如說,你好不容易擠出半小時的時間上網(wǎng)購票,看看大家有沒有空,到了秋天探望外婆,以便能在機票大促銷之際淘到實惠??墒侨绻阍L問不了經(jīng)常光顧的那家航空公司的網(wǎng)站,或者訪問起來速度特慢,因而無法完成購票,那種沮喪可想而知。你是說“好吧”,過后再試一試,還是會去查看其他航空公司的機票?極有可能會是后者,此外你可能惱怒不已,于是在社交網(wǎng)站上吐槽這次糟糕的經(jīng)歷。
美國西南航空公司在今年6月初遇到了網(wǎng)站速度變慢持續(xù)多日的故障,當(dāng)時它正在搞秋季機票促銷的活動。高出預(yù)期的網(wǎng)站流量導(dǎo)致其網(wǎng)站速度大幅下降,以至于對大多數(shù)客戶來說,網(wǎng)頁超時打不開。更要命的是,免費熱線電話同樣打爆了,根本打不進去。西南航空公司照例料到了每年秋季機票促銷會迎來更旺盛的需求,但事先投入的額外容量不夠充足。這番解釋不可能讓覺得不便的客戶感到滿意,也不可能讓哀嘆收入損失的主管們感到滿意。
在我們這個始終聯(lián)通的無線世界,廣大客戶對電子商務(wù)的要求在不斷地迅速提高。哪怕網(wǎng)站性能差強人意幾秒鐘(更不用說幾天了!),就足以將忠誠的客戶送到他人懷里。IT部門證明自身價值的辦法就是,通過成熟的、優(yōu)化的容量管理,讓業(yè)務(wù)部門能夠滿足這些更高的要求。
那么,企業(yè)組織如何才能避免諸如此類的客戶服務(wù)災(zāi)難呢?這歸結(jié)為做好容量管理的四個必要部分:預(yù)測及預(yù)防、分析有意義的度量指標(biāo)、規(guī)劃時兼顧業(yè)務(wù)需要以及反復(fù)測試。
預(yù)測及預(yù)防
想避免收入和信譽損失、客戶流失,***的辦法就是預(yù)防停運,尤其是無法怪罪于重大災(zāi)難的那種日常故障。要收集和分析機器、電源、日志、使用情況和成本數(shù)據(jù),尤其要注重性能和資源使用情況。詳細地清查和評估當(dāng)前容量。與面向客戶的業(yè)務(wù)部門合作,根據(jù)歷史數(shù)據(jù)以及規(guī)劃的未來項目,共同找出使用方面的趨勢。
一旦你收集并關(guān)聯(lián)了有意義的數(shù)據(jù)集,就可以運用預(yù)測性分析手段了。這樣一來,可以對照數(shù)據(jù)(根據(jù)當(dāng)前容量及/或規(guī)劃容量)模擬場景,那樣讓IT部門可以預(yù)測停運事件有可能因過度使用或機器故障而出現(xiàn)在哪個時間點。利用詳細的數(shù)據(jù)深入挖掘,分析導(dǎo)致任何意外結(jié)果的根源,那樣就能查明弱點,一勞永逸地加以解決,以便演變成令人尷尬的公眾事件。
數(shù)據(jù)驅(qū)動的智能預(yù)測(可能的話還有模擬)可以揭示流量方面預(yù)計增長或猛增的級聯(lián)效應(yīng)。有了準(zhǔn)確的預(yù)測,才有可能認(rèn)真而經(jīng)濟高效地配置足夠的資源,根據(jù)需要滿足需求,而不是在容量匱乏影響最終用戶后,隨意地添加容量。
分析響應(yīng),而不是分析機器利用率
由于數(shù)據(jù)中心中生成那么多的數(shù)據(jù),可能很難知道該分析哪些數(shù)據(jù),而IT部門常常分神,把注意力放在只能表明部分情況的度量指標(biāo)上。要關(guān)注性能,而不是機器利用率;要了解你的客戶如何訪問、何時訪問及為何訪問你的網(wǎng)站,以及他們對網(wǎng)站性能有怎樣的要求。開清楚最終用戶的實際要求和體驗。如果規(guī)劃未來的業(yè)務(wù)項目,務(wù)必要明白業(yè)務(wù)目標(biāo),還要明白最終用戶需要實施的變化理應(yīng)解決什么樣的問題。
在技術(shù)方面,認(rèn)真分析延遲和響應(yīng)時間,以便從統(tǒng)計學(xué)角度準(zhǔn)確洞察最終用戶體驗。分析工作負(fù)載事務(wù)、應(yīng)用程序性能和虛擬機,看看多少時間用在服務(wù)活動上、又有多少時間用在等待資源上。進行必要的調(diào)整,以便針對面向最終用戶的工作負(fù)載和事務(wù)進行優(yōu)化。
合理規(guī)劃
如果說一分預(yù)防勝過十分治療,那么妥善的計劃可以避免大量的補救。要預(yù)料到銷售(想想西南航空公司)、促銷、部署新的應(yīng)用程序和網(wǎng)站、季節(jié)性或時段性流量激增帶來的影響。做這種類型的規(guī)劃時,與業(yè)務(wù)部門(營銷、促銷和運營等部門)進行合作很重要,其重要性再怎么強調(diào)都不為過。規(guī)劃架構(gòu)升級時,別忘了運行模擬所需要的時間和資源,那樣你才能準(zhǔn)確地了解架構(gòu)在各種場景下對最終用戶而言會有怎樣的性能。
你不可能預(yù)測每一種可能的結(jié)果,也不可能控制每一個因素,所以規(guī)劃響應(yīng)停運或速度減慢的體系很要緊。響應(yīng)的速度和效果關(guān)系到停運是小問題還是大災(zāi)難。西南航空公司的停運事件整整延續(xù)了兩天,這在分秒必爭的電子商務(wù)時代簡直不可想象,大量的電話很快讓網(wǎng)站之外的唯一選擇:熱線電話也不堪重負(fù)。事件響應(yīng)規(guī)劃是企業(yè)核心服務(wù)和競爭能力的一個重要組成部分。
反復(fù)測試
與合理規(guī)劃一樣,測試也需要時間和資源,而證明有必要為測試投入時間和資源可能有難度。記住這一點很重要,全面的、針對性的測試能揭示不可預(yù)見的不兼容性、故障和容量問題。今年早些時候,一臺內(nèi)部域名服務(wù)器(DNS)上所犯的配置錯誤導(dǎo)致iTunes和蘋果商店停運,結(jié)果讓蘋果在短短12個小時損失了估計2500萬美元的收入。
在每次變化或升級前后都要進行測試。測試人員往往忽視了之前或之后的測試,或者只管測試,而不解釋測試結(jié)果的種種差異。針對各種場景反復(fù)測試有助于防止客戶流失和收入流失,服務(wù)出現(xiàn)故障后常常會出現(xiàn)這種雙重流失。它還避免了令人尷尬的公眾事件以及隨后而來的品牌或名譽受損,而這會帶來深遠的影響。
healthcare.gov網(wǎng)站大癱瘓就是個典型的警世故事;缺少規(guī)劃和測試引起的大范圍服務(wù)故障和延遲在社會、經(jīng)濟和公共福利方面帶來了深遠影響,可能多年過后仍沒有消散。
在巨大而復(fù)雜的網(wǎng)站和在線服務(wù)生態(tài)系統(tǒng)中,想確保***無缺的性能,要兼顧太多的因素。保持競爭優(yōu)勢取決于贏得并留住滿意的客戶,要是沒有經(jīng)過優(yōu)化的IT服務(wù)交付體系,就很難做到這一點。只有結(jié)合數(shù)據(jù),深入了解你的系統(tǒng)以及客戶如何與系統(tǒng)進行互動,做好容量規(guī)劃和測試工作,才是確?;A(chǔ)設(shè)施有彈性、業(yè)務(wù)獲得發(fā)展的關(guān)鍵。
英文:4 Steps To Prevent Infrastructure Outages