如何減少服務(wù)器宕機(jī):從阿里得到的教訓(xùn)
今天下午,阿里云阿里云部分服務(wù)器于出現(xiàn)短暫無法訪問情況,致使其科技博客ifanr等網(wǎng)站無法訪問。阿里云方面稱,該故障的發(fā)展原因在于出現(xiàn)電力故障,已在維護(hù)恢復(fù)中。
服務(wù)器宕機(jī)當(dāng)下見怪不怪了。有的因?yàn)榘踩胧]做到位,有的是因?yàn)槿哂嚯娫礇]配置,有的是因?yàn)槿藶槭д`,等等。而服務(wù)器一旦出現(xiàn)問題,追究原因?qū)τ脩舳詿o濟(jì)于事,事后的損失賠償似乎顯得蒼白無力。如何做到預(yù)警,如何做好工作負(fù)載的技術(shù)支持,如何實(shí)現(xiàn)冗余保障......當(dāng)下談?wù)摲?wù)器持續(xù)7X24的智能響應(yīng)技術(shù)已不計其數(shù),然而頻繁出現(xiàn)服務(wù)器故障、服務(wù)器宕機(jī)又是何故?服務(wù)商該思考了。在此,筆者鄙陋,列舉幾種減少服務(wù)器宕機(jī)的方法,僅供服務(wù)商參考:
·選購合適的服務(wù)器產(chǎn)品
在琳瑯滿目的服務(wù)器產(chǎn)品中,企業(yè)選擇服務(wù)器產(chǎn)品不能人云亦云,應(yīng)該在購買前,對自身員工數(shù)量、業(yè)務(wù)類別、業(yè)務(wù)規(guī)模、機(jī)房空間、服務(wù)對象性質(zhì)、管理能力等進(jìn)行徹底大清查之后,再進(jìn)行比對,選擇適合自己的服務(wù)器產(chǎn)品。
·建構(gòu)良性服務(wù)器機(jī)房
機(jī)房是服務(wù)器賴以生存空間,機(jī)房整潔度、布線合理性、通風(fēng)情況如何,冷卻溫度如何將直接影響身處其中的服務(wù)器。“系統(tǒng)在過熱、過濕、灰塵過多的環(huán)境下也許仍可以運(yùn)行,但是它們絕對達(dá)不到應(yīng)有的使用壽命,而且較之于在建議的環(huán)境狀況下運(yùn)行,更容易受到環(huán)境條件的影響,因而頻出故障。”來自TERiX計算機(jī)服務(wù)公司的營銷專員Joe Guenther這樣說道。
·運(yùn)行服務(wù)器實(shí)時監(jiān)控機(jī)制
服務(wù)器每天在運(yùn)行的過程中,企業(yè)應(yīng)該運(yùn)行服務(wù)器實(shí)時監(jiān)控機(jī)制。監(jiān)控機(jī)制包括兩部分:員工實(shí)時檢查和網(wǎng)絡(luò)實(shí)時監(jiān)測。企業(yè)部署相關(guān)員工對服務(wù)器運(yùn)行數(shù)據(jù)進(jìn)行按日分析,并整理出服務(wù)器工作日志,以便第一時間處理異常現(xiàn)象;同時對服務(wù)器機(jī)房進(jìn)行按日檢查,避免人為諸如機(jī)房亂堆放雜物、有灰塵等情況干擾服務(wù)器正常運(yùn)行。另一方面,企業(yè)應(yīng)該選擇一套服務(wù)器監(jiān)控解決方案,對服務(wù)器從內(nèi)在質(zhì)上進(jìn)行實(shí)時監(jiān)控,以便及時發(fā)出警報,及時安排相關(guān)技術(shù)人員進(jìn)行整修。
·制定宕機(jī)災(zāi)難修復(fù)計劃
既然服務(wù)器出現(xiàn)宕機(jī)的可能性隨時存在,在部署服務(wù)器時,企業(yè)需要邀請相關(guān)IT專家進(jìn)行討論,分析該企業(yè)可能出現(xiàn)宕機(jī)情況,并就這些情況分析結(jié)果形成意見,思考宕機(jī)情況出現(xiàn)時的解決策略,制定一套宕機(jī)災(zāi)難修復(fù)計劃,以便服務(wù)器在出現(xiàn)宕機(jī)時減少慌亂,及時應(yīng)對。
【編輯推薦】
- 如何減少服務(wù)器遷移中宕機(jī)時間及控制風(fēng)險
- Windows Server 2012功能之新服務(wù)器管理
- 怎樣做好一個服務(wù)器管理員
- 如何將工作負(fù)載遷移到新服務(wù)器?
【責(zé)任編輯:黃丹 TEL:(010)68476606】