自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

網(wǎng)絡(luò)管理員應(yīng)該如何應(yīng)對(duì)系統(tǒng)宕機(jī)?

網(wǎng)絡(luò)
跟蹤和監(jiān)控常見的潛在問題比起規(guī)劃大規(guī)模系統(tǒng)宕機(jī)更有價(jià)值和更劃算——因?yàn)楹笳呖赡軓牟粫?huì)發(fā)生。統(tǒng)計(jì)行業(yè)將這種情況稱為黑天鵝,但是作為網(wǎng)絡(luò)管理員,我們知道在IT行業(yè)中不應(yīng)該采取這種方式。

在去年的世界杯比賽期間,Nate Silver和他在地窖里的通靈巫師也犯了錯(cuò)誤——他是如何做到如此精準(zhǔn)的預(yù)測(cè)呢?確實(shí)錯(cuò)了。他們完全預(yù)測(cè)錯(cuò)了德國與巴西的比賽結(jié)果。正如Silver所描述的,這是一場(chǎng)完全不可能預(yù)測(cè)準(zhǔn)確的比賽。

在體育和范圍更小的政治領(lǐng)域,遇到這種事情也只能是吞下苦果,接受這個(gè)偶然事件——統(tǒng)計(jì)行業(yè)中稱為黑天鵝,然后繼續(xù)原本的生活。

但是作為網(wǎng)絡(luò)管理員,我們知道在IT行業(yè)中不應(yīng)該采取這種方式。

 [[147760]]

按照我的經(jīng)驗(yàn),當(dāng)IT系統(tǒng)出現(xiàn)黑天鵝事件時(shí),管理層通常會(huì)對(duì)這種事件諱莫如深。隨后就會(huì)召開一個(gè)“經(jīng)驗(yàn)總結(jié)會(huì)”,目的是傳遞精神保證以后不再發(fā)生類似的系統(tǒng)宕機(jī)事件。

警告:

不要花太多的時(shí)間去研究可能發(fā)生的事情

這里我并不是說,在發(fā)生故障之后,我們就可以無憂無慮地忽視所有已經(jīng)學(xué)到的經(jīng)驗(yàn)教訓(xùn)。相反,我們要遠(yuǎn)離它。在故障消失之后,你通常能夠發(fā)現(xiàn)未來避免問題發(fā)生的方法。在發(fā)生意外事件之后,一個(gè)IT組織應(yīng)該做的***件事就是未來是否能夠預(yù)測(cè)故障,或者說是否有時(shí)候歷史數(shù)據(jù)不足以確定一種固定的概率。

如果是后者,那么我可以告訴你,你更應(yīng)該將精力投入到其他地方。更好的方法是什么?不要花時(shí)間都確定一種可能性是否存在,而應(yīng)該去發(fā)現(xiàn)和克服IT每天都會(huì)遇到的常見問題?,F(xiàn)在很多人都忽視了這種策略。

不信?那我們來看另一個(gè)例子,這不是一個(gè)虛構(gòu)的公司,我知道這個(gè)公司曾經(jīng)遇到一次嚴(yán)重的IT故障,因此遭受了近10萬美元的損失。管理層當(dāng)然非常不安。公司很快建立了一個(gè)工作小組去確定故障的根源,然后推薦一些措施避免將來發(fā)生相同的故障。聽起來很合理,是嗎?

這個(gè)工作小組由5位來自于服務(wù)器、網(wǎng)絡(luò)、存儲(chǔ)、數(shù)據(jù)庫和應(yīng)用程序團(tuán)隊(duì)的成員構(gòu)成。他們花了三個(gè)月時(shí)間和每個(gè)月超過100個(gè)人時(shí)的時(shí)間去調(diào)查問題根源。保守地估算,假設(shè)這家公司的每小時(shí)人力成本為50美元。那么5人、100個(gè)小時(shí)、3個(gè)月折算過來就是近12.5萬美元。

現(xiàn)實(shí):

并非想象的那樣合理

是的,最終不僅所有根源問題都找到了——至少找到了大部分,而且也添加了代碼,(可能)預(yù)測(cè)下次相同事件的爆發(fā)。聽起來似乎并不差。但是要記住一點(diǎn):這家公司花費(fèi)了比原先故障的損失還多2.5萬的資金去創(chuàng)建一個(gè)系統(tǒng)宕機(jī)解決方案,而這個(gè)方案還不一定能準(zhǔn)確地預(yù)報(bào)類似事件的發(fā)生。

似乎它并不是很合理。

你可能會(huì)想:“但是,你覺得我們應(yīng)該關(guān)注于什么呢?畢竟,我們的職責(zé)就是和公司其他同事一起守住底線(不讓系統(tǒng)宕機(jī))。”

我明白這一點(diǎn),我要強(qiáng)調(diào)的重點(diǎn)并不是這個(gè)。我們來對(duì)比一下前面的黑天鵝例子,一起來看看一個(gè)更常見的問題:網(wǎng)絡(luò)接口卡(NIC)故障。

在這個(gè)例子中,另一個(gè)并非虛構(gòu)的公司發(fā)現(xiàn)帶寬使用峰會(huì)并且一直很高。當(dāng)傳輸速率下降到***,然后NIC招聘錯(cuò)誤,并且最終卡死。問題是,在監(jiān)控帶寬使用率時(shí),停止響應(yīng)或消失的網(wǎng)卡上并沒有發(fā)出警報(bào)(公司監(jiān)控了***連接的IP,因此遠(yuǎn)程終端中斷時(shí)WAN鏈路并沒有發(fā)出警報(bào)。)

我們假設(shè)一個(gè)NIC故障平均需要一個(gè)小時(shí)才能被發(fā)現(xiàn)和正確診斷原因,然后網(wǎng)絡(luò)管理員需要兩個(gè)小時(shí)才能修復(fù)問題,而他們的人力成本是53美元每小時(shí)。在線路中斷時(shí),公司每小時(shí)要損失1000美元的收入,并且還會(huì)失去市場(chǎng)機(jī)會(huì)等等。這意味著這樣的宕機(jī)會(huì)讓公司損失3106美元。

經(jīng)驗(yàn):

設(shè)置一個(gè)包含警報(bào)和監(jiān)控的框架

現(xiàn)在可以這樣考慮,按照我的經(jīng)驗(yàn),正確的監(jiān)控和警報(bào)可以將發(fā)現(xiàn)和診斷這種NIC故障問題的時(shí)間縮短為15分鐘。僅此而已。不需要任何其他的措施,至少在這個(gè)案例中不需要。但是,這種簡單的措施可以將宕機(jī)損失減少750美元。

我知道這些數(shù)字聽起來并不太震撼。但是,要知道中等規(guī)模的公司可能每年就可能輕松遇到100次NIC故障。如果沒有監(jiān)控這些問題,加起來就是30萬美元的損失,而如果部署警報(bào)則每天可以節(jié)省7.5萬美元。

這還不算預(yù)測(cè)NIC故障和提前更換網(wǎng)卡所避免的損失。如果我們估計(jì)使用預(yù)測(cè)監(jiān)控能夠避免掉50%的故障,那么可能節(jié)省的費(fèi)用可能在19萬美元以上。

同樣,我并不是說不應(yīng)該去做好應(yīng)付黑天鵝事件的準(zhǔn)備工作,但是如果預(yù)算比較緊張,有時(shí)候一些針對(duì)常見問題的簡單警報(bào)所能避免的損失要高于去預(yù)測(cè)和防止可能不出現(xiàn)的“大問題”。

畢竟,NIC故障并不是大問題。甚至我認(rèn)為Nate Silver也認(rèn)同這一點(diǎn)。 

責(zé)任編輯:何妍 來源: TechTarget中國
相關(guān)推薦

2012-10-23 14:43:15

2009-01-12 09:59:00

網(wǎng)管DHCP網(wǎng)絡(luò)管理

2011-07-14 09:27:07

2009-12-24 09:59:24

2010-04-14 18:01:00

Unix操作系統(tǒng)

2009-01-06 14:19:39

網(wǎng)絡(luò)管理員

2011-03-16 16:46:47

2011-07-08 09:16:47

cisco設(shè)備配置

2013-06-21 09:00:48

網(wǎng)絡(luò)管理員應(yīng)用監(jiān)控

2015-02-13 09:22:40

SDN網(wǎng)絡(luò)管理員

2011-01-06 10:43:07

網(wǎng)絡(luò)管理員

2012-07-19 09:09:00

云計(jì)算宕機(jī)亞馬遜

2010-12-28 10:44:36

2020-11-25 08:23:51

SaaSIaaS網(wǎng)絡(luò)管理

2009-03-06 10:07:00

WLAN客戶端

2009-10-09 11:13:27

網(wǎng)絡(luò)管理員信息安全專家

2009-10-23 21:12:43

WLAN無線網(wǎng)絡(luò)部署無線管理

2013-05-27 09:22:31

網(wǎng)絡(luò)管理員SDN軟件定義網(wǎng)絡(luò)

2009-04-18 10:28:55

網(wǎng)絡(luò)故障網(wǎng)絡(luò)管理

2011-01-18 11:28:05

網(wǎng)絡(luò)管理員
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)