關(guān)于自動(dòng)化網(wǎng)絡(luò)監(jiān)控的真相
在IT領(lǐng)域,似乎一直有一種信條:你的企業(yè)的環(huán)境總是最特殊的。
每一個(gè)人遇到的特定企業(yè)基礎(chǔ)架構(gòu)設(shè)計(jì)在測(cè)量和實(shí)質(zhì)上都有區(qū)別——唯一例外可能是你之前設(shè)計(jì)的網(wǎng)絡(luò)加入了現(xiàn)在的公司;這些也是特殊的網(wǎng)絡(luò),當(dāng)然不像當(dāng)前的環(huán)境那樣特別。
就這一點(diǎn)而言,網(wǎng)絡(luò)監(jiān)控***實(shí)踐、通用技術(shù)和標(biāo)準(zhǔn)方法都無(wú)法適用,或者至少它們需要經(jīng)過很大的修改,才能滿足你的IT架構(gòu)的特殊需求。
我發(fā)現(xiàn)這一點(diǎn)最貼切的莫過于系統(tǒng)監(jiān)控工具。過去30年里,我遇到了無(wú)數(shù)的組織機(jī)構(gòu),它們有各種不同的服務(wù)器、應(yīng)用程序、網(wǎng)絡(luò)設(shè)備等,而且與別人完全不同。
同時(shí),他們的監(jiān)控平臺(tái)都是采用內(nèi)部定制的技術(shù)而開發(fā)出來的,其中集成了許多復(fù)雜的軟件和硬件。它要求特殊的處理方法,需要由經(jīng)過特殊培訓(xùn)的系統(tǒng)管理員才能掌控,這些管理員都是Linux領(lǐng)域的技術(shù)高手。
供應(yīng)商不會(huì)提供幫助
可是,許多系統(tǒng)監(jiān)控供應(yīng)商對(duì)于這一方面并不會(huì)提供太多的幫助——每一個(gè)供應(yīng)商都在增加問題、不確定性和疑問,還有不斷地推銷各種“特殊API”和“與上下文相關(guān)的命令集”,以此構(gòu)成網(wǎng)絡(luò)監(jiān)控***實(shí)踐的基礎(chǔ)。所有這些說辭都像來自于魔法學(xué)校的各種復(fù)雜技能、工具和認(rèn)證。
我覺得這就是:胡話!夢(mèng)話!
在我30多年的IT從業(yè)經(jīng)歷里,幾乎有20年都在關(guān)注監(jiān)控領(lǐng)域——用過從1998年以來市場(chǎng)中每一個(gè)重要的監(jiān)控平臺(tái),支持環(huán)境小到幾臺(tái)服務(wù)器,大到包含全世界5,000個(gè)場(chǎng)所共250,000個(gè)系統(tǒng)。我可以負(fù)責(zé)任地告訴你一些中間親身遇到的事情。
真的嗎?是的,監(jiān)控很簡(jiǎn)單。
成功的監(jiān)控是標(biāo)準(zhǔn)化的,但是它很有挑戰(zhàn)
是的,實(shí)現(xiàn)好的系統(tǒng)監(jiān)控很簡(jiǎn)單——監(jiān)控要足夠穩(wěn)定,能夠收集你需要的統(tǒng)計(jì)數(shù)據(jù),同時(shí)不會(huì)產(chǎn)生偏差;監(jiān)控要能夠提供有意義、可操作的警報(bào),而不是產(chǎn)生噪聲;監(jiān)控要能夠采取措施自動(dòng)響應(yīng)監(jiān)控動(dòng)作。它并不是什么神秘術(shù)。它就像子網(wǎng)技術(shù)一樣標(biāo)準(zhǔn)化。然而,它并不輕松。監(jiān)控是一項(xiàng)復(fù)雜任務(wù),絕不輕松。
使監(jiān)控變得復(fù)雜的其中一個(gè)因素是自動(dòng)化。許多IT人員(甚至是專家)會(huì)說,自動(dòng)化確實(shí)***放在服務(wù)器和應(yīng)用程序領(lǐng)域里。或者說,在網(wǎng)絡(luò)領(lǐng)域?qū)崿F(xiàn)自動(dòng)化的唯一可行方法是勇于進(jìn)入未知的SDN領(lǐng)域。
真相往往是最難得到的。
首先,我們可以這樣分析:監(jiān)控并不是一張單據(jù)、一個(gè)頁(yè)面或一個(gè)屏幕而已。網(wǎng)絡(luò)監(jiān)控***實(shí)踐就是持續(xù)、定期和統(tǒng)一地從一系列設(shè)備收集各種指標(biāo)。只要你做完了***個(gè)部分,其他的東西——報(bào)表、警報(bào)、單據(jù)甚至自動(dòng)化,都是唾手可得的副產(chǎn)品。
也就是說,好的自動(dòng)化是源于好的監(jiān)控(因果關(guān)系)。例如,如果你部署了很穩(wěn)定的監(jiān)控,那么下面的任務(wù)就很輕松了:
- 定期收集網(wǎng)絡(luò)設(shè)備配置。
- 接收配置變化信息。
- 從剛剛發(fā)出信息的設(shè)備上收集配置。
- 對(duì)比“上一次正常”配置與剛剛收集的配置。
- 如果確實(shí)出現(xiàn)差別,則強(qiáng)制回退到舊的配置,并且發(fā)出警報(bào)。
通過這種方式,未經(jīng)正確變更控制而修改的設(shè)備會(huì)強(qiáng)制回退回前一個(gè)狀態(tài),直到新的修改是認(rèn)可的。隨便看一份數(shù)據(jù)報(bào)告,你就可以知道這一類問題是40%-80%企業(yè)網(wǎng)絡(luò)故障發(fā)生的根源。
它很簡(jiǎn)潔、簡(jiǎn)單,而且最重要的是它不是手工操作。它是自動(dòng)化的,而且是合理的自動(dòng)化。
網(wǎng)絡(luò)設(shè)備自動(dòng)化還有其他一些例子,我以前也寫過一些,但是大多數(shù)公司實(shí)現(xiàn)監(jiān)控的***障礙并不是用錯(cuò)工具或技能。主要問題是想法錯(cuò)了——他們思維定勢(shì)地認(rèn)為監(jiān)控和自動(dòng)很復(fù)雜、很難,認(rèn)為這些事情一般人是做不好的。
***,網(wǎng)絡(luò)監(jiān)控***實(shí)踐和自動(dòng)化只是受到你想象力的限制,要突破思想束縛去實(shí)現(xiàn)一個(gè)好的監(jiān)控工具,而不要把精力浪費(fèi)在一些無(wú)謂的事情上。