美信云網(wǎng)管晉級第六步:實時報告幫助排憂解難
使用美信CreCloud云網(wǎng)管的同學(xué)多數(shù)都是技術(shù)出身,這對于快速掌握美信CreCloud云網(wǎng)管來說當(dāng)然是得天獨厚的優(yōu)良基礎(chǔ)。然而現(xiàn)在IT行業(yè)基本是為市場服務(wù),如何能夠讓我們在市場人員和老板的眼中體現(xiàn)出價值,就需要我們把自己的工作更好的展現(xiàn)出來。
繁冗的日志報表顯然不是非技術(shù)人員愿意看到的,如何更快、更簡潔、更專業(yè)的表明自己的意圖,才是最為重要的。
作為運維人員,老板有時會提出一些稀奇古怪的東西,或者其他部門出現(xiàn)了問題把責(zé)任怪罪到你頭上。你應(yīng)該如何申辯?把事實通過匯報的形式表現(xiàn)出來,能讓非技術(shù)的他們看得懂,同時也要體現(xiàn)出專業(yè)性,不能干巴巴幾句話,也就是所謂的“舉證要充分”。
今天我們就來學(xué)習(xí)一下,通過美信CreCloud云網(wǎng)管強大的圖表功能,為自己的匯報總結(jié)做出“充分的舉證”。
前幾日,部門接到業(yè)務(wù)部門的一個緊急事件通告,問題的狀況是某兩臺服務(wù)器(0.176、0.61)之間隨機性的ping失敗,每次持續(xù)10分鐘左右。業(yè)務(wù)部門懷疑基礎(chǔ)網(wǎng)絡(luò)這塊存在故障,希望我們給與排查和處理。
接到通告后,我們首先是發(fā)郵件通知業(yè)務(wù)部門,告之我們會盡快處理。很慶幸的是,之前已經(jīng)通過美信CreCloud云網(wǎng)管對著兩臺服務(wù)器有過監(jiān)測,對CPU、內(nèi)存、網(wǎng)絡(luò)流量、磁盤空間以及ping都做了監(jiān)測點。
首先檢查美信CreCloud云網(wǎng)管中0.176的服務(wù)器狀態(tài)。通過圖表可以看出,沒有任何報錯的項目。
考慮到業(yè)務(wù)部門是隨機性的出現(xiàn)10分鐘左右的中斷,如果機器存在硬件故障,那么美信CreCloud云網(wǎng)管肯定也會有所體現(xiàn)。美信CreCloud云網(wǎng)管對ping值的反饋是默認(rèn)每2分鐘一次,3000ms算超時,7*24小時任務(wù)制。我們查看ping的監(jiān)控點,同時自定義發(fā)生故障的日期,可以查看到在此期間,ping的服務(wù)成功率是100%,同時相應(yīng)時間最長也不超過8ms,并沒有發(fā)現(xiàn)如業(yè)務(wù)部門所說的情況。
繼續(xù)檢查CPU利用率的情況,發(fā)現(xiàn)利用率較低,同時服務(wù)成功率也是100%。
在物理內(nèi)存方面的檢測依然沒有發(fā)現(xiàn)任何問題。
以同樣的方法在0.61的服務(wù)器上進行了排查,結(jié)果和上面的并無二致。因此可以判斷問題并不在網(wǎng)絡(luò)硬件方面。
最終與業(yè)務(wù)部門共同檢查,發(fā)現(xiàn)問題出在“應(yīng)用”上。0.176上跑的是業(yè)務(wù)部門自己寫的一個服務(wù)。于是我們將該服務(wù)添加到美信CreCloud云網(wǎng)管的監(jiān)控點上繼續(xù)排查故障。最終發(fā)現(xiàn)該服務(wù)隨機性的掛死,在測試的兩個小時內(nèi),服務(wù)就掛掉了兩次。(在圖表中,實心區(qū)域是正常時間段,空心區(qū)域是服務(wù)失敗的時間段。)
在監(jiān)測數(shù)據(jù)列表中,還可以查看到發(fā)生故障狀態(tài)的具體時間,以及持續(xù)時間等詳細(xì)信息。
從業(yè)務(wù)部門提出疑惑,到我們給出專業(yè)的答案,整個過程不超過1個小時。領(lǐng)導(dǎo)對我們解決問題的速度和專業(yè)性提出了肯定。而這個過程中,美信CreCloud云網(wǎng)管這種高效的工作機制和準(zhǔn)確簡單的圖表可以說是功不可沒。通過美信CreCloud云網(wǎng)管的圖表數(shù)據(jù),我們和業(yè)務(wù)部門找到一種更快捷也更準(zhǔn)確的溝通方式。