自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

分級處理IT故障 運維管理從容不迫

網(wǎng)絡
在北塔BTIM綜合運維系統(tǒng)中,可以把IT運維“那些事”(包括人員、資源、突發(fā)故障)分成不同級別和不同運維操作,以便有效的配置運維人力資源。正是因為監(jiān)控系統(tǒng)與SLA協(xié)議的匹配,通過管理上對于不同故障等級采取不同的監(jiān)管策略,才能實現(xiàn)了人力、財力成本投入不增加的情況下,起到高效管理的收益。

任何計算機系統(tǒng)都有出現(xiàn)故障的時候,可能發(fā)生在測試階段,也可能發(fā)生在系統(tǒng)剛剛上線,還可能發(fā)生在已經(jīng)穩(wěn)定運行很多年的系統(tǒng)上,又可能發(fā)生在系統(tǒng)一個小小的升級之后。而這些系統(tǒng)出現(xiàn)故障所帶來的負面影響則可大可小,小到一個終端的軟件無法使用,大到整個系統(tǒng)癱瘓,所有業(yè)務不能辦理。由此便有了IT故障處理分級的運作形式,將問題或故障做到先后有序,將IT運維故障劃分為普通、急、緊急……依靠這套省力的約定建立故障處理流程,是解放IT支持部門最有效的法則。

當計算機故障升級到“核災難”

佩特羅夫是原蘇聯(lián)一位年輕軍人、計算機工程師。1983年9月26日晚上,他正在莫斯科附近的某個導彈中心值班,他回憶說:“忽然,我面前的計算機屏幕變成了刺眼的紅色,刺耳的警報聲也隨之響起,聲音大得簡直能把死人都從墳墓里嚇醒。這是計算機預警系統(tǒng)發(fā)出美國向蘇聯(lián)實施核進攻的警報,美國人向我們發(fā)射核武器了!”一般人認為,計算機按事先編制的程序工作,它提供的信息應是絕對可靠的,計算機不會玩花招,但這次出現(xiàn)的情況卻不是這樣。警報還在不斷地響,佩特羅夫沒有被嚇呆,而是在積極思考。根據(jù)他掌握的情況來判斷,他認為,美國沒有理由在當時對蘇聯(lián)發(fā)動核攻擊,唯一的可能是計算機出錯。導彈中心接到佩特羅夫的報告后,急如星火地派人對計算機進行緊急檢修。結(jié)果證明,錯誤警報的發(fā)出完全是由計算機的故障造成的,計算機在這起故障中,充當了挑起核戰(zhàn)爭的罪魁禍首。

上面這個真實存在的計算機故障被列為IT界十大故障之首。雖然這起故障最終沒有引發(fā)全世界的“災難”,但是不是今后的數(shù)十年之后,就會完全避免此類事件發(fā)生呢?這引起了我們深深地思考。

作為IT運維產(chǎn)品和服務提供商的北塔軟件認為:“無論從技術角度出發(fā),還是就業(yè)務角度而言,我們都需要對經(jīng)常發(fā)生的IT故障進行各種考慮和權衡。在看起來似乎無法立即解決所有故障的情況下進行正確的權衡,則是IT運維人員成功的關鍵。這意味著要首先確定有哪些系統(tǒng)出現(xiàn)問題,會波及到核心業(yè)務的停滯范圍,以及理解并確定如何在出現(xiàn)故障的時候按照緊急度權衡,從而避免影響面最大的災難事件發(fā)生。”

北塔軟件的技術專家以一家正在實施BTIM IT綜合管理系統(tǒng)的銀行IT系統(tǒng)為例,為我們說明了故障和災難的區(qū)別。例如,對于一般的電腦系統(tǒng)故障,信科部或業(yè)務部門通過通常的措施(如激線、重組、重起、切換、脫機交易、沖證等)在短時間內(nèi)能夠恢復對外的服務,對銀行業(yè)務和客戶利益沒有造成重大影響,此類事件稱之為故障。如果信息中心發(fā)生嚴重故障,導致管轄內(nèi)大部分或全部的業(yè)務無法進行,且在一天內(nèi)仍無法恢復正常對外服務,此類故障則要稱之為“災難”了。

故障優(yōu)先級的兩大核心要素

確定優(yōu)先級需要綜合考慮突發(fā)事件對業(yè)務的影響情況、恢復服務對業(yè)務的緊迫性、突發(fā)事件的大小、范圍和復雜程度以及當前可供突發(fā)事件處理的資源等等。在定義優(yōu)先級之前,我們必須清楚它與兩個最重要的因素有關,即:影響度、緊急度。其中,影響度是衡量故障影響業(yè)務大小程度的指標,通常相當于故障影響服務質(zhì)量的程度,它一般是根據(jù)受影響的人或系統(tǒng)的數(shù)量來確定的。而緊急度是評價故障和問題危機程度的指標,是根據(jù)客戶的業(yè)務需求和故障或問題的影響而制定的。因此,如何設定優(yōu)先級,這需要根據(jù)影響程度和緊急程度的評估和數(shù)據(jù)收集工作,之后才是制定故障的處理順序。

一般來說,當IT出現(xiàn)故障時,首先要記錄與故障有關的客戶和用戶的信息,如姓名、工作地點和聯(lián)系電話等等,先對故障進行“初步歸類”,然后再進行初步處理。 在對故障進行歸類后,如果沒有成功地將故障與問題或先前知名錯誤(知識庫)進行匹配,下一步就是確定故障的優(yōu)先級了,以確保對應的負責人給予故障必要的注意。當IT運維部門必須同時處理數(shù)個故障的時候,由于受到了時間、資源和人力等限制而無法立即解決全部問題時,此時就要排定處理的先后次序,即確定每個故障的優(yōu)先級。但當出現(xiàn)故障后,沒有用戶會說他的問題可以放到以后解決。相反,他們總是認為自己的問題才是最需要優(yōu)先解決的。因此,企業(yè)最好的IT運維方式,是通過服務臺機制、或是歷史的積累,以及業(yè)務部門負責人的認定之后,才能根據(jù)統(tǒng)計一些量化的指標來決定優(yōu)先級。

當然,不同的企業(yè)所定義的故障優(yōu)先級是不同的。例如:制造企業(yè)的ERP系統(tǒng)的故障的緊迫性和影響度就非常之高,有些故障或問題會直接影響業(yè)務運作,或影響公司的對外服務水平,或有法律上的風險。因為這會影響對客戶承諾的送貨時間,價格數(shù)據(jù)有誤等等,這些故障或問題需要IT支持部門馬上做出支持,以便最大限度地降低對業(yè)務運作的影響。

定義告警事件優(yōu)先級 有效地處理故障

企業(yè)的 IT 管理部門就是為企業(yè)提供 IT 后勤服務,而IT運維軟件又是為企業(yè)的 IT 管理部門提供后勤服務的,而這恰恰是很多未能推進 IT 運維監(jiān)控工作的企業(yè)最容易忽視的地方。這些企業(yè)依賴一些經(jīng)驗豐富的“排錯專家”,他們的技能是能夠?qū)υ趶碗s環(huán)境中可能出現(xiàn)的性能和吞吐問題進行事先估計,并進行恰當?shù)臎Q策來避免這些問題。

但并不是每個人都是“佩特羅夫”,在我們看來,成功的IT運維部門所具有的最有價值的技能是將IT系統(tǒng)各個部分連接起來的能力。但是,由于傳統(tǒng)的,手工作坊一樣的管理效率不但低下,并且管理人員由于無法掌握全網(wǎng)的網(wǎng)絡設備運行情況,當網(wǎng)絡發(fā)生故障時也無法定位根源(即使我們從“影響度+緊急度==優(yōu)先級”的公式計算中得到了結(jié)果)。同時,我們還應該清楚,不同的優(yōu)先級,所處理得流程也是不一樣的。但是由于一些工程師的維護職責不是很清楚,每個人都大概知道自己該做什么,但是某個具體事情到底該誰負責,卻沒有明細流程。林林總總,這些都可能導致看似非致命的故障,最終則是全網(wǎng)范圍的網(wǎng)絡中斷,或者服務平臺災難性的事件發(fā)生。

而一套優(yōu)秀的IT運維系統(tǒng)恰好可為優(yōu)先級的管理奠定了預警和管理的技術。為了能夠?qū)T告警事件區(qū)分出優(yōu)先級,我們唯一的辦法是將分散或看起來不相關的組件(問題)聯(lián)系起來,以形成一個完整的系統(tǒng)。因為,只有從完整的監(jiān)控系統(tǒng)中才能派生出“有意義的(可執(zhí)行的)”的故障恢復流程。以北塔軟件BTIM為例,在操作界面中的對于圖標使用 “紅、棕、黃、綠、藍”不同的顏色,這代表5個告警等級,此告警等級可以代表不同的運維等級,它們是:緊急、高級、中級、低級、提示級。根據(jù)優(yōu)先級的不同,對應的處理人員不同,處理流程也不同,響應的時間也是不同的。例如:SLA優(yōu)先級較高的系統(tǒng)出現(xiàn)問題,IT運維部門需要在1小時之內(nèi)解決問題,或者啟用備用系統(tǒng)。而相對級別較低的服務便可根據(jù)SLA協(xié)議約定的范圍內(nèi),如4小時、8小時內(nèi)完成修復。

在北塔BTIM綜合運維系統(tǒng)中,可以把IT運維“那些事”(包括人員、資源、突發(fā)故障)分成不同級別和不同運維操作,以便有效的配置運維人力資源。正是因為監(jiān)控系統(tǒng)與SLA協(xié)議的匹配,通過管理上對于不同故障等級采取不同的監(jiān)管策略,才能實現(xiàn)了人力、財力成本投入不增加的情況下,起到高效管理的收益。

流程優(yōu)化與人力優(yōu)化是同時進行的,實現(xiàn)IT故障分級處理也是一次對IT運維人力資源配置的優(yōu)化過程。例如,明確故障分級處理流程,便同時界定了運維人員對于故障的響應時間、職責、權限、義務和績效考核標準等等。事實上許多企業(yè)的實踐和北塔軟件的成功實施案例也證明,這樣可以減少IT運維操作的隨意性和混亂性,并能大大提高運維中的人力資源效率。使服務的每個環(huán)節(jié)均標準、可控,從而使服務質(zhì)量能夠得到保證,避免了服務質(zhì)量過分依賴技術工程師的個人能力和責任心,而使服務質(zhì)量不可控和隨機性。

 

責任編輯:守望幸福 來源: 51CTO.com
相關推薦

2016-03-04 15:38:49

運維故障規(guī)范

2013-07-24 17:51:44

運維管理北塔軟件

2014-02-25 11:27:49

運維經(jīng)驗緊急故障

2021-07-21 16:22:40

運維架構(gòu)技術

2014-04-02 10:56:21

2018-07-04 09:16:06

運維業(yè)務接口

2012-06-25 16:40:54

2021-10-28 17:05:11

IT運維故障

2020-09-25 11:10:51

運維故障排查監(jiān)控

2010-11-24 10:38:59

8020人才網(wǎng)

2013-03-21 17:17:34

2010-04-20 15:47:31

面試

2015-06-23 14:24:03

2018-05-02 14:30:33

數(shù)據(jù)庫運維優(yōu)化故障

2018-05-08 09:49:15

數(shù)據(jù)庫運維優(yōu)化

2021-07-23 17:24:48

技術資訊

2019-03-19 08:41:38

Linux運維變更

2014-08-04 10:10:35

IT運維自動化運維

2018-06-29 10:36:29

阿里云互聯(lián)網(wǎng)故障
點贊
收藏

51CTO技術棧公眾號