自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何設(shè)計問題管理流程將事故影響最小化

安全
“休斯敦,我們遇到問題了”,這是來自科學(xué)和技術(shù)界最偉大的語錄之一。

“休斯敦,我們遇到問題了”,這是來自科學(xué)和技術(shù)界最偉大的語錄之一。

然而從技術(shù)上來說,當(dāng)他們用無線電告知在休斯敦的任務(wù)控制臺時,阿波羅13號的工作人員應(yīng)該說:“我們遇到了事故”,因為問題是事故表面下的未知原因。

事故是任何不屬于標(biāo)準(zhǔn)服務(wù)運轉(zhuǎn)部分的事件,能引起或是可能造成服務(wù)中斷或是服務(wù)質(zhì)量下降。謝天謝地,像任何組織良好的項目一樣,休斯敦?fù)碛幸粋€中止計劃,再加上宇航員們的足智多謀,他們最終能夠平安地返回地面。

這是一起事故或危機(jī)管理的典型案例,目的是盡可能快地恢復(fù)服務(wù)運轉(zhuǎn)的正常狀態(tài),從而將對運行的不利影響降至最低。擁有到位的事故管理計劃以及應(yīng)急響應(yīng)團(tuán)隊來確保處理任何事故,應(yīng)該成為任何組織的標(biāo)準(zhǔn)慣例。無論是天災(zāi)人禍、惡意攻擊或是員工的疏忽,都應(yīng)該被快速地處理,從而可以繼續(xù)正常的服務(wù)。事故是每天業(yè)務(wù)生活的一部分,應(yīng)該有幫助臺(help desk)或IT支持人員來處理不太嚴(yán)重的問題,并有緊急響應(yīng)團(tuán)隊來處理重大的事故。但是,究竟有多少組織擁有問題管理團(tuán)隊呢?

問題的定義是某個或多個事故的未知原因,問題管理流程涉及到判斷此類事故表面下的原因,然后找到一個永久的解決方案。它不同于事件管理,因為它的關(guān)注點在于問題的解決而不是事件本身的響應(yīng)速度,以防止它惡化成事件。

在阿波羅13號甲板上的事故引起了細(xì)致的調(diào)查以便判斷問題的根源。然后用這方面的知識,以確保在未來的任務(wù)中問題不會再出現(xiàn)。這種類型的事件后分析可以起到至關(guān)重要的作用,確保企業(yè)網(wǎng)絡(luò)運營保持不間斷高效運行。沒有它,宕機(jī)時間會延長,并且時間和金錢可能會浪費在處理重復(fù)的事故上。

讓我們舉個簡單的例子來突出事件管理和問題管理間的差異:某個出問題的網(wǎng)絡(luò)文件服務(wù)器無法讓雇員們訪問他們的文檔。事件響應(yīng)團(tuán)隊可能僅是重啟服務(wù)器以便快速地恢復(fù)訪問。問題響應(yīng)團(tuán)隊則會找到讓服務(wù)器宕機(jī)的原因,以便能修正并防止問題再次發(fā)生(請注意,問題管理不同于吸取經(jīng)驗教訓(xùn)的工作,后者是評審事故是如何處理的,看是否能改善未來事故的處理)。

盡管問題解決和事件響應(yīng)是有關(guān)聯(lián)的,但它們不一定要求同樣的技能,因此參與到這兩個流程的人員也是不同的。一些人可能知道如何恢復(fù)最近一次的數(shù)據(jù)庫備份,但是不了解造成數(shù)據(jù)庫崩潰的首要原因是什么。問題解決更加傾向于取證和追溯發(fā)生了什么引發(fā)了事件,而事件管理要求關(guān)于如何恢復(fù)一個系統(tǒng)的更具有可操作性的知識。

問題通??捎芍蠖鄠€有類似癥狀的事故辨識——例如跨整個網(wǎng)絡(luò)的電腦病毒傳播并影響它們的性能——或者是從有重要影響的單個事故來辨識的,比如前面提到的情況:沒人能訪問某個特殊服務(wù)器上的文件。

一旦成功地診斷出事故表面下的原因,它就成了“已知錯誤”,隨后的任務(wù)就是找到一個合適的變通方法或永久的解決方案。變通方法應(yīng)該只用于將問題的影響最小化,直到找到永久的解決方案,并且問題應(yīng)該歸為已知的錯誤。

辨識問題根本原因的技術(shù)之一是使用因果圖(Ishikawa diagram,也叫“魚骨圖”),是用來映射事件起因的工具。潛在的原因通常被歸類如人、流程、策略、硬件、軟件和環(huán)境,在這些類中,任何來源的變化都能幫助找出問題的原因所在。其它技術(shù)如阿波羅根源分析方法(Apollo Root Cause Analysis)也能用來辨識原因和尋找解決方案。

盡管問題管理與事故管理是緊密關(guān)聯(lián)的,但是在需要快速的解決事故和需要找到問題長期的解決方案間,兩者可能有沖突。還是用前面的例子,立刻重啟文件服務(wù)器可能破壞有用的診斷信息來辨識問題的原因。解決這個沖突的方法之一,是事先達(dá)成一致需要什么診斷信息,在恢復(fù)服務(wù)前允許的診斷時間,以及試圖解決該問題會需要的那些必要資源。

問題管理的主動性方法是努力在事故發(fā)生前辨識和解決問題。這涉及到對日志報告和幫助臺請求的趨勢分析,接著是相關(guān)的新聞組用來對別處發(fā)生的問題進(jìn)行提前預(yù)警,以及針對的支持行動。

問題管理流程目的是減少業(yè)務(wù)中事故和問題的次數(shù)、嚴(yán)重性和惡劣影響,并且預(yù)防與這些錯誤相關(guān)的事故再次發(fā)生。團(tuán)隊的成功可以很容易地監(jiān)控問題診斷和解決的平均時間、重復(fù)問題的發(fā)生次數(shù)、以及重大事故的發(fā)生次數(shù),并以此來衡量。擁有到位的問題管理流程會幫助任何組織減少重復(fù)的事故發(fā)生,并通往更為可靠的網(wǎng)絡(luò)和應(yīng)用環(huán)境之路。

責(zé)任編輯:佟健 來源: TechTarget中國
相關(guān)推薦

2013-05-31 09:26:11

云宕機(jī)SLA云應(yīng)用彈性

2021-04-13 16:00:54

加密貨幣數(shù)據(jù)貨幣

2011-04-13 11:11:36

VC++托盤程序

2022-06-01 08:00:00

開發(fā)成本功能

2015-09-18 09:23:34

云APIAPI升級云服務(wù)中斷

2009-08-14 10:35:25

C#最小化編寫

2009-07-02 17:59:51

2015-10-29 10:09:57

混合云影子IT SaaS

2021-09-29 10:03:52

物聯(lián)網(wǎng)安全網(wǎng)絡(luò)攻擊IOT

2017-02-08 15:13:57

2011-03-07 10:12:02

GNOME SHELL

2020-12-14 06:50:03

Windows 10Windows操作系統(tǒng)

2022-06-30 14:27:31

窗口按鈕桌面

2022-06-20 07:44:34

ahooks定時器

2011-01-19 14:40:45

Thunderbird

2025-04-25 09:35:39

WinformWindows系統(tǒng)托盤

2021-07-16 20:41:24

CentOSRHELRocky Linux

2023-04-03 10:20:16

JavaScript前端Alpine.js

2018-07-16 15:21:23

Windows 10Windows任務(wù)欄

2018-11-16 06:05:42

點贊
收藏

51CTO技術(shù)棧公眾號