五步跨越事件管理中的運(yùn)營(yíng)鴻溝
通過(guò)從傳統(tǒng)的、被動(dòng)的運(yùn)作方式轉(zhuǎn)向主動(dòng)的、自動(dòng)化的事件管理,組織可以更高效、更智能地工作。
譯自5 Steps To Cross the Operational Chasm in Incident Management,作者 Debora Cambe。
構(gòu)建具有彈性的運(yùn)營(yíng),確保高可用性和可靠性,對(duì)于維護(hù)客戶忠誠(chéng)度并最終實(shí)現(xiàn)業(yè)務(wù)增長(zhǎng)至關(guān)重要。根據(jù)近期研究,十分之九的IT領(lǐng)導(dǎo)者認(rèn)為,中斷或故障降低了客戶對(duì)其組織的信任度。
實(shí)現(xiàn)運(yùn)營(yíng)卓越的路徑是預(yù)防和學(xué)習(xí)的路徑,融入到事件管理流程中,團(tuán)隊(duì)通過(guò)擁抱主動(dòng)措施和事后審查,自信高效地運(yùn)作,而不是陷入救火模式。
從反應(yīng)式到主動(dòng)式事件管理跨越運(yùn)營(yíng)鴻溝,對(duì)于降低運(yùn)營(yíng)成本和節(jié)省團(tuán)隊(duì)能力以加速創(chuàng)新至關(guān)重要——即使面對(duì)意外挑戰(zhàn),也能提供卓越的服務(wù)。
以下五個(gè)步驟可以幫助組織開(kāi)始走向運(yùn)營(yíng)卓越的旅程。
1.擴(kuò)展服務(wù)所有權(quán)以更高效地運(yùn)營(yíng)
手動(dòng)事件管理流程的支離破碎性質(zhì)是組織面臨的主要挑戰(zhàn)。分布式團(tuán)隊(duì)經(jīng)常使用不同的工具和工作流程,這使得在關(guān)鍵事件期間的協(xié)調(diào)變得困難。平均而言,與自動(dòng)化事件管理流程相比,手動(dòng)解決事件的平均修復(fù)時(shí)間 (MTTR)要長(zhǎng)1小時(shí)18分鐘。
使用構(gòu)建用于在整個(gè)組織中擴(kuò)展全服務(wù)所有權(quán)模型的平臺(tái),可以利用各種運(yùn)營(yíng)模型(從集中式到分散式),并在整個(gè)事件生命周期中協(xié)調(diào)團(tuán)隊(duì)的響應(yīng)。DevOps最佳實(shí)踐的標(biāo)準(zhǔn)化推動(dòng)了這種方法。它推動(dòng)問(wèn)責(zé)制和跨團(tuán)隊(duì)協(xié)作,同時(shí)通過(guò)自動(dòng)化重復(fù)性任務(wù)和專(zhuān)注于創(chuàng)新來(lái)增強(qiáng)團(tuán)隊(duì)的能力,從而幫助減少重大事件和中斷的影響。
2.使用 AI 和自動(dòng)化來(lái)消除噪音
對(duì)組織基礎(chǔ)設(shè)施和潛在故障點(diǎn)的了解有限,往往限制了團(tuán)隊(duì)采用反應(yīng)式事件管理策略。例如,網(wǎng)絡(luò)運(yùn)營(yíng)中心 (NOC) 傳統(tǒng)上偏愛(ài)一種“眼睛盯著屏幕”的模型,這種模型過(guò)于依賴(lài)人工,并且容易出錯(cuò),無(wú)法有效地分類(lèi)當(dāng)今涌入企業(yè)的龐大數(shù)據(jù)量。
事件驅(qū)動(dòng)自動(dòng)化使用 AI 和機(jī)器學(xué)習(xí)來(lái)僅顯示需要人工關(guān)注和干預(yù)的關(guān)鍵工作。它可以抑制和分組警報(bào),同時(shí)啟動(dòng)分類(lèi)和自動(dòng)修復(fù)以消除噪音。或者,它可以確定需要更多診斷信息,并通知團(tuán)隊(duì)進(jìn)行調(diào)查。這使響應(yīng)者能夠自動(dòng)修復(fù)低優(yōu)先級(jí)問(wèn)題,并專(zhuān)注于推動(dòng)業(yè)務(wù)價(jià)值(創(chuàng)新、效率和卓越的客戶體驗(yàn))的高影響事件。 通過(guò)智能事件檢測(cè)和主動(dòng)問(wèn)題解決,團(tuán)隊(duì)可以在問(wèn)題升級(jí)之前預(yù)測(cè)和解決問(wèn)題,從而顯著減少響應(yīng)時(shí)間并改進(jìn)整體事件管理實(shí)踐。此外,AI驅(qū)動(dòng)的分析可以幫助發(fā)現(xiàn)可能無(wú)法通過(guò)人工分析發(fā)現(xiàn)的模式和趨勢(shì),從而確保更具彈性和效率的系統(tǒng)。
3.促進(jìn)主動(dòng)的跨職能協(xié)作
采用孤立的事件管理方法會(huì)減慢決策速度,并損害事件期間的跨團(tuán)隊(duì)溝通。相反,組織必須培養(yǎng)一種跨職能文化,讓所有團(tuán)隊(duì)成員能夠無(wú)縫協(xié)作。
跨職能協(xié)作確保事件響應(yīng)計(jì)劃全面,并考慮特定團(tuán)隊(duì)中包含的見(jiàn)解和專(zhuān)業(yè)知識(shí)。借助 AI 工具總結(jié)信息和起草消息,以及使用自動(dòng)化共享定期更新,可以加快溝通速度。這會(huì)在利益相關(guān)者之間建立信任,并促進(jìn)知識(shí)共享以加快解決速度。
4.將引導(dǎo)式修復(fù)帶到響應(yīng)者工作的地方
許多響應(yīng)者與 ChatOps 工具協(xié)作以啟動(dòng)響應(yīng)流程。事實(shí)上,有可能在不離開(kāi) Slack 或 Microsoft Teams 的情況下端到端地管理事件,從而最大限度地減少上下文切換以提高效率,降低協(xié)調(diào)成本并加快解決速度。 但是,除了創(chuàng)建專(zhuān)門(mén)的事故渠道并快速添加響應(yīng)者和主題專(zhuān)家外,團(tuán)隊(duì)還可以從具有引導(dǎo)性補(bǔ)救功能的事故管理平臺(tái)中受益。一個(gè)值得注意的例子是能夠直接在聊天中分配角色和任務(wù),以提高責(zé)任感并消除猜測(cè),甚至確定事故類(lèi)型,從而為特定場(chǎng)景制定量身定制的響應(yīng)流程。
此外,生成式AI聊天機(jī)器人可以為響應(yīng)者提供上下文支持和可操作的見(jiàn)解,使他們?cè)诳焖俳鉀Q問(wèn)題時(shí)更加有效。此外,聊天記錄可以自動(dòng)攝取并在新創(chuàng)建的事故后審查中進(jìn)行總結(jié),從而促進(jìn)將事故轉(zhuǎn)化為學(xué)習(xí)機(jī)會(huì)并釋放運(yùn)營(yíng)彈性的過(guò)程。
5.通過(guò)事故后審查改進(jìn)彈性
制定主動(dòng)事故管理策略的一個(gè)重要步驟是進(jìn)行事故后審查。當(dāng)事故得到解決時(shí),團(tuán)隊(duì)往往非常忙碌,以至于他們不得不繼續(xù)前進(jìn),而沒(méi)有檢查促成因素或確定哪些流程可以改進(jìn)。
在重大事件(理想情況下是每個(gè)事件)之后進(jìn)行無(wú)責(zé)備審查對(duì)于持續(xù)迭代地改進(jìn)發(fā)生事件的系統(tǒng)至關(guān)重要。這應(yīng)涵蓋技術(shù)和人為方面。審查必須徹底,并發(fā)現(xiàn)流程缺陷、培訓(xùn)差距或系統(tǒng)漏洞,以改進(jìn)事故管理。
有效地記錄這些審查的結(jié)果——這一過(guò)程可以在AI工具的支持下加速——有助于組織提高彈性并減少未來(lái)事件的影響。持續(xù)學(xué)習(xí)的思維模式將每個(gè)事件都轉(zhuǎn)化為推動(dòng)改進(jìn)事故管理成熟度的機(jī)會(huì)。
事故是不可避免的:滅火不是
事故將繼續(xù)發(fā)生,因此組織需要關(guān)注如何更好地承受它們。通過(guò)跨越運(yùn)營(yíng)鴻溝——從傳統(tǒng)的、被動(dòng)的運(yùn)作方式轉(zhuǎn)變?yōu)橹鲃?dòng)的、自動(dòng)化的事件管理——組織可以更快、更聰明地工作,以提高其服務(wù)的可用性和可靠性。最終,這種轉(zhuǎn)變將改善客戶體驗(yàn),并為可持續(xù)的業(yè)務(wù)持續(xù)增長(zhǎng)鋪平道路。