自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

公司新來了個(gè)90后,把舊的DRP“吊打”和“按到地上摩擦”

原創(chuàng)
運(yùn)維 系統(tǒng)運(yùn)維
常言道:流水不腐、戶樞不蠹。您企業(yè)的災(zāi)難恢復(fù)計(jì)劃是否 N 久沒被更新了?我們來看看一位 90 后是如何對(duì) DRP 進(jìn)行整改的案例。

【51CTO.com原創(chuàng)稿件】常言道:流水不腐、戶樞不蠹。您企業(yè)的災(zāi)難恢復(fù)計(jì)劃是否 N 久沒被更新了?我們來看看一位 90 后是如何對(duì) DRP 進(jìn)行整改的案例。

[[216314]]

話說我們公司應(yīng)急響應(yīng)中心新來了一位小嵇同學(xué)。作為典型的90后,他受過良好教育、個(gè)性張揚(yáng)、特立獨(dú)行。

那天,他對(duì)我們說:他覺得咱們現(xiàn)在的 DRP(災(zāi)難恢復(fù)計(jì)劃)就像他過去彈鋼琴一樣,存在著如下三大問題

我們當(dāng)初聽過了后,也沒在意。可沒想到幾日后,他在某次 IT 管理層會(huì)議上,一邊問著:“驚喜不驚喜?意外不意外?”,一邊向我們展示了他改進(jìn)后的 DRP。

大家雖然不喜歡這種粗暴的“手撕”方式,但耐著性子認(rèn)真閱讀之后,也不得不承認(rèn)他的更改的確解鎖了一些新技能,并填補(bǔ)了一些老坑點(diǎn)。

總的來說,這份新的 DRP 基本上“沒毛病”。下面就讓我們來具體看看他在原來的基礎(chǔ)上做了哪些改進(jìn)。

事前篇

清晰定義“災(zāi)難”

“傻傻”分不清楚,但是你要分清楚

原來的 DRP 上手就談如何應(yīng)對(duì)災(zāi)難,可是公司上上下下在多數(shù)情況下,經(jīng)常會(huì)混淆問題(Problem)、緊急情況(Emergency)與災(zāi)難(Disaster)之間的細(xì)微差別,并造成了一旦出事就“匆忙上陣”,出現(xiàn)人浮于事的狀況。

因此,他開宗明義地做了如下定義:

  • 問題:是指單個(gè)或少量的計(jì)劃外的業(yè)務(wù)和/或服務(wù)中斷或質(zhì)量水平驟降,造成損失較輕,直接責(zé)任部門容易迅速實(shí)施補(bǔ)救。

不涉及到 DRP 和 DR 相關(guān)團(tuán)隊(duì),一般小于 24 小時(shí)。

  • 緊急情況:是指多個(gè)不可預(yù)見性的業(yè)務(wù)和/或服務(wù)中斷情況的組合,造成了一定的損失或破壞,多個(gè)部門需要盡快解決。

DR 相關(guān)團(tuán)隊(duì)需時(shí)刻根據(jù)實(shí)際情況觸發(fā) DRP,一般大于 24 小時(shí)但小于 48 小時(shí)。

  • 災(zāi)難:是指成規(guī)模的對(duì)資產(chǎn)和/或服務(wù)造成了損害、損失或破壞的重大事件。需要公司管理層的參與。

DR 相關(guān)團(tuán)隊(duì)立即啟用 DRP 并分步驟實(shí)施 DR,一般大于 48 小時(shí)。

厘清上述關(guān)系,可見對(duì)于掌握 DRP 的觸發(fā)條件是至關(guān)重要的,而后續(xù)的恢復(fù)活動(dòng)才能夠有的放矢地進(jìn)行開展。

BIA + RA

“預(yù)則立,不預(yù)則廢” 

業(yè)務(wù)系統(tǒng)在日常運(yùn)營過程中,可能發(fā)生的各種災(zāi)難,對(duì)我們來說就是“天災(zāi)人禍”類的重大事件。

過去的 DRP 對(duì)于當(dāng)前的生產(chǎn)系統(tǒng)來說不但已經(jīng)陳舊,而且有著較大的出入。

因此要想達(dá)到有條不紊的恢復(fù)效果,就需要通過 BIA(業(yè)務(wù)影響分析)和 RA(風(fēng)險(xiǎn)分析)來識(shí)別出那些與本公司日常運(yùn)營密切相關(guān)的職能模塊和關(guān)鍵應(yīng)用。

小嵇通過參考各種 SLA(服務(wù)水平協(xié)議)、事故記錄、以及內(nèi)/外審報(bào)告,對(duì)各類主/次要系統(tǒng)定義了 MTD(最大允許中斷時(shí)間),區(qū)分了輕重緩急,并排定了恢復(fù)的先后次序。

在 BIA 中,他依次以“業(yè)務(wù)職能”和“關(guān)鍵應(yīng)用”兩大部分為出發(fā)點(diǎn),分別根據(jù)關(guān)鍵(1-4 小時(shí))、緊急(24 小時(shí))、重要(72 小時(shí))、一般(7 天)、非必要(30 天)五種 MTD,擬出了 2×5 =10 張表格。

下面就是兩類表頭的示例,大家可以批判地審視一下:

上述的 BIA 主要從“知己”的角度出發(fā),為了實(shí)現(xiàn)“百戰(zhàn)不殆”的小目標(biāo),它還努力定義了“知彼”,即 RA。

下面就是他依次引入的三個(gè)維度的參考指標(biāo):

  • 內(nèi)/外部威脅源或威脅代理:自然層面上的各種災(zāi)害;技術(shù)層面的,如軟/硬件損壞所造成的大量數(shù)據(jù)丟失和分布式拒絕服務(wù)攻擊等。

支撐系統(tǒng)方面的,如供電、空調(diào)和接入網(wǎng)絡(luò)等;以及人為方面,如故意使用惡意軟件進(jìn)行破壞和操作疏忽與失誤等。

  • 風(fēng)險(xiǎn)可能性:基于過往事件/事故的記錄、放置和使用區(qū)域特征、相關(guān)合規(guī)要求、自身魯棒性,得出高中低的性質(zhì)。
  • 影響范圍:整個(gè)組織/所有外部客戶、多個(gè)站點(diǎn)/多個(gè)系統(tǒng)與服務(wù)、或是單個(gè)站點(diǎn)/單個(gè)系統(tǒng)。

最后將這些都對(duì)應(yīng)到各個(gè)業(yè)務(wù)模塊上形成風(fēng)險(xiǎn)分析的矩陣。由此可見,他通過對(duì)現(xiàn)有系統(tǒng)的全方位、立體“掃描”和剖析,掃清了識(shí)別層面上的“死角”,為必要時(shí)的全面復(fù)盤做好了基礎(chǔ)性的準(zhǔn)備工作。

團(tuán)隊(duì)與責(zé)任

拒絕懵逼、也拒絕“布朗運(yùn)動(dòng)”

舊的 DRP 僅簡單定義了一個(gè)應(yīng)急響應(yīng)小組來全面履行災(zāi)難恢復(fù),可是有過實(shí)戰(zhàn)經(jīng)驗(yàn)的小伙伴一定知道,這種“低配”是完全不夠的。

在此,小嵇同學(xué)細(xì)化并深耕了 DR 團(tuán)隊(duì),并為他們“賦能”。下面讓我們來看看這些“破壁”的人們需要哪些必備的技能,才能幫助我們把災(zāi)難懟回去:

恢復(fù)管理團(tuán)隊(duì):

  • 設(shè)置緊急熱線電話、保持“呼叫樹(Call Tree)”的準(zhǔn)確性。
  • 審查通知模板、災(zāi)難評(píng)估報(bào)告、測試結(jié)果。
  • 確保相關(guān)人員的技能和意識(shí)培訓(xùn)、以及演練的落實(shí)。
  • 定期審閱 DRP 并落實(shí)更新。
  • 批準(zhǔn)和控制恢復(fù)全程的成本。
  • 檢查確認(rèn)系統(tǒng)的恢復(fù)。

損失評(píng)估團(tuán)隊(duì):

  • 評(píng)估災(zāi)難影響程度、量化損失以獲賠償。
  • 起草并提交損失報(bào)告。

設(shè)施資源團(tuán)隊(duì):

  • 編錄并更新生產(chǎn)環(huán)境中的軟/硬件列表和備件庫存情況。
  • 保證能在必要時(shí)獲取外部服務(wù)與支援。
  • 維護(hù)離站資源和備用站點(diǎn),提供各類相關(guān)的參考文檔和操作手冊(cè)。
  • 必要時(shí)安排離站資源向受損主站的調(diào)配,以及人員轉(zhuǎn)往備用站點(diǎn)的各種后勤。

技術(shù)恢復(fù)團(tuán)隊(duì):

  • 向評(píng)估團(tuán)隊(duì)提供必要的技術(shù)和數(shù)據(jù)信息。
  • 提出過渡性的臨時(shí)運(yùn)營方案。
  • 按照既定的順序執(zhí)行具體災(zāi)難恢復(fù)的各項(xiàng)技術(shù)操作。
  • 防止次生災(zāi)難的發(fā)生。
  • 災(zāi)難期間,對(duì)備用站點(diǎn)提供各項(xiàng)技術(shù)支持。
  • 事后總結(jié),提出加固方案,并更新 DRP。

公關(guān)法務(wù)團(tuán)隊(duì):

  • 在各個(gè)階段,保持與各個(gè)方面的溝通,并使用既定的模板進(jìn)行相關(guān)發(fā)布。
  • 給予法律、合規(guī)方面的指導(dǎo)。
  • 如有必要,則實(shí)施電子或物理取證。

由上可見,在“大難臨頭”之時(shí),如果沒有明確規(guī)定好計(jì)劃中相對(duì)應(yīng)的團(tuán)隊(duì)角色和其負(fù)有的職責(zé)的話,別說什么組隊(duì)打“怪”了,只要出現(xiàn)一位“豬一樣的隊(duì)友”,大家就真的只能去“領(lǐng)盒飯”了。

事中篇

設(shè)定應(yīng)對(duì)流程

“審判日”的絕地反擊 

曾經(jīng)的 DRP 在這個(gè)環(huán)節(jié)寫得“頭重腳輕”,開始響應(yīng)階段細(xì)致入微,甚至有些吹毛求疵,而實(shí)際操作中并無過多的時(shí)間去層層報(bào)告和批示。

另外,在原 DRP 中,其恢復(fù)過程過于“速度與激情”化,導(dǎo)致業(yè)務(wù)回歸上線后就草草收?qǐng)?,缺乏必要的確認(rèn)與總結(jié),而小嵇改版后的 DRP 則能明顯體現(xiàn)“步步為營”的流程感。

讓我們一起往下看:

  • 事故出現(xiàn),初步檢測與識(shí)別,并定性災(zāi)難。
  • 通知管理層,吹響 DR 團(tuán)隊(duì)的“集結(jié)號(hào)”。
  • DR 團(tuán)隊(duì)迅速拍馬趕到,各司其職,展開深入調(diào)查與取證。
  • 損失評(píng)估,分析災(zāi)難源、填寫如下災(zāi)難評(píng)估模板。(注意:評(píng)估報(bào)告需在災(zāi)難發(fā)生的 4 小時(shí)之內(nèi)完成并提交。)

  • 對(duì)內(nèi)/對(duì)外宣告災(zāi)難。注意對(duì)內(nèi)可以使用不同顏色的通知模板,以便受眾一目了然。對(duì)外提供可能問及的技術(shù)細(xì)節(jié)解答和支持。
  • 在受災(zāi)處,根據(jù)主次關(guān)系和既定順序,先抑制再恢復(fù),逐步實(shí)施各種基礎(chǔ)設(shè)施、通信線路、硬件、軟件的安裝和配置、以及數(shù)據(jù)的恢復(fù)。

在 DR 的各項(xiàng)活動(dòng)中,除了要注意各個(gè) RTO 與“里程碑”外,也要注意填寫并提交如下的日志檢查表。

  • 實(shí)時(shí)評(píng)估并驗(yàn)證恢復(fù)的有效性。如有必要,迅速修改恢復(fù)流程與方法,避免滋生次生破壞。
  • 各個(gè)受影響的部門對(duì)災(zāi)難的恢復(fù)結(jié)果予以確認(rèn),并對(duì)內(nèi)/外宣布完成。
  • 總結(jié)評(píng)審執(zhí)行效果,分析與原計(jì)劃的偏離,并提出改進(jìn)措施。

事后篇

更新與測試

自建生態(tài),形成閉環(huán)

我們或許都有這樣的共識(shí):IT 服務(wù)和系統(tǒng)是隨著企業(yè)的業(yè)務(wù)動(dòng)態(tài)生長,并不斷迭代的,可見舊版本的 DRP 之所以能被小嵇“吊打”和“按到地上摩擦”,就是因?yàn)樗槍?duì)的是彼時(shí)多年前的系統(tǒng)狀態(tài)。

因此,為了防止老化和淘汰,小嵇版本的 DRP 特地在最后部分增加了按需更新和例行測試。

具體來說,他羅列到的更新觸發(fā)條件包括如下因素的增加、變更與淘汰:

  • 服務(wù)器/用戶端硬件設(shè)備與模塊
  • 網(wǎng)絡(luò)設(shè)備、連接與架構(gòu)環(huán)境
  • 機(jī)房、數(shù)據(jù)中心與外部鏈路
  • 關(guān)鍵軟件程序、應(yīng)用平臺(tái)和服務(wù)系統(tǒng)
  • 辦公自動(dòng)化(OA)與協(xié)同(Collaboration)相關(guān)軟/硬件產(chǎn)品
  • 關(guān)鍵配置與數(shù)據(jù)格式
  • 服務(wù)策略(SLA)與員工規(guī)則

為了避免出現(xiàn)“扎心了,老鐵,這方案沒法實(shí)施”的情況發(fā)生,小嵇也定義了相應(yīng)的例行維護(hù)與測試頻率:

俗話說:貓有九條命,但是我們的業(yè)務(wù)服務(wù)系統(tǒng)可沒有那么多的命哦。

因此,唯有保持 DRP 可操作性和可實(shí)現(xiàn)性,才能讓這個(gè)所謂的剛性需求不斷地“滿血復(fù)活”。

小結(jié)

前些時(shí)“第一批 90 后已經(jīng)…”的各種段子刷爆了微信朋友圈。

但是不可否認(rèn)的是 90 后一代正在成為企業(yè)內(nèi)的中堅(jiān)技術(shù)力量,并正在逐步向管理崗位邁進(jìn)。

雖然我們公司里的 90 后在技術(shù)水平上經(jīng)常被黑,但是講真:這次以小嵇為代表的 90 后對(duì)于 DRP 的大刀闊斧式的改進(jìn),讓我們這些自稱佛系,卻時(shí)常油膩的 70 后老年人不得不刮目相看了。

[[216317]]

作者:陳峻

陳峻(Julian Chen) ,有著十多年的 IT 項(xiàng)目、企業(yè)運(yùn)維和風(fēng)險(xiǎn)管控的從業(yè)經(jīng)驗(yàn),日常工作深入系統(tǒng)安全各個(gè)環(huán)節(jié)。作為 CISSP 證書持有者,他在各專業(yè)雜志上發(fā)表了《IT運(yùn)維的“六脈神劍”》、《律師事務(wù)所IT服務(wù)管理》 和《股票交易網(wǎng)絡(luò)系統(tǒng)中的安全設(shè)計(jì)》等論文。他還持續(xù)分享并更新《廉環(huán)話》系列博文和各種外文技術(shù)翻譯,曾被(ISC)2 評(píng)為第九屆亞太區(qū)信息安全領(lǐng)袖成就表彰計(jì)劃的“信息安全踐行者”和 Future-S 中國 IT 治理和管理的 2015 年度踐行人物。

【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】

 

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2021-06-07 08:26:35

P8員工公司

2021-03-02 12:27:55

操作系統(tǒng)面試

2021-08-31 09:04:29

Kubernetes 運(yùn)維開源

2017-07-19 09:54:31

數(shù)據(jù)CIO

2022-07-04 09:43:46

RabbitMQ消息消息隊(duì)列

2017-11-28 16:31:32

硬盤PythonJava

2017-11-28 10:09:08

語言JavaGo

2015-07-23 15:25:26

90后態(tài)度

2015-08-03 09:08:41

公司賣掉發(fā)工資

2015-08-03 10:08:36

公司變賣

2010-08-17 16:14:30

無線路由AP

2023-01-04 17:19:21

MQ消息中間件

2014-06-11 09:04:32

游戲化管理

2024-03-21 14:21:48

系統(tǒng)重構(gòu)

2020-07-27 08:26:03

數(shù)據(jù)庫 SQL索引

2020-11-13 07:08:51

Spring Boot應(yīng)用Spring

2017-11-30 14:59:31

Go互聯(lián)網(wǎng)技術(shù)棧

2014-08-01 14:32:29

創(chuàng)業(yè)90后創(chuàng)業(yè)

2021-02-04 09:09:09

iOS 14.5 Be蘋果解鎖

2019-08-22 10:07:33

程序員開發(fā)危機(jī)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)