自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

14天才恢復(fù),業(yè)界近年最大SaaS宕機(jī)事件

云計(jì)算
Atlassian擁有十多年SaaS服務(wù)的運(yùn)維經(jīng)驗(yàn),6年SRE經(jīng)驗(yàn),以及云上業(yè)界標(biāo)準(zhǔn)常見的災(zāi)備和恢復(fù)計(jì)劃,為何這家云服務(wù)廠商,SRE運(yùn)維專家,無(wú)法避免這次大宕機(jī)的發(fā)生?

如果你用來(lái)管理所有開發(fā)項(xiàng)目的平臺(tái),企業(yè)內(nèi)部文件的共享知識(shí)庫(kù),還有業(yè)務(wù)、銷售、和行政部門合作的項(xiàng)目平臺(tái),突然都宕機(jī)了,甚至廠商告訴你,要2周后才能修復(fù),這段期間,所有數(shù)據(jù)無(wú)法存取,也沒(méi)有備份版本可用,你會(huì)怎么辦?這正是775家企業(yè)在Atlassian四月大宕機(jī)事件,所遭遇的處境。

Atlassian是20歲的澳洲老牌軟件開發(fā)商,旗下?lián)碛兄钠髽I(yè)項(xiàng)目管理平臺(tái)Jira,企業(yè)文件協(xié)作平臺(tái)Confluence,還有看板協(xié)作工具Trello。許多大型企業(yè)都采用Jira來(lái)管理公司的敏捷開發(fā)項(xiàng)目,甚至Atllassian還推出給非技術(shù)團(tuán)隊(duì)用的敏捷項(xiàng)目平臺(tái),不少企業(yè)用于業(yè)務(wù)、銷售、商業(yè)分析團(tuán)隊(duì)的敏捷管理。

根據(jù)Atlassian今年3月財(cái)報(bào)數(shù)據(jù),超過(guò)75%的財(cái)富五百?gòu)?qiáng)企業(yè)都是他們的企業(yè)用戶,全球更有23萬(wàn)家企業(yè)采用,光是用Jira Service Management服務(wù)來(lái)進(jìn)行企業(yè)內(nèi)部大型系統(tǒng)開發(fā)項(xiàng)目生命周期管理的企業(yè),就超過(guò)了4萬(wàn)家,不少是大型企業(yè),更有178家企業(yè)每年授權(quán)訂閱費(fèi)用超過(guò)百萬(wàn)美元,相當(dāng)于有數(shù)千人訂閱授權(quán)數(shù)的規(guī)模,甚至訂閱數(shù)最多的一家超大型企業(yè),訂閱了5萬(wàn)個(gè)授權(quán)。Atlassian一年光是訂閱費(fèi)用的營(yíng)收就超過(guò)了13億美元。

雖然Atlassian沒(méi)有公開這次事故受影響的企業(yè)名單,只披露受影響企業(yè)家數(shù)是775家,但其中有400家是活躍使用的企業(yè)。根據(jù)國(guó)外媒體采訪受影響企業(yè)的結(jié)果,小則有150個(gè)授權(quán),大則有訂閱多達(dá)4千個(gè)授權(quán)的企業(yè)。根據(jù)非官方估算,775家受影響企業(yè)下,累積受到?jīng)_擊的個(gè)人使用者超過(guò)了5萬(wàn)人。這起事件也大大重挫了Atlassian市值,從宕機(jī)事件到完全復(fù)原這2周期間,Atlassian股價(jià)足足下滑了近2成,后續(xù)到5月下旬仍持續(xù)下滑中。

Atlassian擁有十多年SaaS服務(wù)的運(yùn)維經(jīng)驗(yàn),6年SRE經(jīng)驗(yàn),以及云上業(yè)界標(biāo)準(zhǔn)常見的災(zāi)備和恢復(fù)計(jì)劃,都無(wú)法事前發(fā)現(xiàn),及時(shí)阻止4月大宕機(jī),無(wú)法在99.9%服務(wù)水準(zhǔn)承諾(SLA) 承諾的8.76小時(shí)內(nèi)復(fù)原,甚至有不少企業(yè)遲遲等到14天后,才能打開自己的敏捷項(xiàng)目數(shù)據(jù)。

為何這家云服務(wù)廠商,SRE運(yùn)維專家,無(wú)法避免這次大宕機(jī)的發(fā)生?

大宕機(jī)事件發(fā)生過(guò)程追追追,一只刪除程序的誤用而釀災(zāi)

回到事件發(fā)生當(dāng)天,4月5日早上,這一天是Atlassian年度大會(huì)Team22的前一天,Atlassian要淘汰一些舊版App,在4月5日這一天刪除這些舊版應(yīng)用的程序。正是這支刪除舊版AP的腳本程序造成了這起宕機(jī)事故。早在實(shí)際執(zhí)行刪除之前,Atlassian測(cè)試過(guò)這只腳本沒(méi)有問(wèn)題,甚至在正式環(huán)境中試刪除了30個(gè)顧客所用的舊版Ap,也沒(méi)有發(fā)生問(wèn)題。

提出刪除申請(qǐng)的業(yè)務(wù)團(tuán)隊(duì),提供了一份目前還在使用這些舊版AP的企業(yè)顧客名單,作為腳本自動(dòng)執(zhí)行刪除的目標(biāo)清單。但是,關(guān)鍵的出錯(cuò)環(huán)節(jié)是,他們提供的ID清單,不是直接提供要?jiǎng)h除AP的ID,而是給了這些待刪除AP ID所在的網(wǎng)站ID清單,再告訴執(zhí)行刪除指令的工程團(tuán)隊(duì),要?jiǎng)h除這些網(wǎng)站ID中的老舊AP。但是,雙方發(fā)生了溝通落差,工程團(tuán)隊(duì)誤以為,這批網(wǎng)站ID就是要?jiǎng)h除的清單,直接套用到刪除腳本來(lái)執(zhí)行。到了4月5日,這只腳本刪除的不是舊版AP,而是刪除了那些還在使用舊版AP的企業(yè)的全部網(wǎng)站數(shù)據(jù)。

釀災(zāi)起因:想刪除老舊App,為何反而刪除顧客全站數(shù)據(jù)?

要了解誤刪的影響,得先知道用APP ID來(lái)刪除,和使用網(wǎng)站ID來(lái)刪除,有何差別?這得從Atlassiant技術(shù)架構(gòu)說(shuō)起。

Atlassiant所有服務(wù)都部署在AWS上,在數(shù)據(jù)儲(chǔ)存上和服務(wù)架構(gòu)上,都采取了高度分布式架構(gòu),以及容易組合再利用的微服務(wù)架構(gòu),并在云上基礎(chǔ)架構(gòu)上來(lái)設(shè)計(jì)了書架管理層和共用的平臺(tái)服務(wù)層,也通過(guò)API串連到許多第三方廠商的應(yīng)用。所有微服務(wù)都布建在AWS的容器化服務(wù)上,更搭配了一套PaaS服務(wù),稱為Micros,來(lái)提供內(nèi)部微服務(wù)的自動(dòng)化構(gòu)建。從公共服務(wù)部署、基礎(chǔ)架構(gòu)資源調(diào)度、數(shù)據(jù)儲(chǔ)存管理、合規(guī)性管制都靠這個(gè)平臺(tái)自動(dòng)完成。

另外在管理架構(gòu)上,Atlassian采取了多租戶架構(gòu),并以網(wǎng)域作為單一用戶的最基本管理單位,這就是網(wǎng)站ID。企業(yè)要指定一個(gè)網(wǎng)址作為登入Atlassian服務(wù)的主要入口網(wǎng)站,也把他們所訂閱的所有Atlassian服務(wù),都登記到這個(gè)網(wǎng)址下。Atlassian也稱這個(gè)網(wǎng)址是一個(gè)網(wǎng)站容器,用來(lái)容納屬于這個(gè)企業(yè)顧客的所有數(shù)據(jù)、配置和所用的APP。網(wǎng)站ID就是用來(lái)識(shí)別一家企業(yè)的網(wǎng)站容器的代號(hào)。

Atlassian的技術(shù)架構(gòu)采取了分布式架構(gòu),不只在云端基礎(chǔ)架構(gòu)采取分布式架構(gòu)來(lái)提高可用性,在應(yīng)用系統(tǒng)層次,也采取了多租戶微服架構(gòu)設(shè)計(jì)來(lái)兼顧彈性和可用性。

圖片來(lái)源/Atlassian

Atlassian的網(wǎng)站ID(企業(yè)顧客網(wǎng)站URL網(wǎng)址)也是一個(gè)網(wǎng)站容器,將一家企業(yè)的所有數(shù)據(jù)、配置和所用的APP,都登記到這個(gè)網(wǎng)站ID來(lái)管理。

圖片來(lái)源/Atlassian

Atlassian也用這個(gè)網(wǎng)站ID來(lái)作為識(shí)別一個(gè)企業(yè)用戶帳號(hào)的代號(hào),所有與這家企業(yè)有關(guān)的數(shù)據(jù)、表單、帳單,也都用這個(gè)網(wǎng)站ID來(lái)作為識(shí)別客戶的索引,例如企業(yè)顧客提出支持工單時(shí),這張工單就會(huì)用網(wǎng)站ID作為所屬客戶的代號(hào)。

當(dāng)Atlassian業(yè)務(wù)單位提出了一份要?jiǎng)h除老舊APP的網(wǎng)站ID,希望刪除他們所用的老舊AP。但是負(fù)責(zé)執(zhí)行的團(tuán)隊(duì),誤以為要?jiǎng)h除這一批AP ID所在的網(wǎng)站ID。這就不只是刪除了AP,而是刪除了采用這些AP的企業(yè)所擁有的全部AP和數(shù)據(jù)。

4月5日7:38,開始執(zhí)行舊版AP刪除腳本,工程團(tuán)隊(duì)也沒(méi)有接到任何通知,警告有企業(yè)顧客的網(wǎng)站遭刪除,因?yàn)檫@是一只獲得合法授權(quán)的刪除。但是,不到10分鐘,就有企業(yè)發(fā)現(xiàn)自己所用的Jira網(wǎng)站失聯(lián),提出第一張宕機(jī)支持工單。刪除腳本在8點(diǎn)多執(zhí)行完畢,事后調(diào)查,一口氣刪除了775家企業(yè)所擁有的883個(gè)網(wǎng)站。受影響的產(chǎn)品包括了Jira 產(chǎn)品系列、Confluence文件協(xié)作平臺(tái)、Atlassian Access登入機(jī)制、Opsgenie 事件應(yīng)變服務(wù),甚至是網(wǎng)站狀態(tài)查詢頁(yè)Statuspage。這些受影響企業(yè),不只無(wú)法連線登入,甚至連要檢視所用服務(wù)的運(yùn)作狀態(tài)頁(yè)都打不開。

接連有不少顧客提出宕機(jī)工單,Atlassian決定在8:17啟動(dòng)重大事件管理流程,也組織了跨部門事件管理團(tuán)隊(duì),找來(lái)工程部門、客戶支持團(tuán)隊(duì)、項(xiàng)目管理團(tuán)隊(duì)和對(duì)外溝通部門,聯(lián)手展開事故調(diào)查,每3小時(shí)開會(huì)一次,并在8:24將事件狀態(tài)提升到「危急」?fàn)顟B(tài)。不到20分鐘,工程團(tuán)隊(duì)就發(fā)現(xiàn)了事故的根本原因,是腳本誤刪數(shù)據(jù)而非黑客攻擊,9:03時(shí)首度在服務(wù)狀態(tài)網(wǎng)頁(yè)中揭露發(fā)生宕機(jī)事故。

找出事故原因之后,下一步就是要盡快解決問(wèn)題,恢復(fù)顧客所訂閱的服務(wù)。Atlassian開始嘗試建立一套標(biāo)準(zhǔn)化的復(fù)原方法,但卻發(fā)現(xiàn),要復(fù)原一個(gè)遭到刪除的網(wǎng)站,得建立新網(wǎng)站、復(fù)原每個(gè)下游產(chǎn)品、服務(wù)及還原數(shù)據(jù)所需的資料,還須與各網(wǎng)站所用第三方生態(tài)系廠商重建連結(jié),相關(guān)復(fù)原步驟高達(dá)70個(gè)。他們才發(fā)現(xiàn),要復(fù)原這些網(wǎng)站的復(fù)雜性遠(yuǎn)超過(guò)他們的想像,所以在12:38時(shí)將這起事件的嚴(yán)重等級(jí)提升到「最高等級(jí)」,這時(shí)距離事故發(fā)生,已經(jīng)超過(guò)了5小時(shí)。

Atlassian宕機(jī)后不久,越來(lái)越多顧客在Twitter上抱怨,因?yàn)镴ira是許多企業(yè)用來(lái)管理敏捷開發(fā)項(xiàng)目的主要平臺(tái),無(wú)法使用,就等于無(wú)法進(jìn)行敏捷項(xiàng)目的開發(fā),連要打開項(xiàng)目工單來(lái)知道該處理哪些工作都沒(méi)有辦法。這股抱怨聲浪越來(lái)越大,越來(lái)越多人發(fā)現(xiàn),這起宕機(jī)事件持續(xù)時(shí)間越來(lái)越久,超過(guò)了8、9個(gè)小時(shí),Atlassian所承諾的99.9%可用性承諾已經(jīng)失守。

不少受影響的企業(yè)用戶在Twitter上抱怨,他們連要向Atlassian通報(bào)宕機(jī)問(wèn)題,或是申請(qǐng)支持工單都做不到,也有人是發(fā)出申請(qǐng)后,遲遲沒(méi)有得到官方回應(yīng),仿佛Atlassian的服務(wù)窗口失聯(lián)一樣,無(wú)法通過(guò)原本的線上管道來(lái)接觸。

直到事故發(fā)生后17個(gè)小時(shí),Atlassian才發(fā)電子郵件通知受影響顧客,并開始打電話聯(lián)系,對(duì)他們說(shuō)明,而這時(shí)已經(jīng)引起不少媒體的關(guān)注,開始大舉報(bào)導(dǎo)這起大宕機(jī)事件。

直到事件發(fā)生后快2天,Atlassian才發(fā)布第一份宕機(jī)事件的官方公開聲明。而Atlassian的合作伙伴,則還等到事故后第2天快結(jié)束時(shí),才開始接到通知。因?yàn)殄礄C(jī)事故遲遲無(wú)法解決,Atlassian共同創(chuàng)辦人也以個(gè)人名義發(fā)信,親自向顧客說(shuō)明復(fù)原進(jìn)度緩慢的原因。

4月8日,也就是事件發(fā)生后的第四天,Atlassian終于成功復(fù)原了第一家受影響顧客的網(wǎng)站??墒?,復(fù)原團(tuán)隊(duì)這才發(fā)現(xiàn),采用第一版復(fù)原方法,需要48小時(shí)才能恢復(fù)一批網(wǎng)站,因?yàn)樾枰罅咳斯げ僮?,只能分批?fù)原,若要全面復(fù)原剩下的網(wǎng)站,還需要3周時(shí)間,所以,也開始改良復(fù)原程序。同一天,Atlassian也對(duì)所有工程部門實(shí)施代碼凍結(jié),禁止任何異動(dòng),來(lái)降低顧客數(shù)據(jù)不一致的變更風(fēng)險(xiǎn)

過(guò)了一天,4月9日開始啟用第二套復(fù)原方法,將原本70道程序,大幅減少到只剩下30道程序。第二套做法重建顧客網(wǎng)站時(shí),不是建立新的網(wǎng)站ID,而是直接沿用了顧客的舊網(wǎng)站ID,因此,大幅減少新舊ID比對(duì)的步驟,也不用再逐一與第三方程式供應(yīng)商溝通,節(jié)省大量時(shí)間。這時(shí)有771個(gè)誤刪網(wǎng)站,可以改用第二套方法來(lái)復(fù)原。

不過(guò),第二套方法還是需要大量手動(dòng)操作,直到4月11日,Atlassian工程團(tuán)隊(duì)打造出自動(dòng)化復(fù)原工具,來(lái)加速第二套方法的時(shí)間,才將復(fù)原時(shí)間縮短到12小時(shí),這時(shí)候,Atlassian才在工單中向顧客承諾,可以在事故后2周內(nèi)復(fù)原。

到了4月14日,采用第一版復(fù)原方法復(fù)原的網(wǎng)站達(dá)到112個(gè)網(wǎng)站,不再繼續(xù)使用。Atlassian也打造出復(fù)原網(wǎng)站的完整驗(yàn)證腳本,不再需要人工驗(yàn)證,更加快了其他網(wǎng)站的復(fù)原速度,到了4月16日10:05 ,就完成所有網(wǎng)站的復(fù)原和自動(dòng)驗(yàn)證,但還沒(méi)經(jīng)過(guò)顧客確認(rèn)。隔天21:48,最后一位受影響顧客完成復(fù)原確認(rèn)。Atlassian就在4月18日1:00宣布,受影響網(wǎng)站100%復(fù)原。這時(shí),距離事故發(fā)生已經(jīng)近14天,不過(guò),宣布當(dāng)時(shí),仍有57個(gè)網(wǎng)站,因?yàn)閺?fù)原資料的時(shí)間點(diǎn)過(guò)早,比原訂「當(dāng)機(jī)前5分鐘」的復(fù)原時(shí)間點(diǎn),還要更早,還需要追補(bǔ)后來(lái)異動(dòng)的資料。

到了4月底,Atlassian發(fā)布了四月大宕機(jī)事件的完整事后分析報(bào)告。

責(zé)任編輯:趙寧寧 來(lái)源: IT168網(wǎng)站
相關(guān)推薦

2019-03-04 11:05:20

阿里云宕機(jī)阿里巴巴

2019-05-17 10:12:52

Linux系統(tǒng)Unix

2011-04-25 10:32:30

亞馬遜云計(jì)算

2012-12-14 13:03:12

SaaS工具公有云宕機(jī)

2014-09-24 18:43:34

2011-08-18 09:18:10

宕機(jī)服務(wù)器

2013-08-21 16:09:44

SaaSSaaS應(yīng)用軟件即服務(wù)

2012-08-31 11:39:57

SaaS云計(jì)算軟件運(yùn)營(yíng)服務(wù)

2018-02-23 10:54:41

2018-09-12 15:21:05

云宕機(jī)云計(jì)算數(shù)據(jù)中心

2013-07-23 16:08:54

微信

2010-03-31 15:27:51

云計(jì)算

2023-10-22 11:17:50

AOFRedis數(shù)據(jù)庫(kù)

2013-02-07 23:37:00

華為OTN容量

2013-04-17 16:06:53

華為打分光比技術(shù)eOTDR樣機(jī)

2010-10-18 09:10:57

Google日歷宕機(jī)

2020-01-21 21:36:39

宕機(jī)網(wǎng)絡(luò)服務(wù)中斷互聯(lián)網(wǎng)

2018-07-24 16:40:29

MySQL主從架構(gòu)主庫(kù)宕機(jī)

2021-01-21 13:42:46

SaaS云計(jì)算

2013-05-31 09:26:11

云宕機(jī)SLA云應(yīng)用彈性
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)