自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

企業(yè)如何預(yù)防云災(zāi)難

云計(jì)算
在互聯(lián)網(wǎng)服務(wù)領(lǐng)域,系統(tǒng)的可靠性對于保持品牌聲譽(yù)和客戶信任至關(guān)重要。本文探討了頂級科技公司如何通過巧妙的人力管理和技術(shù)策略來激勵(lì)工程團(tuán)隊(duì)專注于系統(tǒng)的可靠性建設(shè)。

大公司非常努力地確保他們的服務(wù)不出故障,原因很簡單,重大宕機(jī)會損害品牌,并將客戶推向具有更好穩(wěn)定性記錄的競爭產(chǎn)品。

構(gòu)建可靠的互聯(lián)網(wǎng)服務(wù)是一個(gè)復(fù)雜的技術(shù)問題,但對公司領(lǐng)導(dǎo)者來說,這也是一個(gè)人力挑戰(zhàn)。激勵(lì)工程團(tuán)隊(duì)投入于可靠性工作的難度在于,這類工作往往被認(rèn)為沒有開發(fā)新功能那么吸引人。

在大規(guī)模運(yùn)營中,激勵(lì)機(jī)制占主導(dǎo)地位。頂級科技公司雇傭了成千上萬的員工,并運(yùn)營數(shù)百個(gè)互聯(lián)網(wǎng)服務(wù)。多年來,他們想出了巧妙的方法,確保工程師構(gòu)建可靠的系統(tǒng)。本文討論了那些歷史上最成功的科技公司在大規(guī)模環(huán)境中采用的人力管理技術(shù),無論你是員工還是領(lǐng)導(dǎo)者,都可以將這些技術(shù)應(yīng)用于你的公司。

轉(zhuǎn)動命運(yùn)之輪

AWS的運(yùn)營評審是每周一次的會議,面向整個(gè)公司開放。每次會議都會轉(zhuǎn)動“幸運(yùn)輪”,隨機(jī)選擇數(shù)百個(gè)AWS服務(wù)中的一個(gè)進(jìn)行實(shí)時(shí)審查。被抽中的團(tuán)隊(duì)必須回答有經(jīng)驗(yàn)的運(yùn)營領(lǐng)導(dǎo)提出的關(guān)于儀表盤和指標(biāo)的尖銳問題。會議有數(shù)百名員工、數(shù)十位總監(jiān)和幾位副總裁參加。

這激勵(lì)了每個(gè)團(tuán)隊(duì)具備基本的運(yùn)營能力。即使某個(gè)團(tuán)隊(duì)被選中的概率很低(在AWS,低于1%),但作為團(tuán)隊(duì)的經(jīng)理或技術(shù)負(fù)責(zé)人,你肯定不希望在半個(gè)公司面前顯得一無所知,尤其是在你“運(yùn)氣不佳”的那一天。

定期審查可靠性指標(biāo)非常重要。對運(yùn)營健康狀況感興趣的領(lǐng)導(dǎo)者會為整個(gè)企業(yè)樹立這樣的基調(diào)?!稗D(zhuǎn)動命運(yùn)之輪”只是實(shí)現(xiàn)這一目標(biāo)的工具之一。

但是,在這些運(yùn)營評審中你應(yīng)該做些什么呢?這就引出了下一個(gè)關(guān)鍵點(diǎn)。

設(shè)定可量化的可靠性目標(biāo)

你可能希望有“高正常運(yùn)行時(shí)間”或“五個(gè)九”(99.999%的可用性),但這些對你的客戶意味著什么呢?實(shí)時(shí)互動(如聊天)的延遲容忍度遠(yuǎn)低于異步工作負(fù)載(如訓(xùn)練機(jī)器學(xué)習(xí)模型、上傳視頻)。你的目標(biāo)應(yīng)反映客戶關(guān)心的內(nèi)容。

在審查團(tuán)隊(duì)的指標(biāo)時(shí),讓他們描述可量化的可靠性目標(biāo)。確保你理解他們?yōu)楹芜x擇這些目標(biāo),也讓他們清楚這一點(diǎn),然后,讓他們使用儀表盤證明這些目標(biāo)已實(shí)現(xiàn)。設(shè)定可量化的目標(biāo)有助于你以數(shù)據(jù)驅(qū)動的方式優(yōu)先考慮可靠性工作。

關(guān)注問題的檢測非常重要。如果你在他們的儀表盤上看到異常,詢問他們問題的原因,同時(shí)問他們的值班人員是否接到了通知。理想情況下,你應(yīng)該在客戶發(fā)現(xiàn)問題之前就察覺到問題的存在。

擁抱混亂

云計(jì)算彈性領(lǐng)域最具革命性的思維轉(zhuǎn)變之一是將故障注入到生產(chǎn)環(huán)境中。Netflix將這一概念正式化為“混沌工程”——這個(gè)概念和它的名字一樣酷。

Netflix希望激勵(lì)其工程師構(gòu)建容錯(cuò)系統(tǒng),而不是通過微觀管理來實(shí)現(xiàn)。他們認(rèn)為,如果將系統(tǒng)性故障常態(tài)化而不是視為例外,工程師將不得不構(gòu)建容錯(cuò)系統(tǒng)。雖然花了一些時(shí)間實(shí)現(xiàn)這一點(diǎn),但在Netflix,生產(chǎn)環(huán)境中從單個(gè)服務(wù)器到整個(gè)可用區(qū)都會被常規(guī)性地“淘汰”。每個(gè)服務(wù)都被期望能夠自動吸收這些故障,而不影響服務(wù)可用性。

這種策略既昂貴又復(fù)雜,但如果你發(fā)布的產(chǎn)品需要高正常運(yùn)行時(shí)間是絕對必要的,那么在生產(chǎn)環(huán)境中注入故障是獲得類似“正確性證明”的一種非常有效的方法。如果你的產(chǎn)品需要這樣做,盡早引入這一策略。未來不會比現(xiàn)在更簡單或更便宜。

如果混沌工程看起來有些過于激進(jìn),至少應(yīng)要求團(tuán)隊(duì)每年進(jìn)行一到兩次“演習(xí)日”(模擬宕機(jī)演練),或者在推出任何重大功能前進(jìn)行。在演習(xí)日中,會有三種指定角色——第一個(gè)角色模擬宕機(jī),第二個(gè)角色在事先不知曉問題的情況下修復(fù)它,第三個(gè)角色觀察并做詳細(xì)記錄。事后,整個(gè)團(tuán)隊(duì)?wèi)?yīng)該聚在一起對模擬事件進(jìn)行復(fù)盤(參見下文)。演習(xí)日不僅會揭示系統(tǒng)在處理宕機(jī)時(shí)的不足,還會暴露出工程師應(yīng)對這些問題的差距。

制定嚴(yán)格的復(fù)盤流程

一個(gè)公司的復(fù)盤流程能反映出其文化。頂級科技公司都要求團(tuán)隊(duì)對重大宕機(jī)撰寫復(fù)盤報(bào)告。報(bào)告應(yīng)描述事件、探究根本原因,并提出預(yù)防措施。復(fù)盤應(yīng)嚴(yán)格執(zhí)行并保持高標(biāo)準(zhǔn),但這一過程不應(yīng)指責(zé)個(gè)人。復(fù)盤撰寫是一種糾正行為,而不是懲罰行為。如果某個(gè)工程師犯了錯(cuò)誤,意味著存在允許這一錯(cuò)誤發(fā)生的潛在問題。或許你需要更好的測試流程,或是更完善的關(guān)鍵系統(tǒng)保護(hù)措施。深入挖掘這些系統(tǒng)性漏洞并加以修復(fù)。

設(shè)計(jì)一個(gè)健全的復(fù)盤流程可以單獨(dú)寫成一篇文章,但可以肯定的是,擁有一個(gè)這樣的流程將大大減少下次宕機(jī)的發(fā)生。

獎勵(lì)可靠性工作

如果工程師認(rèn)為只有開發(fā)新功能才能帶來加薪和晉升,那么可靠性工作將會被擱置。大多數(shù)工程師,無論資歷如何,都應(yīng)為運(yùn)營卓越做出貢獻(xiàn)。在績效評估中獎勵(lì)可靠性改進(jìn)工作。讓資深工程師為他們所監(jiān)督系統(tǒng)的穩(wěn)定性負(fù)責(zé)。

雖然這個(gè)建議看似顯而易見,但卻很容易被忽視。

結(jié)論

本文探討了一些將可靠性融入公司文化的基本工具。初創(chuàng)公司和早期階段的公司通常不會優(yōu)先考慮可靠性。這可以理解——你們的公司必須專注于驗(yàn)證產(chǎn)品與市場的匹配,以確保生存,然而,一旦你擁有了回頭客,你公司的未來將依賴于保持信任。人類通過可靠性贏得信任,互聯(lián)網(wǎng)服務(wù)也是如此。

責(zé)任編輯:華軒 來源: 企業(yè)網(wǎng)D1Net
相關(guān)推薦

2021-08-26 23:01:41

人工智能氣候大數(shù)據(jù)

2017-04-18 11:14:04

數(shù)據(jù)災(zāi)難大數(shù)據(jù)企業(yè)

2012-11-14 16:27:41

2022-11-03 14:39:47

2013-01-14 09:21:31

2019-04-26 13:51:38

災(zāi)難恢復(fù)云計(jì)算數(shù)據(jù)

2022-04-24 13:59:22

災(zāi)難恢復(fù)云計(jì)算云安全

2012-09-28 16:08:11

2012-09-29 08:58:01

2013-09-18 20:14:46

云災(zāi)難恢復(fù)

2011-09-20 09:27:12

云存儲虛擬化災(zāi)難恢復(fù)

2011-07-29 09:25:42

云計(jì)算災(zāi)難恢復(fù)

2021-06-08 14:21:51

恢復(fù)策略數(shù)據(jù)備份存儲元素

2018-12-05 11:14:30

災(zāi)難恢復(fù)硬件

2022-01-13 13:53:25

企業(yè)備份災(zāi)難準(zhǔn)備備份系統(tǒng)

2022-12-02 18:45:11

2021-04-11 10:03:09

網(wǎng)絡(luò)安全黑客信息安全

2017-08-29 14:32:59

企業(yè)安全云計(jì)算

2020-02-17 09:14:16

云計(jì)算云遷移公共云

2015-06-15 09:01:46

云容災(zāi)DR云托管
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號