自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

4個(gè)總結(jié)來看SRE與運(yùn)維的思考

新聞 系統(tǒng)運(yùn)維
運(yùn)維部門要保障產(chǎn)品業(yè)務(wù)穩(wěn)定性,開發(fā)部門要想隨時(shí)隨地快速上線新功能,而線上的故障往往是由新的變更導(dǎo)致的——不管是新發(fā)布了版本,還是修改配置,或者是改變了用戶某些行為導(dǎo)致流量負(fù)載產(chǎn)生變化,傳統(tǒng)意義上這兩個(gè)部門在本質(zhì)目標(biāo)上是相對(duì)的。

 [[314108]]

運(yùn)維部門要保障產(chǎn)品業(yè)務(wù)穩(wěn)定性,開發(fā)部門要想隨時(shí)隨地快速上線新功能,而線上的故障往往是由新的變更導(dǎo)致的——不管是新發(fā)布了版本,還是修改配置,或者是改變了用戶某些行為導(dǎo)致流量負(fù)載產(chǎn)生變化,傳統(tǒng)意義上這兩個(gè)部門在本質(zhì)目標(biāo)上是相對(duì)的。所以運(yùn)維部門往往會(huì)要求開發(fā)部門對(duì)變更或發(fā)布做控制,并且規(guī)定要走一些繁瑣的流程;而開發(fā)部門會(huì)想法設(shè)法繞過這些繁瑣步驟,以支持新功能更快上線。

谷歌的工作方式:面對(duì)運(yùn)維部門與開發(fā)部門之間的產(chǎn)品穩(wěn)定性與迭代創(chuàng)新速度之間的矛盾,允許產(chǎn)品在設(shè)定的“錯(cuò)誤預(yù)算”內(nèi)發(fā)生異常,利用可量化的SLO來達(dá)到兩者之間的平衡。比如一個(gè)產(chǎn)品的可用性目標(biāo)是99.99%,那么只要這個(gè)產(chǎn)品當(dāng)前的可用性高于99.99%情況下,運(yùn)維團(tuán)隊(duì)會(huì)盡可能加快產(chǎn)品功能上線;而當(dāng)這個(gè)產(chǎn)品因變更等事故導(dǎo)致可用性低于99.99%,新的上線和變更請(qǐng)求將不得被處理,直到下個(gè)可用性考核周期。

4 个总结来看 SRE 与运维的思考

結(jié)合我們工作的思考:運(yùn)維部門從成立之初就建立產(chǎn)品可用率制度,與產(chǎn)品一起設(shè)立可用率目標(biāo),可以說在量化運(yùn)維質(zhì)量目標(biāo)與平衡產(chǎn)品迭代速度方面做得還可以??梢蕴嵘牡胤皆谟谕七M(jìn)產(chǎn)品開發(fā)部門對(duì)可用率目標(biāo)的重視程度,以及事故改進(jìn)的協(xié)作程度,有些產(chǎn)品往往一味追求產(chǎn)品迭代創(chuàng)新速度而犧牲較多產(chǎn)品穩(wěn)定性,并且事故改進(jìn)投入精力不足。

2.運(yùn)維工作工程化

谷歌SRE通過軟件工程的方式去提高運(yùn)維效率和解決問題,鄙視手工方式操作,一是傳統(tǒng)運(yùn)維方式對(duì)于快速發(fā)展的業(yè)務(wù)及達(dá)到百萬服務(wù)器規(guī)模的數(shù)據(jù)中心,通過堆人的方式已經(jīng)遠(yuǎn)遠(yuǎn)滿足不了了,二是谷歌SRE對(duì)自身工作的定位與追求,以開發(fā)軟件工程模式從繁瑣的重復(fù)性、機(jī)械性工作中抽脫出來,深入到系統(tǒng)架構(gòu)、業(yè)務(wù)中,提高自身運(yùn)維效率和系統(tǒng)整體的可用性可靠性。

對(duì)比思考:

最近兩三年,隨著網(wǎng)易云音樂、考拉海購(gòu)等產(chǎn)品業(yè)務(wù)的迅猛發(fā)展,杭研體系整體的服務(wù)器規(guī)模數(shù)也快速增長(zhǎng),運(yùn)維部門統(tǒng)計(jì)到的支持工單量也已從2016年上半年日均210個(gè)上漲到2016下半年日均315個(gè)、2017上半年日均319個(gè),在整體人數(shù)保持穩(wěn)定情況下需要在運(yùn)維效率方面做可持續(xù)性提升。

4 个总结来看 SRE 与运维的思考

為此,整個(gè)運(yùn)維部門在2017年初確定落實(shí)DevOps戰(zhàn)略,對(duì)運(yùn)維工作效率提升做了明確的量化目標(biāo),包括工單處理時(shí)長(zhǎng)、自動(dòng)化完成率、開放與自助化率等。同時(shí)在運(yùn)維平臺(tái)建設(shè)方面,在流程串聯(lián)和數(shù)據(jù)互通、效率提升方面會(huì)做更多優(yōu)化改進(jìn);另外運(yùn)維部PE、SA、DBA等各組為優(yōu)化自身日常工作,各自衍生開發(fā)了自己的管理平臺(tái)——鳳凰、FL、OWL,并且這些系統(tǒng)的數(shù)據(jù)與流程都會(huì)連通。

到2017年底,我們的目標(biāo)是有50%的工單可以由開發(fā)部門自助完成,基本上大部分操作可以由Stone移動(dòng)化處理,整體工作效率同比提升50%以上。

3.瑣事與on-call輪值

谷歌SRE強(qiáng)調(diào)將日?,嵤鹿ぷ髁靠刂频?0%上限,能有一半時(shí)間投入到工程開發(fā)中去。瑣事,包括on-call值班、中斷性事務(wù)(工單、郵件和IM)、發(fā)布、數(shù)據(jù)更新恢復(fù)相關(guān)等。日常瑣事過多,工作經(jīng)常被中斷,是運(yùn)維工作效率無法提升的一個(gè)難題,谷歌SRE破解這個(gè)難題主要有2個(gè)方式,一是通過on-call輪值的值班制度,讓一部分人能夠有整段的時(shí)間去做工程;二是從整體上評(píng)估運(yùn)維瑣事工作量,增派人力或?qū)⑦\(yùn)維工作轉(zhuǎn)移給開發(fā)部門來控制整個(gè)部門的瑣事占比。

對(duì)比思考:

“工作經(jīng)常被打斷,技術(shù)含量不高的問題太多,開發(fā)換了一輪又一輪、重復(fù)性問題回答了一遍又一遍…”等等,也是運(yùn)維人員經(jīng)常抱怨最大的問題。我們也老早安排了值班,但由于各個(gè)產(chǎn)品業(yè)務(wù)的獨(dú)特性與復(fù)雜性,值班人員只能處理少部分日常工單,大部分的工單還是需要分配給非值班的人員,所以整體上每個(gè)人的日常瑣事非常多,特別是咨詢類工作,往往一個(gè)運(yùn)維人員的IM對(duì)話飄窗達(dá)到20個(gè)以上。我們的應(yīng)對(duì)之道:

小石頭機(jī)器人能夠回答常見FAQ。文檔和FAQ,我們也有總結(jié),讓開發(fā)部門等能夠?qū)W習(xí),實(shí)踐下來總體效果不理想。實(shí)時(shí)的交互式問答,問題更聚焦,對(duì)于用戶來說是個(gè)更快更有效率的方式。為此,我們會(huì)嘗試將FAQ做到智能客服機(jī)器人當(dāng)中,在常用平臺(tái)頁(yè)面如夸父等接入小石頭機(jī)器人,能夠回答用戶的常見問題。我們需要做的就是持續(xù)更新FAQ,讓智能機(jī)器人做到更精準(zhǔn)匹配回答,并引導(dǎo)用戶使用小石頭。

值班能夠處理更多工作,通過將日常工作規(guī)范化、平臺(tái)化和WEB化,對(duì)值班人員屏蔽不同產(chǎn)品業(yè)務(wù)工作的獨(dú)特性,依賴于我們各個(gè)平臺(tái)自身的建設(shè),后續(xù)將持續(xù)投入精力。

開放自助化,輸出運(yùn)維能力。通過流程控制、任務(wù)自動(dòng)化處理和風(fēng)險(xiǎn)控制,利用夸父等平臺(tái)讓開發(fā)等部門能夠自己處理日常需求,目前NDP發(fā)布平臺(tái)、OWL緩存管理等已有嘗試,后續(xù)夸父新工單系統(tǒng)將會(huì)改造原有流程,在Q3開始實(shí)施工單自助化操作并持續(xù)開放更多類型工單的自助化。

[[314109]]

4.人才招聘與培養(yǎng)

谷歌SRE人才招聘,按照軟件開發(fā)工程師一致的標(biāo)準(zhǔn),并且SRE團(tuán)隊(duì)里也有各種行業(yè)背景的優(yōu)秀人才,比如原先有負(fù)責(zé)美國(guó)國(guó)防部陸空運(yùn)載設(shè)施的GPS與慣性制導(dǎo)系統(tǒng)的,原先是救生員的,原先設(shè)計(jì)軍用飛機(jī)等地勤管理系統(tǒng)的,原先是合成磚石工廠的工程師的,原先是核潛艇工程師的等等,都是對(duì)安全性、穩(wěn)定性、可靠性要求非常高的崗位。在培養(yǎng)方面建立體系化培訓(xùn)課程、學(xué)習(xí)事故經(jīng)驗(yàn)總結(jié)、承擔(dān)挑戰(zhàn)性項(xiàng)目并盡早參與on-call見習(xí)工作。

對(duì)比思考:

我們做得還可以的:重視招聘,一直是我們部門的傳統(tǒng),做到各個(gè)招聘主管的招聘標(biāo)準(zhǔn)一致,除了考核專業(yè)能力之外對(duì)合作、執(zhí)行等方面也確立了標(biāo)準(zhǔn),另外專業(yè)能力上需要有工程化思想。以前有一個(gè)應(yīng)聘者回答“為什么選擇運(yùn)維崗位”的時(shí)候,說道“自己不喜歡開發(fā)工作”,雖然各方面能力都不錯(cuò)我們還是沒有選擇她。

我們可以借鑒的地方:反向工程思維的培養(yǎng),可以多做一些破壞性工作并修復(fù)的演練;多讓新人承擔(dān)一些有挑戰(zhàn)性的項(xiàng)目。另外對(duì)于其他行業(yè)優(yōu)秀的人才可以多加關(guān)注。

最后,開發(fā)與運(yùn)維不是天然對(duì)立矛盾的,只是需要大家確立為產(chǎn)品發(fā)展的共同目標(biāo),在產(chǎn)品創(chuàng)新速度與穩(wěn)定性之間尋求到平衡。我們?cè)谒伎甲陨磉\(yùn)維工作的時(shí)候,會(huì)始終堅(jiān)持上面這個(gè)觀點(diǎn)。以上是在看完谷歌SRE一書之后,我們結(jié)合自身工作做的一點(diǎn)點(diǎn)思考,以及后續(xù)我們工作改進(jìn)的一些方向。 

 

責(zé)任編輯:張燕妮 來源: 高效運(yùn)維
相關(guān)推薦

2023-04-04 13:40:36

2025-04-30 05:00:00

批量運(yùn)維系統(tǒng)

2022-04-21 15:05:03

運(yùn)維項(xiàng)目無線

2020-12-30 11:05:51

SRE運(yùn)維可觀測(cè)性系統(tǒng)

2020-11-30 12:50:26

SRE運(yùn)維可觀測(cè)性系統(tǒng)

2023-05-05 08:09:51

運(yùn)維Oracle數(shù)據(jù)庫(kù)

2020-03-27 13:00:14

運(yùn)維架構(gòu)技術(shù)

2018-11-05 17:06:02

OpenStack運(yùn)維云平臺(tái)

2012-08-31 14:00:40

IT運(yùn)維

2015-07-27 17:21:51

Google SRE運(yùn)維

2021-11-05 11:56:34

運(yùn)維規(guī)則書籍

2024-11-19 11:16:33

2019-07-18 14:17:25

運(yùn)維命令網(wǎng)絡(luò)

2020-08-27 06:28:22

SRE運(yùn)維體系可觀測(cè)系統(tǒng)

2018-02-01 09:32:16

傳統(tǒng)運(yùn)維SRE

2022-06-10 10:49:16

云原生監(jiān)控系統(tǒng)

2013-08-08 09:16:38

IT運(yùn)維信息化

2011-11-24 21:59:55

運(yùn)維企業(yè)外包

2013-10-17 10:58:17

IT運(yùn)維管理運(yùn)維管理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)