詳解互聯(lián)網(wǎng)運(yùn)維需要把握的四力模型
最近我花了一個(gè)月的時(shí)間和企業(yè)一對一的去溝通運(yùn)維,去了解運(yùn)維,特想和大家分享一下這個(gè)信息。以前的方式是我講,大家聽,這次是他們講,我聽,同時(shí)在講講我的具體理解。超過20家的受訪企業(yè)大致分布如下:互聯(lián)網(wǎng):40%,傳統(tǒng)行業(yè):24%,銀行:24%,運(yùn)營商12%。
其實(shí)這樣的計(jì)劃看到很多傳統(tǒng)企業(yè)/銀行和運(yùn)營商都非常關(guān)注互聯(lián)網(wǎng)運(yùn)維是怎么玩的?我根據(jù)最近的訪談情況,提出運(yùn)維的四力模型,從這個(gè)模型里面,我們來看看到底還有什么樣的信息?! ?/p>
傳統(tǒng)的維護(hù)走向運(yùn)維是有兩種作用力產(chǎn)生的:
1.結(jié)構(gòu)力
無論是互聯(lián)網(wǎng)還是傳統(tǒng)企業(yè),都是基于不可靠硬件x86構(gòu)建起的IT體系(研發(fā)/測試和運(yùn)維),這就決定了思維上的兩種變化,第一種是不可靠性需要應(yīng)用的技術(shù)架構(gòu)來配合實(shí)現(xiàn)高可用(需要Ops進(jìn)入到Dev過程);第二種是去中心化/分布式/面向應(yīng)用/零維護(hù)能力的底層系統(tǒng),更需要運(yùn)維能力的保證(需要Ops更強(qiáng)的能力提供),我想這是大家不斷找我講運(yùn)維主要原因。
可以說在互聯(lián)網(wǎng)行業(yè),是經(jīng)歷了一個(gè)迭代式的發(fā)展過程,能力從0到1到N。但在傳統(tǒng)行業(yè)和銀行,這個(gè)過程不是迭代漸進(jìn)式的,之前受去IOE的影響,最近受國產(chǎn)化的影響,也有業(yè)務(wù)互聯(lián)網(wǎng)化的影響,傳統(tǒng)的高可用硬件架構(gòu)必須轉(zhuǎn)向不可靠的x86架構(gòu)。系統(tǒng)工程里面都說,結(jié)構(gòu)決定功能。不可靠的結(jié)構(gòu)帶來了不可靠的能力,此時(shí)就更需要全面的運(yùn)維能力來彌補(bǔ)。運(yùn)維能力是什么?是運(yùn)維規(guī)范/是平臺能力/是可視化運(yùn)維能力/是端到端監(jiān)控的能力/是技術(shù)架構(gòu)自適應(yīng)和可運(yùn)維能力.....很多很多。
實(shí)際的企業(yè)訪談情況是,x86是一種必然的趨勢,互聯(lián)網(wǎng)企業(yè)不消說了,在銀行/運(yùn)營商也是如此哈!
我把這種力理解成一種內(nèi)力。
2.變革力
這個(gè)變革力是業(yè)務(wù)形態(tài)變化帶來的,就是業(yè)務(wù)的互聯(lián)網(wǎng)化。業(yè)務(wù)互聯(lián)網(wǎng)化之后,用戶的需求持續(xù)反作用于IT交付流程。以前的IT交付流程,幾個(gè)星期的一個(gè)版本顯然不能滿足市場競爭的要求,逼著企業(yè)走到持續(xù)迭代和快速試錯的機(jī)制上。傳統(tǒng)企業(yè)很多人都在問,互聯(lián)網(wǎng)能夠快速的秘訣是什么?有大系統(tǒng)小做(微服務(wù)),服務(wù)公共化,服務(wù)向前兼容,灰度發(fā)布,持續(xù)集成,持續(xù)部署,運(yùn)維規(guī)范化等等諸多手段。
或許你認(rèn)為這種外力帶來的是對自動化平臺能力的很高要求,其實(shí)這只是其中一個(gè)方面,還有一個(gè)更重要的方面就是用戶服務(wù)及系統(tǒng)狀態(tài)的變化監(jiān)測和修復(fù)能力。頻繁變更的系統(tǒng),偶爾會導(dǎo)致系統(tǒng)不穩(wěn)定,如何保證運(yùn)維有快速發(fā)現(xiàn)/快速定位/快速恢復(fù)。這是一個(gè)監(jiān)控系統(tǒng)上的能力要求,傳統(tǒng)的監(jiān)控需要進(jìn)行改變,但這個(gè)監(jiān)控系統(tǒng)需要業(yè)務(wù)系統(tǒng)上做一些配合支持才行。
通過實(shí)際的訪談發(fā)現(xiàn),互聯(lián)網(wǎng)的發(fā)布頻率明顯高于傳統(tǒng)行業(yè),這是業(yè)務(wù)對內(nèi)還是對外的差異,小到幾倍,大到幾十倍的差距都有,因此該變革力在互聯(lián)網(wǎng)和傳統(tǒng)企業(yè)是不同的。
這種變革力對運(yùn)維的要求也相應(yīng)的就來了,如何完成快速的服務(wù)交付和服務(wù)狀態(tài)穩(wěn)定保障,這是一個(gè)挑戰(zhàn)。這個(gè)挑戰(zhàn)來自于多方面的,第一、有運(yùn)維平臺層面的,比如說運(yùn)維平臺能力不足;第二、有組織設(shè)置層面的,煙囪式/豎井式的企業(yè)組織結(jié)構(gòu),能力傳導(dǎo)特別弱;第三、有企業(yè)文化層面的,是流程驅(qū)動文化,還是技術(shù)驅(qū)動文化,運(yùn)維能力也不同。
業(yè)務(wù)互聯(lián)網(wǎng)化是一種很強(qiáng)的外力。
基于以上內(nèi)力+外力的相互作用的結(jié)果,運(yùn)維需要新的變化,才能走出運(yùn)維苦逼,無價(jià)值的境地,從而真正給新IT組織形態(tài)下傳遞更多的IT能力。
3.控制力
我把運(yùn)維組織理解成兩種類型,面向科學(xué)管理時(shí)代的組織職能化,每個(gè)單元負(fù)責(zé)特定的職能(function)。在業(yè)務(wù)互聯(lián)網(wǎng)化的今天,通過建立面向產(chǎn)品/業(yè)務(wù)的跨職能(cross-functional)組織來應(yīng)對敏捷和快速變化的用戶要求。傳統(tǒng)企業(yè)大部分還是職能化的組織架構(gòu),而互聯(lián)網(wǎng)企業(yè)都是面向產(chǎn)品的事業(yè)部制??缏毮艿慕M織結(jié)構(gòu),有很強(qiáng)的能力傳導(dǎo)效應(yīng)。
但從運(yùn)維的角度來說,我還是把運(yùn)維歸到類似公共服務(wù)能力部門,此時(shí)運(yùn)維必須建立一種控制力,這個(gè)控制力有組織層面的,也有業(yè)務(wù)層面的。組織層面的,需要集中的運(yùn)維控制組織,這有利于能力的服務(wù)化封裝,從底到上都是如此,比如說網(wǎng)絡(luò)服務(wù)/數(shù)據(jù)庫服務(wù),甚至是上層應(yīng)用(系統(tǒng)或者叫業(yè)務(wù))運(yùn)維等等。另外一種情況,組織中沒有應(yīng)用運(yùn)維角色,導(dǎo)致面向業(yè)務(wù)的運(yùn)維控制能力進(jìn)一步減弱,運(yùn)維淪為資源服務(wù)的提供者。
嚴(yán)格禁止運(yùn)維隨著研發(fā)走,特別是對于一個(gè)多部門或者多產(chǎn)品組織中,每個(gè)部門/產(chǎn)品組帶一個(gè)運(yùn)維小組。
我的觀點(diǎn)對于一個(gè)互聯(lián)網(wǎng)化的業(yè)務(wù)來說,應(yīng)用運(yùn)維+集中式的運(yùn)維組織結(jié)構(gòu)必須是組織建設(shè)的兩個(gè)重要因素。
企業(yè)實(shí)際的情況是,我訪談的大部分企業(yè)都很難建立真正的控制力,核心是沒有建立面向業(yè)務(wù)的集中式運(yùn)維組織架構(gòu)。我給很多互聯(lián)網(wǎng)企業(yè)的建議是,必須走向這樣的架構(gòu),我給傳統(tǒng)企業(yè)的建議是,建立面向業(yè)務(wù)的運(yùn)維孵化組織,讓他們按照新的模式運(yùn)行,儲備新的能力。
4.驅(qū)動力
由控制力形成的驅(qū)動力,控制力之后,運(yùn)維逐漸形成對面向業(yè)務(wù)型的運(yùn)維理解。此時(shí)運(yùn)維會整體性規(guī)劃其運(yùn)維體系,并付諸到后續(xù)的階段性實(shí)現(xiàn)計(jì)劃中。運(yùn)維的驅(qū)動力也來自于多個(gè)方面,第一個(gè)是平臺層面的,第二個(gè)是規(guī)范層面的,第三個(gè)是意識和文化層面的。
平臺層面的,運(yùn)維必須建立標(biāo)準(zhǔn)化的自動化和數(shù)據(jù)化的平臺,來驅(qū)動DevOps。規(guī)范層面的,運(yùn)維需要建立自己的運(yùn)維規(guī)范,包含線上服務(wù)環(huán)境的運(yùn)維規(guī)范,也包含技術(shù)架構(gòu)的規(guī)范,還包含自己的運(yùn)維服務(wù)規(guī)范等等。一定要注意,運(yùn)維規(guī)范必須要從線下走向線上,從流程走向技術(shù)服務(wù)等等。意識和文化層面,要不斷的和研發(fā)強(qiáng)調(diào),運(yùn)維不是維護(hù),運(yùn)維不是負(fù)責(zé)資源管理的,運(yùn)維可以主動承擔(dān)更多,這種承擔(dān)會直接影響IT組織的性能。
很多企業(yè)實(shí)際的情況是控制力偏弱,導(dǎo)致驅(qū)動力很弱。一個(gè)好的運(yùn)維組織是高性能IT組織的保障,高性能IT組織到底有什么好處?在2015年puppetlabs的DevOps報(bào)告中有體現(xiàn):
總結(jié)一句話,底層IT基礎(chǔ)設(shè)施的變化,外加業(yè)務(wù)形態(tài)的變化,都在迫使運(yùn)維的轉(zhuǎn)型,此時(shí)須建立集中式運(yùn)維組織,從而形成真正的運(yùn)維驅(qū)動力。
個(gè)人介紹:王津銀,自稱老王(非隔壁那種)。05年畢業(yè),研發(fā)兩年,07年進(jìn)入騰訊公司接觸運(yùn)維,經(jīng)歷服務(wù)器從百到萬的運(yùn)維歷程,先后在YY和UC參與不同業(yè)務(wù)形態(tài)的運(yùn)維,期間帶過前端運(yùn)維、數(shù)據(jù)存儲運(yùn)維、YY語音、游戲運(yùn)維、運(yùn)維研發(fā)等多種運(yùn)維團(tuán)隊(duì),對運(yùn)維有著全面的理解。極力倡導(dǎo)互聯(lián)網(wǎng)價(jià)值運(yùn)維理念,即面向用戶的價(jià)值是由自動化平臺交付傳遞,同時(shí)由數(shù)據(jù)化來提煉和衡量。