從人肉到智能,阿里運(yùn)維體系經(jīng)歷了哪些變遷?
回顧阿里巴巴運(yùn)維的發(fā)展階段,從最開(kāi)始的人肉/腳本運(yùn)維, 到簡(jiǎn)單的工具、自動(dòng)化, 到系統(tǒng)化和平臺(tái)的過(guò)程, 自動(dòng)化到一定程度后,開(kāi)始探索智能化運(yùn)維領(lǐng)域。今天,阿里資深運(yùn)維專家大舞,將帶你體驗(yàn)阿里智能化運(yùn)維背后的故事。
此外,我們推出了“阿里智能運(yùn)維(大數(shù)據(jù)篇)”專欄,總結(jié)了一整套成體系的實(shí)踐方法,具體訂閱方式請(qǐng)見(jiàn)文末。
機(jī)器智能的前提是需要有數(shù)據(jù),AIOps的數(shù)據(jù)從哪里來(lái)?如何利用數(shù)據(jù)代替機(jī)器決策、分析?如何利用機(jī)器學(xué)習(xí)算法與基于大數(shù)據(jù)的業(yè)務(wù)運(yùn)維管理平臺(tái)整合,在告警過(guò)濾、異常監(jiān)測(cè)、自動(dòng)修復(fù)等環(huán)節(jié)發(fā)揮效用,真正能把運(yùn)維同學(xué)解放出來(lái)提高整體運(yùn)維效率,降低運(yùn)維成本。我們認(rèn)為AIOps是一個(gè)長(zhǎng)期演進(jìn)的過(guò)程,這也是我們區(qū)別于業(yè)界,在通往AIOps征途上增加DataOps階段建設(shè)及沉淀的重要原因,而我們接下來(lái)聊一聊DataOps時(shí)代——運(yùn)維人才的能力要求。
人肉/腳本運(yùn)維時(shí)代(Human/Scripts Ops)
運(yùn)維工作本身其實(shí)是一個(gè)需要具備高度綜合技能掌握的工種,需要涉及的廣度相對(duì)別職業(yè)屬性的要求會(huì)更高,以前很多時(shí)候大家對(duì)運(yùn)維的認(rèn)識(shí)都停留在發(fā)布、變更、接報(bào)警、搬機(jī)器……其實(shí)這個(gè)很好理解,所有的互聯(lián)網(wǎng)大公司都是從小公司成長(zhǎng)起來(lái)的,在還是小公司的時(shí)候,你需要面對(duì)的是不停地解決各種奇怪的問(wèn)題,而由于有公司生存的壓力,追求短平快的結(jié)果使得大家會(huì)淪為一個(gè)搬來(lái)主義者,從各類技術(shù)論壇,甚至是個(gè)人blog上去搜索各種各樣的解決方案,以求快速workrun解決問(wèn)題,但對(duì)于原理、系統(tǒng)全局上的東西,可能完全不會(huì)去深究。
工具化運(yùn)維時(shí)代(Tools Ops)
做過(guò)運(yùn)維的人都知道,運(yùn)維同學(xué)比較喜歡編寫(xiě)各種各樣的腳本,比如一鍵批量發(fā)布軟件,一鍵清理、交互式向?qū)?zhí)行等等,他們很喜歡通過(guò)黑屏上操作刷屏帶來(lái)成就感。每當(dāng)我們的運(yùn)維同學(xué)交接工作的時(shí)候,新來(lái)的運(yùn)維同學(xué)基本上會(huì)照著自己的理解重新實(shí)現(xiàn)一套。人肉/腳本時(shí)代的運(yùn)維存在大量的效率低下,以及各種各樣重復(fù)的腳本工具,同時(shí)也會(huì)帶來(lái)很多安全風(fēng)險(xiǎn),回顧互聯(lián)網(wǎng)的發(fā)展史,幾乎每隔一段時(shí)間就有一些嚴(yán)重事故發(fā)生,而每次事故的背后卻是一些低級(jí)錯(cuò)誤,甚至是手誤敲錯(cuò)字符帶來(lái)的巨大代價(jià)。這時(shí)候大家都意識(shí)到,不能再任由運(yùn)維同學(xué)隨意發(fā)揮了,需要將各式各樣的功能腳本收斂到工具里來(lái),通過(guò)集成的運(yùn)維工具迭代來(lái)實(shí)現(xiàn)復(fù)用和能力交接,這體現(xiàn)在DevOps的初級(jí)階段,此時(shí)還沒(méi)有延伸到Dev階段。
平臺(tái)型運(yùn)維時(shí)代(DevOps)
隨著公司商業(yè)上的成功,隨之帶來(lái)的規(guī)模的發(fā)展,這個(gè)時(shí)候量變引起質(zhì)變,今天對(duì)大廠的運(yùn)維來(lái)說(shuō)已經(jīng)遠(yuǎn)遠(yuǎn)不僅僅是上述這些工作,同時(shí)這些工作也不僅僅是靠加人手能解決得了的,例如說(shuō)應(yīng)用從原來(lái)的一個(gè)應(yīng)用變成了幾千個(gè)、上萬(wàn)個(gè)、幾十萬(wàn)個(gè),平臺(tái)規(guī)模從原來(lái)的幾百臺(tái)擴(kuò)充到上萬(wàn)&幾十萬(wàn)臺(tái),硬件由簡(jiǎn)單的CPU,mem,機(jī)械硬盤(pán)增加到Gpu,F(xiàn)pga,Asic,Optan等各類異構(gòu)硬件平臺(tái),軟件架構(gòu)變化,大數(shù)據(jù)分布式等等,當(dāng)面對(duì)海量的各類匯總數(shù)據(jù),需要快速判斷業(yè)務(wù)止損,全局資源優(yōu)化運(yùn)營(yíng)等工作時(shí),人工將會(huì)面臨非常大的挑戰(zhàn),甚至是不可能完成的任務(wù)。這個(gè)時(shí)期運(yùn)維的工作職能更多轉(zhuǎn)變?yōu)椋?/p>
- 全局架構(gòu)規(guī)劃
- 資源運(yùn)營(yíng)與成本優(yōu)化
- 自動(dòng)化平臺(tái)開(kāi)發(fā)
- 穩(wěn)定性保障
- 海量數(shù)據(jù)分析
- …….
數(shù)據(jù)化運(yùn)維時(shí)代(DataOps):
對(duì)我們來(lái)說(shuō)由于業(yè)務(wù)的需求對(duì)目前運(yùn)維能力的要求越來(lái)越高,技能的要求上來(lái)說(shuō)不光除了面上的廣度還需要一定方向的精度,甚至某些點(diǎn)的深度要非常專深。同時(shí)需要通過(guò)軟件工程化,數(shù)據(jù)化的運(yùn)維的思路,圍繞數(shù)據(jù)鏈建設(shè)起整體運(yùn)維智能化工具鏈,來(lái)解決超大規(guī)模分布式集群運(yùn)維管理問(wèn)題,提升整體產(chǎn)品的穩(wěn)定性,效率,成本。這樣對(duì)現(xiàn)在整個(gè)運(yùn)維人員的綜合技能要求會(huì)有很大的挑戰(zhàn)。
業(yè)內(nèi)隨著運(yùn)維的發(fā)展逐步從Ops發(fā)展到今天大家業(yè)內(nèi)都比較火熱的AIOps,現(xiàn)在運(yùn)維界現(xiàn)放眼望去大家都太大談特談AIOps,認(rèn)為只要有強(qiáng)大的算法,就能夠輕松實(shí)現(xiàn)不需要人為干預(yù)的智能化,當(dāng)然這是個(gè)理想化,終局化的情況,最終的目標(biāo)是要做到完全智能化,但這個(gè)難度不低于完全自動(dòng)無(wú)人駕駛。在我們看來(lái)如果算法是kernel,那么工程化的程度就決定了能否把kernel發(fā)揮到***,能否做到易用和高可靠是我們要著力解決的問(wèn)題,我們內(nèi)部我們認(rèn)為目前還處于DataOps階段,數(shù)據(jù)化一切運(yùn)維對(duì)象,以數(shù)據(jù)驅(qū)動(dòng)運(yùn)維,工程化落地。與自動(dòng)化駕駛分級(jí)類比:

隨著大數(shù)據(jù)時(shí)代的逐步發(fā)展促進(jìn)運(yùn)維人員的技能轉(zhuǎn)型需要具備更為復(fù)合性能力:
- 架構(gòu)能力
- 研發(fā)能力
- 運(yùn)維知識(shí)&業(yè)務(wù)理解
- 基本工程算法
- TPM(技術(shù)項(xiàng)目管理能力)
AIOps發(fā)展最終本質(zhì)上還是要落地在公司的各類運(yùn)維平臺(tái)&運(yùn)維產(chǎn)品上,在完成初步構(gòu)建后仍然需要持續(xù)的人力投入以及參與,而在目前的探索發(fā)展的投入階段,有大量的工需要去做,仍然需要專家或者分析師,從不同的維度,從不同的業(yè)務(wù)口徑,組合合適的可視化技術(shù),機(jī)器學(xué)習(xí)技術(shù),大數(shù)據(jù)分析技術(shù),制定分析場(chǎng)景,平臺(tái)落地才能夠?yàn)檫\(yùn)維產(chǎn)生持續(xù)的洞察,提供最終的業(yè)務(wù)價(jià)值。

在不同階段對(duì)于運(yùn)維團(tuán)隊(duì)的技術(shù)能力要求及轉(zhuǎn)型是必須歷經(jīng)的過(guò)程,同時(shí)也是一個(gè)痛苦的過(guò)程,能力要求的變化自然會(huì)帶來(lái)組織變革,對(duì)原有人員的沖擊也會(huì)比較大,整個(gè)部門(mén)從維護(hù)性部門(mén)轉(zhuǎn)變?yōu)檠邪l(fā)創(chuàng)新型部門(mén),***帶來(lái)的沖擊是思想上的,在研發(fā)思維先有原理,然后逐步工程實(shí)現(xiàn)落地,而傳統(tǒng)運(yùn)維是反過(guò)來(lái)很多東西都是已經(jīng)存在去維護(hù)它的穩(wěn)定。
這種陣痛也是團(tuán)隊(duì)轉(zhuǎn)變需要去面對(duì)的,從被動(dòng)救火式運(yùn)維向主動(dòng)精細(xì)化轉(zhuǎn)型,從問(wèn)題驅(qū)動(dòng)向價(jià)值驅(qū)動(dòng)轉(zhuǎn)型,從操作運(yùn)維向運(yùn)維開(kāi)發(fā)轉(zhuǎn)型,從依靠經(jīng)驗(yàn)向智能化驅(qū)動(dòng)運(yùn)維轉(zhuǎn)型,這不僅是技術(shù)能力的轉(zhuǎn)型而且是運(yùn)維系統(tǒng)化思路的轉(zhuǎn)型。時(shí)代在變化,唯一不變的只有擁抱變化!
【本文為51CTO專欄作者“阿里巴巴官方技術(shù)”原創(chuàng)稿件,轉(zhuǎn)載請(qǐng)聯(lián)系原作者】