技術(shù)專題·智能化運維
原創(chuàng)一、曲顯平
曲顯平,百度智能運維監(jiān)控負責人,在運維監(jiān)控、大數(shù)據(jù)處理與分析方向有著豐富的經(jīng)驗。
點評內(nèi)容:
2015年是中國互聯(lián)網(wǎng)智能化運維發(fā)展的元年,BAT等相繼提出這一思路,在這一領(lǐng)域進行了一些卓有成效的嘗試。隨著互聯(lián)網(wǎng)產(chǎn)品的蓬勃發(fā)展,和PAAS、APM、智能異常檢測、大數(shù)據(jù)分析、機器學習等技術(shù)的興起和逐漸成熟,運維技術(shù)也開啟了一個新的篇章,不難看出,這些技術(shù)都是希望解放人的大腦和雙手,而智能化便是大勢所趨,眾望所歸的結(jié)果。
智能化運維,顧名思義,與平臺化運維和自動化運維有著明顯的不同。平臺化運維注重的是入口的統(tǒng)一,運維服務或能力的復用,減少重復勞動,規(guī)范化操作;自動化運維注重的是大規(guī)模、批量化操作,一個程序一次性部署在成千上萬的服務器上,或者針對某些特定場景,能夠進行簡單的邏輯執(zhí)行,把繁雜的運維工作組織為一個有機的過程,一次性執(zhí)行。而智能化運維,是更大跨度的向前一步,這個標志應該是運維工作從依靠人工決策,逐步轉(zhuǎn)為依靠機器決策。舉幾個例子,故障的發(fā)現(xiàn),以前多靠人工經(jīng)驗來設(shè)定監(jiān)控閾值,而機器可以通過歷史監(jiān)控數(shù)據(jù)規(guī)律的學習,自動生成更加準確的閾值或通過異常模式識別去主動判斷異常的發(fā)生。這不僅能夠大量簡化人的工作,而且比人更精準;故障的定位,以前多靠人翻閱大量的監(jiān)控數(shù)據(jù)、服務器日志,甚至聯(lián)絡各相關(guān)團隊工程師,分析線上所有變更事件等才能定位一個問題,而機器可以根據(jù)系統(tǒng)中的網(wǎng)絡、機房、程序上下游調(diào)用關(guān)系等,綜合所有監(jiān)控數(shù)據(jù)和采集日志,來綜合分析和定位,這比人的效率更高且更全面;擴縮容、止損和預案操作等也是類似,還有很多其它的例子。智能化運維是希望終有一天,機器決策能夠大幅超越人工決策,那也就是運維人性解放的時刻。
2016年將是智能化運維全面鋪開,得到大力發(fā)展的一年。APM、智能異常檢測等技術(shù)將更加普及,逐漸取代運維工程師手工配置監(jiān)控和實施策略。而智能化的故障定位技術(shù)也將覆蓋更廣泛,數(shù)據(jù)中心、網(wǎng)絡、程序、業(yè)務等各個層面的故障定位能力將得到全面提升,極大解放oncall工程師的大腦和雙手。而在故障恢復決策方面,智能化的監(jiān)控系統(tǒng)將能夠和PAAS或預案管理等系統(tǒng)結(jié)合起來,由監(jiān)控系統(tǒng)給出判斷決策,通知PAAS或預案執(zhí)行系統(tǒng)來進行相應的降級或者止損操作。在不久的將來,相信運維工程師的雙手會得到極大解放,逐漸告別繁復的基礎(chǔ)運維工作,讓他們在發(fā)展DevOps的道路上走得更加深入,每個人都成為領(lǐng)域?qū)<摇?/p>
#p#
二、王津銀
王津銀,自稱老王(非隔壁那位)。2007年進入騰訊公司接觸運維,經(jīng)歷服務器從百到萬的運維歷程,先后在YY和UC參與不同業(yè)務形態(tài)的運維,期間帶過前端運維、數(shù)據(jù)存儲運維、YY語音、游戲運維、運維研發(fā)等多種運維團隊,對運維有著全面的理解。極力倡導互聯(lián)網(wǎng)價值運維理念,即面向用戶的價值是由自動化平臺交付傳遞,同時由數(shù)據(jù)化來提煉和衡量。
點評內(nèi)容:
智能運維有著更強的技術(shù)驅(qū)動因素,因此,從運維的技術(shù)發(fā)展進程來看,我們可以看到幾個階段:
1.腳本時代
用ssh+exp代替了手工登錄服務器維護的模式。
2.工具時代
以chef/puppet配置工具為代表,把運維的能力變成一個個的工具能力。
3.平臺時代
隨著IT敏捷性要求越來越高,需要把運維工具能力平臺化,進一步固化運維的常見場景。
4.智能時代
運維的精細化要求越來越高,從運維走向了IT運營,智能可以讓運維更簡單。
智能時代的確需要更多、更綜合的運維能力沉淀,需要更全面的自動化能力和數(shù)據(jù)分析能力,具體的實現(xiàn)需要考慮如下因素:
1.多邊系統(tǒng)集成
基于IaaS/PaaS的運維模式,引申出運維平臺的幾種模型,但該模型還遠遠不夠,他們存在邊界的割接,因此需要一個運維平臺來統(tǒng)一集成多方
的平臺能力。
2.多運維平臺的閉環(huán)對接
資源管理、業(yè)務信息管理平臺、自動化平臺、監(jiān)控平臺、IT數(shù)據(jù)運營平臺等多個平臺要閉環(huán)對接,才能提供一站式的運維服務能力。
3.場景化的智能模式抽象
基于變更/故障/異常分析/預測等各個運維場景,都可以找到智能化的模型/具體實現(xiàn)。
4.IT大數(shù)據(jù)分析提供智能決策
需要更強的大數(shù)據(jù)實時分析能力,提供實時的變更和調(diào)度智能決策能力。
5.技術(shù)架構(gòu)的智能化
無論是微服務還是Cloud Native的實現(xiàn),其實都是從更高的技術(shù)架構(gòu)要求上提供了自治能力,智能化的技術(shù)架構(gòu)讓智能運維真正有了可能。
#p#
三、韓曉光
韓曉光,專業(yè)運維、兼職開發(fā)、干過商務,從事系統(tǒng)運維工作近10年?,F(xiàn)就職于新華網(wǎng)(http://www.xinhuanet.com/),帶領(lǐng)運維開發(fā)團隊,承擔社交互動媒體幾十套業(yè)務系統(tǒng)、技術(shù)平臺運維。曾就職于中航信旗下航空結(jié)算公司,承擔國內(nèi)外幾十家民航業(yè)務系統(tǒng)運維。具有“信息系統(tǒng)項目管理師”、“IBM CATE”、“ITIL Foundation”、“RHCE”專業(yè)資格認證。
點評內(nèi)容:
2016年以及未來一段時間,“智能”將會更加普遍的應用到現(xiàn)實中,使我們的體驗更加豐富多元與深刻入微。比如人工智能、虛擬現(xiàn)實、物聯(lián)網(wǎng)、大數(shù)據(jù)、圖文識別等各種技術(shù)、產(chǎn)品將會深刻融入我們?nèi)粘I畹姆椒矫婷妗?/p>
與此同時,運維工作也將更加體現(xiàn)在智能化。運維智能化背后則是各種運維理念、技術(shù)、產(chǎn)品的升級優(yōu)化,以及創(chuàng)新。運維智能化將更多體現(xiàn)在對各種技術(shù)創(chuàng)新的融合方面。
以往簡單的運維監(jiān)控,僅僅依靠幾個互相獨立監(jiān)控網(wǎng)管軟件來做。而運維智能化將更多體現(xiàn)在對各種運維信息的采集、分析、匯總、收斂、智能預警與智能自愈方面。
以往簡單的運維操作,通常寫幾個腳本、用幾個運維工具就是運維的主要工作了。而運維智能化則更多體現(xiàn)在DevOps敏捷運營上,快速有效規(guī)范地開發(fā)與部署,不斷地持續(xù)交付迭代。
以往簡單的運維規(guī)范,通常是沒有太多規(guī)范的。開發(fā)、業(yè)務有需要,運維則被動執(zhí)行一些運維工作。人員職責不清,設(shè)備資產(chǎn)管理混亂,運維工作隨意沒有規(guī)矩。而運維智能化則更多體現(xiàn)在標準規(guī)范上,大體量高規(guī)格,以及良好的應急機制。
綜上可見,由于運維智能化,運維工作不會是越來越清閑了,相反承擔的企業(yè)發(fā)展戰(zhàn)略的責任越來越大了。運維部門將由傳統(tǒng)的IT成本中心更多地轉(zhuǎn)向IT服務中心、價值輸出中心、利潤輸出中心轉(zhuǎn)變。
#p#
四、編輯
系統(tǒng)頻道編輯 孫淑娟
虛擬化、容器、移動化、Hadoop、Docker......層出不窮,令人眼花繚亂,云計算、大數(shù)據(jù)、移動通信等互聯(lián)網(wǎng)新技術(shù)不斷演進,運維的技術(shù)含量越來越大,相應對運維人員的綜合素質(zhì)及能力要求也越來越高,運維也不再是部署系統(tǒng)、寫管理腳本那么簡單了。
而且,隨著業(yè)務應用越來越復雜,設(shè)備數(shù)量越來越多,管理難度越來越高,運維人員必須高屋建瓴,全面謀劃,有能力提供一個全局性、高效健壯、標準規(guī)范、自動化乃至智能化的解決方案并加以實現(xiàn)。
智能化運維是用機器來代替運維人員,在最少人工干預下,結(jié)合運用腳本與第三方工具,保證業(yè)務7*24小時高效穩(wěn)定運行,這也是運維工作的***目標。智能化運維要做到事前預警、事中恢復和事后存檔,實際上有大量的工作要完成。智能化運維不僅可以將運維人員從繁瑣的工作中解放出來,而且還大大提升了運維工作的效率,是2016年運維發(fā)展的主要方向。
相關(guān)技術(shù)點推薦:
◆ PAAS平臺
◆ SaaS平臺
◆ 全棧運維平臺
◆ 自動化運維
◆ DevOps
◆ 持續(xù)交付
◆ 分布式名字服務
◆ Docker
◆ Python