智能化運(yùn)維的探索與實(shí)踐——Tech Neo 技術(shù)沙龍第十八期
原創(chuàng)【51CTO.com原創(chuàng)稿件】回顧運(yùn)維發(fā)展,可劃分為腳本、工具、平臺(tái)和智能化四大時(shí)代。之所以有這樣的演進(jìn)主要原因有二:其一是大小型機(jī),PC服務(wù)器,虛擬機(jī),容器等基礎(chǔ)設(shè)施的逐步增多;其二是分布式,微服務(wù)等軟件規(guī)模暴增,調(diào)用關(guān)系也越來越復(fù)雜。面對(duì)如此龐大、復(fù)雜、多變的諸多系統(tǒng),人力已經(jīng)無法維護(hù),開始探索新的方式:智能化運(yùn)維。
Tech Neo 技術(shù)沙龍第十八期現(xiàn)場(chǎng)
今天, 由51CTO 主辦的第十八期以“Tech Neo”為主題的技術(shù)沙龍活動(dòng)如期舉行,此次沙龍邀請(qǐng)了來自京東金融資深研發(fā)工程師張晨、日志易產(chǎn)品總監(jiān)饒琛琳、資深云計(jì)算專家王強(qiáng)。三位老師分享不僅有智能化運(yùn)維的方式方法,還有在各自領(lǐng)域的實(shí)踐案例,希望可以給運(yùn)維人員帶來一些新的思考。
異常檢測(cè)與根因分析
首位演講的是從事智能運(yùn)維監(jiān)控平臺(tái)的研發(fā)與實(shí)踐多年的京東金融資深研發(fā)工程師張晨老師,他參與并主導(dǎo)了APM等產(chǎn)品的研發(fā)與應(yīng)用,經(jīng)歷了多次618和雙11的***TPS的運(yùn)維保障,他分享的主題是異常檢測(cè)與根因分析。
張晨·京東金融資深研發(fā)工程師
張晨的分享以智能運(yùn)維的背景,難點(diǎn),優(yōu)勢(shì)及適用于運(yùn)維哪些領(lǐng)域?yàn)殚_端,過程中主要圍繞采用異常檢測(cè)的手段,從基礎(chǔ)到高級(jí)的過程,根因分析從大量的數(shù)據(jù)中尋找造成故障的根本原因?yàn)楹诵恼归_。
張晨表示,傳統(tǒng)異常檢測(cè)存在適配性差、不同的應(yīng)用和場(chǎng)景的閾值存在異同、大量個(gè)性化配置,人工基本不可維護(hù)等不足。面對(duì)這樣的情況,就要采用動(dòng)態(tài)閾值的異常檢測(cè)、引入機(jī)器學(xué)習(xí)來應(yīng)對(duì)。
在根因分析方面,常用技術(shù)方案存的不足主要體現(xiàn)在:基于的是網(wǎng)狀的業(yè)務(wù)拓?fù)鋱D降維后的數(shù)條鏈路,由于其具有不確定性;拓?fù)鋱D只能反映出模塊B調(diào)用了模塊C,模塊C調(diào)用了模塊D;在哪條鏈路中的調(diào)用,無法確定是否連續(xù)調(diào)用,可能會(huì)導(dǎo)致根源分析的錯(cuò)誤,造成誤報(bào);
針對(duì)這些不足,張晨分享了根因分析的改進(jìn)方式、根因警告的原理、步驟和一些相關(guān)的真實(shí)案例。
HSLT項(xiàng)目--機(jī)器人智能化運(yùn)維前身
第二位分享者是有十年IT生涯,兩年高級(jí)管理,八年研發(fā)管理經(jīng)驗(yàn)(云計(jì)算,平臺(tái),產(chǎn)品化),三年國(guó)家工程項(xiàng)目開發(fā)管理實(shí)施經(jīng)驗(yàn)的王強(qiáng)老師。他先后就職于中軟國(guó)際,IBM,青云等知名企業(yè),分享主題為HSLT項(xiàng)目--機(jī)器人智能化運(yùn)維前身。
王強(qiáng)·資深云計(jì)算專家
HSLT是IBM早期的一個(gè)Cloud項(xiàng)目,但是它的核心理念到現(xiàn)在依然領(lǐng)先,并且QingCloud青云借鑒其諸多設(shè)計(jì)原則,很多領(lǐng)域真正做到大規(guī)模線上復(fù)雜分布式系統(tǒng)故障無人干預(yù)自動(dòng)恢復(fù)與處理。
王強(qiáng)介紹,HSLT目標(biāo)是希望利用自動(dòng)化,機(jī)器人,人工智能的技術(shù)達(dá)到極少數(shù)人管理超大規(guī)模系統(tǒng)環(huán)境的目的,從***層的IAAS開始,到PAAS,SAAS層。集群規(guī)模大,產(chǎn)品和服務(wù)質(zhì)量?jī)?yōu)先,偏向產(chǎn)品化平臺(tái)化,行業(yè)監(jiān)控允許等是HSLT經(jīng)驗(yàn)適用范圍和界限。
后續(xù)演講圍繞HSLT設(shè)計(jì)原則展開,過程中提到 Design for failure,ASAP,Scalable everything,Dependence inversion,Devops,TDD。
王強(qiáng)的分享還涉及很多互聯(lián)網(wǎng)公司智能化運(yùn)維的實(shí)踐,如合理的架構(gòu)分層、單元化部署、業(yè)務(wù)連續(xù)性管理等。
數(shù)據(jù)驅(qū)動(dòng)的智能運(yùn)維平臺(tái)
***分享的是日志易產(chǎn)品總監(jiān)饒琛琳老師,他在運(yùn)維領(lǐng)域深耕近十載,在監(jiān)控、自動(dòng)化運(yùn)維、日志分析和智能運(yùn)維等領(lǐng)域均有較深的研究和大規(guī)模實(shí)踐經(jīng)驗(yàn),他分享的主題是數(shù)據(jù)驅(qū)動(dòng)的智能運(yùn)維平臺(tái)。
饒琛琳·日志易產(chǎn)品總監(jiān)
整個(gè)分享,從運(yùn)維需求的本質(zhì)出發(fā),推導(dǎo)AIOps的架構(gòu)設(shè)計(jì)和組成。過程中詳細(xì)介紹其中最重要的幾個(gè)場(chǎng)景:時(shí)序預(yù)測(cè),異常檢測(cè),模式概要的分析原理與實(shí)現(xiàn)方式,以及對(duì)應(yīng)的開源項(xiàng)目選擇。
饒老師表示,更靈活、更易用的訪問和分析數(shù)據(jù),能分析過去散落在各組件中未利用上的業(yè)務(wù)數(shù)據(jù)和上下文,快速的探索和實(shí)驗(yàn)平臺(tái)提供獨(dú)特的洞擦力,是AIOps的三大作用。
從『系統(tǒng)組成』看AIOps架構(gòu)可分為數(shù)據(jù)湖、自動(dòng)化系統(tǒng)、記錄系統(tǒng)、交互系統(tǒng)和監(jiān)控生態(tài)圈幾大模塊。
智能運(yùn)維的作用:異常檢測(cè)、歸因分析、智能警報(bào)、未來預(yù)測(cè)、能力分配、數(shù)據(jù)概要和主動(dòng)監(jiān)控。
智能運(yùn)維的路徑:異常檢測(cè) -> 主動(dòng)監(jiān)控;數(shù)據(jù)概要 -> 異常檢測(cè) -> 主動(dòng)監(jiān)控;未來預(yù)測(cè) -> 容量規(guī)劃 / 異常檢測(cè);根因分析 -> 智能警報(bào) -> 自動(dòng)化;
因大家熱情高漲,不斷地和三位老師就異常檢測(cè)、監(jiān)控報(bào)道、歸因分析等內(nèi)容進(jìn)行探討,不知不覺中,時(shí)間流走,本應(yīng)十七點(diǎn)結(jié)束的沙龍,最終近十八點(diǎn)***一波人才意猶未盡的離開。
透過這次交流,更加肯定的是實(shí)現(xiàn)運(yùn)維智能化是運(yùn)維工作未來的發(fā)展方向。但實(shí)現(xiàn)運(yùn)維工作的流程化、標(biāo)準(zhǔn)化、自動(dòng)化是實(shí)現(xiàn)運(yùn)維智能化的前提,企業(yè)可以合理規(guī)劃,前瞻性的布局。通過一段時(shí)間的積累和優(yōu)化,逐步對(duì)信息系統(tǒng)進(jìn)行改造,早日達(dá)到標(biāo)準(zhǔn)化、自動(dòng)化的模式,為最終的智能化建立良好的基礎(chǔ)。
51CTO于2016年開始舉辦主題為Tech Neo的技術(shù)沙龍,意指在于為IT技術(shù)人員提供一個(gè)高質(zhì)量的學(xué)習(xí)交流的線下平臺(tái),目前僅限北京地區(qū),周期為每月1次,每期圍繞一個(gè)話題進(jìn)行探討,涉及人工智能、大數(shù)據(jù)、云計(jì)算、區(qū)塊鏈、物聯(lián)網(wǎng)等多個(gè)技術(shù)領(lǐng)域。
更多AI內(nèi)容,請(qǐng)關(guān)注公眾號(hào):AI推手
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】