新炬網(wǎng)絡(luò)程永新:插上AI翅膀 運(yùn)維平臺煥發(fā)出嶄新生命力
原創(chuàng)【51CTO.com原創(chuàng)稿件】回顧運(yùn)維發(fā)展,可劃分為腳本、工具、平臺和智能化四大時(shí)代。之所以有這樣的演進(jìn)主要原因有二:其一是大小型機(jī),PC服務(wù)器,虛擬機(jī),容器等基礎(chǔ)設(shè)施的逐步增多;其二是分布式,微服務(wù)等軟件規(guī)模暴增,調(diào)用關(guān)系也越來越復(fù)雜。面對如此龐大、復(fù)雜、多變的諸多系統(tǒng),人力已經(jīng)無法維護(hù),開始探索新的方式:智能化運(yùn)維。
近日,??2018WOT全球軟件與運(yùn)維技術(shù)峰會??重量級嘉賓,擁有15年企業(yè)信息化管理經(jīng)驗(yàn)的大數(shù)據(jù)與運(yùn)維管理領(lǐng)域資深專家,新炬網(wǎng)絡(luò)董事/副總經(jīng)理程永新接受了51CTO的專訪。就運(yùn)維的演進(jìn),AIOps的概念、技術(shù)難點(diǎn)和應(yīng)用現(xiàn)狀,以及AIOps新一代智慧運(yùn)維平臺等內(nèi)容展開。
可視化呈現(xiàn)價(jià)值、自動(dòng)化解放效率、智能化驅(qū)動(dòng)能力
2004年前后,國內(nèi)開始大規(guī)模的進(jìn)行IT系統(tǒng)建設(shè)。初期,主要以IOE的大型設(shè)備為主,設(shè)備昂貴、數(shù)量少、規(guī)模小且放置在獨(dú)立的封閉機(jī)房里,運(yùn)維基本上是通過電腦顯示器上的SecureCRT命令行進(jìn)行操作。
隨著IT系統(tǒng)架構(gòu)從傳統(tǒng)的IOE集中式架構(gòu)向互聯(lián)網(wǎng)分布式架構(gòu)演進(jìn),IT設(shè)備從幾十臺變成成千上萬甚至幾十萬臺,沒有工具,運(yùn)維工作根本無從開展。因此,可視化、自動(dòng)化、智能化成為了運(yùn)維工具建設(shè)的三個(gè)方向和要求。
可視化。首先要把以前“隱藏”在顯示器背后的各種設(shè)備信息、性能指標(biāo)、日志信息抓取出來,使領(lǐng)導(dǎo)和運(yùn)維工程師都能直接在運(yùn)維大屏上清晰看出鏈路的中斷和指標(biāo)的異常,進(jìn)而快速決策處理。所以,可視化是運(yùn)維工作從黑屏到白屏的轉(zhuǎn)變,需要對各種運(yùn)維數(shù)據(jù)進(jìn)行統(tǒng)一采集、存儲并聚合展示。這個(gè)時(shí)期,新炬網(wǎng)絡(luò)的做法是通過縱向打通應(yīng)用層、平臺層和設(shè)備層,橫向接入全網(wǎng)IT設(shè)備,采集全網(wǎng)數(shù)據(jù),并在此基礎(chǔ)上結(jié)合具體的算法去做展現(xiàn),從而幫助運(yùn)維人員通過可視化呈現(xiàn)價(jià)值。
自動(dòng)化。更客觀來說是自助化,即幫助運(yùn)維人員解決海量設(shè)備運(yùn)維標(biāo)準(zhǔn)化操作的問題,把大量重復(fù)的勞動(dòng)、可預(yù)置解決方案的問題、可通過編排完成的應(yīng)用發(fā)布,通過程序設(shè)定觸發(fā)自動(dòng)完成,或在半人工干預(yù)的情況下完成,提高運(yùn)維效率的同時(shí)大幅降低人為誤操作率。如此看來,自動(dòng)化可以認(rèn)為是智能化的前奏。自動(dòng)化的主要目的,一是提升效率,二是安全可控,三是降低人員依賴。要做到這三點(diǎn)則必須明白:一切沒有固化到平臺的標(biāo)準(zhǔn)化過程都是無用功,一切沒有場景驅(qū)動(dòng)的運(yùn)維平臺建設(shè)都是假大空,集合真實(shí)的運(yùn)維場景與運(yùn)維平臺于一身的自動(dòng)化才能真正解放企業(yè)效率。
智能化。智能化的目標(biāo)是讓機(jī)器替代人腦,借助現(xiàn)代設(shè)備的計(jì)算能力、海量的運(yùn)維數(shù)據(jù)和不斷進(jìn)化的機(jī)器學(xué)習(xí)算法,進(jìn)行問題分析、故障預(yù)測和決策診斷,讓運(yùn)維人員無需實(shí)時(shí)關(guān)注運(yùn)維屏幕,進(jìn)一步提升故障處理效率,并在故障發(fā)生前自動(dòng)決策進(jìn)行系統(tǒng)重啟、業(yè)務(wù)限流、設(shè)備擴(kuò)容以減少故障發(fā)生概率。想要真正實(shí)現(xiàn)智能化,光有工具也是不夠的,還需要結(jié)合實(shí)際的運(yùn)維場景,優(yōu)化數(shù)據(jù)價(jià)值,以智能化驅(qū)動(dòng)運(yùn)維能力,最終實(shí)現(xiàn)從發(fā)現(xiàn)、決策分析到問題解決的閉環(huán)解決手段。
程永新用一句話總結(jié)運(yùn)維的這三大階段:可視化呈現(xiàn)價(jià)值、自動(dòng)化解放效率、智能化驅(qū)動(dòng)能力,最主要的目的都是提升運(yùn)維效率與質(zhì)量,解放運(yùn)維人力,讓運(yùn)維能從后端走向前端,更多地關(guān)注新技術(shù)如何驅(qū)動(dòng)企業(yè)業(yè)務(wù)增長。
AIOps—機(jī)器學(xué)習(xí)算法對IT運(yùn)維能力的變革升級
當(dāng)下,IT系統(tǒng)異常復(fù)雜且龐大,企業(yè)數(shù)據(jù)中心以兩年翻一番的速度增長。同時(shí)隨著企業(yè)業(yè)務(wù)的IT化程度越高,對IT支撐的要求也越高,核心業(yè)務(wù)甚至容不得1分鐘的中斷,這給運(yùn)維帶來巨大的壓力。所以運(yùn)維行業(yè)本身就一直在進(jìn)行變革和提升,從之前倡導(dǎo)的自動(dòng)化到現(xiàn)在的智能化。
近幾年,AI 技術(shù)在各個(gè)應(yīng)用領(lǐng)域的落地及實(shí)踐,IT 運(yùn)維也將迎來一個(gè)智能化運(yùn)維的新時(shí)代,AIOps 的概念由此應(yīng)運(yùn)而生。但AIOps不是Artificial Intelligence Operations,而是Algorithmic IT Operations,這其中強(qiáng)調(diào)的是機(jī)器學(xué)習(xí)算法對IT運(yùn)維能力的變革升級。
AIOps把人需要進(jìn)行的復(fù)雜判斷和數(shù)據(jù)分析交由算法和機(jī)器來完成,大大提升運(yùn)維的效率和質(zhì)量。如果說自動(dòng)化是解決運(yùn)維的體力勞動(dòng),AIOPS的出現(xiàn)則是進(jìn)一步利用數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等算法技術(shù)解決自動(dòng)化運(yùn)維自身沒辦法解決的運(yùn)維決策、故障預(yù)測、基于全量運(yùn)維數(shù)據(jù)的根源分析等問題,進(jìn)一步解放物理人的時(shí)間和體力,讓機(jī)器幫助機(jī)器進(jìn)行IT運(yùn)維。
據(jù)Gartner數(shù)據(jù)顯示,AIOPS提出兩年來企業(yè)的采用率約為10%,預(yù)計(jì)2019年會達(dá)到25%,2020年將達(dá)50%。目前應(yīng)用和研究得比較多的主要在四個(gè)方面:
一:數(shù)據(jù)的異常檢測和趨勢預(yù)測,即如何快速從海量指標(biāo)中發(fā)現(xiàn)異常變化和趨勢,比如新炬網(wǎng)絡(luò)AIOps智慧運(yùn)維平臺的服務(wù)器性能故障預(yù)測模塊就是為此研發(fā)的;
二:根因診斷,在系統(tǒng)出現(xiàn)異常時(shí),如何快速定位問題的根因點(diǎn),比如百度基于日志的智能故障定位系統(tǒng);
三:任務(wù)機(jī)器人,在微服務(wù)框架下模仿人去學(xué)習(xí)、理解和使用系統(tǒng)API,在API出現(xiàn)異常時(shí)能在無人為干預(yù)之下實(shí)施主動(dòng)行為;
四:基于運(yùn)維數(shù)據(jù)的決策分析,如容量分析。
程永新表示,AI雖然已經(jīng)在很多行業(yè)得到應(yīng)用,但仍屬于比較前沿的科技,需要巨大的投入。對于AIOPS來說,算法、數(shù)據(jù)和專業(yè)三者缺一不可,與大眾領(lǐng)域相比,運(yùn)維行業(yè)對AI人工智能的人才吸引力較弱,因此在這方面的專家相對薄弱,需要盡快構(gòu)建起自已的AI人才體系。
插上AI翅膀 運(yùn)維平臺煥發(fā)出嶄新生命力
新炬網(wǎng)絡(luò)作為國內(nèi)目前先進(jìn)的IT運(yùn)維服務(wù)廠商,始終堅(jiān)持以用戶滿意度作為服務(wù)標(biāo)準(zhǔn)。隨著IT系統(tǒng)架構(gòu)的升級變遷,運(yùn)維服務(wù)也一直進(jìn)行著演變,以確保用戶對于IT系統(tǒng)的管理體驗(yàn)。例如:
- 為了幫助客戶提升復(fù)雜架構(gòu)的管理能力,從提供單一的數(shù)據(jù)庫服務(wù),發(fā)展為綜合運(yùn)維服務(wù)商,為客戶提供IT整體運(yùn)維、架構(gòu)、規(guī)劃方面的服務(wù);
- 為了應(yīng)對大規(guī)模系統(tǒng)建設(shè)后的質(zhì)量問題,在業(yè)界提出完善的用戶體驗(yàn)及性能管理,包括端到端性能優(yōu)化、應(yīng)用質(zhì)量管控、數(shù)據(jù)資產(chǎn)管理等解決方案和服務(wù);
- 為了提升企業(yè)海量設(shè)備的管理能力給客戶提供“企業(yè)級產(chǎn)品+本地化服務(wù)”,涵蓋可視化、自動(dòng)化、智能化的運(yùn)維管理平臺;
- 為了幫助企業(yè)管理越來越大規(guī)模的業(yè)務(wù)數(shù)據(jù),提升數(shù)據(jù)價(jià)值,提出數(shù)據(jù)資產(chǎn)管理“五星模型”,提供整套的大數(shù)據(jù)及數(shù)據(jù)資產(chǎn)管理解決方案。
程永新介紹,新炬網(wǎng)絡(luò)在幾年前就成立運(yùn)維產(chǎn)品部,構(gòu)建基于AIOps的新一代智慧運(yùn)維平臺,經(jīng)過這么多年,不同的行業(yè)客戶應(yīng)用的大規(guī)模迭代更新。這個(gè)平臺在中國移動(dòng)某省公司落地 ,管理近2萬臺設(shè)備、幾百個(gè)業(yè)務(wù)系統(tǒng),提供監(jiān)控告警、自動(dòng)化運(yùn)維、配置管理、調(diào)度管理、決策管理等能力,充分體現(xiàn)了插上AI翅膀后運(yùn)維平臺煥發(fā)出的嶄新生命力,在趨勢分析、智能診斷、故障自愈、決策分析等方面均得到有效發(fā)揮。
AIOps的新一代智慧運(yùn)維平臺最具飛躍性的迭代是于2016年完成大數(shù)據(jù)日志分析平臺IVORY的發(fā)布,主要解決基于運(yùn)維大數(shù)據(jù)的分析預(yù)測問題,通過對海量日志數(shù)據(jù)和運(yùn)維數(shù)據(jù)的智能分析,提供運(yùn)維決策、智能診斷、根因分析等能力,把運(yùn)維從傳統(tǒng)的被動(dòng)響應(yīng)向智能分析和預(yù)測提升了一個(gè)能力檔次。
IVORY應(yīng)用了先進(jìn)的大數(shù)據(jù)技術(shù)與架構(gòu)、非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)、異常檢測、機(jī)器學(xué)習(xí)等相關(guān)技術(shù)手段,這也是新炬網(wǎng)絡(luò)對AIOPS理念的落地實(shí)踐。
采訪最后,程永新表示,新炬網(wǎng)絡(luò)這些年一直致力于給客戶提供出色的IT運(yùn)維管理服務(wù),通過對服務(wù)模式、產(chǎn)品能力、人才制度上的創(chuàng)新,提供出色的用戶體驗(yàn)。
未來新炬網(wǎng)絡(luò)的重點(diǎn)布局主要在兩個(gè)方面:
一:通過以“企業(yè)級產(chǎn)品+本地化服務(wù)”的雙輪驅(qū)動(dòng)方式,不斷提升服務(wù)效率與用戶滿意度;
二:將在電信、金融等大型客戶中積累的成熟、先進(jìn)的運(yùn)維管理經(jīng)驗(yàn),服務(wù)于更多的客戶,希望基于十多年對運(yùn)維的深入理解和實(shí)踐經(jīng)驗(yàn),打造業(yè)內(nèi)出色的智能運(yùn)維產(chǎn)品,讓國產(chǎn)軟件具備更大的競爭力。
【本月排行TOP5】
- ??張真:AIOps六大技術(shù)難點(diǎn)與宜信運(yùn)維的重大變革
?? - ??新炬網(wǎng)絡(luò)程永新:插上AI翅膀 運(yùn)維平臺煥發(fā)出嶄新生命力??
- ??從SIEM&AI到SIEM@AI AI構(gòu)建下一代企業(yè)安全大腦??
- ??基于線性網(wǎng)絡(luò)的語音合成說話人自適應(yīng)??
- ??轉(zhuǎn)轉(zhuǎn)公司架構(gòu)算法部孫玄:AI下的微服務(wù)架構(gòu)??
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請注明原文作者和出處為51CTO.com】