微軟亞洲研究院智能運(yùn)維:云服務(wù)的智能原動力
原創(chuàng)疫情已經(jīng)改變了人們生產(chǎn)、生活的方式。協(xié)同合作、遠(yuǎn)程辦公、在線教育等場景成為了常態(tài),而這些場景也對基礎(chǔ)設(shè)施提出了更高的要求。
Gartner 研究副總裁 Sid Nag 認(rèn)為,云已經(jīng)成為主流策略:“下一代的產(chǎn)品方案,幾乎都是搭建于云平臺上的。”但隨著越來越多的用戶上云,系統(tǒng)的管理正面臨著前所未有的挑戰(zhàn)。海量用戶、大規(guī)模集群、復(fù)雜的系統(tǒng)架構(gòu)使傳統(tǒng)的運(yùn)維方式力不從心。如何實(shí)時(shí)檢測異常、快速響應(yīng)故障、預(yù)測故障、合理規(guī)劃容量等問題已成為重要課題。此時(shí),智能運(yùn)維AIOps閃亮登場。
AIOps在多方面都直擊傳統(tǒng)運(yùn)維的痛點(diǎn)。AI算法承擔(dān)起分析海量運(yùn)維數(shù)據(jù)的重任,能夠自動、準(zhǔn)確地發(fā)現(xiàn)和定位問題,從決策層面提高運(yùn)營效率,為企業(yè)運(yùn)營和運(yùn)維工作在成本、質(zhì)量和效率方面的優(yōu)化提供了重要支持。根據(jù)Gartner的戰(zhàn)略規(guī)劃假設(shè),到2023年,將有40%的DevOps團(tuán)隊(duì)將通過用于IT運(yùn)營(AIOps)平臺的AI增強(qiáng)應(yīng)用程序和基礎(chǔ)架構(gòu)監(jiān)視工具。
在炙手可熱的人工智能領(lǐng)域,數(shù)據(jù)驅(qū)動、AI 賦能的微軟云始終以理性而樂觀的姿態(tài)立足于全球云服務(wù)市場。數(shù)據(jù)為微軟云的管理提供了新的維度——數(shù)據(jù)智能。微軟亞洲研究院常務(wù)副院長,微軟杰出首席科學(xué)家張冬梅表示,微軟主要從三個方面來定義AIOps: AI for System、AI for Customer、AI for DevOps。AIOps在這些應(yīng)用場景中面臨著諸多挑戰(zhàn)。
AIOps的應(yīng)用:精準(zhǔn)預(yù)測、高效解決、更好服務(wù)
AI for System要求開發(fā)者能從運(yùn)行的系統(tǒng)角度看問題,比如系統(tǒng)異常檢測不僅僅是找到問題,最好還可以提前預(yù)警。以硬盤故障預(yù)測為例,開發(fā)者可以通過分析已經(jīng)發(fā)生改變的數(shù)據(jù)或狀態(tài),來預(yù)測磁盤是否有故障,系統(tǒng)在學(xué)習(xí)了大量硬盤的歷史數(shù)據(jù)后,對照目前磁盤的狀態(tài),預(yù)測將來是否可以及時(shí)采取措施。此外,除了發(fā)生故障的硬盤,還需要考慮其鄰近磁盤的情況。
微軟亞洲研究院首席研究員林慶維介紹說,微軟亞洲研究院研發(fā)了鄰域-時(shí)間注意力模型(NTAM)。該模型包含了鄰域感知組件、時(shí)間組件、決策組件,在時(shí)間和空間上都能夠捕捉更多的信息。林慶維表示,通過與過去 10 年、20 年最前沿的期刊或者會議上的論文方法對比,該模型從精確度和召回率方面都有很好的效果,預(yù)測能力很強(qiáng)。
AI for DevOps主要針對的是開發(fā)和運(yùn)維人員的生產(chǎn)效率。在出現(xiàn)問題時(shí),解決問題并不僅僅是快速恢復(fù)正常,而是如何通過大量的檢測、診斷,來更快、更高效地解決問題本身。相關(guān)部署通常從非常小的規(guī)模開始,逐步擴(kuò)大規(guī)模,在確認(rèn)每一步都安全后才能部署到云平臺。整個部署過程中需要檢測所有的健康信號,包括資質(zhì)、傳感器信號、狀態(tài)等。當(dāng)任何一方面出現(xiàn)問題時(shí),開發(fā)人員首先會檢查是不是某個部署問題導(dǎo)致,同時(shí)根據(jù)部署做關(guān)聯(lián)性排查。
針對AI for DevOps方面的安全部署診斷問題,微軟亞洲研究院提出了主動遷移學(xué)習(xí)異常檢測(ATAD)方案。該方案通過遷移學(xué)習(xí)把從別的數(shù)據(jù)上學(xué)到的知識轉(zhuǎn)化為目標(biāo)領(lǐng)域,同時(shí)通過主動學(xué)習(xí)讓工程師排出優(yōu)先級,得到更好的學(xué)習(xí)效果。目前該方案已經(jīng)用到了微軟云平臺中。“這個方案通常很難獲得高質(zhì)量的標(biāo)簽數(shù)據(jù),所以需要工程師有非常強(qiáng)的見解才能作出判別?!?林慶維表示。
AI for Customer則要打造更好的用戶體驗(yàn),為客戶提供更好的服務(wù)。
林慶維以智能虛擬機(jī)預(yù)配置為例,介紹了微軟亞洲研究院在AI for Customer方面所做的部分研究工作。云平臺申請?zhí)摂M機(jī)需要時(shí)間,解決這個問題的方案之一就是預(yù)先裝好軟件和系統(tǒng)的配置,當(dāng)用戶有需求時(shí)可以直接用。但虛擬機(jī)池的容量有限,每種類似的機(jī)型不可能配置很多,所以需要預(yù)測用戶會配置什么類型的虛擬機(jī),以實(shí)現(xiàn)最優(yōu)配置。微軟亞洲研究院對此提出全新方法框架,將不確定性感知框架用于預(yù)測與優(yōu)化。結(jié)果表明,該方法實(shí)現(xiàn)了相較于其他算法更優(yōu)的表現(xiàn)。
伴隨著微軟亞洲研究院數(shù)據(jù)、知識、智能組與微軟云產(chǎn)品團(tuán)隊(duì)的深度合作,一系列創(chuàng)新技術(shù)已經(jīng)在云系統(tǒng)的故障預(yù)測、異常檢測、智能診斷、容量規(guī)劃、事故管理等諸多實(shí)際應(yīng)用場景中落地,相關(guān)研究成果也在 ICSE、OSDI、USENIX ATC、WWW、AAAI、KDD 等高影響力會議中發(fā)表, 極大地提升了服務(wù)質(zhì)量、用戶體驗(yàn)和工業(yè)生產(chǎn)力。
AIOps的未來:自主化、主動化、通用化
談到未來AIOps的研究方向,林慶維表示,首先是更加自動化、自主化。目前AIOps的方向更多的是給用戶提供一定的建議和推薦,但是微軟亞洲研究院希望在未來,AIOps能夠更加自主化,可以自動做決策,幫助用戶做出最優(yōu)的決策,而不需要人工的干預(yù);二是更加主動化,不能等到問題出現(xiàn)了才想起來解決問題,而是把問題遏止在萌芽的狀態(tài);三是會更加通用化,跨平臺的AIOps應(yīng)用不僅服務(wù)于云平臺,而是服務(wù)于所有平臺。